CN115562296A

CN115562296A - 一种基于混合控制策略的机器人调度方法、系统及装置

Info

Publication number: CN115562296A
Application number: CN202211318282.0A
Authority: CN
Inventors: 李金澎; 苏志远; 仇乙愉; 汪朝林
Original assignee: Bao Kai Shanghai Intelligent Logistics Technology Co ltd
Current assignee: Bao Kai Shanghai Intelligent Logistics Technology Co ltd
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2023-01-03
Anticipated expiration: 2042-10-26
Also published as: CN115562296B

Abstract

本发明提供一种基于混合控制策略的机器人调度方法、系统及装置，所述方法的步骤包括：计算起点位置和目标位置的曼哈顿距离，作为预估距离；基于机器人当前的行驶距离和预估距离计算比值参数；若比值参数小于或等于第一参数，则执行第一策略，在执行第一策略的步骤中，基于障碍物构建的第一图像，基于临近机器人的位置构建第二图像，基于与目标位置的相对位置构建第三图像，将第一图像、第二图像和第三图像输入到预设的神经网络模型中，通过神经网络模型的多层感知机输出下一时刻所执行的动作；若比值参数大于第一参数且小于第二参数，则执行第二策略，得到第一路径；若比值参数大于第二参数，则执行第三策略，得到第二路径。

Description

一种基于混合控制策略的机器人调度方法、系统及装置

技术领域

本发明涉及机器人策略调度技术领域，尤其涉及一种基于混合控制策略的机器人调度方法、系统及装置。

背景技术

仓储机器人的调度算法通常分为集中式和分布式两种。集中式算法最大的特点是采用了主从结构，也就是在该种方法下有且只有一个控制中心。该中心在调度前需要事先获取所有机器人当前位置、目标终点和全局障碍物的位置信息，之后由服务器统一计算出规划路径后再将指令下发给各机器人，进而实施统一调度。目前集中式算法多采用基于冲突的搜索算法(Conflict Based Search,CBS)，CBS由两层搜索过程组成，其底层为每个机器人搜索出一条有效路径，之后交由上层搜索负责检查路径冲突，如有冲突，选择其中代价最小的分支重新进行底层路径搜索，直到上层搜索发现有效的无碰撞路径为止。集中式调度方法可以有效减少机器人在运行中发生碰撞的概率，但随着机器人的数量不断增加，集中式算法的求解时间也将大大增加，从而带来运行成本的提升。

分布式算法的主要特征是路径方案不再由控制中心计算得到，每一个机器人都具有自主规划路径和避障的能力，它们可以通过传感器和处理器感知周边环境信息，实时做出自身的运动控制。例如，PRIMAL(Pathfinding via Reinforcement and ImitationMulti-Agent Learning)就是一种常用的分布式算法，其优点是算力要求较小、不再需要中心控制机构。但在运行过程中算法较为单一，容易发生死锁问题，不能保证机器人到达目的地。

发明内容

鉴于此，本发明的实施例提供了一种基于混合控制策略的机器人调度方法，以消除或改善现有技术中存在的一个或更多个缺陷。

本发明的一个方面提供了一种基于混合控制策略的机器人调度方法，所述方法的步骤包括：

基于机器人运行的起点位置和目标位置计算曼哈顿距离，将计算出的曼哈顿距离作为预估距离；

确定采集机器人当前的行驶距离，基于行驶距离和预估距离计算比值参数，将所述比值参数分别与预设的第一参数和第二参数进行比较；

若比值参数小于或等于第一参数，则执行第一策略，在执行第一策略的步骤中，基于机器人当前场景中的障碍物构建的第一图像，基于机器人当前所捕捉到的临近机器人的位置构建第二图像，基于机器人的当前位置与目标位置的相对位置构建第三图像，将第一图像、第二图像和第三图像输入到预设的神经网络模型中，通过神经网络模型的多层感知机输出下一时刻所执行的动作；

若比值参数大于第一参数且小于第二参数，则执行第二策略，在执行第二策略的步骤中，基于A-Star算法计算机器人由当前位置到目标位置的第一路径，执行第一路径；

若比值参数大于第二参数，则执行第三策略，在执行第三策略的步骤中，基于机器人的当前位置和目标位置采用冲突搜索算法构建第二路径，并执行第二路径。

采用上述方案，本方案包含三种策略，当机器人获取到任务后，会评估从起点到终点的行驶距离，起初，机器人会执行基于神经网络模型的调度策略；若比值参数大于第一参数且小于第二参数，执行第二策略；若比值参数大于第二参数，则执行第三策略，此时大概率已经发生了死锁现象，因此，需要多机器人之间进行协同避让，综上，本方案会根据机器人的当前状态执行不同的路径规划策略，解决机器人之间的死锁问题。

在本发明的一些实施方式中，所述基于机器人运行的起点位置和目标位置计算曼哈顿距离的步骤还包括：

机器人所在场景的基础图像，所述基础图像中包括多个像素点；

在所述基础图像中标记所述起点位置和目标位置，基于起点位置所在像素点和目标位置所在像素点计算曼哈顿距离。

在本发明的一些实施方式中，在执行第一策略的步骤中，所述基于机器人当前场景中的障碍物构建的第一图像的步骤包括，在机器人所在场景的基础图像中标记障碍物所在的像素点，将该像素点的像素值修改为第一像素值，得到第一图像；

所述基于机器人当前所捕捉到的临近机器人的位置构建第二图像的步骤包括，在机器人所在场景的基础图像中标记机器人当前所感知到的临近机器人所在位置的像素点，将该像素点的像素值修改为第二像素值，得到第二图像。

在本发明的一些实施方式中，所述基于机器人的当前位置与目标位置的相对位置构建第三图像的步骤包括，标记机器人当前在基础图像中的位置对应的像素点，将该像素点的像素值修改为第三像素值；

基于机器人当前在基础图像中的位置和预设的感知范围确定机器人在基础图像中的感知空间；

若目标位置处于所述感知空间范围内，则将目标位置在基础图像中对应像素点的像素值修改为第三像素值，得到第三图像；

若目标位置未处于所述感知空间范围内，则建立机器人当前在基础图像中的位置与所述目标位置的连线，将该连线中机器人当前在基础图像中的位置作为固定端另一端沿直线延伸，将延伸至基础图像边缘处的像素点的像素值修改为第三像素值，得到第三图像。

在本发明的一些实施方式中，执行所述第一策略的步骤还包括邻近机器人判断，所述邻近机器人判断的步骤包括：

获取机器人当前所捕捉到的临近机器人的路径参数集，所述路径参数集为每个临近机器人由起点位置行驶至当前位置的过程中在基础图像中经过的坐标点的集合；

将多个所述临近机器人的路径参数集中的坐标点共同构建为初始矩阵，将所述初始矩阵输入到预设的神经网络模型中。

在本发明的一些实施方式中，所述预设的神经网络模型包括第一端、第二端和汇合端，所述第一图像、第二图像和第三图像输入到预设的神经网络模型的第一端，由第一端输出第一矩阵；所述初始矩阵输入到预设的神经网络模型中的第二端，由第二端输出第二矩阵；将第一矩阵和第二矩阵进行拼接输入到汇合端，由汇合端输出下一时刻所执行的动作。

在本发明的一些实施方式中，所述预设的神经网络模型仅包括第一端和汇合端，若预设的神经网络模型仅包括第一端和汇合端，则由第一端输出第一矩阵，将所述第一矩阵输入到汇合端，由汇合端输出下一时刻所执行的动作。

在本发明的一些实施方式中，所述第一端的结构为顺序连接的卷积层、最大池化层、卷积层、卷积层、最大池化层、卷积层、卷积层和最大池化层；所述第二端的结构为顺序连接的全连接层、偏置层、全连接层、偏置层、全连接层和偏置层；所述汇合端的结构为顺序连接的多层感知机、图神经网络层和多层感知机，所述多层感知机包括全连接层。

在本发明的一些实施方式中，所述基于机器人的当前位置和目标位置采用冲突搜索算法构建第二路径的步骤包括：

基于A-Star算法计算当前场景中每个机器人由每个机器人的当前位置到每个机器人的目标位置的第一路径，所述第一路径中包括预先规划出的机器人在未来每个时间点的位置；

通过冲突搜索算法确定其他机器人的第一路径与本机器人的第一路径的重合点，令其他机器人在重合点的前一时间点停止一个单位时间，得到第二路径。

所述第二路径为包括令其他机器人在重合点的前一时间点停止一个单位时间的指令的第一路径。

本发明还提供一种基于混合控制策略的机器人调度系统，所述系统包括：

距离预估模块，用于基于机器人运行的起点位置和目标位置计算曼哈顿距离，将计算出的曼哈顿距离作为预估距离；

策略分配模块，确定采集机器人当前的行驶距离，用于基于行驶距离和预估距离计算比值参数，将所述比值参数分别与预设的第一参数和第二参数进行比较；

第一规划模块，若比值参数小于或等于第一参数，则执行第一策略，在执行第一策略的过程中，基于机器人当前场景中的障碍物构建的第一图像，基于机器人当前所捕捉到的临近机器人的位置构建第二图像，基于机器人的当前位置与目标位置的相对位置构建第三图像，将第一图像、第二图像和第三图像输入到预设的神经网络模型中，通过神经网络模型的多层感知机输出下一时刻所执行的动作；

第二规划模块，若比值参数大于第一参数且小于第二参数，则执行第二策略，在执行第二策略的过程中，基于A-Star算法计算机器人由当前位置到目标位置的第一路径，执行第一路径；

第三规划模块，若比值参数大于第二参数，则执行第三策略，在执行第三策略的过程中，基于机器人的当前位置和目标位置采用冲突搜索算法构建第二路径，并执行第二路径。

本发明还提供一种基于混合控制策略的机器人调度装置，该装置包括计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该装置实现如前所述方法所实现的步骤。

本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出并获得。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。

图1为本发明基于混合控制策略的机器人调度方法一种实施方式的示意图；

图2为第一图像的示意图；

图3为第二图像的示意图；

图4为第三图像的示意图；

图5为预设的神经网络模型的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在此，还需要说明的是，如果没有特殊说明，术语“连接”在本文不仅可以指直接连接，也可以表示存在中间物的间接连接。

为解决以上问题，如图1所示，本发明提出一种基于混合控制策略的机器人调度方法，所述方法的步骤包括：

步骤S100，基于机器人运行的起点位置和目标位置计算曼哈顿距离，将计算出的曼哈顿距离作为预估距离；

在本发明的一些实施方式中，基于当前场景的俯视图构建二维图像，在所述二维图像中标记起点位置所在的像素点和目标位置所在的像素点，基于起点位置所在的像素点和目标位置所在的像素点计算曼哈顿距离。

步骤S200，确定采集机器人当前的行驶距离，基于行驶距离和预估距离计算比值参数，将所述比值参数分别与预设的第一参数和第二参数进行比较；

在本发明的一些实施方式中，在确定采集机器人当前的行驶距离的步骤中，机器人实时记录自身当前行走的行驶距离，所述行驶距离为机器人在基于当前场景的俯视图构建的二维图像中经过的像素点的个数。

在本发明的一些实施方式中，在基于行驶距离和预估距离计算比值参数的步骤中，基于如下公式计算比值参数：

比值参数＝行驶距离/预估距离。

步骤S310，若比值参数小于或等于第一参数，则执行第一策略，在执行第一策略的步骤中，基于机器人当前场景中的障碍物构建的第一图像，基于机器人当前所捕捉到的临近机器人的位置构建第二图像，基于机器人的当前位置与目标位置的相对位置构建第三图像，将第一图像、第二图像和第三图像输入到预设的神经网络模型中，通过神经网络模型的多层感知机输出下一时刻所执行的动作；

在本发明的一些实施方式中，所述动作包括前进、后退、左转行驶、右转行驶和等待，所述多层感知机输出的为对应各个动作的参数，所述下一时刻所执行的动作为多个参数中最大参数对应的动作。

在具体实施过程中，在第一策略的执行过程中，每经过一个时间点均计算下一时间点机器人所要执行的动作。

步骤S320，若比值参数大于第一参数且小于第二参数，则执行第二策略，在执行第二策略的步骤中，基于A-Star算法计算机器人由当前位置到目标位置的第一路径，执行第一路径；

在具体实施过程中，所述第一参数可以为1.5，第二参数可以为2。

在具体实施过程中，起初，机器人会执行基于图神经网络的调度策略；如果从起点出发后的行驶距离大于1.5倍的预估距离时，会执行第二种策略—基于A*算法的调度策略；当行驶距离大于2倍的预估距离时，此时大概率已经发生了死锁现象，需要多机器人之间进行协同避让，所以此时执行基于CBS(conflict based search，基于冲突的搜索算法的调度策略)。

在本发明的一些实施方式中，A-Star算法是比较流行的启发式搜索算法之一，被广泛应用于路径优化领域。A-Star算法能够检查最短路径中每个可能的节点时引入了全局信息，对当前节点距终点的距离做出估计，并作为评价该节点处于最短路线上的可能性的量度。

采用上述方案，第二策略会将其他运行中的机器人视为不可移动的障碍物，因此在执行过程中有可能规划路线上会碰到正在工作的其他机器人。由于各机器人上装有激光测距传感器，如果该机器人与其他运动中的机器人间距小于半个机器人身位时，机器人将会紧急制动。此时，机器人将会重新收集全局信息，并再次进行全局路径规划。若当前时刻不存在可行解，那么机器人将会随机等待一段时间后再次获取信息并在此尝试规划路径。

步骤S330，若比值参数大于第二参数，则执行第三策略，在执行第三策略的步骤中，基于机器人的当前位置和目标位置采用冲突搜索算法构建第二路径，并执行第二路径。

在本发明的一些实施方式中，所述A-Star算法已经考虑到障碍物的影响，因此若出现比值参数大于第二参数的情况，则认定其他机器人对本机器人的行进造成了影响，因此，本方案采用冲突搜索算法构建第二路径，避免其他机器人的影响。

本方案具有三层混合策略的机器人调度，可以解决常见的分布式算法中出现的路径徘徊、无限等待等死锁问题，从而确保所有机器人均可在指定时间内到达目的地。其中混合策略的第一阶段与第二阶段采用的分布式规划方法，各机器人可以独立自主做出决策。第三阶段需要多机器人之间协同合作，以解决已经发生的死锁问题。

在本发明的一些实施方式中，所述基础图像为基于当前场景的俯视图构建的二维图像。

如图2所示，在本发明的一些实施方式中，在执行第一策略的步骤中，所述基于机器人当前场景中的障碍物构建的第一图像的步骤包括，在机器人所在场景的基础图像中标记障碍物所在的像素点，将该像素点的像素值修改为第一像素值，得到第一图像；

如图3所示，所述基于机器人当前所捕捉到的临近机器人的位置构建第二图像的步骤包括，在机器人所在场景的基础图像中标记机器人当前所感知到的临近机器人所在位置的像素点，将该像素点的像素值修改为第二像素值，得到第二图像。

在本发明的一些实施方式中，所述第一图像和第二图像均在基础图像的基础上构建，基础图像中每个像素点的像素值均为初始像素值，将障碍物所在的像素点的初始像素值修改为第一像素值，得到第一图像；将机器人当前所感知到的临近机器人所在位置的像素点的初始像素值修改为第二像素值，得到第二图像。

在具体实施过程中，第一策略策略所使用的算法是一种分布式路径规划算法，每个机器人将会根据周边环境独立做出动作抉择，而无需控制中心进行任何干涉。为确保能够做出合理决策，在每一个动作指令执行完成后，机器人将主动收集环境信息并根据神经网络的特征数据生成下一步的动作指令。

需要收集的环境信息主要包含感知范围内的障碍物信息、其他机器人历史路径和决策信息。每个机器人上装有传感器，能够感知周围一定区间范围内的环境情况。由于环境地图采用二维栅格的形式进行建模，所以本发明设定每个机器人的感知范围呈现正方形。如果视野大小设定为7，且当前机器人所处位置坐标是(13,12)，那么则表示该机器人有能力感知x坐标位于[10,17]区间且y坐标位于[9,15]区间内的环境信息。

为了将环境信息输入到神经网络中，需要根据不同类型的信息生成三张图像，为充分利用计算机运算效率，本发明将图片数据简化为二进制图像。每张基础图像的大小设定为(感知范围大小+2)×(感知范围大小+2)，其中最外层图像用于表示终点向量数据，

以第一图像为例，根据视野内所有障碍物的位置生成如图2左侧所示的图像，并将其处理成如图2右侧所示的二进制图片后，再交给神经网络进行处理。同理，第二图像主要反应视野内其他机器人的位置关系，假设当前机器人的坐标是(13,12)，且在感知范围内的其他机器人分别位于(10,9)、(10,13)、(13,9)和(14,15)，那么最终构造的图像信息。

采用上述方案，所述第一图像反映了机器人在场景中的固定障碍物的情况，将固定障碍物的情况输入到模型中，便于机器人进行避障；所述第二图像反映了在当前时间点临近机器人的位置，将其他机器人的位置输入到模型中，便于对临近机器人进行避障。

如图4所示，在本发明的一些实施方式中，所述基于机器人的当前位置与目标位置的相对位置构建第三图像的步骤包括，标记机器人当前在基础图像中的位置对应的像素点，将该像素点的像素值修改为第三像素值；

在本发明的一些实施方式中，所述机器人的感知范围可以为长宽分别为6*6、7*7或8*8等的矩形范围，所述机器人的感知空间可以为以机器人当前位置为重心点长宽分别为6*6、7*7或8*8等的矩形在二维图像中所形成的范围，所述二维图像可以为基础图像。

在本发明的一些实施方式中，第三图像反应当前机器人的终点方位，如果终点位于当前感知范围内，那么其位置将会正常显示在图像中。若终点位于感知范围外，则将终点所处的位置进行投影计算，使之呈现在最外层的网格上。如图4所示，当终点位于视野的右上方时，连接当前机器人和终点位置构造一条直线，然后将其投影到最外层的网格上。

在本发明的一些实施方式中，所述第一像素值、第二像素值和第三像素值可以为相同的数值也可以为不同的数值。

采用上述方案，所述第三图像基于机器人当前在基础图像中的位置与所述目标位置，若目标位置处于所述感知空间范围内，则机器人能够精准感知到目标位置，将目标位置在基础图像中对应像素点的像素值修改为第三像素值，提高机器人的行进精准度；若目标位置未处于所述感知空间范围内，则机器人无法精准定位目标位置，建立机器人当前在基础图像中的位置与所述目标位置的连线确认机器人的行进方向，当目标位置进入感知空间再精准定位提高处理效率。

在本发明的一些实施方式中，当前时刻是t，则需要获取t,t-1,…,t-s+1时刻的历史路径信息。当获取邻近机器人的历史路径信息时，最多不能获取超过n个机器人的数据。若感知空间内有大于n个机器人时，仅采集与自身相隔最近的n个机器人的数据信息；若感知空间内机器人的数量不足n时，则用预设的特征值进行填充，以保证向量数据的尺寸不发生变化。

预设的特征值可以为-1。

采用上述方案，将多个所述临近机器人的路径参数集中的坐标点共同构建为初始矩阵，将所述初始矩阵输入到预设的神经网络模型中，神经网络模型可以根据历史的路径进行分析，避免本机器人在未来的行进过程中与其他邻近机器人的碰撞。

如图5所示，在本发明的一些实施方式中，所述第一端的结构为顺序连接的卷积层(Con2d)、最大池化层(MaxPool2d)、卷积层(Con2d)、卷积层(Con2d)、最大池化层(MaxPool2d)、卷积层(Con2d)、卷积层(Con2d)和最大池化层(MaxPool2d)；所述第二端的结构为顺序连接的全连接层(Linear)、偏置层(ReLU)、全连接层(Linear)、偏置层(ReLU)、全连接层(Linear)和偏置层(ReLU)；所述汇合端的结构为顺序连接的多层感知机(MLP)、图神经网络层(GNN)和多层感知机(MLP)，所述多层感知机包括全连接层。

所述卷积层为二维卷积层(Con2d)。

在具体实施过程中，执行第三策略时，意味着机器人之间可能已经发生了死锁现象，此时需要各机器人之间协同合作，甚至需要已经到达终点的机器人在短时间内暂时离开所处位置，待死锁解除后再重新回到终点。

当某一机器人首次开始执行该策略时，其计算流程如下算法1所示。为了寻找出引发死锁现象的其他机器人，该机器人会利用全局障碍物信息进行A-Star算法以计算出潜在可行路径。若潜在路线上存在其他机器人时，把路线上的机器人ID编号加入到待检测集合中。之后机器人再结合待检测集合、全局障碍物信息和其他正在运动的机器人信息使用CBS算法计算出所有机器人彼此之间无碰撞的路径。如果此时不能求出有效解决方案，则意味着存在待检测集合中某一个机器人的有效路径被其他机器人遮挡的情况，故此时需要再次对待检测集合进行扩展，以完成路径规划。

在具体实施过程中，每个机器人在混合策略调度方法下的策略执行优先级顺序如下算法2所示。首先，机器人将判断自己是否已经被其他机器人指定路径。如果是，则意味着其他机器人存在长时间死锁现象，为防止任务出现长期拖延，必须优先解决死锁问题，因此在接下来的一段时间内该机器人必须按照事先指定的路径指定相应的动作指令。

本发明的有益效果包括：

1、为解决调度中可能发生的死锁问题，本发明针对路径规划问题设计了一种混合策略调度方法，该方法会根据机器人的当前状态执行不同的路径规划策略，可以解决机器人之间的死锁问题，在策略的第一阶段和第二阶段，各机器人独立自主根据实时环境做出动作调整。当机器人之间发生死锁现象后，在策略的第三阶段，由首先进入死锁的机器人发起协同合作请求，让其他已经到达终点或者拥堵在主要路口的机器人暂时离开当前位置，待死锁解除后再重新归位；

2、如果机器人由于各种意外原因偏离预定路线，那么它将会按照自身原有策略重新进行路径规划。其中，在执行前两阶段策略时只会收集环境信息，而不会向其他机器人发送协同合作请求。在执行第三阶段策略时，发生死锁的机器人将会为其他机器人规划预定路线，并向其发送协同请求，以帮助解决死锁问题；

3、本方案由于采取了根据机器人状态执行不同的策略，达到了所有机器人均可在指定时间内到达指定位置，避免了常见的分布式方法中无限等待、路径徘徊和死锁等问题，适合于现实生活中工业界的应用。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现前述基于混合控制策略的机器人调度方法所实现的步骤。该计算机可读存储介质可以是有形存储介质，诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，做出各种改变、修改和添加，或者改变步骤之间的顺序。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于混合控制策略的机器人调度方法，其特征在于，所述方法的步骤包括：

2.根据权利要求1所述的基于混合控制策略的机器人调度方法，其特征在于，所述基于机器人运行的起点位置和目标位置计算曼哈顿距离的步骤还包括：

3.根据权利要求1所述的基于混合控制策略的机器人调度方法，其特征在于，在执行第一策略的步骤中，所述基于机器人当前场景中的障碍物构建的第一图像的步骤包括，在机器人所在场景的基础图像中标记障碍物所在的像素点，将该像素点的像素值修改为第一像素值，得到第一图像；

4.根据权利要求1所述的基于混合控制策略的机器人调度方法，其特征在于，所述基于机器人的当前位置与目标位置的相对位置构建第三图像的步骤包括，标记机器人当前在基础图像中的位置对应的像素点，将该像素点的像素值修改为第三像素值；

5.根据权利要求1所述的基于混合控制策略的机器人调度方法，其特征在于，执行所述第一策略的步骤还包括邻近机器人判断，所述邻近机器人判断的步骤包括：

6.根据权利要求5所述的基于混合控制策略的机器人调度方法，其特征在于，所述预设的神经网络模型包括第一端、第二端和汇合端，所述第一图像、第二图像和第三图像输入到预设的神经网络模型的第一端，由第一端输出第一矩阵；所述初始矩阵输入到预设的神经网络模型中的第二端，由第二端输出第二矩阵；将第一矩阵和第二矩阵进行拼接输入到汇合端，由汇合端输出下一时刻所执行的动作。

7.根据权利要求6所述的基于混合控制策略的机器人调度方法，其特征在于，所述第一端的结构为顺序连接的卷积层、最大池化层、卷积层、卷积层、最大池化层、卷积层、卷积层和最大池化层；所述第二端的结构为顺序连接的全连接层、偏置层、全连接层、偏置层、全连接层和偏置层；所述汇合端的结构为顺序连接的多层感知机、图神经网络层和多层感知机，所述多层感知机包括全连接层。

8.根据权利要求1所述的基于混合控制策略的机器人调度方法，其特征在于，所述基于机器人的当前位置和目标位置采用冲突搜索算法构建第二路径的步骤包括：

9.一种基于混合控制策略的机器人调度系统，其特征在于，所述系统包括：

10.一种基于混合控制策略的机器人调度装置，其特征在于，该装置包括计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该装置实现如权利要求1-8任一项所述方法所实现的步骤。