CN114559439B

CN114559439B - 一种移动机器人智能避障控制方法、装置和电子设备

Info

Publication number: CN114559439B
Application number: CN202210452186.9A
Authority: CN
Inventors: 谷梦勖; 万衡; 黄泽锋; 肖丹; 贾云茜; 刘加尧
Original assignee: Nantong Kemei Automation Technology Co ltd; Shanghai Institute of Technology
Current assignee: Nantong Kemei Automation Technology Co ltd; Shanghai Institute of Technology
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2022-07-26
Anticipated expiration: 2042-04-27
Also published as: CN114559439A

Abstract

本说明书实施例提供一种移动机器人智能避障控制方法，搭建具有感知层、网络层和应用层的避障系统，通过所述感知层实时收集机器人传感器采集的运动实况信息，并识别碰撞风险，当识别到碰撞风险后将运动实况信息传递至网络层，通过网络层中预先构建的鲸群融合学习模型以迭代的方式为所述运动实况生成动作策略并进行目标决策，迭代至预设条件后输出最优的动作策略，通过所述应用层按照所述最优的动作策略生成控制指令进行避障。通过在识别碰撞风险后利用鲸群融合学习模型以迭代的方式为所述运动实况生成动作策略并进行目标决策，能够得到全局最优的动作策略，按照这种最优的动作策略进行避障，能提高移动的稳定性和效率。

Description

一种移动机器人智能避障控制方法、装置和电子设备

技术领域

本申请涉及移动机器人智能控制领域，尤其涉及一种移动机器人智能避障控制方法、装置和电子设备，具体涉及一种基于鲸群融合学习（WOA-Stacking）的模型算法。

背景技术

移动机器人是一种依据已规划路线完成相应指令特定任务的自动运输机器人，具有运用灵活、运输效率高的优势，已经成为了目前智能工厂中应用范围最广的智能运输设备。

但由于工厂实际生产中，环境复杂，工厂布局多变，在实际有效应用移动机器人的场景中往往会遇到障碍，这就要求移动机器人具备一定的局部避障能力。

目前的移动机器人避障路径规划多是在碰到障碍物后重新选取移动路线进行尝试，这种方式的全局移动效率和稳定性较差。

发明内容

本说明书实施例提供一种移动机器人智能避障控制方法、装置和电子设备，用以提高全局移动效率和稳定性。

本说明书实施例提供一种移动机器人智能避障控制方法，包括：

搭建具有感知层、网络层和应用层的避障系统，通过所述感知层实时收集机器人传感器采集的运动实况信息，并识别碰撞风险，当识别到碰撞风险后将运动实况信息传递至网络层；

通过网络层中预先构建的鲸群融合学习模型以迭代的方式为所述运动实况生成动作策略并进行目标决策，迭代至预设条件后输出最优的动作策略；

通过所述应用层按照所述最优的动作策略生成控制指令进行避障。

可选地，所述将运动实况信息传递至网络层,包括：

所述运动实况信息包括传感器采集的环境信息和机器人状态信息，通过马尔可夫决策构建以环境信息、机器人状态信息和动作策略为输入项的奖励函数，并将所述环境信息和所述机器人状态信息转换成观察空间、动作空间，传递至网络层中的鲸群融合学习模型；

所述通过网络层中预先构建的鲸群融合学习模型以迭代的方式为所述运动实况生成动作策略并进行目标决策，迭代至预设条件后输出最优的动作策略，包括：

所述鲸群融合学习模型包含运行混沌鲸群算法（WOA）的混沌鲸群模型和运行Stacking融合算法的融合模型预测模型。所述融合模型预测模型以所述奖励函数为目标函数，通过所述混沌鲸群模型生成动作策略集，并将所述动作策略集、观察空间和动作空间输入融合预测模型中，通过融合预测模型预测向观察空间与动作空间施行所述动作策略集时的奖励值，根据该奖励值调整动作策略集继续进行迭代，直至迭代次数满足阈值，输出最优的动作策略。

可选地，所述奖励函数为：

；

其中，

为每一次决策的消极奖励，

为切向运行奖励，

为法向运行奖励，

法向运行奖励权重系数是切向运行奖励的1.5倍，

为碰撞奖励，

为前进参数或后退参数，

表示轨道偏离度。

可选地，所述运动实况信息为时间序列集合

，

为周围环境数据，

为全局坐标系下位置，

为机器人姿势角，

为机器人行驶速度，

为机器人局部目标点。

可选地，还包括：

利用所述奖励函数构建多个基模型并为融合的多个基模型配置鲸群优化规则，对所述多各基模型进行融合训练，得到鲸群融合学习模型。

可选地，所述多个基模型包括：随机森林回归基模型、K最近邻回归基模型和支持向量机回归基模型。

可选地，所述根据该奖励值调整动作策略集继续进行迭代，包括：

根据多个动作策略中奖励值最大的动作策略生成多个动作策略进行迭代。

本说明书实施例还提供一种移动机器人智能避障控制装置，包括：

系统搭建模块，搭建具有感知层、网络层和应用层的避障系统；

风险识别模块，通过所述感知层实时收集机器人传感器采集的运动实况信息，并识别碰撞风险，当识别到碰撞风险后将运动实况信息传递至网络层；

动作策略模块，通过网络层中预先构建的鲸群融合学习模型以迭代的方式为所述运动实况生成动作策略并进行目标决策，迭代至预设条件后输出最优的动作策略；

控制模块，通过所述应用层按照所述最优的动作策略生成控制指令进行避障。

本说明书实施例还提供一种电子设备，其中，该电子设备包括：

处理器；以及，

存储计算机可执行程序的存储器，所述可执行程序在被执行时使所述处理器执行上述任一项方法。

本说明书实施例还提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现上述任一项方法。

本说明书实施例提供各种技术方案来搭建具有感知层、网络层和应用层的避障系统，通过所述感知层实时收集机器人传感器采集的运动实况信息，并识别碰撞风险，当识别到碰撞风险后将运动实况信息传递至网络层，通过网络层中预先构建的鲸群融合学习模型以迭代的方式为所述运动实况生成动作策略并进行目标决策，迭代至预设条件后输出最优的动作策略，通过所述应用层按照所述最优的动作策略生成控制指令进行避障。通过在识别碰撞风险后利用鲸群融合学习模型以迭代的方式为所述运动实况生成动作策略并进行目标决策，能够得到全局最优的动作策略，按照这种最优的动作策略进行避障，能提高移动的稳定性和效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本说明书实施例提供的一种移动机器人智能避障控制方法的原理示意图；

图2为本说明书实施例提供的一种移动机器人智能避障控制系统的结构关系图；

图3为本说明书实施例提供的一种移动机器人智能避障控制系统示意图；

图4为本说明书实施例提供的鲸群融合学习模型中融合模型预测算法的框架图；

图5为本说明书实施例提供的鲸群融合学习模型中混沌鲸群算法的优化流程图；

图6为本说明书实施例提供的一种移动机器人智能避障控制装置的原理示意图。

具体实施方式

现在将参考附图更全面地描述本发明的示例性实施例。然而，示例性实施例能够以多种形式实施，且不应被理解为本发明仅限于在此阐述的实施例。相反，提供这些示例性实施例能够使得本发明更加全面和完整，更加便于将发明构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的元件、组件或部分，因而将省略对它们的重复描述。

在符合本发明的技术构思的前提下，在某个特定的实施例中描述的特征、结构、特性或其他细节不排除可以以合适的方式结合在一个或更多其他的实施例中。

在对于具体实施例的描述中，本发明描述的特征、结构、特性或其他细节是为了使本领域的技术人员对实施例进行充分理解。但是，并不排除本领域技术人员可以实践本发明的技术方案而没有特定特征、结构、特性或其他细节的一个或更多。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或融合电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

术语“和/或”或者“及/或”包括相关联的列出项目中的任一个或多者的所有组合。

图1为本说明书实施例提供的一种移动机器人智能避障控制方法的原理示意图，该方法可以包括：

S101:搭建具有感知层、网络层和应用层的避障系统，通过所述感知层实时收集机器人传感器采集的运动实况信息，并识别碰撞风险，当识别到碰撞风险后将运动实况信息传递至网络层。

其中，运动实况信息包括传感器采集的环境信息和机器人状态信息。

环境信息具体可以是障碍物位置、导航路径，机器人位置等空间信息，机器人状态信息可以包括移动速度、移动方向和自身姿势等。

在本说明书实施例中，还包括：

通过马尔可夫决策构建以环境信息、机器人状态信息和动作策略为输入项的奖励函数，并将所述运动实况信息转换成观察空间、动作空间，传递至鲸群融合学习模型；

马尔可夫决策过程是强化学习奖励函数的过程，在本说明书实施例中，所述奖励函数为：

；

其中，

为每一次决策的消极奖励，

为切向运行奖励，

为法向运行奖励，法向运行奖励权重系数是切向运行奖励的1.5倍，

为碰撞奖励，

为前进参数或后退参数，

表示轨道偏离度。

马尔可夫决策过程是指决策者周期地或连续地观察具有马尔可夫性的随机动态系统，序贯地作出决策。即根据每个时刻观察到的状态，从可用的行动集合中选用一个行动作出决策，系统下一步(未来)的状态是随机的，并且其状态转移概率具有马尔可夫性。决策者根据新观察到的状态，再作新的决策，依此反复地进行。马尔可夫性是指一个随机过程未来发展的概率规律与观察之前的历史无关的性质。马尔可夫性又可简单叙述为状态转移概率的无后效性。状态转移概率具有马尔可夫性的随机过程即为马尔可夫过程。马尔可夫决策过程又可看作随机对策的特殊情形，在这种随机对策中对策的一方是无意志的。马尔可夫决策过程还可作为马尔可夫型随机最优控制，其决策变量就是控制变量。

可以在配置感知层传感器系统和马尔可夫决策模块，传感器系统用于识别碰撞风险，马尔可夫决策模块将传感器中的数据转为观察空间、动作空间，并强化学习得到奖励函数的数学模型。

奖励是指强化学习的反馈，强化学习属于机器学习的一种，是现有技术，在此不做详细阐述。

通过马尔可夫决策构建以环境信息、机器人状态信息和动作策略为输入项的奖励函数，并将所述运动实况信息转换成观察空间、动作空间，传递至鲸群融合学习模型。

其中，观察空间、动作空间为集合范围，可以是按照时间顺序采集的机器人周围环境信息、或记录的机器人动作信息。

比如，观察空间可以具有一定时间序列中障碍物的形状和位置，动作空间为该机器人最大线速度和角速度的集合，奖励函数为机器人判断路径是否最优的目标函数。

在本说明书实施例中，所述运动实况信息为时间序列集合

，

为周围环境数据，

为全局坐标系下位置，

为机器人姿势角，

为机器人行驶速度，

为机器人局部目标点。

S102:通过网络层中预先构建的鲸群融合学习模型以迭代的方式为所述运动实况生成动作策略并进行目标决策，迭代至预设条件后输出最优的动作策略。

在本说明书实施例中，所述将运动实况信息传递至网络层,包括：

所述鲸群融合学习模型包含混沌鲸群模型和融合模型预测模型，所述融合模型预测模型以所述奖励函数为目标函数，通过所述混沌鲸群模型生成动作策略集，并将所述动作策略集、观察空间和动作空间输入融合预测模型中，通过融合预测模型预测向观察空间与动作空间施行所述动作策略集时的奖励值，根据该奖励值调整动作策略集继续进行迭代，直至迭代次数满足阈值，输出最优的动作策略。

在本说明书实施例中，还包括：

利用所述奖励函数构建的鲸群融合学习模型包含混沌鲸群算法和融合模型预测算法，其中，混沌鲸群算法动态提供动作决策集，融合模型预测该动作策略下的奖励函数值，其中，融合预测模型的融合方式为Stacking，包含两层多个基模型。

在本说明书实施例中，所述多个基模型包括：随机森林回归基模型、K最近邻回归基模型和支持向量机回归基模型。

在本说明书实施例中，所述根据该奖励值调整动作策略集继续进行迭代，包括：

动作策略是速度、方向、姿态等。机器人未来的位置，实际上是受当前的状态和当前施加的动作策略指令共同作用的结果，因此，在计算动作策略的奖励时，需要结合动作空间、观察空间来计算。

在本说明书实施例中，调整动作策略集可以是以最优的动作策略为中心，将其他动作策略向其靠近移动，得到新的动作策略集。

当然，也可以是，以最优的动作策略为中心，缩小动作策略集的区域范围，在更小的区域范围内生成同样数量的鲸群，以更为密集的密度进行迭代，从而提高精准度，最终提高准确度。

S103:通过所述应用层按照所述最优的动作策略生成控制指令进行避障。

该方法用于搭建具有感知层、网络层和应用层的避障系统，通过所述感知层实时收集机器人传感器采集的运动实况信息，并识别碰撞风险，当识别到碰撞风险后将运动实况信息传递至网络层，通过网络层中预先构建的鲸群融合学习模型以迭代的方式为所述运动实况生成动作策略并进行目标决策，迭代至预设条件后输出最优的动作策略，通过所述应用层按照所述最优的动作策略生成控制指令进行避障。通过在识别碰撞风险后利用鲸群融合学习模型以迭代的方式为所述运动实况生成动作策略并进行目标决策，能够得到全局最优的，获得既可避免故障的同时还能不过多偏离原有导航路线的动作策略，按照这种最优的动作策略进行避障，在移动运行过程中与障碍物不会发生碰撞、局部避障完成后可成功回归原导航路线、避障时间尽可能减少、避障过程足够稳定性，因而能提高移动的稳定性和效率。

在本说明书实施例中，动作策略中的目标速度：

；

其中，

，

为当前时刻移动机器人的速度，

为网络层决策的下一时刻移动机器人的速度，

、

、

分别为比例系数、积分系数、微分系数；

动作策略中的目标位置为：

；

其中，

和

分别为移动机器人的位置在横纵方向的分量，

为移动机器人所转角度，

为移动机器人的线速度，

为移动机器人的线速度。

图2为本说明书实施例提供的一种移动机器人智能避障控制系统的结构关系图。

该系统具有感知层、网络层和应用层。感知层实时收集机器人传感器采集的运动实况信息，具体包括：感知层中的视觉系统获取环境中的信息，用绝对坐标记录，按照时间序列形成绝对定位数据流，IMU传感器记录机器人移动过程中的位置、速度等，为相对定位数据流。

随后通过决策模块，将其转换成奖励函数的输入项，并向网络层输出观察空间、动作空间和奖励函数。

网络层具有用混沌鲸群算法优化的融合模型，包含混沌鲸群算法和融合模型预测算法。其中，混沌鲸群算法具有多个动作方案搜索起点，能够快速搜索到全局最优的动作方案，从而可以为融合模型提供动作决策集。而融合模型是一种将多个基模型融合到一起进行训练的综合模型，具有较强的适应能力，能够预测该动作决策下的奖励函数值，从而可以对动作方案进行奖励值评估判断哪个方案最优，并进一步将预测结果反馈回混沌鲸群算法中通过调整动作方案再次进行迭代，经过多次迭代后，可以得到全局最优的动作方案。

应用层，具有移动机器人（AGV）控制单元，通过网络层的决策指令控制机器人移动。

图3为本说明书实施例提供的一种移动机器人智能避障控制系统示意图。

在进行识别碰撞风险时，传感器获取导航路径，包括绝对定位数据和规划路线，以及局部环境，包括周围环境和自身姿势，然后根据其识别碰撞风险，在实际应用中，这可以表示，机器人根据规划的路线、摄像头识别的障碍距离、位置以及机器人的运动速度、方向判断是否有碰撞风险。

图4为本说明书实施例提供的鲸群融合学习模型中融合模型预测算法的框架图，融合模型中具有基学习器和元学习器，通过元学习器，把基学习器整合成一个复合的预测模型。由于移动机器人的决策动作与最终奖励评价满足一定的线性关系，因此本发明中融合算法的基学习器选用随机森林回归算法、K最近邻回归算法（KNN）以及支持向量机回归算法（SVM），由于元学习器需要具备一定的泛化能力，因此可以选用GBDT算法。

图5为本说明书实施例提供的鲸群融合学习模型中混沌鲸群算法的优化流程图，在利用鲸群融合模型时，先进行初始化，然后计算每个鲸群适应度，确定不同鲸群位置对应的动作方案集合，计算其奖励值，根据最优的动作方案对应的鲸群，更新鲸群位置，重新确定对应的动作方案集合，计算奖励值，达到迭代次数后，根据奖励值确定最优的鲸群位置，对应的动作方案便是最优的动作方案。

系统搭建模块601，搭建具有感知层、网络层和应用层的避障系统；

风险识别模块602，通过所述感知层实时收集机器人传感器采集的运动实况信息，并识别碰撞风险，当识别到碰撞风险后将运动实况信息传递至网络层；

动作策略模块603，通过网络层中预先构建的鲸群融合学习模型以迭代的方式为所述运动实况生成动作策略并进行目标决策，迭代至预设条件后输出最优的动作策略；

控制模块604，通过所述应用层按照所述最优的动作策略生成控制指令进行避障。

该装置用于搭建具有感知层、网络层和应用层的避障系统，通过所述感知层实时收集机器人传感器采集的运动实况信息，并识别碰撞风险，当识别到碰撞风险后将运动实况信息传递至网络层，通过网络层中预先构建的鲸群融合学习模型以迭代的方式为所述运动实况生成动作策略并进行目标决策，迭代至预设条件后输出最优的动作策略，通过所述应用层按照所述最优的动作策略生成控制指令进行避障。通过在识别碰撞风险后利用鲸群融合学习模型以迭代的方式为所述运动实况生成动作策略并进行目标决策，能够得到全局最优的，获得既可避免故障的同时还能不过多偏离原有导航路线的动作策略，按照这种最优的动作策略进行避障，在移动运行过程中与障碍物不会发生碰撞、局部避障完成后可成功回归原导航路线、避障时间尽可能减少、避障过程足够稳定性，因而能提高移动的稳定性和效率。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备和介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的设备和介质与方法是一一对应的，因此，设备和介质也具有与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述设备和介质的有益技术效果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种移动机器人智能避障控制方法，其特征在于，包括：

通过网络层中预先构建的鲸群融合学习模型以迭代的方式为所述运动实况信息生成动作策略并进行目标决策，迭代至预设条件后输出最优的动作策略；

通过所述应用层按照所述最优的动作策略生成控制指令进行避障；

其中，所述将运动实况信息传递至网络层,包括：

所述鲸群融合学习模型包含混沌鲸群模型和融合预测模型，所述融合预测模型以所述奖励函数为目标函数，通过所述混沌鲸群模型生成动作策略集，并将所述动作策略集、观察空间和动作空间输入融合预测模型中，通过融合预测模型预测向观察空间与动作空间施行所述动作策略集时的奖励值，根据该奖励值调整动作策略集继续进行迭代，直至迭代次数满足阈值，输出最优的动作策略；

其中，所述奖励函数为：