CN114895563A - 基于强化学习的新型智能协作配送机器人系统 - Google Patents

基于强化学习的新型智能协作配送机器人系统 Download PDF

Info

Publication number
CN114895563A
CN114895563A CN202210539999.1A CN202210539999A CN114895563A CN 114895563 A CN114895563 A CN 114895563A CN 202210539999 A CN202210539999 A CN 202210539999A CN 114895563 A CN114895563 A CN 114895563A
Authority
CN
China
Prior art keywords
robot
node
algorithm
map
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210539999.1A
Other languages
English (en)
Inventor
陈刚
胡彬
王斌
赖鑫
蒲嫦莉
曾元
颜小力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202210539999.1A priority Critical patent/CN114895563A/zh
Publication of CN114895563A publication Critical patent/CN114895563A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明涉及一种基于强化学习的新型智能协作配送机器人系统,属于机器人技术领域。通过对比现有的餐饮服务式机器人的实际情况,对硬件结构设计,软件流程以及整体的控制算法设计进行改进,同时将系统扩展到多服务机器人协作上。设计了一种系统动力模型未知,环境存在未知扰动,考虑输入约束以及引入多机防碰撞机制的条件下,利用SLAM技术的定位与导航来实现路径规划,利用强化学习和神经网络来实现智能配送机器人轨迹跟踪的最优控制。

Description

基于强化学习的新型智能协作配送机器人系统
技术领域
本发明属于机器人技术领域,涉及基于强化学习的新型智能协作配送机器人系统。
背景技术
目前,最常见的送餐服务式机器人的结构为:整个机身上半部分为人形机器人,下半部分是轮式移动机器人;硬件部分通过在底盘以及头部安装激光传感器,视觉传感器来实现自主的导航和物体识别,定位功能,以及通过传统的人机交互来配合实现复杂的功能,运用托盘替换传统的机械手,协同完成送餐等服务,一般携带托盘的背部装有显示屏以及配合头部安装的摄像头,用于物体的识别,抓取以及通话等服务;在机器人控制方面,为了完成特殊环境下特定情况的智能配送服务,提升智能配送服务的效率与节省用户的等待时间,往往需要多机器人相互配合,协同去完成任务。
但上述系统也存在一些缺陷:
(1)配备人形本体加底部轮式结构加上托盘等设计使得整个机器人体型较大,在面临室内拥挤环境以及某些较窄的通道面前显得笨重冗余;(2)目前的餐饮配送机器人部分仍然依靠红外探测器与超声波结合来避免障碍物,但是在面对复杂环境下显得很有局限性;
(3)在路径探索过程中往往面临很多未知问题,传统的路径规划以及简单的避障检测满足不了更复杂多变的实际路况。
(4)在多机器人协同智能配送方面,目前大多数只能实现单个的配送,极少数系统采取集中式控制的方法去驱使多机器人的运作,但这样使得每个单独的机器人之间没有信息交流以及不能根据实际情况来相互协调,使得整个系统的效率和可扩展性以及抗干扰性大大降低。
发明内容
有鉴于此,本发明的目的在于提供一种基于强化学习的新型智能协作配送机器人系统。
为达到上述目的,本发明提供如下技术方案:
……
本发明的有益效果在于:
1、本发明采用多传感器融合技术,利用分布式设计控制器的方法来实现多机器人的智能配送协同运作,克服了传统集中式控制的缺点,提升了各个机器人的灵活自主性与可靠性。
2、本发明为提升各个机器人团队协作过程中的效率,引入了基于激光的SLAM技术来实现定位以及地图构建,结合改进的JPS+算法实现最优的路径规划,并将其运用到单个的机器人身上,使得每个机器人拥有了自主导航和定位,使得单个机器人可以在完全未知的环境下正常运作。
3、基于ROS提供的话题、服务方式实现系统中相关模块之间的通信以及定义通信时的信息格式,设计了基于ROS的智能语音交互功能,通过调用ROS中开源的语音交互功能包来实现与人的智能语音交互功能。
4、本发明设计了一种基于强化学习的多机器人协作最优控制器,在实际配送机器人状态未知的情况下,对已经规划好的路径实行轨迹跟踪控制,采用ADP算法动态迭代以及利用神经网络逼近求其最优控制解。
5、本发明在基于强化学习的代价函数中引入防碰撞机制,同时考虑非线性以及面临未知扰动情况下,利用控制输入,扰动和代价函数的极大极小算法来实现在控制输入使得扰动以及代价函数最小,从而实现最优控制。
6、本发明在控制算法中代价函数中引入了非二次型性能函数U(uiτ))来限制输入使得实际过程中避免执行器饱和,提升了实际工作过程中系统的鲁棒性。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明的配送工作流程图;
图2为本发明的底层基本硬件结构;
图3为本发明的移动平台底层设计图;
图4为基于SLAM的硬件通信框图;
图5为ROS下SLAM算法下各个节点的通信图;
图6为JPS算法的路线原理图;
图7为双向JPS+算法的探索过程图;
图8为双向JPS+算法的探索流程图;
图9为语音交互系统的框架;
图10为ROS架构下的语音交互模块关系;
图11为多服务机器人协作系统控制算法流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
本发明针对现在特殊环境下的餐饮智能配送问题,设计了一套基于强化学习的新型多餐饮智能配送协作机器人系统,在借助激光雷达与多融合传感器结合SLAM算法,获取到配送机器人在工作中的实时环境信息以及自身定位,依靠改进后的JPS+算法实现最优的路径规划,同时基于ROS框架设计了一套智能语音交互系统,能最大化的提升工作效率以及处理不同场景下的问题。同时,为实现多机器人协同配送过程中遇到的不确定因素问题,设计了一套基于强化学习的控制器,该协同算法基于ADP的方法为具有非线性动力学的多智能体设计了一套用于跟踪已规划好的最优路径的方法,通过构建智能配送机器人系统的整体代价函数,并在代价函数中设计了一种最优的防碰撞策略,同时为避免执行器饱而引入输入约束,考虑外界扰动的情况下,通过神经网络基于迭代的方法来得到其最优解,实现了多智能配送机器人的最优控制,图1是多机器人智能配送工作流程图。根据实际不同的用户需求,由总控制台根据需求处理从而给多机器人下达指令,由机器人携带餐饮完成对对实际用户区不同用户的智能配送。
本发明的整体设计方案如下:
本发明设计的新型餐饮智能配送机器人系统采用分层设计的思想,分别设计其底层硬件层、智能感知层,语音交互层与协作控制层,前三个部分用于介绍智能配送机器人的软件硬件结构,最后一部分用于介绍多智能配送机器人协同工作的核心控制算法。
第一部分餐饮智能配送机器人的核心硬件部分
1.智能配送机器人的底层基本硬件结构
机器人的硬件控制系统主要由控制器模块,执行器模块以及感知系统模块构成,其中底层硬件模块基本结构如图2所示。
2.基于万向轮的底部移动平台
考虑到实际的运用场景大都在室内,因此选用基于万向轮的轮式设计来实现送餐机器人的灵活移动,使用万向轮的移动平台也使得在机器人面对相对窄小的环境下整体更具稳定性,如图3所示。
3.激光雷达
激光雷达是集激光以及惯性测量装置和GPS为一体的系统,以此实现测距、探测以及跟踪等功能,可用于机器人的避障以及位置识别,给机器人提供了良好的环境识别能力,这里采用的是思岚RPLIDAR M2M2激光雷达,扫描角度360,测量半径0.1-40m,扫描频率8Hz~15Hz。
第二部分餐饮智能配送机器人感知层设计
1.定位与地图构建
由于送餐机器人工作在室内,需要实现定点配送等功能,因此在室内实现自主移动导航是一切工作的前提,为实现其自主导航以及路径规划,首先需要定位与导航技术,这里利用机器人自带的传感器来感知环境以及绘制环境地图,传统的诸如全球定位系统(GPS)以及北斗卫星系统(BDS),无法实现对室内的精准定位以及获取环境附近信息,因此这里引入SLAM算法来达到的目的。
SLAM(Simultaneous Localization and Mapping),即时定位与地图构建技术。SLAM算法让机器人通过自己的传感器去感知环境,绘制环境地图,并校准其位置,以便在未知环境中移动。SLAM算法又分为基于激光的SLAM和基于视觉的SLAM算法,其中基于视觉的SLAM算法应用场景广泛,在室内室外均可开展,但是对光线的依赖程度较高,在面对室内一些光线较暗的地方往往表现得不尽人意。而基于激光的SLAM算法在小型静态场景中具有稳定的测距性能,受光强影响较小,考虑到送餐机器人工作场景都位于室内,因此这里选用基于激光的SLAM算法来实现机器人的自主导航以及路径规划。
根据前面硬件部分的介绍,这里借助ROS操作系统,借用激光雷达以及各类传感器获取到的信息来确认机器人当前所处的位置实现定位功能,同时将当前所处的位置以及姿势以及障碍物位置等信息传递给主控制器,通过在主控制器上安装的ROS操作系统根据改进后的JPS+路径规划算法生成机器人下一步的运动信号以及路径信息。利用ROS的节点式管理以及其提供的通信方式来实现各个功能的联结,图4为基于SLAM的通信框图。
通过激光雷达向各个方向发射的红外激光以及对周围环境的全方位扫描来获取一系列具有特定位置的分散点,将其聚合形成点云地图,然后将每个点中包含的姿势信息与机器人的起始位置进行比较,以计算距离和角度的差异,从而获得机器人的当前姿势。室内基于激光的SLAM算法有很多,这里采取Gmapping这一经典的算法框架来实现雷达测绘,Gmapping是一种基于RBPF粒子滤波的算法,其最大的优势就在于将定位与建图过程分离,先进行定位然后进行建图,其基于贝叶斯规则:
P(x1:t,y|k1:t,z1:t)=P(y|x1:t,z1:t)·P(x1:t|k1:t,z1:t) (2.1)
其中P(x1:t|k1:t,z1:t)表示机器人的估计轨迹,P(y|x1:t,z1:t)
表示已知机器人轨迹和传感器观测数据下对地图构建的闭式计算。其具体步骤如下:
(1)采样:Gmapping SLAM算法中每一个粒子都包含地图以及机器人的姿态的信息。最初始的数据来自于里程计的信息,这些粒子的分布通过激光扫描器来进行处理,如果分布理想的话将用于直接姿态估计,否则将引入高斯噪声
Figure BDA0003647785580000051
来改善其分布。
(2)加权:为不同粒子进行加权
Figure BDA0003647785580000052
(3)自适应的重采样:Neff用于决定是否需要重新采样
Figure BDA0003647785580000053
(4)地图估计构建:在结合所有粒子和机器人的当前位姿后,更新观察图和历史位姿。图5为ROS下SLAM算法下各个节点的通信图。
2.路径规划与自主导航
机器人路径规划的算法有很多,基于图搜索的算法有Dijkstra算法,A*算法以及JPS/JPS+算法,这里基于上述已经获取的地图,考虑到机器人工作场景大都位于室内,这里采取JPS+算法并对其做出相应的改进优化该算法,以提升实际的工作效率。
A*算法是传统的深度优先算法(DFS)结合贪心思想,定义代价函数给每个搜索方向赋予不同的优先级,无视障碍物时离终点最近的方向视为最优路径。A*算法表达式:
F(n)=G(n)+H(n) (2.4)
在这里F是从起点经过该点再到达终点的预测总耗费值,G是耗费值,H是预测耗费值。通过建立open_list表以及close_list表用于存放未被遍历的节点以及已经遍历的节点,在算法运行过程中将待遍历的节点放入open_list表中,从其中选取F最小的节点作为下一步需要遍历的节点,并将其放入closed_list中,然后再从open_list取出一个F值最小(最优先方向)的点,进行上述过程进行迭代直到到达目标点。
JPS算法是对A*算法的一个改进,整体算法思想保留A*算法的框架,由于A*算法中在探索过程中的扩展方式会考虑所有的邻居节点,这样会使得open_list中点的数量过大,搜索效率降低。因此JPS改变了扩展方式,其中定义了强迫邻居以及跳点,基本思想是:
(1)在无障碍物情况下,一般存在很多条等价路径,这里希望起点到终点实际只取其中一条路径,而该路径外其它节点可以没必要放入open_list。
(2)直线方向上只放入每段直线子路径的起点和终点,中途的点不放入open_list。
根据图6所示,JPS算法中的open_list就只包含关键点(跳点以及强迫邻居),极大的改进了A*算法带来的庞大计算量。
JPS+算法又是在JPS的基础上做了预处理,使得寻找路径的过程更加简洁迅速,根据已经获得的地图,首先第一步对地图的每个节点进行跳点判断,找出所有的主要跳点;第二步逐个对节点进行跳点的直线可达性判断并记录;第三步在其图上做好记录(例如跳点的直线距离以及斜线距离)。而对于剩余的节点,也对其进行各个方向的距离记录,如果该方向移动一步后碰到边界或障碍记为0,如果移动n+1步碰到边界或者障碍记为负数距离-n。对每一个节点的八个方向重复上述记录过程,即完成了JPS的预处理过程。
基于以上理论,这里引入双向JPS+,基于以上基础同时从正反两个方向进行搜索直至搜索重合即找到了一条完整的最优路径。其基本思想是假如原初始节点为S,目标节点为G,第一步以起始点向目标点进行探索,探索到最优跳点S1;第二步以G为起始点反向探索得到最优节点G1;第三步由S1和G1为起始和终止节点重复上述过程,直到正反方向最终的目标节点一致,则最优路径产生。如图7所示为改进后的双向JPS+算法的探索过程图(其中S节点和G节点是起始点和终止节点,S1、S2、S3、G1、G2、G3为跳点以及强迫邻居)。
具体的双向JPS+算法的流程图如图8所示。
基于双向搜索的JPS+算法可以根据得到的地图最快得出最优路径,为后续控制算法中的轨迹跟踪提供基础。
第三部分交互式语音模块设计
基于ROS的机器人语音交互系统搭建:
本系统这里所需要的是可以实现一个智能的语音交互,传统的语音交互主要包括语音唤醒、语音识别、意图识别、以及语音合成四个大模块,其中这里主要设计的核心模块是语音的识别以及意图识别,这是机器人与人交流的核心模块,借助ROS的分布式框架将各个模块进行融合,由ROS的发布/订阅节点的方式实现连接,根据ROS提供的话题、服务方式来实现其模块间的通信,调用其开源语音交互包,来根据跟人的交互过程来控制机器人的下一步控制功能,图9为语音交互系统的框架。
借助ROS的分布式框架将以上需要模块融合为一个整体使得每个模块之间不会相互影响。借助ROS Master来是是实现各个模块的通信以及分别设计,图10是ROS框架下的语音交互系统各个模块的关系。
以下是各个节点具体功能:
(1)语音识别节点:通过机器人由外置模块采集到的语音信息,将其存储为相应的声音文件,由语音识别节点将其识别为对应的文本信息并发送至下一节点。
(2)意图识别节点:意图识别节点将由语音识别节点识别到的文本文件通过与本地应答库中的信息标签进行匹配并判断该指令是问答指令还是控制指令并将消息传递到下一节点。
该模块其中涉及到本设计过程中专属的本地词库的建立,这里采用AIML语法去构建预设的问答库,根据特征关键词匹配来实现语音识别,例如这里预设的餐饮服务机器人自定义的对话表:
表1自定义对话表
Figure BDA0003647785580000071
(3)语音合成节点:这个模块旨在将得到的文本信息转换成音频输出,借用语音播放模块进行交互。
(4)机器人运动控制节点:该节点的主要作用是根据指令来控制机器人的运动,包括行走,到达指定地点以及完成避障等操作。
第四部分多服务机器人协作系统控制算法
本发明中设计的一种新型餐饮智能配送服务机器人,用于应对特殊情况下的无人递送以及现代化场所的需求,为保证时效性以及同步性,往往都需要多个机器人协同完成,由于在工作过程中存在未知的一些干扰以及变故,所以通常需要考虑干扰,此外,引入输入约束来避免实际工作过程中的执行器输出饱和问题,同时兼顾安全与效率的问题,还需要设计多机器间防碰撞检测。根据以上要求,即是设计每个机器人和扰动间的零和博弈问题,所以这里基于以上SLAM技术的定位与地图构建以及改进后的双向JPS+路径规划算法得出的最优路径,设计了一套基于强化学习的最优轨迹跟踪控制器。
考虑第i个机器人的动力学模型为:
Figure BDA0003647785580000081
其中
Figure BDA0003647785580000082
是每个机器人的状态,
Figure BDA0003647785580000083
是系统控制输入,
Figure BDA0003647785580000084
是满足利普希茨连续条件的向量函数且满足fi(0)=0
Figure BDA0003647785580000085
是连续函数。
则全局动力学模型可以写为:
Figure BDA0003647785580000086
其中
Figure BDA0003647785580000087
Figure BDA0003647785580000088
现假定对于每个机器人:
g(x),h(x)是有界的且0<||g(x)||<bg,0<||h(x)||<bh,其中,bg,bh是常量。
基于先前SLAM技术的定位与地图构建获取得到实际送餐环境的室内地图,再由改进后的双向JPS+算法计算得到最优路径,此时让机器人跟踪该路径来实现自主导航,设每一个机器人都应该跟踪一个参考轨迹
Figure BDA0003647785580000089
因此可以定义误差函数为:
ei=xi-ri (4.3)
其中
Figure BDA0003647785580000091
因此对于每个机器人误差可以表示为:
Figure BDA0003647785580000092
这里引入ξi构建增广来简化计算形式:令
Figure BDA0003647785580000093
Figure BDA0003647785580000094
其中:
Figure BDA0003647785580000095
为了使不同的机器人之间可以在未知扰动下实现最低成本的控制以及避免碰撞,定义以下成本函数:
Figure BDA0003647785580000096
其中,
Figure BDA0003647785580000097
是正定且连续可微的。Ui(ui(τ))是系统输入,又因为机器人系统实际工作需要避免执行器输出饱和通常引入输入约束,因此将一般的二次型形式改写成非二次型性能函数U(ui)以此来实现最小损耗成本并且引入输入约束:
U(u(t))=2∫0 u(λtanh-1(σ/λ))TRdσ (4.8)
其中,
Figure BDA0003647785580000098
λ是饱和有界的;R=diag(r1,r2,…,rm)>0是对角型。
以上成本函数的第三项,不仅需要考虑外界扰动的影响,同时需要考虑服务机器人在运作过程中的防碰撞问题,常规的防碰撞设计方法通常考虑加入人工势场函数来避免碰撞,在本设计中采用更简洁的办法,在成本函数中构建一项结合防碰撞策略以及克服扰动的最优策略。
定义:
Figure BDA0003647785580000099
这其中常数ki用于调节需要控制的距离大小,ω>0,当两个机器人相互靠近时,该项分母会缩小,则整体会变大,从而导致成本函数的整体增加,因此在目标优化降低成本函数的同时也兼顾了保持安全距离。
将其带入则新的成本函数变为:
Figure BDA0003647785580000101
根据以上的结论,扰动使得每个机器人的代价函数变大,而的输入控制为了使得整个性能函数最小化,因此这里的最优控制法则即可以用极小极大算法表示:
Figure BDA0003647785580000102
即最优集
Figure BDA0003647785580000103
的Hamilton-Jacobi-Isaacs(HJI)方程为:
Figure BDA0003647785580000104
上述代价函数对两边求导带入计算可得:
Figure BDA0003647785580000105
由于系统(4.5)是非线性的,且成本函数(4.10)不是二次函数,因此无法通过常规的解析地获得最优控制律和最优成本函数。因此,使用一般神经网络函数逼近器来逼近它们。设逼近函数为:
Figure BDA0003647785580000106
其中Wk是神经网络权重,φk(·)是激活函数,
Figure BDA0003647785580000107
是近似误差,
k∈(vi,ui,di),通过在(4.12)中带入(4.8)、(4.13)和(4.14),经过一些计算,可以得到新的HJI方程:
Figure BDA0003647785580000108
其中:
Figure BDA0003647785580000111
其中包含近似误差
Figure BDA0003647785580000112
的误差项εi
Figure BDA0003647785580000113
由于理想权重Wvi、Wui和Wdi未知,每个代理的成本函数、控制律和干扰近似写为:
Figure BDA0003647785580000114
实际情况下求解HJI方程其是十分复杂的,因此引入积分强化学习来解决这一问题,积分强化学习的基本思想是使用(t,t+T)内强化间隔为T的信号用于学习,规避了需要知道系统具体的动力学模型,用于寻找最优控制律。在满足激励持续性条件下,在控制输入和扰动中加入两个探测信号
Figure BDA0003647785580000115
Figure BDA0003647785580000116
因此,增广动力学(4.5)可以写成:
Figure BDA0003647785580000117
根据
Figure BDA0003647785580000118
且式(4.13)和(4.19)得到:
Figure BDA0003647785580000119
对上面从t~t+T积分得到:
Figure BDA00036477855800001110
其中T称为强化间隔。用近似值代替(4.21)中的成本函数、控制律,可以将估计误差∈i定义为(4.21)两侧的差值,通过分离
Figure BDA00036477855800001111
的线性项,可以得到:
Figure BDA0003647785580000121
其中
Figure BDA0003647785580000122
表示克罗内克积。
Figure BDA0003647785580000123
其中:
Figure BDA0003647785580000124
则误差可以表示为:
Figure BDA0003647785580000125
因此权重的近似值
Figure BDA0003647785580000126
分别为为
Figure BDA0003647785580000127
其中权重误差定义为
Figure BDA0003647785580000128
如果近似值收敛到理想值,则估计误差∈i收敛到零。使用归一化梯度下降法最小化误差
Figure BDA0003647785580000129
最终获得近似权重的更新规则如下:
Figure BDA00036477855800001210
算法实现具体流程如图11所示。
现有技术的智能程度不够高,在面对特殊情况下对无人餐饮配送有着极大的需求下,目前市场的机器人系统集成度不高且控制方面也相对不稳定。因此本发明设计了一款系统集成度高,餐饮配送效率高且外设拓展性较好,鲁棒性强的新型餐饮智能配送机器人。
首先,在机器人外形方面,避免冗余考虑实用性,这里设计了一款小巧的外形,底盘采取基于万向轮的圆底形式,在增强稳定性的同时考虑实用性,由于工作环境大都室内,圆底的万向轮式结构在面对复杂环境下具有很强的适应性;在感知方面,引入激光雷达以及配合深度相机结合SLAM算法来实现配送机器人的定位与地图构建,改进后的JPS+算法来实现机器人的路径规划;在交互方面,借用ROS平台开发设计了交互式语音模块来实现智能人机交互,可以根据实际的情况来及时的做出响应以及调整。
在多餐饮配送机器人协作方面,采用的是分布式控制的方式,以此来提高每个机器人碰到问题时独立解决问题的能力,提升其鲁棒性。算法方面引入了强化学习,强化学习在对于未知的情况下具有良好的适应性,同时考虑避免实际的执行器输出饱而引入输入约束,考虑到实际情况多为非线性带扰动的情况,且同时将协同工作过程中相互碰撞的问题一同设计在强化学习中的性能函数中,有效避免了机器协作过程中相互碰撞的问题,最后借助神经网络逼近函数功能来实现对控制器控制策略的求解。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.基于强化学习的新型智能协作配送机器人系统,其特征在于:该系统包括底层硬件层、智能感知层、语音交互层与协作控制层;
所述底层硬件层包括主控制器、伺服电机、次控制器、陀螺仪、里程计、万向轮、若干执行电机和供电电源;
所述供电电源为主控制器和次控制器供电;
所述主控制器与陀螺仪和里程计信号连接;
所述次控制器与伺服电机信号连接;
所述伺服电机与万向轮和若干执行电机信号连接;
所述主控制器还与激光雷达信号连接;
所述智能感知层包括定位与地图构建、路径规划与自主导航;
所述底层硬件层作为硬件基础,通过智能感知层和语音交互层获取信号,最后通过协作控制层进行智能控制。
2.根据权利要求1所述的基于强化学习的新型智能协作配送机器人系统,其特征在于:所述定位与地图构建为:
利用机器人的传感器来感知环境以及绘制环境地图,利用SLAM算法让机器人通过自己的传感器去感知环境,绘制环境地图,并校准其位置;
借助ROS操作系统,借用激光雷达以及传感器获取到的信息来确认机器人当前所处的位置实现定位功能,同时将当前所处的位置以及姿势以及障碍物位置等信息传递给主控制器,通过在主控制器上安装的ROS操作系统根据改进后的JPS+路径规划算法生成机器人下一步的运动信号以及路径信息;利用ROS的节点式管理以及其提供的通信方式来实现各个功能的联结;
通过激光雷达向各个方向发射的红外激光以及对周围环境的全方位扫描来获取一系列具有特定位置的分散点,将其聚合形成点云地图,然后将每个点中包含的姿势信息与机器人的起始位置进行比较,以计算距离和角度的差异,从而获得机器人的当前姿势;采取Gmapping算法实现雷达测绘,基于贝叶斯规则有:
P(x1:t,y|k1:t,z1:t)=P(y|x1:t,z1:t)·P(x1:t|k1:t,z1:t) (2.1)
其中P(x1:t|k1:t,z1:t)表示机器人的估计轨迹,P(y|x1:t,z1:t)
表示已知机器人轨迹和传感器观测数据下对地图构建的闭式计算,具体步骤如下:
(1)采样:Gmapping SLAM算法中每一个粒子都包含地图以及机器人的姿态的信息;最初始的数据来自于里程计的信息,这些粒子的分布通过激光扫描器来进行处理,如果分布理想的话将用于直接姿态估计,否则将引入高斯噪声
Figure FDA0003647785570000021
来改善其分布;
(2)加权:为不同粒子进行加权
Figure FDA0003647785570000022
(3)自适应的重采样:Nrff用于决定是否需要重新采样
Figure FDA0003647785570000023
(4)地图估计构建:在结合所有粒子和机器人的当前位姿后,更新观察图和历史位姿。
3.根据权利要求2所述的基于强化学习的新型智能协作配送机器人系统,其特征在于:所述路径规划与自主导航为基于A*的改进后的JPS+算法:
首先由A*算法的表达式:
F(n)=G(n)+H(n) (2.4)
其中F是从起点经过该点再到达终点的预测总耗费值,G是耗费值,H是预测耗费值;通过建立open_list表以及close_list表用于存放未被遍历的节点以及已经遍历的节点,在算法运行过程中将待遍历的节点放入open_list表中,从其中选取F最小的节点作为下一步需要遍历的节点,并将其放入closed_list中,然后再从open_list取出一个F值最小的点,进行迭代直到到达目标点;
根据已经获得的地图,首先第一步对地图的每个节点进行跳点判断,找出所有的跳点;第二步逐个对节点进行跳点的直线可达性判断并记录;第三步在其图上记下跳点的直线距离以及斜线距离;而对于剩余的节点,也对其进行各个方向的距离记录,如果该方向移动一步后碰到边界或障碍记为0,如果移动n+1步碰到边界或者障碍记为负数距离-n;对每一个节点的八个方向重复记录过程,完成JPS的预处理过程;
引入双向JPS+,同时从正反两个方向进行搜索直至搜索重合即找到了一条完整的最优路径,设原初始节点为S,目标节点为G,第一步以起始点向目标点进行探索,探索到最优跳点S1;第二步以G为起始点反向探索得到最优节点G1;第三步由S1和G1为起始和终止节点重复上述过程,直到正反方向最终的目标节点一致,则最优路径产生。
4.根据权利要求3所述的基于强化学习的新型智能协作配送机器人系统,其特征在于:所述语音交互层包括:
语音识别节点:通过机器人由外置模块采集到的语音信息,将其存储为相应的声音文件,由语音识别节点将其识别为对应的文本信息并发送至下一节点;
意图识别节点:将由语音识别节点识别到的文本文件,通过与本地应答库中的信息标签进行匹配,并判断该指令是问答指令,还是控制指令,并将消息传递到下一节点;
采用AIML语法构建预设的问答库,根据特征关键词匹配来实现语音识别;
语音合成节点:将得到的文本信息转换成音频输出,借用语音播放模块进行交互;
机器人运动控制节点:根据指令来控制机器人的运动,包括行走、到达指定地点和完成避障的操作。
5.根据权利要求4所述的基于强化学习的新型智能协作配送机器人系统,其特征在于:所述协作控制层为:
考虑第i个机器人的动力学模型为:
Figure FDA0003647785570000031
其中
Figure FDA0003647785570000032
是每个机器人的状态,
Figure FDA0003647785570000033
是系统控制输入,
Figure FDA0003647785570000034
是满足利普希茨连续条件的向量函数且满足fi(0)=0
Figure FDA0003647785570000035
是连续函数;
则全局动力学模型可以写为:
Figure FDA0003647785570000036
其中
Figure FDA0003647785570000037
Figure FDA0003647785570000038
对于每个机器人:
g(x),h(x)是有界的且0<||g(x)||<bg,0<||h(x)||<bh,其中,bg,bn是常量;
基于先前SLAM技术的定位与地图构建获取得到实际送餐环境的室内地图,再由改进后的双向JPS+算法计算得到最优路径,让机器人跟踪该路径来实现自主导航,设每一个机器人跟踪一个参考轨迹
Figure FDA0003647785570000039
定义误差函数为:
ei=xi-ri (4.3)
其中
Figure FDA00036477855700000310
对于每个机器人误差表示为:
Figure FDA00036477855700000311
引入ξi构建增广来简化计算形式:令
Figure FDA00036477855700000312
Figure FDA0003647785570000041
其中:
Figure FDA0003647785570000042
为使不同的机器人之间在未知扰动下实现最低成本的控制以及避免碰撞,定义以下成本函数:
Figure FDA0003647785570000043
其中,Qii(τ))=ξi Ti是正定且连续可微的;Ui(ui(τ))是系统输入,机器人系统实际工作需要避免执行器输出饱和,引入输入约束,将二次型形式改写成非二次型性能函数U(ui)来实现最小损耗成本并且引入输入约束:
U(u(t))=2∫0u(λtanh-1(σ/λ))TRdσ (4.8)
其中,
Figure FDA0003647785570000044
λ是饱和有界的;R=diag(r1,r2,…,rm)>0是对角型;
定义:
Figure FDA0003647785570000045
常数ki用于调节需要控制的距离大小,ω>0,当两个机器人相互靠近时,该项分母会缩小,则整体会变大,从而导致成本函数的整体增加,在目标优化降低成本函数的同时也兼顾了保持安全距离;
将其带入则新的成本函数变为:
Figure FDA0003647785570000046
扰动使得每个机器人的代价函数变大,输入控制为使得整个性能函数最小化,最优控制法则用极小极大算法表示:
Figure FDA0003647785570000051
即最优集
Figure FDA0003647785570000052
的Hamilton–Jacobi–Isaacs(HJI)方程为:
Figure FDA0003647785570000053
上述代价函数对两边求导带入计算得:
Figure FDA0003647785570000054
使用神经网络函数逼近器来逼近;设逼近函数为:
Figure FDA0003647785570000055
其中Wk是神经网络权重,φk(·)是激活函数,
Figure FDA0003647785570000056
是近似误差,
k∈(vi,ui,di);
通过在(4.12)中带入(4.8)、(4.13)和(4.14),经过一些计算,得到新的HJI方程:
Figure FDA0003647785570000057
其中:
Figure FDA0003647785570000058
其中包含近似误差
Figure FDA0003647785570000059
的误差项εi
Figure FDA00036477855700000510
由于理想权重Wvi、Wui和Wdi未知,每个代理的成本函数、控制律和干扰近似写为:
Figure FDA00036477855700000511
积分强化学习的是使用(t,t+T)内强化间隔为T的信号用于学习,在满足激励持续性条件下,在控制输入和扰动中加入两个探测信号
Figure FDA0003647785570000061
Figure FDA0003647785570000062
增广动力学(4.5)写成:
Figure FDA0003647785570000063
根据
Figure FDA0003647785570000064
且式(4.13)和(4.19)得到:
Figure FDA0003647785570000065
对上面从t~t+T积分得到:
Figure FDA0003647785570000066
其中T称为强化间隔;用近似值代替(4.21)中的成本函数、控制律,将估计误差∈i定义为(4.21)两侧的差值,通过分离
Figure FDA0003647785570000067
的线性项,得到:
Figure FDA0003647785570000068
其中
Figure FDA0003647785570000069
表示克罗内克积;
Figure FDA00036477855700000610
其中:
Figure FDA00036477855700000611
则误差表示为:
Figure FDA00036477855700000612
权重的近似值
Figure FDA0003647785570000071
分别为为
Figure FDA0003647785570000072
Figure FDA0003647785570000073
其中权重误差定义为
Figure FDA0003647785570000074
如果近似值收敛到理想值,则估计误差∈i收敛到零;
使用归一化梯度下降法最小化误差
Figure FDA0003647785570000075
最终获得近似权重的更新规则如下:
Figure FDA0003647785570000076
CN202210539999.1A 2022-05-17 2022-05-17 基于强化学习的新型智能协作配送机器人系统 Pending CN114895563A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210539999.1A CN114895563A (zh) 2022-05-17 2022-05-17 基于强化学习的新型智能协作配送机器人系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210539999.1A CN114895563A (zh) 2022-05-17 2022-05-17 基于强化学习的新型智能协作配送机器人系统

Publications (1)

Publication Number Publication Date
CN114895563A true CN114895563A (zh) 2022-08-12

Family

ID=82722856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210539999.1A Pending CN114895563A (zh) 2022-05-17 2022-05-17 基于强化学习的新型智能协作配送机器人系统

Country Status (1)

Country Link
CN (1) CN114895563A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116300480A (zh) * 2023-05-23 2023-06-23 西南科技大学 基于改进粒子滤波和生物启发神经网络的放射源搜寻方法
CN117601115A (zh) * 2023-10-20 2024-02-27 深圳职业技术大学 面向大型零件装配的复合协作机器人控制系统及方法
CN117647933A (zh) * 2024-01-26 2024-03-05 中国人民解放军国防科技大学 一种面向精度提升的轨迹规划方法
CN118209115A (zh) * 2024-05-20 2024-06-18 华东交通大学 一种融合改进jps与teb算法的agv路径规划方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116300480A (zh) * 2023-05-23 2023-06-23 西南科技大学 基于改进粒子滤波和生物启发神经网络的放射源搜寻方法
CN117601115A (zh) * 2023-10-20 2024-02-27 深圳职业技术大学 面向大型零件装配的复合协作机器人控制系统及方法
CN117647933A (zh) * 2024-01-26 2024-03-05 中国人民解放军国防科技大学 一种面向精度提升的轨迹规划方法
CN117647933B (zh) * 2024-01-26 2024-03-29 中国人民解放军国防科技大学 一种面向精度提升的轨迹规划方法
CN118209115A (zh) * 2024-05-20 2024-06-18 华东交通大学 一种融合改进jps与teb算法的agv路径规划方法

Similar Documents

Publication Publication Date Title
CN114895563A (zh) 基于强化学习的新型智能协作配送机器人系统
DieterFox et al. Map learning and high-speed navigation in RHINO
JP3945279B2 (ja) 障害物認識装置、障害物認識方法、及び障害物認識プログラム並びに移動型ロボット装置
Wurm et al. Coordinated multi-robot exploration using a segmentation of the environment
Giralt et al. An integrated navigation and motion control system for autonomous multisensory mobile robots
Das et al. A vision-based formation control framework
Lacaze et al. Path planning for autonomous vehicles driving over rough terrain
Cui et al. Autonomous navigation of UAV in foliage environment
Chen et al. Robot navigation with map-based deep reinforcement learning
JP2006350776A (ja) 移動体の経路生成装置
Ollero et al. Control and perception components for autonomous vehicle guidance. Application to the ROMEO vehicles
Sundarraj et al. Route planning for an autonomous robotic vehicle employing a weight-controlled particle swarm-optimized Dijkstra algorithm
WO2023283186A1 (en) Two-wheeled, self-balancing robot
CN112857370A (zh) 一种基于时序信息建模的机器人无地图导航方法
CN116069023A (zh) 一种基于深度强化学习的多无人车编队控制方法和系统
WO2024111453A1 (en) Autonomous mapping by a mobile robot
Zhang et al. A hierarchical design for shared-control wheelchair navigation in dynamic environments
Vandorpe et al. Lias: A reflexive navigation architecture for an intelligent mobile robot system
Ali et al. Mobile robotics, moving intelligence
Cuesta et al. Fuzzy control of reactive navigation with stability analysis based on conicity and Lyapunov theory
Prassler et al. A robotic wheelchair roaming in a railway station
Cheein et al. Solution to a door crossing problem for an autonomous wheelchair
Demeester et al. Global dynamic window approach for holonomic and non-holonomic mobile robots with arbitrary cross-section
Dai et al. Autonomous navigation for wheeled mobile robots-a survey
Luo et al. An effective trace-guided wavefront navigation and map-building approach for autonomous mobile robots

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination