CN116611635B - 基于车路协同及强化学习的环卫机器人车调度方法及系统 - Google Patents

基于车路协同及强化学习的环卫机器人车调度方法及系统 Download PDF

Info

Publication number
CN116611635B
CN116611635B CN202310443604.2A CN202310443604A CN116611635B CN 116611635 B CN116611635 B CN 116611635B CN 202310443604 A CN202310443604 A CN 202310443604A CN 116611635 B CN116611635 B CN 116611635B
Authority
CN
China
Prior art keywords
network
sanitation robot
road
vehicle
car
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310443604.2A
Other languages
English (en)
Other versions
CN116611635A (zh
Inventor
郭洪飞
闫志航
宁延超
杨博文
何智慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN202310443604.2A priority Critical patent/CN116611635B/zh
Publication of CN116611635A publication Critical patent/CN116611635A/zh
Application granted granted Critical
Publication of CN116611635B publication Critical patent/CN116611635B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06313Resource planning in a project environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Primary Health Care (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Operations Research (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明提出了一种基于车路协同及强化学习的环卫机器人车调度方法及系统,包括:对环卫机器人车通信进行部署,通过基于车载自组织网络的通信网络实现车辆间的数据传输和通信;通过路况感知装置获取路况数据和利用传感器对环卫机器人车周围的环境进行实时感知和数据采集;采用改进的分层双重DQN算法,利用已有的数据,不断优化环卫机器人车的路径规划和调度策略;实时交换环卫机器人车与道路基础设施之间的信息;建立监控管理平台;对系统进行测试和评估。本发明实现了一种基于车路协同及强化学习的环卫机器人车调度系统及方法。本发明的应用可以帮助现代城市提高环卫效率,减少环境污染,降低人力成本,同时提高城市居民的生活品质。

Description

基于车路协同及强化学习的环卫机器人车调度方法及系统
技术领域
本发明属于车路协同领域,尤其涉及基于车路协同及强化学习的环卫机器人车调度方法及系统。
背景技术
现代城市的环卫工作已经离不开机器人的帮助。相比传统的手工清扫,机器人可以高效、快速、准确地完成环卫任务,而且无需人力参与,可以避免环卫工人在垃圾清理中的健康危险。
然而,现有的环卫机器人车调度系统存在一些问题。一方面,由于机器人的运行轨迹受到道路情况、车流、人流等多种因素的影响,难以实现最优路径的规划和调度。另一方面,由于环卫机器人车的数量有限,无法覆盖城市的所有区域。因此,需要一种基于车路协同及强化学习的环卫机器人车调度系统及方法,能够实现智能化的调度和路径规划,提高机器人车的覆盖率和环卫效率。
发明内容
本发明的目的是提出一种基于物联网系统和强化学习的车间生产方法,使用物联网设备收集实时生产数据,并结合多模态数据进行强化学习来实现一个多目标的柔性车间生产调度方法。
为了达到上述目的,在本发明的第一方面提供了基于车路协同及强化学习的环卫机器人车调度方法,所述方法包括:
S1、对环卫机器人车通信进行部署,通过基于车载自组织网络的通信网络实现车辆间的数据传输和通信;
S2、通过路况感知装置获取路况数据和利用传感器对环卫机器人车周围的环境进行实时感知和数据采集;
S3、采用改进的分层双重DQN算法,利用已有的数据,不断优化环卫机器人车的路径规划和调度策略;
S4、实时交换环卫机器人车与道路基础设施之间的信息;
S5、建立监控管理平台;
S6、对系统进行测试和评估。
进一步地,所述步骤S1中进行部署的具体步骤为:
S101、根据城市区域的实际情况将环卫机器人车分布在各个区域,采用聚类算法对城市区域进行划分,实现合理的车辆部署;
S102、每辆环卫机器人车配备一个基于车载自组织网络通信的基于车载自组织网络的通信网络,所述基于车载自组织网络的通信网络支持DSRC协议;
S103、车辆部署时,采用基于图论的遍历算法生成初始的清扫路径,在后续的强化学习过程中,路径将不断优化。
进一步地,所述路况信息包括但不限于车流、人流、环境温度和湿度;所述数据包括但不限于路面垃圾和落叶的数量、位置和大小;
所述步骤S2的具体步骤为:
S201、部署摄像头和激光雷达传感器,用于实时感知车辆周围的环境;
S202、通过车载气象传感器获取环境温度、湿度等信息;
S203、采用基于深度学习的目标检测算法对于路面垃圾和落叶的检测;
S204、利用车载GPS模块实时获取环卫机器人车的位置信息,通过地图匹配算法将位置信息映射到道路网络上;
S205、将收集到的路况数据进行数据融合,采用贝叶斯滤波器对数据进行融合和滤波。
进一步地,所述目标检测算法的损失函数的表达如下:
其中,和/>是指示函数,表示第i个边界框是否包含目标,表示当第i个边界框负责预测某个物体时,值为1,否则为0;/>表示当第i个边界框不负责预测任何物体时,值为1,否则为0;x_i、y_i、w_i和h_i分别表示边界框的中心坐标的x轴坐标、y轴坐标、宽度和高度;/>和/>分别表示预测边界框的中心坐标x轴坐标、y轴坐标、宽度和高度;C_i和/>分别表示边界框的置信度和预测置信度;p_ij和/>分别表示第i个边界框中第j类目标的概率和预测概率;λ_coord和λ_size分别表示坐标和尺寸损失的权重;λ_noobj表示无目标损失的权重;sqrt(w_i)表示真实边界框的宽度的平方根;/>表示预测边界框的宽度的平方根;sqrt(h_i)表示真实边界框的高度的平方根;/>表示预测边界框的高度的平方根;j代表类别的索引,classes表示所有可能的类别总数。
进一步地,所述步骤S3的具体步骤为:
S301、状态表示;
将路况感知数据和环卫机器人车感知数据作为输入,构建状态表示。状态包括环卫机器人车当前位置、周围路况、周围环境的垃圾和落叶数量;
S302、动作表示;
将环卫机器人车采取的动作进行编码表示,建立动作空间;
S303、奖励函数设计;
S304、环境建模;
对道路、行人、车辆和建筑物建模,采用三维激光雷达等传感器进行数据采集,并利用计算机视觉技术进行数据处理和建模;
S305、状态表示;
将环境建模的结果进行编码表示,建立状态空间,所述状态包含环卫机器人车当前的位置、速度和方向,同时还包括周围环境的信息,状态的编码表示需要保证它们的有效性和区分性;
S306、策略搜索;
采用分层双重DQN算法在状态空间中搜索最优的决策策略,以使得环卫机器人车在执行任务的过程中最大化奖励函数。
进一步地,所述分层双重DQN算法包括高层策略网络和低层策略网络;
所述高层策略网络用于学习环卫机器人车在不同情境下应该采取的子任务策略,输入是状态特征,输出是子任务策略;所述高层策略网络由多层神经网络组成,包括卷积层和全连接层;
所述低层策略网络用于针对每个子任务学习具体的操作策略,所述低层策略网络采用双重DQN结构,包括在线网络和目标网络;
所述分层双重DQN算法的具体步骤为:
在仿真环境中,环卫机器人车执行子任务,记录状态、动作、奖励和下一状态;
使用经验回放存储训练数据,并从中随机抽取一批数据;
更新低层策略网络;
使用在线网络计算当前状态下每个动作的Q值,然后使用目标网络计算下一状态的Q值,计算目标Q值和实际Q值之间的平方误差损失,并使用随机梯度下降法更新网络参数;
更新高层策略网络;
根据低层策略网络学到的子任务策略,计算累积奖励,然后使用梯度下降法更新高层策略网络参数;
所述分层双重DQN算法的数学表达形式如下:
低层策略网络的目标值计算Q'(s,a):
Q'(s,a)=r(s,a)+γ*max(Q'(s',a';ψ'))
其中Q'(s,a)是在状态s采取动作a时的估计值,r(s,a)是当前状态和动作对应的奖励,γ是折扣因子,max(Q'(s',a';ψ'))是下一状态s'中最大可能的估计值;
低层策略网络的平方误差损失:
L(ψ)=E[(Q(s,a;ψ)-Q'(s,a))^2]
其中L(ψ)是平方误差损失,E[]表示期望值;
梯度下降法更新低层策略网络参数ψ:
其中α是学习率,是关于低层策略网络参数ψ的损失函数的梯度
高层策略网络的奖励函数:
R(s,p)=∑_(t=0)^Tγ^t*r_t(s_t,a_t,p)
其中R(s,p)是在状态s下采取子任务策略p时的累积奖励,T是任务执行的时间步数,γ是折扣因子;
梯度下降法更新高层策略网络参数:
其中β是学习率,是关于高层策略参数/>的奖励函数的梯度。
进一步地,所述步骤S4的具体步骤为:
S401、路侧单元部署;
在道路基础设施上部署路侧单元,并通过基于车载自组织网络的通信网络实现与环卫机器人车之间的数据传输和通信;
S402、车路通信;
环卫机器人车与路侧单元之间通过无线通信协议实现实时数据交换,所述环卫机器人车获取到实时路况信息,并将自身状态信息发送给路侧单元;
S403、车路协同决策;
在强化学习路径规划中,将车路协同数据整合到状态表示和环境建模中。
进一步地,所述步骤S5的具体步骤为:
S501、监控管理平台搭建;
S502、数据采集与上传;
S503、数据展示与分析;
S504、远程控制与调度;
S505、数据挖掘与优化。
进一步地,所述步骤S6的具体步骤包括模拟测试、实地测试和系统评估。
在本发明的第二方面提供了基于车路协同及强化学习的环卫机器人车调度系统,所述系统包括车辆部署模块、路况感知模块、强化学习路径规划模块、车路协同模块、监管与管理模块和测试与评估模块;
所述车辆部署模块用于将多辆环卫机器人车部署在城市的不同区域,并通过基于车载自组织网络的通信网络实现车辆间的数据传输和通信;
所述路况感知模块用于通过多种传感器获取路况数据,并采用数据融合技术实现对环境的准确感知;
所述强化学习路径规划模块采用用于不断优化环卫机器人车的路径规划和调度策略;
所述车路协同模块用于实时交换环卫机器人车与道路基础设施之间的信息;
所述监管与管理模块用于实现对环卫机器人车的远程监控与管理;
所述测试与评估模块用于对系统进行测试与评估。
本发明的有益技术效果至少在于以下几点:
(1)通过路况感知的操作可以实现对环卫机器人车周围环境的实时感知和数据采集,为后续的路径规划和清洁任务分配提供依据。同时,这些数据还可以用于环卫机器人车的强化学习,使其在完成清洁任务的过程中不断优化性能。
(2)通过采用HD-DQN算法,可以快速高效地搜索到最优的决策策略,使得机器人车在执行任务的过程中能够最大化奖励函数,完成清扫任务。
(3)引入了车路协同的概念,通过实时交换环卫机器人车与道路基础设施之间的信息,以实现更智能、更安全、更高效的调度和路径规划。
(4)本发明的应用可以帮助现代城市提高环卫效率,减少环境污染,降低人力成本,同时提高城市居民的生活品质。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1为本发明流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
实施例一
在一个或多个实施方式中,如图1所示,公开了一种基于车路协同及强化学习的环卫机器人车调度方法,方法具体包括:
S1、对环卫机器人车通信进行部署,通过基于车载自组织网络的通信网络实现车辆间的数据传输和通信,基于车载自组织网络的通信网络是一种特殊的移动自组织网络,用于车辆之间的通信。
具体包括以下子步骤:
S101、根据城市区域的实际情况将环卫机器人车分布在各个区域,采用聚类算法对城市区域进行划分,实现合理的车辆部署;
具体地,实际情况指的是人口密度、道路结构、清洁需求等因素;类聚算法指的是K-means或DBSCAN。
S102、每辆环卫机器人车配备一个基于车载自组织网络通信的基于车载自组织网络的通信网络,所述基于车载自组织网络的通信网络支持DSRC协议;DSRC协议是一种短距离无线通信技术,专门用于车辆通信。基于车载自组织网络的通信网络通过DSRC协议实现车辆间的数据传输和通信。
S103、车辆部署时,采用基于图论的遍历算法生成初始的清扫路径,在后续的强化学习过程中,路径将不断优化。
具体地,基于图论的遍历算法可以是Dijkstra或A*算法。
S2、通过路况感知装置获取路况数据,包括车流、人流、环境温度、湿度等信息,和利用传感器对环卫机器人车周围的环境进行实时感知和数据采集,获取路面垃圾和落叶的数量、位置和大小等信息。
路况感知模块通过多种传感器获取路况数据,并采用数据融合技术实现对环境的准确感知。以下是完善的路况感知步骤:
S201、部署摄像头和激光雷达传感器,用于实时感知车辆周围的环境,像头可以识别道路标志、车辆、行人等,而激光雷达可以提供高精度的距离和速度信息。
S202、通过车载气象传感器获取环境温度、湿度等信息,这些信息对于判断清洁任务的难易程度和优先级具有重要意义。
S203、采用基于深度学习的目标检测算法对于路面垃圾和落叶的检测,其中,基于深度学习的目标检测算法可以是YOLO(You Only Look Once)或Faster R-CNN。这些算法可以从摄像头图像中识别垃圾和落叶,同时给出其位置和大小信息。目标检测算法的损失函数如下:
目标检测算法的损失函数的表达如下:
其中,和/>是指示函数,表示第i个边界框是否包含目标,表示当第i个边界框负责预测某个物体时,值为1,否则为0;/>表示当第i个边界框不负责预测任何物体时,值为1,否则为0;x_i、y_i、w_i和h_i分别表示边界框的中心坐标的x轴坐标、y轴坐标、宽度和高度;/>和/>分别表示预测边界框的中心坐标x轴坐标、y轴坐标、宽度和高度;C_i和/>分别表示边界框的置信度和预测置信度;p_ij和/>分别表示第i个边界框中第j类目标的概率和预测概率;λ_coord和λ_size分别表示坐标和尺寸损失的权重;λ_noobj表示无目标损失的权重;sqrt(w_i)表示真实边界框的宽度的平方根;/>表示预测边界框的宽度的平方根;sqrt(h_i)表示真实边界框的高度的平方根;/>表示预测边界框的高度的平方根;j代表类别的索引,classes表示所有可能的类别总数。
具体的,一个指示函数,当第i个边界框负责预测某个物体时,其值为1;否则为0。这意味着如果边界框i与某个真实物体具有最高的IoU(交并比),则/>为1。
一个指示函数,当第i个边界框不负责预测任何物体时,其值为1;否则为0。这意味着如果边界框i与任何真实物体的IoU都较低,则/>为1。
S204、利用车载GPS模块实时获取环卫机器人车的位置信息,通过地图匹配算法将位置信息映射到道路网络上。
S205、将收集到的路况数据进行数据融合,采用贝叶斯滤波器(如卡尔曼滤波器或粒子滤波器)对数据进行融合和滤波,以提高感知的准确性和鲁棒性。
通过步骤S2的步骤,我们可以实现对环卫机器人车周围环境的实时感知和数据采集,为后续的路径规划和清洁任务分配提供依据。同时,这些数据还可以用于环卫机器人车的强化学习,使其在完成清洁任务的过程中不断优化性能。
S3、采用改进的分层双重DQN算法,利用已有的数据,不断优化环卫机器人车的路径规划和调度策略;
具体包括以下子步骤:
S301、状态表示;
将路况感知数据和环卫机器人车感知数据作为输入,构建状态表示。状态包括机器人车当前位置、周围路况、周围环境的垃圾和落叶数量等信息;
S302、动作表示;
将环卫机器人车采取的动作进行编码表示,建立动作空间;。常用的动作编码方式包括向前、向后、左转、右转、停止等。同时,还可以设计一些特殊动作,如加速、减速、躲避障碍物、等待人行横过马路等。动作的编码表示需要保证它们的有效性,且不能存在冲突。
S303、奖励函数设计;
奖励函数是强化学习中非常关键的一个环节。通过奖励函数的设计,可以使机器人车更好地完成任务,并在任务中不断学习和提高;具体地,在本发明中,设计奖励函数还需要考虑以下的因素:
A、清扫效率:奖励机器人车在规定时间内清扫的垃圾和落叶的数量。
B、避免撞击:奖励机器人车避免与障碍物(如其他车辆、行人、建筑物等)发生碰撞。
C、节约成本:奖励机器人车尽可能地节约能量消耗和清扫成本,例如选择更短的路线或在人流较少的时间进行清扫。
D、时间效率:奖励机器人车在规定时间内清扫的面积和所用时间的比率。
E、交通状况:奖励机器人车根据实时的交通状况进行调度,避开交通高峰期和人流高峰期,以减少对交通和行人的影响。
S304、环境建模;
对道路、行人、车辆和建筑物建模,采用三维激光雷达等传感器进行数据采集,并利用计算机视觉技术进行数据处理和建模;
S305、状态表示;
将环境建模的结果进行编码表示,建立状态空间,所述状态包含环卫机器人车当前的位置、速度和方向,同时还包括周围环境的信息,如行人、车辆、建筑物等,状态的编码表示需要保证它们的有效性和区分性;
S306、策略搜索;
强化学习的核心就是在状态空间中搜索最优的决策策略,以使得机器人车在执行任务的过程中最大化奖励函数。在这个任务中,状态空间非常庞大,因为机器人车需要考虑到各种不同的路况、人流和车流情况,同时需要根据传感器数据和任务需求做出相应的决策。本发明采用分层双重DQN算法在状态空间中搜索最优的决策策略,以使得环卫机器人车在执行任务的过程中最大化奖励函数。
具体地,分层双重DQN算法合了分层强化学习和双重深度Q网络(Double DQN)的优势,包括高层策略网络和低层策略网络;
高层策略网络用于学习机器人车在不同情境下应该采取的子任务策略。输入是状态特征(包括路况、车流、人流等),输出是子任务策略。高层策略网络由多层神经网络组成,包括卷积层和全连接层;
低层策略网络用于针对每个子任务学习具体的操作策略。低层策略网络采用双重DQN结构,包括两个DQN网络(在线网络和目标网络),以减少过拟合现象,并提高策略学习的稳定性;
S306中,分层双重DQN算法的具体步骤为:
在仿真环境中,环卫机器人车执行子任务,记录状态、动作、奖励和下一状态;
使用经验回放存储训练数据,并从中随机抽取一批数据;
更新低层策略网络;
使用在线网络计算当前状态下每个动作的Q值,然后使用目标网络计算下一状态的Q值,计算目标Q值和实际Q值之间的平方误差损失,并使用随机梯度下降法更新网络参数;
更新高层策略网络;
根据低层策略网络学到的子任务策略,计算累积奖励,然后使用梯度下降法更新高层策略网络参数;
所述分层双重DQN算法的数学表达形式如下:
低层策略网络的目标值计算Q'(s,a):
Q'(s,a)=r(s,a)+γ*max(Q'(s',a';ψ'))
其中Q'(s,a)是在状态s采取动作a时的估计值,r(s,a)是当前状态和动作对应的奖励,γ是折扣因子,max(Q'(s',a';ψ'))是下一状态s'中最大可能的估计值;
低层策略网络的平方误差损失:
L(ψ)=E[(Q(s,a;ψ)-Q'(s,a))^2]
其中L(ψ)是平方误差损失,E[]表示期望值;
梯度下降法更新低层策略网络参数ψ:
其中α是学习率,是关于低层策略网络参数ψ的损失函数的梯度
高层策略网络的奖励函数:
R(s,p)=∑_(t=0)^Tγ^t*r_t(s_t,a_t,p)
其中R(s,p)是在状态s下采取子任务策略p时的累积奖励,T是任务执行的时间步数,γ是折扣因子;
梯度下降法更新高层策略网络参数:
其中β是学习率,是关于高层策略参数/>的奖励函数的梯度。
S4、实时交换环卫机器人车与道路基础设施之间的信息。为了提高环卫机器人车的调度效率和适应性,本发明还引入了车路协同的概念。车路协同是指通过实时交换环卫机器人车与道路基础设施之间的信息,以实现更智能、更安全、更高效的调度和路径规划。
具体包括一下子步骤:
S401、路侧单元部署:在道路基础设施(如交通信号灯、路牌等)上部署路侧单元(Road Side Unit,RSU),并通过基于车载自组织网络的通信网络实现与环卫机器人车之间的数据传输和通信。路侧单元可收集并提供交通信号灯状态、道路拥堵情况、道路施工等实时路况信息。
S402、车路通信;环卫机器人车与路侧单元之间通过无线通信协议(如DSRC、C-V2X等)实现实时数据交换。环卫机器人车可以获取到实时路况信息,并将自身状态信息(如位置、速度等)发送给路侧单元;
S403、车路协同决策:在强化学习路径规划中,将车路协同数据整合到状态表示和环境建模中。例如,可以将交通信号灯状态、道路拥堵情况等信息作为输入特征,以实现更智能的路径规划和调度决策。同时,环卫机器人车可以根据实时路况信息,自主调整速度和行驶路线,以避免拥堵路段和事故现场等。
S5、建立监控管理平台。
具体包括一下子步骤:
S501、监控管理平台搭建:搭建一个基于云计算和大数据技术的监控管理平台,用于实现对环卫机器人车的远程监控与管理。
S502、数据采集与上传:环卫机器人车通过通信模块将实时状态信息(如位置、速度、电池剩余电量等)上传至监控管理平台。
S503、数据展示与分析:监控管理平台将收集到的数据进行实时展示和分析,以便运营管理人员可以远程查看环卫机器人车的工作状态、实时位置等信息,并进行任务调度和异常处理。
S504、远程控制与调度:通过监控管理平台,运营管理人员可以远程对环卫机器人车进行控制和调度,如修改工作任务、更新路径规划、处理异常情况等。此外,运营管理人员还可以根据实时路况信息和环卫机器人车的工作状态,对调度策略进行优化,提高整体系统的效率和性能。
S505、数据挖掘与优化:通过对监控管理平台收集的大量数据进行挖掘和分析,可以发现环卫机器人车在任务执行过程中的潜在问题和改进空间。例如,可以通过数据分析发现某些区域的清扫效率较低、能耗较高等问题,从而对强化学习算法和调度策略进行优化,提高环卫机器人车的整体性能。
S6、对系统进行测试和评估,具体步骤包括模拟测试、实地测试和系统评估。
具体地,模拟测试:在仿真环境中,根据实际城市道路和环境条件搭建一个虚拟环境,用于测试和验证环卫机器人车的路径规划和调度策略。通过对比不同调度策略和算法的表现,评估本发明的性能。
实地测试:在实际城市环境中部署环卫机器人车和监控管理平台,进行实地测试。通过对比环卫机器人车在实际环境中的表现,验证本发明的可行性和实用性。
系统评估:对比本发明与现有环卫机器人车调度系统在清扫效率、覆盖率、成本节约等方面的表现,对本发明进行全面评估。
实施例二
在一个或多个实施方式中,公开了基于车路协同及强化学习的环卫机器人车调度系统,所述系统包括车辆部署模块、路况感知模块、强化学习路径规划模块、车路协同模块、监管与管理模块和测试与评估模块;
车辆部署模块用于将多辆环卫机器人车部署在城市的不同区域,并通过基于车载自组织网络的通信网络实现车辆间的数据传输和通信;
路况感知模块用于通过多种传感器获取路况数据,并采用数据融合技术实现对环境的准确感知;
强化学习路径规划模块采用用于不断优化环卫机器人车的路径规划和调度策略;
车路协同模块用于实时交换环卫机器人车与道路基础设施之间的信息;
监管与管理模块用于实现对环卫机器人车的远程监控与管理;
测试与评估模块用于对系统进行测试与评估。
上述各模块的具体实现方式参照实施例一中的方法实现,不再赘述。
综上所述,本发明实现了一种基于车路协同及强化学习的环卫机器人车调度系统及方法。本发明的应用可以帮助现代城市提高环卫效率,减少环境污染,降低人力成本,同时提高城市居民的生活品质。
尽管已经示出和描述了本发明的实施例,本领域技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形,本发明的范围由权利要求及其等同物限定。

Claims (8)

1.基于车路协同及强化学习的环卫机器人车调度方法,其特征在于,所述方法包括:
S1、对环卫机器人车通信进行部署,通过基于车载自组织网络的通信网络实现车辆间的数据传输和通信;
S2、通过路况感知装置获取路况数据和利用传感器对环卫机器人车周围的环境进行实时感知和数据采集;
S3、采用改进的分层双重DQN算法,利用已有的数据,不断优化环卫机器人车的路径规划和调度策略;
S4、实时交换环卫机器人车与道路基础设施之间的信息;
S5、建立监控管理平台;
S6、对系统进行测试和评估;
所述步骤S3的具体步骤为:
S301、状态表示;
将路况感知数据和环卫机器人车感知数据作为输入,构建状态表示;状态包括环卫机器人车当前位置、周围路况、周围环境的垃圾和落叶数量;
S302、动作表示;
将环卫机器人车采取的动作进行编码表示,建立动作空间;
S303、奖励函数设计;
S304、环境建模;
对道路、行人、车辆和建筑物建模,采用三维激光雷达传感器进行数据采集,并利用计算机视觉技术进行数据处理和建模;
S305、状态表示;
将环境建模的结果进行编码表示,建立状态空间,所述状态包含环卫机器人车当前的位置、速度和方向,同时还包括周围环境的信息,状态的编码表示需要保证它们的有效性和区分性;
S306、策略搜索;
采用分层双重DQN算法在状态空间中搜索最优的决策策略,以使得环卫机器人车在执行任务的过程中最大化奖励函数;
所述分层双重DQN算法包括高层策略网络和低层策略网络;
所述高层策略网络用于学习环卫机器人车在不同情境下应该采取的子任务策略,输入是状态特征,输出是子任务策略;所述高层策略网络由多层神经网络组成,包括卷积层和全连接层;
所述低层策略网络用于针对每个子任务学习具体的操作策略,所述低层策略网络采用双重DQN结构,包括在线网络和目标网络;
所述分层双重DQN算法的具体步骤为:
在仿真环境中,环卫机器人车执行子任务,记录状态、动作、奖励和下一状态;
使用经验回放存储训练数据,并从中随机抽取一批数据;
更新低层策略网络;
使用在线网络计算当前状态下每个动作的Q值,然后使用目标网络计算下一状态的Q值,计算目标Q值和实际Q值之间的平方误差损失,并使用随机梯度下降法更新网络参数;
更新高层策略网络;
根据低层策略网络学到的子任务策略,计算累积奖励,然后使用梯度下降法更新高层策略网络参数;
所述分层双重DQN算法的数学表达形式如下:
低层策略网络的目标值计算Q'(s,a):
Q'(s,a)=r(s,a)+γ*max(Q'(s',a';ψ'))
其中Q'(s,a)是在状态s采取动作a时的估计值,r(s,a)是当前状态和动作对应的奖励,γ是折扣因子,max(Q'(s',a';ψ'))是下一状态s'中最大可能的估计值;
低层策略网络的平方误差损失:
L(ψ)=E[(Q(s,a;ψ)-Q'(s,a))^2]
其中L(ψ)是平方误差损失,E[]表示期望值;
梯度下降法更新低层策略网络参数ψ:
其中α是学习率,是关于低层策略网络参数ψ的损失函数的梯度
高层策略网络的奖励函数:
R(s,p)=∑_(t=0)^Tγ^t*r_t(s_t,a_t,p)
其中R(s,p)是在状态s下采取子任务策略p时的累积奖励,T是任务执行的时间步数,γ是折扣因子;
梯度下降法更新高层策略网络参数:
其中β是学习率,是关于高层策略参数/>的奖励函数的梯度。
2.根据权利要求1所述的基于车路协同及强化学习的环卫机器人车调度方法,其特征在于,所述步骤S1中进行部署的具体步骤为:
S101、根据城市区域的实际情况将环卫机器人车分布在各个区域,采用聚类算法对城市区域进行划分,实现合理的车辆部署;
S102、每辆环卫机器人车配备一个基于车载自组织网络通信的基于车载自组织网络的通信网络,所述基于车载自组织网络的通信网络支持DSRC协议;
S103、车辆部署时,采用基于图论的遍历算法生成初始的清扫路径,在后续的强化学习过程中,路径将不断优化。
3.根据权利要求1所述的基于车路协同及强化学习的环卫机器人车调度方法,其特征在于,路况信息包括车流、人流、环境温度和湿度;所述数据包括路面垃圾和落叶的数量、位置和大小;
所述步骤S2的具体步骤为:
S201、部署摄像头和激光雷达传感器,用于实时感知车辆周围的环境;
S202、通过车载气象传感器获取环境温度、湿度信息;
S203、采用基于深度学习的目标检测算法对于路面垃圾和落叶的检测;
S204、利用车载GPS模块实时获取环卫机器人车的位置信息,通过地图匹配算法将位置信息映射到道路网络上;
S205、将收集到的路况数据进行数据融合,采用贝叶斯滤波器对数据进行融合和滤波。
4.根据权利要求3所述的基于车路协同及强化学习的环卫机器人车调度方法,其特征在于,所述目标检测算法的损失函数L(θ)的表达如下:
其中,和/>是指示函数,表示第i个边界框是否包含目标,/>表示当第i个边界框负责预测某个物体时,值为1,否则为0;/>表示当第i个边界框不负责预测任何物体时,值为1,否则为0;x_i、y_i、w_i和h_i分别表示边界框的中心坐标的x轴坐标、y轴坐标、宽度和高度;/>和/>分别表示预测边界框的中心坐标x轴坐标、y轴坐标、宽度和高度;C_i和/>分别表示边界框的置信度和预测置信度;p_ij和/>分别表示第i个边界框中第j类目标的概率和预测概率;λ_coord和λ_size分别表示坐标和尺寸损失的权重;λ_noobj表示无目标损失的权重;sqrt(w_i)表示真实边界框的宽度的平方根;/>表示预测边界框的宽度的平方根;sqrt(h_i)表示真实边界框的高度的平方根;/>表示预测边界框的高度的平方根;j代表类别的索引,classes表示所有可能的类别总数。
5.权利要求1所述的基于车路协同及强化学习的环卫机器人车调度方法,其特征在于,所述步骤S4的具体步骤为:
S401、路侧单元部署;
在道路基础设施上部署路侧单元,并通过基于车载自组织网络的通信网络实现与环卫机器人车之间的数据传输和通信;
S402、车路通信;
环卫机器人车与路侧单元之间通过无线通信协议实现实时数据交换,所述环卫机器人车获取到实时路况信息,并将自身状态信息发送给路侧单元;
S403、车路协同决策;
在强化学习路径规划中,将车路协同数据整合到状态表示和环境建模中。
6.权利要求1所述的基于车路协同及强化学习的环卫机器人车调度方法,其特征在于,所述步骤S5的具体步骤为:
S501、监控管理平台搭建;
S502、数据采集与上传;
S503、数据展示与分析;
S504、远程控制与调度;
S505、数据挖掘与优化。
7.权利要求1所述的基于车路协同及强化学习的环卫机器人车调度方法,其特征在于,所述步骤S6的具体步骤包括模拟测试、实地测试和系统评估。
8.基于车路协同及强化学习的环卫机器人车调度系统,其特征在于,所述系统包括车辆部署模块、路况感知模块、强化学习路径规划模块、车路协同模块、监管与管理模块和测试与评估模块;
所述车辆部署模块用于将多辆环卫机器人车部署在城市的不同区域,并通过基于车载自组织网络的通信网络实现车辆间的数据传输和通信;
所述路况感知模块用于通过多种传感器获取路况数据,并采用数据融合技术实现对环境的准确感知;
所述强化学习路径规划模块采用用于不断优化环卫机器人车的路径规划和调度策略;
所述车路协同模块用于实时交换环卫机器人车与道路基础设施之间的信息;
所述监管与管理模块用于实现对环卫机器人车的远程监控与管理;
所述测试与评估模块用于对系统进行测试与评估;
其中,所述强化学习路径规划模块执行的具体步骤为:
S301、状态表示;
将路况感知数据和环卫机器人车感知数据作为输入,构建状态表示;状态包括环卫机器人车当前位置、周围路况、周围环境的垃圾和落叶数量;
S302、动作表示;
将环卫机器人车采取的动作进行编码表示,建立动作空间;
S303、奖励函数设计;
S304、环境建模;
对道路、行人、车辆和建筑物建模,采用三维激光雷达传感器进行数据采集,并利用计算机视觉技术进行数据处理和建模;
S305、状态表示;
将环境建模的结果进行编码表示,建立状态空间,所述状态包含环卫机器人车当前的位置、速度和方向,同时还包括周围环境的信息,状态的编码表示需要保证它们的有效性和区分性;
S306、策略搜索;
采用分层双重DQN算法在状态空间中搜索最优的决策策略,以使得环卫机器人车在执行任务的过程中最大化奖励函数;
所述分层双重DQN算法包括高层策略网络和低层策略网络;
所述高层策略网络用于学习环卫机器人车在不同情境下应该采取的子任务策略,输入是状态特征,输出是子任务策略;所述高层策略网络由多层神经网络组成,包括卷积层和全连接层;
所述低层策略网络用于针对每个子任务学习具体的操作策略,所述低层策略网络采用双重DQN结构,包括在线网络和目标网络;
所述分层双重DQN算法的具体步骤为:
在仿真环境中,环卫机器人车执行子任务,记录状态、动作、奖励和下一状态;
使用经验回放存储训练数据,并从中随机抽取一批数据;
更新低层策略网络;
使用在线网络计算当前状态下每个动作的Q值,然后使用目标网络计算下一状态的Q值,计算目标Q值和实际Q值之间的平方误差损失,并使用随机梯度下降法更新网络参数;
更新高层策略网络;
根据低层策略网络学到的子任务策略,计算累积奖励,然后使用梯度下降法更新高层策略网络参数;
所述分层双重DQN算法的数学表达形式如下:
低层策略网络的目标值计算Q'(s,a):
Q'(s,a)=r(s,a)+γ*max(Q'(s',a';ψ'))
其中Q'(s,a)是在状态s采取动作a时的估计值,r(s,a)是当前状态和动作对应的奖励,γ是折扣因子,max(Q'(s',a';ψ'))是下一状态s'中最大可能的估计值;
低层策略网络的平方误差损失:
L(ψ)=E[(Q(s,a;ψ)-Q'(s,a))^2]
其中L(ψ)是平方误差损失,E[]表示期望值;
梯度下降法更新低层策略网络参数ψ:
其中α是学习率,是关于低层策略网络参数ψ的损失函数的梯度
高层策略网络的奖励函数:
R(s,p)=∑_(t=0)^Tγ^t*r_t(s_t,a_t,p)
其中R(s,p)是在状态s下采取子任务策略p时的累积奖励,T是任务执行的时间步数,γ是折扣因子;
梯度下降法更新高层策略网络参数:
其中β是学习率,是关于高层策略参数/>的奖励函数的梯度。
CN202310443604.2A 2023-04-23 2023-04-23 基于车路协同及强化学习的环卫机器人车调度方法及系统 Active CN116611635B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310443604.2A CN116611635B (zh) 2023-04-23 2023-04-23 基于车路协同及强化学习的环卫机器人车调度方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310443604.2A CN116611635B (zh) 2023-04-23 2023-04-23 基于车路协同及强化学习的环卫机器人车调度方法及系统

Publications (2)

Publication Number Publication Date
CN116611635A CN116611635A (zh) 2023-08-18
CN116611635B true CN116611635B (zh) 2024-01-30

Family

ID=87675520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310443604.2A Active CN116611635B (zh) 2023-04-23 2023-04-23 基于车路协同及强化学习的环卫机器人车调度方法及系统

Country Status (1)

Country Link
CN (1) CN116611635B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118316968B (zh) * 2024-06-07 2024-08-27 湖北省楚天云有限公司 基于车路协同的微服务部署方法、系统、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112327821A (zh) * 2020-07-08 2021-02-05 东莞市均谊视觉科技有限公司 一种基于深度强化学习的智能清洁机器人路径规划方法
CN113098007A (zh) * 2021-04-25 2021-07-09 山东大学 基于分层强化学习的微电网分布式在线调度方法及系统
CN113190039A (zh) * 2021-04-27 2021-07-30 大连理工大学 一种基于分层深度强化学习的无人机采集路径规划方法
CN114074680A (zh) * 2020-08-11 2022-02-22 湖南大学 基于深度强化学习的车辆换道行为决策方法及系统
CN114153213A (zh) * 2021-12-01 2022-03-08 吉林大学 一种基于路径规划的深度强化学习智能车行为决策方法
CN114489059A (zh) * 2022-01-13 2022-05-13 沈阳建筑大学 基于d3qn-per移动机器人路径规划方法
CN115082845A (zh) * 2022-04-26 2022-09-20 北京理工大学 一种基于深度强化学习的监控视频目标检测任务调度方法
CN115145281A (zh) * 2022-07-19 2022-10-04 江苏大学 复杂路口下基于多智能体联邦强化学习的车路协同控制系统及方法
CN115866610A (zh) * 2021-09-23 2023-03-28 英特尔公司 基于强化学习(rl)和图神经网络(gnn)的无线接入网资源管理

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112327821A (zh) * 2020-07-08 2021-02-05 东莞市均谊视觉科技有限公司 一种基于深度强化学习的智能清洁机器人路径规划方法
CN114074680A (zh) * 2020-08-11 2022-02-22 湖南大学 基于深度强化学习的车辆换道行为决策方法及系统
CN113098007A (zh) * 2021-04-25 2021-07-09 山东大学 基于分层强化学习的微电网分布式在线调度方法及系统
CN113190039A (zh) * 2021-04-27 2021-07-30 大连理工大学 一种基于分层深度强化学习的无人机采集路径规划方法
CN115866610A (zh) * 2021-09-23 2023-03-28 英特尔公司 基于强化学习(rl)和图神经网络(gnn)的无线接入网资源管理
CN114153213A (zh) * 2021-12-01 2022-03-08 吉林大学 一种基于路径规划的深度强化学习智能车行为决策方法
CN114489059A (zh) * 2022-01-13 2022-05-13 沈阳建筑大学 基于d3qn-per移动机器人路径规划方法
CN115082845A (zh) * 2022-04-26 2022-09-20 北京理工大学 一种基于深度强化学习的监控视频目标检测任务调度方法
CN115145281A (zh) * 2022-07-19 2022-10-04 江苏大学 复杂路口下基于多智能体联邦强化学习的车路协同控制系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘冠男 ; 曲金铭 ; 李小琳 ; 吴俊杰 ; .基于深度强化学习的救护车动态重定位调度研究.管理科学学报.2020,(第02期),全文. *
李辉 ; 祁宇明 ; .一种复杂环境下基于深度强化学习的机器人路径规划方法.计算机应用研究.2020,(第S1期),全文. *
祁文凯 ; 桑国明 ; .基于延迟策略的最大熵优势演员评论家算法.小型微型计算机系统.2020,(第08期),全文. *

Also Published As

Publication number Publication date
CN116611635A (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN111292540B (zh) 用于求取确定的状态信息的方法、控制装置和系统
Aslani et al. Traffic signal optimization through discrete and continuous reinforcement learning with robustness analysis in downtown Tehran
CN107507430B (zh) 一种城市路口交通控制方法及系统
CN116611635B (zh) 基于车路协同及强化学习的环卫机器人车调度方法及系统
JP2024521538A (ja) 交通予測のための分散マルチタスク機械学習
Al-Turjman et al. Overview of IoT solutions for sustainable transportation systems
CN116524720A (zh) 一种基于5g技术的一体化车联网智慧交通管理控制系统
Miao et al. Highly Automated Electric Vehicle (HAEV)-based mobility-on-demand system modeling and optimization framework in restricted geographical areas
Orfanou et al. Humanizing autonomous vehicle driving: Understanding, modeling and impact assessment
Patil A Review of Connected and Automated Vehicle Traffic Flow Models for Next-Generation Intelligent Transportation Systems
Lodhia et al. An Investigation into the Recent Developments in Intelligent Transport System
Dasgupta et al. Harnessing Digital Twin Technology for Adaptive Traffic Signal Control: Improving Signalized Intersection Performance and User Satisfaction
CN115909716A (zh) 基于网联云控平台的交通路口调度系统、方法及设备
CN118098000B (zh) 一种基于人工智能的城市综合管理方法
CN113276863B (zh) 车辆控制方法、装置、设备、介质及程序产品
Petrou AI-Driven Systems for Autonomous Vehicle Traffic Flow Optimization and Control
CN117270913B (zh) 地图更新方法、装置、电子设备和存储介质
CN118095527B (zh) 轨道交通运维方法、装置、设备及存储介质
Asif et al. A case study on traffic congestion control system using data mining and machine learning applications
Shi et al. Traffic flow prediction model of urban traffic congestion period based on internet of vehicles technology
US20230367380A1 (en) Methods, systems, and media for traffic management in smart city based on internet of things
Qu Research on Optimization Algorithm for Urban Traffic Flow Based on Computer Simulation
Mukhopadhyay Machine Learning for Autonomous Vehicle Traffic Congestion Prediction and Mitigation
Li et al. A Study of the Application and Impact of Artificial Intelligence in Intelligent Transport Systems
CN117010154A (zh) 一种自动驾驶传感器仿真置信度评估方法、系统及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant