CN116429137A - 用于清扫装置的遍历路径生成方法及设备 - Google Patents

用于清扫装置的遍历路径生成方法及设备 Download PDF

Info

Publication number
CN116429137A
CN116429137A CN202310286809.4A CN202310286809A CN116429137A CN 116429137 A CN116429137 A CN 116429137A CN 202310286809 A CN202310286809 A CN 202310286809A CN 116429137 A CN116429137 A CN 116429137A
Authority
CN
China
Prior art keywords
cleaning device
action
state
data
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310286809.4A
Other languages
English (en)
Inventor
刘海全
高帆
黄跃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhierxing Technology Co ltd
Original Assignee
Shanghai Zhierxing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhierxing Technology Co ltd filed Critical Shanghai Zhierxing Technology Co ltd
Priority to CN202310286809.4A priority Critical patent/CN116429137A/zh
Publication of CN116429137A publication Critical patent/CN116429137A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/3407Route searching; Route guidance specially adapted for specific applications
    • G01C21/343Calculating itineraries, i.e. routes leading from a starting point to a series of categorical destinations using a global route restraint, round trips, touristic trips
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/38Electronic maps specially adapted for navigation; Updating thereof
    • G01C21/3804Creation or updating of map data
    • G01C21/3807Creation or updating of map data characterised by the type of data
    • G01C21/3811Point data, e.g. Point of Interest [POI]
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/38Electronic maps specially adapted for navigation; Updating thereof
    • G01C21/3804Creation or updating of map data
    • G01C21/3859Differential updating map data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请提供一种用于清扫装置的遍历路径生成方法及设备,应用于计算机智能计算及自动化清扫作业技术领域。方法包括:根据栅格地图、状态数据和运动约束,得到更新环境状态;根据遍历效果和运动约束,得到奖励数据;将更新环境状态输入策略网络,得到下一步动作和遍历路径;将移动动作、更新环境状态和奖励数据输入到动作价值网络,并将动作价值网络输出的动作价值输出到策略网络中进行训练。生成遍历路径时,将每个时刻的环境状态输入策略网络,输出下一时刻的动作,即可获取下一时刻所在栅格位置和新的环境状态,循环迭代至终止条件满足,生成遍历路径,将其转换至世界坐标系。解决现有的遍历路径生成方法难以满足复杂多样的应用场景的问题。

Description

用于清扫装置的遍历路径生成方法及设备
技术领域
本申请涉及计算机智能计算及自动化清扫作业技术领域,具体涉及一种用于清扫装置的遍历路径生成方法及设备。
背景技术
遍历清扫是清扫装置的常见功能需求,广泛存在于各类清扫装置和作业场景,如各类扫地机器人以及厂区/园区清扫车。人工遍历清扫需要消耗大量重复性人力劳动,且部分清扫作业需要在危险或有害健康的环境(如有害气体、粉尘等)下进行,以及无人化商业清扫(如家用/商用扫地机器人)的逐步流行,自动化遍历清扫功能越来越受到重视。
但是,在某些应用场景(如可变范围的室外清扫,或布置各异的多个室内清扫)中,虽然目标区域已知,但由于其多样性和复杂性,区域形状和障碍物分布不规范,目前的自动化遍历清扫基于经验和逻辑的路线生成难以满足遍历清扫区域的需求。
因此,自动化遍历清扫需要一种新的生成遍历路径的技术方案。
发明内容
有鉴于此,本说明书实施例提供一种用于清扫装置的遍历路径生成方法及设备,以解决现有技术中的遍历路径生成方法难以满足复杂多样的应用场景的问题。
本说明书实施例提供以下技术方案:
本说明书实施例提供一种用于清扫装置的遍历路径生成方法,包括:
对待遍历区域的点云地图进行栅格化处理,得到待遍历区域的栅格地图;
根据栅格地图、清扫装置的状态数据和清扫装置的运动约束,得到清扫装置执行移动动作后的更新环境状态,状态数据表征清扫装置的位置数据和姿态数据,移动动作是清扫装置执行上一步动作后得到的;
根据预设的遍历效果和运动约束,得到清扫装置执行移动动作后的奖励数据;
将更新环境状态输入策略网络,得到策略网络输出的清扫装置的下一步动作和遍历路径,以使清扫装置根据下一步动作进行移动;
将移动动作、更新环境状态和奖励数据输入到动作价值网络,得到动作价值网络输出的动作价值,并将动作价值输出到策略网络中对策略网络进行训练。
在一种优选的实施方式中,运动约束包括:完整运动约束和非完整运动约束。
在一种优选的实施方式中,栅格地图包括离线栅格地图。
在一种优选的实施方式中,根据栅格地图、清扫装置的状态数据和清扫装置的运动约束,得到清扫装置执行移动动作后的更新环境状态,包括:
根据栅格地图和清扫装置的状态数据,得到清扫装置的初始环境状态,初始环境状态表示当前时刻栅格地图中的栅格状态和清扫装置在栅格地图中的状态数据;
根据运动约束设置清扫装置的动作函数,并根据初始环境状态和动作函数,得到清扫装置执行移动动作后的更新环境状态,动作函数表征清扫装置在栅格地图中的移动数据。
在一种优选的实施方式中,根据运动约束设置清扫装置的动作函数,并根据初始环境状态和动作函数,得到清扫装置执行移动动作后的更新环境状态,包括:
根据运动约束设置清扫装置的动作函数;
根据初始环境状态和动作函数,设置清扫装置的状态转移函数,状态转移函数表征清扫装置移动之后环境状态的变化;
根据状态转移函数得到更新环境状态。
在一种优选的实施方式中,将更新环境状态输入策略网络,得到策略网络输出的清扫装置的下一步动作和遍历路径,包括:
将更新环境状态输入策略网络,生成清扫装置下一步的动作的概率分布,并根据概率分布,确定清扫装置的下一步动作,循环迭代,直到终止条件满足,得到遍历路径。
在一种优选的实施方式中,终止条件包括:
遍历路径对栅格地图的覆盖度大于第一预设阈值;
或者,
遍历路径的长度大于第二预设阈值,且覆盖度的增加量小于第三预设阈值。
在一种优选的实施方式中,还包括:
通过多张栅格地图对策略网络和动作价值网络中的参数,基于学习率进行更新,直到奖励数据的变化小于第四预设阈值。
在一种优选的实施方式中,对待遍历区域的点云地图进行栅格化处理,得到待遍历区域的栅格地图,包括:
预先采集包含潜在遍历区域的离线点云地图;
对潜在遍历区域进行区域采样,生成多个待遍历区域;
对多个待遍历区域的点云地图进行栅格化处理,得到多个待遍历区域的栅格地图。
本说明书实施例还提供一种用于清扫装置的遍历路径生成设备,包括:
栅格单元:对待遍历区域的点云地图进行栅格化处理,得到待遍历区域的栅格地图;
状态更新单元:根据栅格地图、清扫装置的状态数据和清扫装置的运动约束,得到清扫装置执行移动动作后的更新环境状态,状态数据表征清扫装置的位置数据和姿态数据,移动动作是清扫装置执行上一步动作后得到的;
奖励生成单元:根据预设的遍历效果和运动约束,得到清扫装置执行移动动作后的奖励数据;
动作生成单元:将更新环境状态输入策略网络,得到策略网络输出的清扫装置的下一步动作和遍历路径,以使清扫装置根据下一步动作进行移动;
训练单元:将移动动作、更新环境状态和奖励数据输入到动作价值网络,得到动作价值网络输出的动作价值,并将动作价值输出到策略网络中对策略网络进行训练。
本说明书实施例还提供一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述的用于清扫装置的遍历路径生成方法。
本说明书实施例还提供一种计算机存储介质,计算机存储介质存储有计算机可执行指令,计算机可执行指令被处理器执行时执行上述的用于清扫装置的遍历路径生成方法。
与现有技术相比,本说明书实施例采用的上述至少一个技术方案能够达到的有益效果至少包括:
通过对环境和奖励的设置,应对不同场景形状、不同障碍物分布的目标区域;
通过动作函数和奖励的设置,应用于存在运动约束的非完整运动系统(如作业车辆)等,例如在遍历过程中不能进行倒车、转向时存在转弯半径等;
使用栅格地图数据进行离线训练,获得模型后可以在实际场景中直接推理生成遍历路线、无需在线迭代计算;
可对陌生的目标区域进行遍历路径规划,如遇到已有模型难以有效完成遍历的难例目标区域,也可针对难例进行专门训练、提升模型对该目标区域的遍历性能;
可通过对模型的设置,实现不同效果的遍历路线,可兼顾遍历覆盖度、行驶里程、路线圆滑度等,并有效避免与离线地图中障碍物的碰撞;
可通过合理的模型选择,在遍历区域的增加的同时,模型进行自我迭代升级,获得更加泛化的遍历路线规划能力。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本申请实施例提供的一种用于清扫装置的遍历路径生成方法的流程示意图;
图2是本申请实施例提供的一种策略网络和动作价值网络组成的强化学习模型的结构示意图;
图3是本申请实施例提供的一种可行的动作价值网络的结构示意图;
图4是本申请实施例提供的一种可行的策略网络的结构示意图。
具体实施方式
下面结合附图对本申请实施例进行详细描述。
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本申请,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目和方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本申请的基本构想,图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践。
目前,自动化遍历清扫在路径遍历方法方面已有较多研究和应用,如对环境基于人工逻辑或障碍物统计信息进行分区后执行往返规划、基于生成树的遍历规划等方法。
但是,上述方法应用在自动化遍历清扫场景中,仍有以下不足:第一,目前的路径遍历方法多基于有限区域的遍历清扫,无法灵活应对复杂多样的清扫区域设置;第二,目前的路径遍历方法多应用于完整运动系统(如可原地转向的扫地机器人),较少考虑非完整运动系统中的运动约束(如部分轮式清扫作业车辆转向系统,无法在后退时执行有效清扫,且无法跟踪较小转弯半径的路线);第三,目前的路径遍历方法很少采用数据驱动学习的方式进行离线模型训练,大多需要在线模型迭代计算,随着清扫场景的增多,难以对模型参数进行升级,模型能力不会虽清扫场景的增多而增强。
基于上述问题,本申请提出了一种处理方案:基于离线建立的栅格地图,考虑清扫目标与清扫装置的物理约束,使用强化学习的方法训练模型,对遍历路径进行自动化生成,以应对多类型、多范围的目标区域清扫,极大减轻人工设计清扫路线的工作,提高了清扫装置的清扫效率与智能化水平。
以下结合附图,说明本申请各实施例提供的技术方案。
图1是本申请实施例提供的一种用于清扫装置的遍历路径生成方法的流程示意图,如图1所示,本说明书实施例提供一种用于清扫装置的遍历路径生成方法,包括:
步骤S1:对待遍历区域的点云地图进行栅格化处理,得到待遍历区域的栅格地图。
在一种可选的实施方式中,对待遍历区域的点云地图进行栅格化处理,得到待遍历区域的栅格地图,包括:首先,预先采集包含潜在遍历区域的离线点云地图;然后,对潜在遍历区域进行区域采样,生成多个待遍历区域;最后,对多个待遍历区域的点云地图进行栅格化处理,得到多个待遍历区域的栅格地图。
在本说明书实施例中栅格地图包括离线栅格地图,可以通过多个离线栅格地图对本申请中使用的神经网络进行训练,对于复杂场景的离线栅格地图也可以通过本申请进行训练,并更新参数,使生成的遍历路径,可以应对不同的场景,提高清扫装置的遍历性能。
具体地,预先采集包含潜在遍历区域的大范围离线点云地图,并对其进行区域采样,生成多个待遍历区域;处理待遍历区域的点云地图,生成栅格地图。
步骤S2:根据栅格地图、清扫装置的状态数据和清扫装置的运动约束,得到清扫装置执行移动动作后的更新环境状态。
其中,清扫装置的状态数据表征清扫装置的位置数据和姿态数据,移动动作是清扫装置执行上一步动作后得到的。
在一种可选的实施方式中,清扫装置的位置数据可以表示清扫装置在栅格地图中的栅格位置的二维索引,清扫装置的姿态数据可以表示清扫装置的行驶方向,可以通过清扫装置当前时刻所在的位置与n个时刻前所在的位置的连线的向量夹角得到,其中,n表示整数。
在本申请实施例中考虑到非完整运动系统中的运动约束,运动约束包括:完整运动约束和非完整运动约束。例如,部分轮式清扫作业车辆,无法在后退时执行有效清扫,且部分轮式清扫作业车辆的转向系统无法跟踪较小转弯半径的路线。
在本申请实施例中清扫装置执行上一步动作,即移动后,得到即将执行的移动动作。清扫装置在执行任意一个动作后,所处的环境状态会发生变化,在本申请中对清扫装置所处的环境状态进行实时更新。
在一种优选的实施方式中,根据栅格地图、清扫装置的状态数据和清扫装置的运动约束,得到清扫装置执行移动动作后的更新环境状态,包括:根据栅格地图和清扫装置的状态数据,得到清扫装置的初始环境状态;根据运动约束设置清扫装置的动作函数,并根据初始环境状态和动作函数,得到清扫装置执行移动动作后的更新环境状态。
其中,初始环境状态表示当前时刻栅格地图中的栅格状态和清扫装置在栅格地图中的状态数据;动作函数表征清扫装置在栅格地图中的移动数据,即表示清扫装置在栅格地图中的移动方向和在每个移动方向上移动的距离。
在一种可选的实施方式中,根据运动约束设置清扫装置的动作函数,并根据初始环境状态和动作函数,得到清扫装置执行移动动作后的更新环境状态,包括:根据运动约束设置清扫装置的动作函数;根据初始环境状态和动作函数,设置清扫装置的状态转移函数,状态转移函数表征清扫装置移动之后环境状态的变化;根据状态转移函数得到更新环境状态。
具体地,在本申请实施例中可以通过初始环境状态和动作函数,得到清扫装置的状态转移函数,状态转移函数表示清扫装置动作之后环境状态的变化,进而可以根据初始环境状态和状态转移函数得到更新环境状态。
步骤S3:根据预设的遍历效果和运动约束,得到清扫装置执行移动动作后的奖励数据。
其中,预设的遍历效果表示根据清扫装置在待遍历区域的的遍历需求,例如,遍历路径在栅格地图中的覆盖度,或者遍历路径的长度等。
在本申请实施例中,将得到的奖励数据进行反馈,以得到清扫装置即将执行的下一步动作。
步骤S4:将更新环境状态输入策略网络,得到策略网络输出的清扫装置的下一步动作和遍历路径,以使清扫装置根据下一步动作进行移动。
在一种可选的实施方式中,将更新环境状态输入策略网络,得到策略网络输出的清扫装置的下一步动作和遍历路径,包括:将更新环境状态输入策略网络,生成清扫装置下一步的动作的概率分布,并根据概率分布,确定清扫装置的下一步动作,循环迭代,直到终止条件满足,得到遍历路径。
其中,终止条件包括:遍历路径对栅格地图的覆盖度大于第一预设阈值;或者,遍历路径的长度大于第二预设阈值,且覆盖度的增加量小于第三预设阈值。
步骤S5:将移动动作、更新环境状态和奖励数据输入到动作价值网络,得到动作价值网络输出的动作价值,并将动作价值输出到策略网络中对策略网络进行训练。
图2是本申请实施例提供的一种策略网络和动作价值网络组成的强化学习模型的结构示意图,如图2所示,在步骤S4和步骤S5中,建立基于马尔科夫决策过程的强化学习模型。根据栅格地图与清扫装置的状态数据设置初始环境状态,根据运动约束(例如,遍历路径的路线生成仅考虑向前行驶)设置清扫装置的动作函数,根据预设的遍历效果与运动约束(例如对装置设置极限转弯半径)设计奖励反馈(即奖励数据);建立动作价值网络以评估清扫装置的各个动作,并进行评分;建立策略网络,以生成清扫装置即将执行的动作的概率分布,对该概率分布抽样后得到清扫装置即将执行的动作。清扫装置执行移动动作后,环境模块产生奖励数据和新的环境状态(即更新环境状态),栅格地图和清扫装置的状态数据得到更新;清扫装置读取新的环境状态后,根据策略网络生成下一步动作的概率分布,从概率分布中抽样得到下一步即将执行的动作,从而继续作用于环境模块。清扫装置的动作价值网络则用于训练策略网络,根据清扫装置的动作、奖励数据和新的环境状态来给出清扫装置各个动作的评分,从而引导策略网络输出的概率分布获取较高的评分。
进一步地,在本申请实施例中还包括:通过多张栅格地图对策略网络和动作价值网络中的参数,基于学习率进行更新,直到奖励数据的变化小于第四预设阈值。
具体地,取多张栅格地图训练强化学习模型,并使用强化学习模型中的部分栅格地图进行测试,评估强化学习模型生成遍历路径的路线的遍历效果;对于待遍历区域的场景形状区别较大或障碍物分布与训练区域区别过大、引起路径遍历效果较差的待遍历区域,使用该待遍历区域对强化学习模型进行针对性训练;随着清扫场景的增多,强化学习模型的参数得到持续的复用和更新,强化学习模型对栅格地图生成遍历路径的能力得到增强。
在使用强化学习模型时,将每个时刻的环境状态输入至策略网络,输出下一时刻清扫装置的动作,即可获取下一时刻的清扫装置所在栅格位置以及新的环境状态。循环迭代至终止条件满足,即完成遍历路径的生成,可将其转换至世界坐标系。
在实际场景需要生成遍历路径时,将每个时刻的环境状态输入至强化学习模型训练得到的策略网络,输出下一时刻清扫装置的动作,即可获取下一时刻的清扫装置所在栅格位置以及新的环境状态,循环迭代至终止条件满足,即完成遍历路径的生成,可将其转换至世界坐标系。
下面以具体的实施例对本申请提供的用于清扫装置的遍历路径生成方法进行详细说明。
步骤P1:预先采集包含潜在遍历区域的大范围离线点云地图,并对其进行区域采样,生成多个待遍历区域。
步骤P2:处理待遍历区域的点云地图,生成二维栅格地图。使用二维矩阵m表示该栅格地图,对于障碍物或边界等清扫装置无法行驶的栅格设置为100,可行驶栅格设置为0。
步骤P3:建立基于马尔科夫决策过程的演员-评论家(Actor-Critic)强化学习模型,如图2所示,清扫装置执行移动动作后,环境模块产生奖励数据和新的环境状态(即更新环境状态),栅格地图和清扫装置的状态数据得到更新;清扫装置读取新的环境状态后,根据策略网络生成下一步动作的概率分布,从概率分布中抽样得到下一步即将执行的动作,从而继续作用于环境模块。清扫装置的动作价值网络则用于训练策略网络,根据清扫装置的动作、奖励数据和新的环境状态来给出清扫装置各个动作的评分,从而引导策略网络输出的概率分布获取较高的评分。
下面对于步骤P3进行详细说明。
步骤P301:根据栅格地图与清扫装置的状态数据设置初始环境状态sk=(mk,ik,jk,k),其中,mk表示当前时刻k的栅格状态,包含了已访问栅格、未访问可行驶栅格和障碍物/边界栅格,其中已访问栅格被设置为50;(ik,jk)表示清扫装置所在栅格位置的二维索引;hk表示清扫装置的行驶方向,可通过清扫装置当前的所在位置和n个时刻前的所在位置连线的向量夹角所得。
步骤P302:根据运动约束设置清扫装置的动作函数,以遍历路径的路线生成仅考虑向前行驶为例,动作函数为ak={af,alf,arf},其中,af表示当前清扫装置沿行驶方向往正前方移动一个栅格,alf表示沿行驶方向往左前方移动一个栅格,arf表示行驶方向往右前方移动一个栅格。
进一步地,根据初始环境状态与清扫装置动作设置状态转移函数sk+1=g(sk,ak)以表征清扫装置动作之后环境状态的变化,其中栅格矩阵m中装置所在新位置的栅格值由0(未访问可行驶栅格)更新为0.5(已访问栅格),(ik,jk)更新为装置所在的新位置(ik+1,jk+1),hk更新为新的行驶方向hk+1
步骤303:根据预设的遍历效果设计奖励反馈(即奖励数据)rk=(α1rp,k1rn1,k1rn2,k)+α2rp,final2rn,final2rr,final);
其中,α1,β1,γ1,α2,β2,γ2表示权重系数;rp,k表示当前时刻k的正向奖励,若当前时刻访问了一个未曾访问的可行驶栅格,则rp,k为正值,反之为0;rn1,k表示当前时刻k的负向奖励,用于评估动作的实际可执行性,若动作不可执行则rn1,k为一个绝对值较大的负奖励:首先考虑碰撞,对{af,alf,arf}内每一个动作之后清扫装置所在的栅格位置,若该位置为障碍物/边界栅格,则认为该动作不可行;再考虑装置转向约束,对{af,alf,arf}内每一个动作之后清扫装置所在的栅格位置,连同最近p个时刻内的访问过的栅格,组成历史栅格窗口序列,将该序列中的栅格点集换算到真实世界坐标系下的二维坐标点集,并求解该点集在真实世界下的曲率。若曲率超过了清扫装置能够转向的最大曲率,则认为该动作不可行;rn2,k表示当前时刻k的负向奖励,若当前时刻并未结束,则rn2,k为负值,反之为0;
Figure BDA0004140069290000121
表示结束时刻正向奖励,表征遍历路径对可访问栅格的覆盖度,其中Count(mfinal,(i,j)=0.5)表示结束时刻栅格矩阵内被访问过的栅格的总数;Count(m0,(i,j)=0)表示初始时刻下栅格矩阵内未访问可行驶栅格的总数;
Figure BDA0004140069290000122
表示负向奖励,表征该遍历路径行驶过总行程,其中finalk表示结束时刻时装置经历的时刻数;rr,final=average(ck)表示路径形状奖励,表征遍历路径中包含的转向程度,其中average(ck)为路径上各点在真实世界下的曲率值;其中,i,j表示被访问的栅格(即遍历路径上的点)在二维栅格中的索引,没有具体的取值,ck表示遍历路径上各点在真实世界下的曲率值。
步骤P304:置结束时刻(即终止条件),若下面任一终止条件满足,则认为路径生成结束:一、覆盖度已足够高,即
Figure BDA0004140069290000123
大于第一预设阈值,或规划路径已经足够长但覆盖度仍没有增加,即/>
Figure BDA0004140069290000124
大于某第二预设阈值且最近y个时刻内
Figure BDA0004140069290000131
的增加量小于第三预设阈值。
步骤305:设置动作价值网络,使用神经网络逼近动作价值网络。
图3是本申请实施例提供的一种可行的动作价值网络的结构示意图,如图3所示,输入为栅格地图、清扫装置在栅格地图中的状态数据(即清扫装置在栅格地图中的位置和朝向角)和清扫装置的动作,由卷积层对二维栅格地图进行特征提取与编码,由全连接层对清扫装置当前的栅格位置和朝向角进行编码,由全连接层对动作进行编码,二者拼接后由全连接层输出q值。
具体地,动作价值网络可使用例如时序差分法(TD error),通过各的时刻q值来更新网络参数,损失函数为时序差分目标(TD target)与价值网络预测值的均方误差。
步骤P306:设置策略网络,使用神经网络逼近清扫装置的策略网络,图4是本申请实施例提供的一种可行的策略网络的结构示意图,如图4所示,输入为环境状态,包括栅格地图和清扫装置在栅格地图中的状态数据(即清扫装置在栅格地图中的位置和朝向角),由卷积层对二维栅格地图进行特征提取与编码,由全连接层对清扫装置当前的栅格位置和朝向角进行编码,经过拼接、全连接层和归一化指数(Softmax)函数后,输出为每个动作的概率,对每个动作的概率分布进行抽样后可得到清扫装置即将要执行的动作。可以通过最大化状态价值函数,可以通过例如策略梯度上升来更新策略网络的参数。
步骤P4:取不同的栅格地图做训练数据,训练强化学习模型,对神经网络的参数进行基于学习率的更新,强化学习模型奖励值趋于稳定且人工检查合理后,保存模型并对不同栅格地图进行路线生成。在终止条件满足时,可通过模型指标(如覆盖率)判断路线的遍历效果。对于场景形状区别较大或障碍物分布于训练区域区别过大、引起路径遍历效果较差的区域,使用该区域对强化学习模型进行针对性训练和参数更新,以获得对该类场景的泛化能力。
使用强化学习模型时,将每个时刻的环境状态输入至策略网络,输出下一时刻装置的动作,即可获取下一时刻的清扫装置所在栅格位置以及新的环境状态。循环迭代至终止条件满足,即完成遍历路径的生成,可将其转换至世界坐标系。
本申请实施例中可通过对环境和奖励的设置,应对不同场景形状、不同障碍物分布的目标区域;可通过动作函数和奖励的设置,应用于存在运动约束的非完整运动系统(如作业车辆)等,例如在遍历过程中不能进行倒车、转向时存在转弯半径等;使用地图数据进行离线训练,获得强化学习模型后可以在实际场景中直接推理生成遍历路线、无需在线迭代计算;可对陌生的目标区域进行遍历路径规划,如遇到已有强化学习模型难以有效完成遍历的难例目标区域,也可针对难例进行专门训练、提升强化学习模型对该目标区域的遍历性能;可通过对强化学习模型的设置,实现不同效果的遍历路线,可兼顾遍历覆盖度、行驶里程、路线圆滑度等,并有效避免与离线地图中障碍物的碰撞;可通过合理的模型选择,在遍历区域的增加的同时,模型进行自我迭代升级,获得更加泛化的遍历路线规划能力。
本申请实施例还提供一种用于清扫装置的遍历路径生成设备,包括:
栅格单元:对待遍历区域的点云地图进行栅格化处理,得到待遍历区域的栅格地图。
状态更新单元:根据栅格地图、清扫装置的状态数据和清扫装置的运动约束,得到清扫装置执行移动动作后的更新环境状态,状态数据表征清扫装置的位置数据和姿态数据,移动动作是清扫装置执行上一步动作后得到的。
奖励生成单元:根据预设的遍历效果和运动约束,得到清扫装置执行移动动作后的奖励数据。
动作生成单元:将更新环境状态输入策略网络,得到策略网络输出的清扫装置的下一步动作和遍历路径,以使清扫装置根据下一步动作进行移动。
训练单元:将移动动作、更新环境状态和奖励数据输入到动作价值网络,得到动作价值网络输出的动作价值,并将动作价值输出到策略网络中对策略网络进行训练。
本申请实施例还提供一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述的用于清扫装置的遍历路径生成方法。
本申请实施例还提供一种计算机存储介质,计算机存储介质存储有计算机可执行指令,计算机可执行指令被处理器执行时执行上述的用于清扫装置的遍历路径生成方法。
本说明书中,各个实施例之间相同相似的部分互相参见即可,每个实施例侧重说明的都是与其他实施例的不同之处。尤其,对于后面说明的产品实施例而言,由于其与方法是对应的,描述比较简单,相关之处参见系统实施例的部分说明即可。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (12)

1.一种用于清扫装置的遍历路径生成方法,其特征在于,包括:
对待遍历区域的点云地图进行栅格化处理,得到所述待遍历区域的栅格地图;
根据所述栅格地图、所述清扫装置的状态数据和所述清扫装置的运动约束,得到所述清扫装置执行移动动作后的更新环境状态,所述状态数据表征所述清扫装置的位置数据和姿态数据,所述移动动作是清扫装置执行上一步动作后得到的;
根据预设的遍历效果和所述运动约束,得到所述清扫装置执行移动动作后的奖励数据;
将所述更新环境状态输入策略网络,得到所述策略网络输出的所述清扫装置的下一步动作和遍历路径,以使所述清扫装置根据所述下一步动作进行移动;
将所述移动动作、所述更新环境状态和所述奖励数据输入到动作价值网络,得到所述动作价值网络输出的动作价值,并将所述动作价值输出到所述策略网络中对所述策略网络进行训练。
2.根据权利要求1所述的用于清扫装置的遍历路径生成方法,其特征在于,所述运动约束包括:完整运动约束和非完整运动约束。
3.根据权利要求1所述的用于清扫装置的遍历路径生成方法,其特征在于,所述栅格地图包括离线栅格地图。
4.根据权利要求1所述的用于清扫装置的遍历路径生成方法,其特征在于,所述根据所述栅格地图、所述清扫装置的状态数据和所述清扫装置的运动约束,得到所述清扫装置执行移动动作后的更新环境状态,包括:
根据所述栅格地图和所述清扫装置的状态数据,得到所述清扫装置的初始环境状态,所述初始环境状态表示当前时刻所述栅格地图中的栅格状态和所述清扫装置在所述栅格地图中的所述状态数据;
根据所述运动约束设置所述清扫装置的动作函数,并根据所述初始环境状态和所述动作函数,得到所述清扫装置执行移动动作后的更新环境状态,所述动作函数表征所述清扫装置在所述栅格地图中的移动数据。
5.根据权利要求4所述的用于清扫装置的遍历路径生成方法,其特征在于,所述根据所述运动约束设置所述清扫装置的动作函数,并根据所述初始环境状态和所述动作函数,得到所述清扫装置执行移动动作后的更新环境状态,包括:
根据所述运动约束设置所述清扫装置的所述动作函数;
根据所述初始环境状态和所述动作函数,设置所述清扫装置的状态转移函数,所述状态转移函数表征所述清扫装置移动之后环境状态的变化;
根据所述状态转移函数得到所述更新环境状态。
6.根据权利1所述的用于清扫装置的遍历路径生成方法,其特征在于,所述将所述更新环境状态输入策略网络,得到所述策略网络输出的所述清扫装置的下一步动作和遍历路径,包括:
将所述更新环境状态输入所述策略网络,生成所述清扫装置下一步的动作的概率分布,并根据所述概率分布,确定所述清扫装置的所述下一步动作,循环迭代,直到终止条件满足,得到所述遍历路径。
7.根据权利要求6所述的用于清扫装置的遍历路径生成方法,其特征在于,所述终止条件包括:
所述遍历路径对所述栅格地图的覆盖度大于第一预设阈值;
或者,
所述遍历路径的长度大于第二预设阈值,且所述覆盖度的增加量小于第三预设阈值。
8.根据权利要求1所述的用于清扫装置的遍历路径生成方法,其特征在于,还包括:
通过多张所述栅格地图对所述策略网络和所述动作价值网络中的参数,基于学习率进行更新,直到所述奖励数据的变化小于第四预设阈值。
9.根据权利要求1所述的用于清扫装置的遍历路径生成方法,其特征在于,所述对待遍历区域的点云地图进行栅格化处理,得到所述待遍历区域的栅格地图,包括:
预先采集包含潜在遍历区域的离线点云地图;
对所述潜在遍历区域进行区域采样,生成多个待遍历区域;
对多个所述待遍历区域的点云地图进行栅格化处理,得到多个所述待遍历区域的栅格地图。
10.一种用于清扫装置的遍历路径生成设备,其特征在于,包括:
栅格单元:对待遍历区域的点云地图进行栅格化处理,得到所述待遍历区域的栅格地图;
状态更新单元:根据所述栅格地图、所述清扫装置的状态数据和所述清扫装置的运动约束,得到所述清扫装置执行移动动作后的更新环境状态,所述状态数据表征所述清扫装置的位置数据和姿态数据,所述移动动作是清扫装置执行上一步动作后得到的;
奖励生成单元:根据预设的遍历效果和所述运动约束,得到所述清扫装置执行移动动作后的奖励数据;
动作生成单元:将所述更新环境状态输入策略网络,得到所述策略网络输出的所述清扫装置的下一步动作和遍历路径,以使所述清扫装置根据所述下一步动作进行移动;
训练单元:将所述移动动作、所述更新环境状态和所述奖励数据输入到动作价值网络,得到所述动作价值网络输出的动作价值,并将所述动作价值输出到所述策略网络中对所述策略网络进行训练。
11.一种电子设备,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的用于清扫装置的遍历路径生成方法。
12.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时执行权利要求1-9中任一项所述的用于清扫装置的遍历路径生成方法。
CN202310286809.4A 2023-03-22 2023-03-22 用于清扫装置的遍历路径生成方法及设备 Pending CN116429137A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310286809.4A CN116429137A (zh) 2023-03-22 2023-03-22 用于清扫装置的遍历路径生成方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310286809.4A CN116429137A (zh) 2023-03-22 2023-03-22 用于清扫装置的遍历路径生成方法及设备

Publications (1)

Publication Number Publication Date
CN116429137A true CN116429137A (zh) 2023-07-14

Family

ID=87093568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310286809.4A Pending CN116429137A (zh) 2023-03-22 2023-03-22 用于清扫装置的遍历路径生成方法及设备

Country Status (1)

Country Link
CN (1) CN116429137A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190332922A1 (en) * 2017-02-24 2019-10-31 Google Llc Training policy neural networks using path consistency learning
CN112237403A (zh) * 2020-09-07 2021-01-19 安克创新科技股份有限公司 用于清扫设备的覆盖路径生成方法和清扫设备
CN114089752A (zh) * 2021-11-11 2022-02-25 深圳市杉川机器人有限公司 机器人的自主探索方法、机器人及计算机可读存储介质
CN114740846A (zh) * 2022-04-01 2022-07-12 南京航空航天大学 面向拓扑-栅格-度量混合地图的分层路径规划方法
CN114859911A (zh) * 2022-04-28 2022-08-05 云南红岭云科技股份有限公司 一种基于drl的四足机器人路径规划方法
CN115493597A (zh) * 2022-11-15 2022-12-20 山东大学 一种基于sac算法的auv路径规划控制方法
CN115542733A (zh) * 2022-09-23 2022-12-30 福州大学 基于深度强化学习的自适应动态窗口法
CN115805595A (zh) * 2023-02-09 2023-03-17 白杨时代(北京)科技有限公司 机器人导航方法、装置及杂物清理机器人

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190332922A1 (en) * 2017-02-24 2019-10-31 Google Llc Training policy neural networks using path consistency learning
CN112237403A (zh) * 2020-09-07 2021-01-19 安克创新科技股份有限公司 用于清扫设备的覆盖路径生成方法和清扫设备
CN114089752A (zh) * 2021-11-11 2022-02-25 深圳市杉川机器人有限公司 机器人的自主探索方法、机器人及计算机可读存储介质
CN114740846A (zh) * 2022-04-01 2022-07-12 南京航空航天大学 面向拓扑-栅格-度量混合地图的分层路径规划方法
CN114859911A (zh) * 2022-04-28 2022-08-05 云南红岭云科技股份有限公司 一种基于drl的四足机器人路径规划方法
CN115542733A (zh) * 2022-09-23 2022-12-30 福州大学 基于深度强化学习的自适应动态窗口法
CN115493597A (zh) * 2022-11-15 2022-12-20 山东大学 一种基于sac算法的auv路径规划控制方法
CN115805595A (zh) * 2023-02-09 2023-03-17 白杨时代(北京)科技有限公司 机器人导航方法、装置及杂物清理机器人

Similar Documents

Publication Publication Date Title
CN112835333B (zh) 一种基于深度强化学习多agv避障与路径规划方法及系统
Zhu et al. Off-road autonomous vehicles traversability analysis and trajectory planning based on deep inverse reinforcement learning
Fulgenzi et al. Probabilistic motion planning among moving obstacles following typical motion patterns
CN113276883B (zh) 基于动态生成环境的无人车行驶策略规划方法及实现装置
CN111578926A (zh) 一种基于自动驾驶平台的地图生成与导航避障的方法
CN113281999A (zh) 一种基于强化学习和迁移学习的无人机自主飞行训练方法
Lee et al. MAGIC: Learning macro-actions for online POMDP planning
Sivaprakasam et al. Improving off-road planning techniques with learned costs from physical interactions
CN109764876B (zh) 无人平台的多模态融合定位方法
CN112612267B (zh) 自动驾驶的路径规划方法和装置
CN116429137A (zh) 用于清扫装置的遍历路径生成方法及设备
CN117109574A (zh) 一种农用运输机械覆盖路径规划方法
Anderson et al. Autonomous navigation via a deep Q network with one-hot image encoding
Lee et al. Learning dynamic manipulation skills from haptic-play
CN111857112A (zh) 一种汽车局部路径规划方法及电子设备
Konstantinidis et al. Modeling Interaction-Aware Driving Behavior using Graph-Based Representations and Multi-Agent Reinforcement Learning
Arista et al. Development of an efficient path planning algorithm for indoor navigation
CN115879377B (zh) 一种智能飞行汽车模态切换的决策网络的训练方法
Xu et al. Deep Reinforcement Learning for Image-Based Multi-Agent Coverage Path Planning
CN117606490B (zh) 一种水下自主航行器协同搜索路径规划方法
CN111434550B (zh) 一种基于仿真的泊车策略生成方法及系统
Ahn et al. Data Aggregation (DAgger) Algorithm Using Adversarial Agent Policy for Dynamic Situations
Ji et al. Research on Path Planning of Mobile Robot Based on Reinforcement Learning
Zhang et al. An Online Coverage Path Planning Method for Sweeper Trucks in Dynamic Environments
CN116610148A (zh) 一种多无人机协同航迹规划方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination