CN115167399A - 考虑多目标优化的消毒机器人路径规划方法 - Google Patents

考虑多目标优化的消毒机器人路径规划方法 Download PDF

Info

Publication number
CN115167399A
CN115167399A CN202210714114.7A CN202210714114A CN115167399A CN 115167399 A CN115167399 A CN 115167399A CN 202210714114 A CN202210714114 A CN 202210714114A CN 115167399 A CN115167399 A CN 115167399A
Authority
CN
China
Prior art keywords
disinfection
robot
cost function
path
disinfection robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210714114.7A
Other languages
English (en)
Inventor
蒋立青
蒋立宇
王欢
涂文章
董建华
刘超
蒋祥兵
朱陈燕
罗佩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Pulmonary Hospital
Original Assignee
Wuhan Pulmonary Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Pulmonary Hospital filed Critical Wuhan Pulmonary Hospital
Priority to CN202210714114.7A priority Critical patent/CN115167399A/zh
Publication of CN115167399A publication Critical patent/CN115167399A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0217Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with energy consumption, time reduction or distance reduction criteria
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开一种考虑多目标优化的消毒机器人路径规划方法,包括获得维诺图Vm的改进点集S,根据维诺图Vm和消毒机器人的形状,采用构型空间表示消毒机器人在待规划区域内的可行子区域SO,根据消毒目标,规划消毒机器人的路径s,并求和或加权求和路径代价函数C1(s)、角度代价函数C2(s)、能量消耗代价函数C3(s)以及路径覆盖率代价函数C4(s),获得总代价函数C(x),进一步构造学习型神经网络,以获取总代价函数C(x)最小的路径。本发明解决如何为消毒机器人设计多目标路径规划方法的问题;在考虑消毒机器人的总行驶距离、总旋转角度、能量消耗总量以及消毒区域重合率的情况下,完成消毒机器人的多目标路径规划,使消毒机器人的多目标路径规划过程快速准确。

Description

考虑多目标优化的消毒机器人路径规划方法
技术领域
本发明涉及机器人路径规划及运动控制技术领域,具体为一种考虑多目标优化的消毒机器人路径规划方法。
背景技术
医院、传染病集中地以及酒店宾馆等环境中容易堆积对人体有害的微生物,必须依据规范指引对环境进行消毒,使用消毒机器人能够较好的实现消毒作业,在现实中,会面临许多具有多个消毒目标的区域(如大型医院、传染病爆发区等),采用消毒机器人进行消毒可以最大程度上降低人类的危险;为了对具有多个消毒目标的区域进行勘察和消毒作业,消毒机器人必须具有多目标路径规划的能力,使消毒机器人能够规划一条覆盖区域内所有消毒目标的路径。
现有技术中,绝大多数的多目标路径规划方法,都假设机器人拥有足够的能量覆盖整个区域,来进行重复的迭代运行;然而,在运行过程中的路径长度、转动角度大小、能量消耗以及路径覆盖率等参数,都是消毒机器人在进行多目标路径规划时必须考虑的问题。
综上所述,如何在考虑运行过程中的路径长度、转动角度大小、能量消耗以及路径覆盖率等参数的同时,为消毒机器人设计合理的多目标路径规划方法,成为亟待解决的问题。
发明内容
本发明的目的在于提供一种考虑多目标优化的消毒机器人路径规划方法,能够在考虑消毒机器人的总行驶距离、总旋转角度、能量消耗总量以及消毒区域重合率的情况下,完成消毒机器人的多目标路径规划。
为实现上述目的,本发明提供如下技术方案:一种考虑多目标优化的消毒机器人路径规划方法,其包括下述步骤:
S1、将待规划区域的地图处理为改进的维诺图Vm,以形成若干不重叠的多边形子区域,并获得所述维诺图Vm的改进点集S;
S2、根据所述改进的维诺图Vm和所述消毒机器人的形状,采用构型空间表示所述消毒机器人在所述待规划区域内的可行子区域SO,并采用构型空间表示所述待规划区域内的障碍物子区域Si
S3、根据所述消毒机器人的多个消毒目标,规划所述消毒机器人的路径s,分别构建所述消毒机器人的路径代价函数C1(s)、角度代价函数C2(s)、能量消耗代价函数C3(s)以及路径覆盖率代价函数C4(s),并求和或加权求和所述路径代价函数C1(s)、所述角度代价函数C2(s)、所述能量消耗代价函数C3(s)以及所述路径覆盖率代价函数C4(s),获得总代价函数C(x),且使用所述维诺图Vm的改进点集S和所述可行子区域SO来约束所述总代价函数C(x);
其中,所述路径代价函数C1(s)关于所述消毒机器人在消毒目标中以及各个消毒目标间的总行驶距离,所述角度代价函数C2(s)关于所述消毒机器人在消毒目标中以及各个消毒目标间的总旋转角度,所述能量消耗代价函数C3(s)关于所述消毒机器人的能量消耗总量,所述路径覆盖率代价函数C4(s)关于所述消毒机器人的消毒区域重合率;
S4、将所述总代价函数C(x)结构化,并进一步构造学习型神经网络,以动态获取所述总代价函数C(x)最小的路径。
上述技术方案中,所述步骤S1具体包括:
S1.1、在待规划区域的地图上生成若干的随机点Pi
S1.2、以所述随机点Pi的集合作为初始点集S0,生成改进的维诺图Vm,以形成若干不重叠的多边形子区域;
S1.3、对所有的所述多边形子区域赋予权值wi,并利用所述权值wi改进所述初始点集S0,以获得所述维诺图Vm的改进点集S={w1p1,w2p2,...,wnpn}。
上述技术方案中,所述步骤S2中的可行子区域SO,具体为:
Figure BDA0003708234470000031
在构型空间下,pr为所述消毒机器人的质点,SR为全部点pr所构成的集合,SC为整个所述待规划区域的点集,SW为所述消毒机器人在所述待规划区域中的工作空间之点集,且Sc=Si+SW
上述技术方案中,所述步骤S3中的路径代价函数C1(s),具体为:
Figure BDA0003708234470000032
其中,li为所述消毒机器人从上一个消毒目标的结束点到当前消毒目标的起始点之间的行驶距离,dj为所述消毒机器人在第j个消毒目标中的行驶距离,q+1为消毒目标的总个数,q为li的总段数。
上述技术方案中,所述步骤S3中的角度代价函数C2(s),具体为:
Figure BDA0003708234470000033
其中,(Qi,Qi+1)为路径s的序列点集,θ(Qi,Qi+1)为所述消毒机器人在Qi与Qi+1这两点之间的旋转角度,h为所述消毒机器人的总旋转次数。
上述技术方案中,所述步骤S3中的能量消耗代价函数C3(s),具体为:
Figure BDA0003708234470000034
其中,E1为所述消毒机器人从上一个消毒目标的结束点到当前消毒目标的起始点之间的行驶过程中的能量消耗系数,E2为所述消毒机器人在消毒目标中的行驶及消毒过程中的能量消耗系数,E3为所述消毒机器人在旋转时的能量消耗系数。
上述技术方案中,所述步骤S3中的路径覆盖率代价函数C4(s),具体为:
Figure BDA0003708234470000041
其中,p为消毒目标的点集,Qi为所述消毒机器人的消毒范围的点集,dA为消毒目标的微分。
上述技术方案中,所述路径覆盖率代价函数C4(s)通过下述步骤简化:
Sa、定义所述维诺图Vm的任意一个多边形子区域的质心为点g,则有:
Figure BDA0003708234470000042
Figure BDA0003708234470000043
其中,gx为点g的x轴坐标,gy为点g的y轴坐标,na为所述维诺图Vm中的顶点个数,Ag为点g所在的多边形子区域的面积,且有:
Figure BDA0003708234470000044
Sb、综合所述维诺图Vm的所有多边形子区域,将所述路径覆盖率代价函数C4(s)简化为:
Figure BDA0003708234470000045
上述技术方案中,所述步骤S3中的总代价函数C(x),有:
min C(x)=(C1(s),C2(s),C3(s),C4(s))。
上述技术方案中,所述步骤S4具体包括:
S4.1、利用马尔可夫决策过程,对所述消毒机器人的路径s进行迭代规划;
在所述马尔可夫决策过程中,有:奖励函数rt=ci×ri+bs×rci×cu
其中,ci为所述消毒机器人到达的维诺图Vm之多边形子区域的奖励权值,ri为该个所述多边形子区域的奖励值;bs为所述马尔可夫决策过程结束时的奖励权值,rc为所述马尔可夫决策过程结束时的奖励值,μi为所述消毒机器人到达的维诺图Vm之多边形子区域的惩罚权值,ci为该个所述多边形子区域的惩罚值;
S4.2、构建一学习型神经网络,并使用所述学习型神经网络对所述消毒机器人的路径s迭代规划过程进行训练,使用经验缓冲区来记录所述消毒机器人在训练期间的状态、动作和奖励;
所述学习型神经网络在点p处的激活函数为:
Figure BDA0003708234470000051
其中,px为点p的x轴坐标,py为点p的y轴坐标,α为学习参量;
S4.3、所述消毒机器人在训练期间,所述学习型神经网络的每一节点均使用边际值函数对策略梯度进行拟合;
且,时间t的边际值函数Gr关于参数τ、函数
Figure BDA0003708234470000052
状态st和响应ψt的关系式为:
Figure BDA0003708234470000053
其中,
Figure BDA0003708234470000054
为调节期望系数,wt为重要性权重系数,Qτ(stt)为回溯评估值,且
Figure BDA0003708234470000055
其中,ηt为马尔可夫决策过程中的奖励值,λt为奖励系数,κ为权重因子;wt+1为t+1时刻的动态调节权重,Q(st+1t+1)为t+1时刻的估计值,Qτ(st+1t+1)为t+1时刻的回溯评估值;
S4.4、采用均方跟法对所述边际值函数Gr进行优化,以将所述边际值函数Gr的权值调整为如下关系式:
Mt=εMt-1+(1-ε)|gt-1|;
Figure BDA0003708234470000061
wt+1=wt+Δw;
其中,Mt为所述边际值函数Gr的指数平均数,gt-1为所述边际值函数Gr在t-1时刻的梯度向量,ε和ρ均为调节参数,ξ为所述学习型神经网络的学习速率;wt+1为t+1时刻的动态调节权重,wt为t时刻的调节权重值,Δw为t时刻的权值调节量。
与现有技术相比,本发明的有益效果是:
1、该种考虑多目标优化的消毒机器人路径规划方法,通过总代价函数C(x)的形式,在考虑消毒机器人的总行驶距离、总旋转角度、能量消耗总量以及消毒区域重合率的情况下,完成消毒机器人的多目标路径规划,并根据改进的维诺图Vm和消毒机器人的形状获得可行子区域SO,以约束总代价函数C(x),使消毒机器人的多目标路径规划过程快速准确。
2、该种考虑多目标优化的消毒机器人路径规划方法,简化后的路径覆盖率代价函数C4(s),能够针对维诺图Vm的所有多边形子区域来表示消毒机器人的消毒区域重合率,降低了计算总代价函数C(x)的最小值时的运算量。
3、该种考虑多目标优化的消毒机器人路径规划方法,学习型神经网络自动化地通过马尔可夫决策过程对消毒机器人进行训练,通过有限次的马尔可夫决策过程迭代及训练,逐渐靠近奖励函数的最大值,并通过边际值函数Gr及其优化方法,进一步靠近奖励函数的最大值并减少迭代及训练的次数,使消毒机器人的性能得以快速提高。
附图说明
图1为本发明的实施例一的步骤流程图。
图2为本发明的实施例一中的步骤S1的步骤流程图。
图3为本发明的实施例一在步骤S1中所构建的维诺图Vm的示意性视图。
图4为本发明的消毒机器人在消毒目标中以及各个消毒目标间的运行示意图。
图5为本发明的消毒机器人在消毒目标中的消毒范围示意图。
图6为本发明的实施例二的步骤流程图。
图7为本发明的实施例三的步骤流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
请参阅图1,本实施例提供一种考虑多目标优化的消毒机器人路径规划方法,其包括下述步骤:
S1、将待规划区域的地图处理为改进的维诺图Vm,以形成若干不重叠的多边形子区域,并获得维诺图Vm的改进点集S。
使用改进的维诺图Vm和改进点集S,便于对消毒机器人的路径规划提供可量化及可计算的离散地图数据,简化了消毒机器人的路径规划过程。
S2、根据改进的维诺图Vm和消毒机器人的形状,采用构型空间表示消毒机器人在待规划区域内的可行子区域SO,并采用构型空间表示待规划区域内的障碍物子区域Si
可行子区域SO即为消毒机器人的自由空间,在可行子区域SO中,消毒机器人不与任何障碍物有交集;以此方式表示的可行子区域SO中,可以忽略消毒机器人的形状影响,将消毒机器人视为质点,简化了消毒机器人的路径规划过程;后续的路径规划过程中,所规划的路径之点集从可行子区域SO中获取。
S3、根据消毒机器人的多个消毒目标,规划消毒机器人的路径s,分别构建消毒机器人的路径代价函数C1(s)、角度代价函数C2(s)、能量消耗代价函数C3(s)以及路径覆盖率代价函数C4(s),并求和或加权求和路径代价函数C1(s)、角度代价函数C2(s)、能量消耗代价函数C3(s)以及路径覆盖率代价函数C4(s),获得总代价函数C(x),且使用维诺图Vm的改进点集S和可行子区域SO来约束总代价函数C(x)。
其中,路径代价函数C1(s)关于消毒机器人在消毒目标中以及各个消毒目标间的总行驶距离,角度代价函数C2(s)关于消毒机器人在消毒目标中以及各个消毒目标间的总旋转角度,能量消耗代价函数C3(s)关于消毒机器人的能量消耗总量,路径覆盖率代价函数C4(s)关于消毒机器人的消毒区域重合率。
本步骤中,消毒目标是指分布在待规划区域中的若干个需要消毒的块状区域,各个消毒目标在待规划区域中相邻或相离,但不重合。
根据总代价函数C(x),计算总代价函数C(x)的最小值获得条件,即可达到最优的多目标规划路径。
S4、将总代价函数C(x)结构化,并进一步构造学习型神经网络,以动态获取总代价函数C(x)最小的路径。
请参阅图2,具体地,步骤S1具体包括:
S1.1、在待规划区域的地图上生成若干的随机点Pi
实际上,随机点Pi的生成与待规划区域的参数、消毒机器人的本身参数以及外界参数均无关。
S1.2、以随机点Pi的集合作为初始点集S0,生成改进的维诺图Vm,以形成若干不重叠的多边形子区域。
S1.3、对所有的多边形子区域赋予权值wi,并利用权值wi改进初始点集S0,以获得维诺图Vm的改进点集S={w1p1,w2p2,...,wnpn}。
请参阅图3,以此方式生成的维诺图Vm具有如下的性质:
Figure BDA0003708234470000091
其中,pm和pn均为改进点集S中的任意点,p为维诺图Vm上的任意点,该性质表明对于每个超出维诺图Vm边界的多边形子区域,在维诺图Vm边界外的顶点将被替换为维诺图Vm的边界或者顶点,从而能够正确地表示待规划区域。
具体地,步骤S2中的可行子区域SO,具体为:
Figure BDA0003708234470000092
在构型空间下,pr为消毒机器人的质点,SR为全部点pr所构成的集合,SC为整个待规划区域的点集,SW为消毒机器人在待规划区域中的工作空间之点集,且Sc=Si+SW
在点集SC中,考虑并抵消消毒机器人的全部质点pr所构成的集合SR后,在可行子区域SO中,可以忽略消毒机器人的形状影响,将消毒机器人视为质点,简化了消毒机器人的路径规划过程。
具体地,步骤S3中的路径代价函数C1(s),具体为:
Figure BDA0003708234470000101
请参阅图4,其中,li为消毒机器人从上一个消毒目标的结束点到当前消毒目标的起始点之间的行驶距离,i表示第i段的行驶距离;dj为消毒机器人在第j个消毒目标中的行驶距离,q+1为消毒目标的总个数,q为li的总段数。
路径代价函数C1(s)能够准确的以离散数学模型的形式,表示消毒机器人在消毒目标中以及各个消毒目标间的总行驶距离,从而作为总代价函数C(x)的参数之一。
具体地,步骤S3中的角度代价函数C2(s),具体为:
Figure BDA0003708234470000102
其中,(Qi,Qi+1)为路径s的序列点集,θ(Qi,Qi+1)为消毒机器人在Qi与Qi+1这两点之间的旋转角度,h为消毒机器人的总旋转次数。
角度代价函数C2(s)能够准确的以离散数学模型的形式,表示消毒机器人在消毒目标中以及各个消毒目标间的总旋转角度,从而作为总代价函数C(x)的参数之一。
具体地,步骤S3中的能量消耗代价函数C3(s),具体为:
Figure BDA0003708234470000103
其中,E1为消毒机器人从上一个消毒目标的结束点到当前消毒目标的起始点之间的行驶过程中的能量消耗系数,E2为消毒机器人在消毒目标中的行驶及消毒过程中的能量消耗系数,E3为消毒机器人在旋转时的能量消耗系数。
能量消耗代价函数C3(s)能够准确的以离散数学模型的形式,表示消毒机器人的能量消耗总量,从而作为总代价函数C(x)的参数之一。
具体地,步骤S3中的路径覆盖率代价函数C4(s),具体为:
Figure BDA0003708234470000111
其中,p为消毒目标的点集,Qi为消毒机器人的消毒范围的点集,dA为消毒目标的微分。
请参阅图5,消毒机器人的消毒范围是指消毒机器人在空间中的某一点时,其能够对环境进行消毒的有效作用范围,这与消毒机器人的动作机构及消毒机构的结构设计有关;消毒机器人在实际的消毒过程中会在消毒目标中来回行驶,在来回行驶的过程中,消毒机器人的消毒范围会有所重合,设计路径覆盖率代价函数C4(s)的目的在于,尽量缩小消毒机器人消毒过程中的消毒范围重合面积;路径覆盖率代价函数C4(s)能够准确的以离散数学模型的形式,表示消毒机器人的消毒区域重合率,从而作为总代价函数C(x)的参数之一。
综上,步骤S3中的总代价函数C(x),有:
minC(x)=(C1(s),C2(s),C3(s),C4(s))。
根据总代价函数C(x),计算总代价函数C(x)的最小值获得条件,即可达到最优的多目标规划路径。
该种考虑多目标优化的消毒机器人路径规划方法,通过总代价函数C(x)的形式,在考虑消毒机器人的总行驶距离、总旋转角度、能量消耗总量以及消毒区域重合率的情况下,完成消毒机器人的多目标路径规划,并根据改进的维诺图Vm和消毒机器人的形状获得可行子区域SO,以约束总代价函数C(x),使消毒机器人的多目标路径规划过程快速准确。
实施例二:
请参阅图6,本实施例提供一种考虑多目标优化的消毒机器人路径规划方法,在实施例一提供的考虑多目标优化的消毒机器人路径规划方法的基础上,还进一步包括:
路径覆盖率代价函数C4(s)通过下述步骤简化:
Sa、定义维诺图Vm的任意一个多边形子区域的质心为点g,则有:
Figure BDA0003708234470000121
Figure BDA0003708234470000122
其中,gx为点g的x轴坐标,gy为点g的y轴坐标,na为维诺图Vm中的顶点个数,Ag为点g所在的多边形子区域的面积,且有:
Figure BDA0003708234470000123
在维诺图Vm的任意一个多边形子区域中,使路径覆盖率代价函数C4(s)的获得最小值的点是点g,因此,有必要表示出点g的x轴坐标和y轴坐标,并计算维诺图Vm的面积Ag
Sb、综合维诺图Vm的所有多边形子区域,将路径覆盖率代价函数C4(s)简化为:
Figure BDA0003708234470000124
该种考虑多目标优化的消毒机器人路径规划方法,简化后的路径覆盖率代价函数C4(s),能够针对维诺图Vm的所有多边形子区域来表示消毒机器人的消毒区域重合率,降低了计算总代价函数C(x)的最小值时的运算量。
实施例三:
请参阅图7,本实施例提供一种考虑多目标优化的消毒机器人路径规划方法,在实施例一提供的考虑多目标优化的消毒机器人路径规划方法的基础上,还进一步包括:
步骤S4具体包括:
S4.1、利用马尔可夫决策过程,对消毒机器人的路径s进行迭代规划;
在马尔可夫决策过程中,有:奖励函数rt=ci×ri+bs×rci×cu
其中,ci为消毒机器人到达的维诺图Vm之三角形区域的奖励权值,ri为该个三角形区域的奖励值;bs为马尔可夫决策过程结束时的奖励权值,rc为马尔可夫决策过程结束时的奖励值,μi为消毒机器人到达的维诺图Vm之三角形区域的惩罚权值,ci为该个三角形区域的惩罚值;
S4.2、构建一学习型神经网络,并使用学习型神经网络对消毒机器人的路径s迭代规划过程进行训练,使用经验缓冲区来记录消毒机器人在训练期间的状态、动作和奖励;
在马尔可夫决策过程中,有:
学习型神经网络在点p处的激活函数为:
Figure BDA0003708234470000131
其中,px为点p的x轴坐标,py为点p的y轴坐标,α为学习参量;
S4.3、消毒机器人在训练期间,学习型神经网络的每一节点均使用边际值函数对策略梯度进行拟合;
且,时间t的边际值函数Gr关于参数τ、函数
Figure BDA0003708234470000141
状态st和响应ψt的关系式为:
Figure BDA0003708234470000142
其中,
Figure BDA0003708234470000143
为调节期望系数,wt为重要性权重系数,Qτ(stt)为回溯评估值,且
Figure BDA0003708234470000144
其中,ηt为马尔可夫决策过程中的奖励值,初始值选取为1;λt为奖励系数,初始值选取为0.9;κ为权重因子,初始值选取为0.8;wt+1为t+1时刻的动态调节权重,Q(st+1t+1)为t+1时刻的估计值,Qτ(st+1t+1)为t+1时刻的回溯评估值;
S4.4、采用均方跟法对边际值函数Gr进行优化,以将边际值函数Gr的权值调整为如下关系式:
Mt=εMt-1+(1-ε)|gt-1|;
Figure BDA0003708234470000145
wt+1=wt+Δw;
其中,Mt为边际值函数Gr的指数平均数,gt-1为边际值函数Gr在t-1时刻的梯度向量,ε和ρ均为调节参数,ξ为学习型神经网络的学习速率,初始值选取为0.8;wt+1为t+1时刻的动态调节权重,wt为t时刻的调节权重值,Δw为t时刻的权值调节量。
该种考虑多目标优化的消毒机器人路径规划方法,学习型神经网络自动化地通过马尔可夫决策过程对消毒机器人进行训练,通过有限次的马尔可夫决策过程迭代及训练,逐渐靠近奖励函数的最大值,并通过边际值函数Gr及其优化方法,进一步靠近奖励函数的最大值并减少迭代及训练的次数,使消毒机器人的性能得以快速提高。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种考虑多目标优化的消毒机器人路径规划方法,其特征在于,包括下述步骤:
S1、将待规划区域的地图处理为改进的维诺图Vm,以形成若干不重叠的多边形子区域,并获得所述维诺图Vm的改进点集S;
S2、根据所述改进的维诺图Vm和所述消毒机器人的形状,采用构型空间表示所述消毒机器人在所述待规划区域内的可行子区域SO,并采用构型空间表示所述待规划区域内的障碍物子区域Si
S3、根据所述消毒机器人的多个消毒目标,规划所述消毒机器人的路径s,分别构建所述消毒机器人的路径代价函数C1(s)、角度代价函数C2(s)、能量消耗代价函数C3(s)以及路径覆盖率代价函数C4(s),并求和或加权求和所述路径代价函数C1(s)、所述角度代价函数C2(s)、所述能量消耗代价函数C3(s)以及所述路径覆盖率代价函数C4(s),获得总代价函数C(x),且使用所述维诺图Vm的改进点集S和所述可行子区域SO来约束所述总代价函数C(x);
其中,所述路径代价函数C1(s)关于所述消毒机器人在消毒目标中以及各个消毒目标间的总行驶距离,所述角度代价函数C2(s)关于所述消毒机器人在消毒目标中以及各个消毒目标间的总旋转角度,所述能量消耗代价函数C3(s)关于所述消毒机器人的能量消耗总量,所述路径覆盖率代价函数C4(s)关于所述消毒机器人的消毒区域重合率;
S4、将所述总代价函数C(x)结构化,并进一步构造学习型神经网络,以动态获取所述总代价函数C(x)最小的路径。
2.根据权利要求1所述的考虑多目标优化的消毒机器人路径规划方法,其特征在于,所述步骤S1具体包括:
S1.1、在待规划区域的地图上生成若干的随机点Pi
S1.2、以所述随机点Pi的集合作为初始点集S0,生成改进的维诺图Vm,以形成若干不重叠的多边形子区域;
S1.3、对所有的所述多边形子区域赋予权值wi,并利用所述权值wi改进所述初始点集S0,以获得所述维诺图Vm的改进点集S={w1p1,w2p2,...,wnpn}。
3.根据权利要求2所述的考虑多目标优化的消毒机器人路径规划方法,其特征在于,所述步骤S2中的可行子区域SO,具体为:
Figure FDA0003708234460000021
在构型空间下,pr为所述消毒机器人的质点,SR为全部点pr所构成的集合,SC为整个所述待规划区域的点集,SW为所述消毒机器人在所述待规划区域中的工作空间之点集,且Sc=Si+SW
4.根据权利要求1所述的考虑多目标优化的消毒机器人路径规划方法,其特征在于,所述步骤S3中的路径代价函数C1(s),具体为:
Figure FDA0003708234460000022
其中,li为所述消毒机器人从上一个消毒目标的结束点到当前消毒目标的起始点之间的行驶距离,dj为所述消毒机器人在第j个消毒目标中的行驶距离,q+1为消毒目标的总个数,q为li的总段数。
5.根据权利要求4所述的考虑多目标优化的消毒机器人路径规划方法,其特征在于,所述步骤S3中的角度代价函数C2(s),具体为:
Figure FDA0003708234460000023
其中,(Qi,Qi+1)为路径s的序列点集,θ(Qi,Qi+1)为所述消毒机器人在Qi与Qi+1这两点之间的旋转角度,h为所述消毒机器人的总旋转次数。
6.根据权利要求5所述的考虑多目标优化的消毒机器人路径规划方法,其特征在于,所述步骤S3中的能量消耗代价函数C3(s),具体为:
Figure FDA0003708234460000031
其中,E1为所述消毒机器人从上一个消毒目标的结束点到当前消毒目标的起始点之间的行驶过程中的能量消耗系数,E2为所述消毒机器人在消毒目标中的行驶及消毒过程中的能量消耗系数,E3为所述消毒机器人在旋转时的能量消耗系数。
7.根据权利要求6所述的考虑多目标优化的消毒机器人路径规划方法,其特征在于,所述步骤S3中的路径覆盖率代价函数C4(s),具体为:
Figure FDA0003708234460000032
其中,p为消毒目标的点集,Qi为所述消毒机器人的消毒范围的点集,dA为消毒目标的微分。
8.根据权利要求7所述的考虑多目标优化的消毒机器人路径规划方法,其特征在于,所述路径覆盖率代价函数C4(s)通过下述步骤简化:
Sa、定义所述维诺图Vm的任意一个多边形子区域的质心为点g,则有:
Figure FDA0003708234460000033
Figure FDA0003708234460000034
其中,gx为点g的x轴坐标,gy为点g的y轴坐标,na为所述维诺图Vm中的顶点个数,Ag为点g所在的多边形子区域的面积,且有:
Figure FDA0003708234460000041
Sb、综合所述维诺图Vm的所有多边形子区域,将所述路径覆盖率代价函数C4(s)简化为:
Figure FDA0003708234460000042
9.根据权利要求8所述的考虑多目标优化的消毒机器人路径规划方法,其特征在于,所述步骤S3中的总代价函数C(x),有:
minC(x)=(C1(s),C2(s),C3(s),C4(s))。
10.根据权利要求1所述的考虑多目标优化的消毒机器人路径规划方法,其特征在于,所述步骤S4具体包括:
S4.1、利用马尔可夫决策过程,对所述消毒机器人的路径s进行迭代规划;
在所述马尔可夫决策过程中,有:奖励函数rt=ci×ri+bs×rci×cu
其中,ci为所述消毒机器人到达的维诺图Vm之多边形子区域的奖励权值,ri为该个所述多边形子区域的奖励值;bs为所述马尔可夫决策过程结束时的奖励权值,rc为所述马尔可夫决策过程结束时的奖励值,μi为所述消毒机器人到达的维诺图Vm之多边形子区域的惩罚权值,ci为该个所述多边形子区域的惩罚值;
S4.2、构建一学习型神经网络,并使用所述学习型神经网络对所述消毒机器人的路径s迭代规划过程进行训练,使用经验缓冲区来记录所述消毒机器人在训练期间的状态、动作和奖励;
所述学习型神经网络在点p处的激活函数为:
Figure FDA0003708234460000043
其中,px为点p的x轴坐标,py为点p的y轴坐标,α为学习参量;
S4.3、所述消毒机器人在训练期间,所述学习型神经网络的每一节点均使用边际值函数对策略梯度进行拟合;
且,时间t的边际值函数Gr关于参数τ、函数
Figure FDA0003708234460000051
状态st和响应ψt的关系式为:
Figure FDA0003708234460000052
其中,
Figure FDA0003708234460000053
为调节期望系数,wt为重要性权重系数,Qτ(stt)为回溯评估值,且
Figure FDA0003708234460000054
其中,ηt为马尔可夫决策过程中的奖励值,λt为奖励系数,κ为权重因子;wt+1为t+1时刻的动态调节权重,Q(st+1t+1)为t+1时刻的估计值,Qτ(st+1t+1)为t+1时刻的回溯评估值;
S4.4、采用均方跟法对所述边际值函数Gr进行优化,以将所述边际值函数Gr的权值调整为如下关系式:
Mt=εMt-1+(1-ε)|gt-1|;
Figure FDA0003708234460000055
wt+1=wt+Δw;
其中,Mt为所述边际值函数Gr的指数平均数,gt-1为所述边际值函数Gr在t-1时刻的梯度向量,ε和ρ均为调节参数,ξ为所述学习型神经网络的学习速率;wt+1为t+1时刻的动态调节权重,wt为t时刻的调节权重值,Δw为t时刻的权值调节量。
CN202210714114.7A 2022-06-22 2022-06-22 考虑多目标优化的消毒机器人路径规划方法 Pending CN115167399A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210714114.7A CN115167399A (zh) 2022-06-22 2022-06-22 考虑多目标优化的消毒机器人路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210714114.7A CN115167399A (zh) 2022-06-22 2022-06-22 考虑多目标优化的消毒机器人路径规划方法

Publications (1)

Publication Number Publication Date
CN115167399A true CN115167399A (zh) 2022-10-11

Family

ID=83487401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210714114.7A Pending CN115167399A (zh) 2022-06-22 2022-06-22 考虑多目标优化的消毒机器人路径规划方法

Country Status (1)

Country Link
CN (1) CN115167399A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115930969A (zh) * 2023-01-09 2023-04-07 季华实验室 移动机器人的路径规划方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115930969A (zh) * 2023-01-09 2023-04-07 季华实验室 移动机器人的路径规划方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Algabri et al. Comparative study of soft computing techniques for mobile robot navigation in an unknown environment
Muratore et al. Assessing transferability from simulation to reality for reinforcement learning
Juang et al. Evolutionary-group-based particle-swarm-optimized fuzzy controller with application to mobile-robot navigation in unknown environments
Kroemer et al. Combining active learning and reactive control for robot grasping
US11049010B2 (en) Early prediction of an intention of a user's actions
Duka ANFIS based Solution to the Inverse Kinematics of a 3DOF planar Manipulator
CN111890350A (zh) 机器人及其控制方法、计算机可读存储介质
CN110809505A (zh) 用于执行机器人手臂的移动控制的方法和装置
CN110362081B (zh) 一种移动机器人路径规划方法
Di Mario et al. A comparison of PSO and reinforcement learning for multi-robot obstacle avoidance
Deepak et al. Target seeking behaviour of an intelligent mobile robot using advanced particle swarm optimization
CN115167399A (zh) 考虑多目标优化的消毒机器人路径规划方法
Levine Motor skill learning with local trajectory methods
Chen et al. Mobile robot wall-following control by improved artificial bee colony algorithm to design a compensatory fuzzy logic controller
Asma et al. Dynamic Distributed PSO joints elites in Multiple Robot Path Planning Systems: theoretical and practical review of new ideas
Sintov et al. Motion planning with competency-aware transition models for underactuated adaptive hands
Bhat et al. Towards a learnt neural body schema for dexterous coordination of action in humanoid and industrial robots
Kobayashi et al. Automatic controller generation based on dependency network of multi-modal sensor variables for musculoskeletal robotic arm
Dubey et al. Path planning of mobile robot using reinforcement based artificial neural network
Halaly et al. Autonomous driving controllers with neuromorphic spiking neural networks
CN117223011A (zh) 使用加权策略投影的多目标强化学习
Schaal et al. Memory-based robot learning
Hachiya et al. Efficient sample reuse in EM-based policy search
Giraud et al. Optimal shape servoing with task-focused convergence constraints
Jovović et al. Automatic synthesis of synergies for control of reaching—hierarchical clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination