CN115167399A

CN115167399A - 考虑多目标优化的消毒机器人路径规划方法

Info

Publication number: CN115167399A
Application number: CN202210714114.7A
Authority: CN
Inventors: 蒋立青; 蒋立宇; 王欢; 涂文章; 董建华; 刘超; 蒋祥兵; 朱陈燕; 罗佩
Original assignee: Wuhan Pulmonary Hospital
Current assignee: Wuhan Pulmonary Hospital
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-10-11

Abstract

本发明公开一种考虑多目标优化的消毒机器人路径规划方法，包括获得维诺图V_m的改进点集S，根据维诺图V_m和消毒机器人的形状，采用构型空间表示消毒机器人在待规划区域内的可行子区域S_O，根据消毒目标，规划消毒机器人的路径s，并求和或加权求和路径代价函数C₁(s)、角度代价函数C₂(s)、能量消耗代价函数C₃(s)以及路径覆盖率代价函数C₄(s)，获得总代价函数C(x)，进一步构造学习型神经网络，以获取总代价函数C(x)最小的路径。本发明解决如何为消毒机器人设计多目标路径规划方法的问题；在考虑消毒机器人的总行驶距离、总旋转角度、能量消耗总量以及消毒区域重合率的情况下，完成消毒机器人的多目标路径规划，使消毒机器人的多目标路径规划过程快速准确。

Description

考虑多目标优化的消毒机器人路径规划方法

技术领域

本发明涉及机器人路径规划及运动控制技术领域，具体为一种考虑多目标优化的消毒机器人路径规划方法。

背景技术

医院、传染病集中地以及酒店宾馆等环境中容易堆积对人体有害的微生物，必须依据规范指引对环境进行消毒，使用消毒机器人能够较好的实现消毒作业，在现实中，会面临许多具有多个消毒目标的区域(如大型医院、传染病爆发区等)，采用消毒机器人进行消毒可以最大程度上降低人类的危险；为了对具有多个消毒目标的区域进行勘察和消毒作业，消毒机器人必须具有多目标路径规划的能力，使消毒机器人能够规划一条覆盖区域内所有消毒目标的路径。

现有技术中，绝大多数的多目标路径规划方法，都假设机器人拥有足够的能量覆盖整个区域，来进行重复的迭代运行；然而，在运行过程中的路径长度、转动角度大小、能量消耗以及路径覆盖率等参数，都是消毒机器人在进行多目标路径规划时必须考虑的问题。

综上所述，如何在考虑运行过程中的路径长度、转动角度大小、能量消耗以及路径覆盖率等参数的同时，为消毒机器人设计合理的多目标路径规划方法，成为亟待解决的问题。

发明内容

本发明的目的在于提供一种考虑多目标优化的消毒机器人路径规划方法，能够在考虑消毒机器人的总行驶距离、总旋转角度、能量消耗总量以及消毒区域重合率的情况下，完成消毒机器人的多目标路径规划。

为实现上述目的，本发明提供如下技术方案：一种考虑多目标优化的消毒机器人路径规划方法，其包括下述步骤：

S1、将待规划区域的地图处理为改进的维诺图V_m，以形成若干不重叠的多边形子区域，并获得所述维诺图V_m的改进点集S；

S2、根据所述改进的维诺图V_m和所述消毒机器人的形状，采用构型空间表示所述消毒机器人在所述待规划区域内的可行子区域S_O，并采用构型空间表示所述待规划区域内的障碍物子区域S_i；

S3、根据所述消毒机器人的多个消毒目标，规划所述消毒机器人的路径s，分别构建所述消毒机器人的路径代价函数C₁(s)、角度代价函数C₂(s)、能量消耗代价函数C₃(s)以及路径覆盖率代价函数C₄(s)，并求和或加权求和所述路径代价函数C₁(s)、所述角度代价函数C₂(s)、所述能量消耗代价函数C₃(s)以及所述路径覆盖率代价函数C₄(s)，获得总代价函数C(x)，且使用所述维诺图V_m的改进点集S和所述可行子区域S_O来约束所述总代价函数C(x)；

其中，所述路径代价函数C₁(s)关于所述消毒机器人在消毒目标中以及各个消毒目标间的总行驶距离，所述角度代价函数C₂(s)关于所述消毒机器人在消毒目标中以及各个消毒目标间的总旋转角度，所述能量消耗代价函数C₃(s)关于所述消毒机器人的能量消耗总量，所述路径覆盖率代价函数C₄(s)关于所述消毒机器人的消毒区域重合率；

S4、将所述总代价函数C(x)结构化，并进一步构造学习型神经网络，以动态获取所述总代价函数C(x)最小的路径。

上述技术方案中，所述步骤S1具体包括：

S1.1、在待规划区域的地图上生成若干的随机点P_i；

S1.2、以所述随机点P_i的集合作为初始点集S₀，生成改进的维诺图V_m，以形成若干不重叠的多边形子区域；

S1.3、对所有的所述多边形子区域赋予权值w_i，并利用所述权值w_i改进所述初始点集S₀，以获得所述维诺图V_m的改进点集S＝{w₁p₁,w₂p₂,...,w_np_n}。

上述技术方案中，所述步骤S2中的可行子区域S_O，具体为：

在构型空间下，p_r为所述消毒机器人的质点，S_R为全部点p_r所构成的集合，S_C为整个所述待规划区域的点集，S_W为所述消毒机器人在所述待规划区域中的工作空间之点集，且Sc＝S_i+S_W。

上述技术方案中，所述步骤S3中的路径代价函数C₁(s)，具体为：

其中，l_i为所述消毒机器人从上一个消毒目标的结束点到当前消毒目标的起始点之间的行驶距离，d_j为所述消毒机器人在第j个消毒目标中的行驶距离，q+1为消毒目标的总个数，q为l_i的总段数。

上述技术方案中，所述步骤S3中的角度代价函数C₂(s)，具体为：

其中，(Q_i,Q_i+1)为路径s的序列点集，θ(Q_i,Q_i+1)为所述消毒机器人在Q_i与Q_i+1这两点之间的旋转角度，h为所述消毒机器人的总旋转次数。

上述技术方案中，所述步骤S3中的能量消耗代价函数C₃(s)，具体为：

其中，E₁为所述消毒机器人从上一个消毒目标的结束点到当前消毒目标的起始点之间的行驶过程中的能量消耗系数，E₂为所述消毒机器人在消毒目标中的行驶及消毒过程中的能量消耗系数，E₃为所述消毒机器人在旋转时的能量消耗系数。

上述技术方案中，所述步骤S3中的路径覆盖率代价函数C₄(s)，具体为：

其中，p为消毒目标的点集，Q_i为所述消毒机器人的消毒范围的点集，dA为消毒目标的微分。

上述技术方案中，所述路径覆盖率代价函数C₄(s)通过下述步骤简化：

Sa、定义所述维诺图V_m的任意一个多边形子区域的质心为点g，则有：

其中，g_x为点g的x轴坐标，g_y为点g的y轴坐标，n_a为所述维诺图V_m中的顶点个数，A_g为点g所在的多边形子区域的面积，且有：

Sb、综合所述维诺图V_m的所有多边形子区域，将所述路径覆盖率代价函数C₄(s)简化为：

上述技术方案中，所述步骤S3中的总代价函数C(x)，有：

min C(x)＝(C₁(s),C₂(s),C₃(s),C₄(s))。

上述技术方案中，所述步骤S4具体包括：

S4.1、利用马尔可夫决策过程，对所述消毒机器人的路径s进行迭代规划；

在所述马尔可夫决策过程中，有：奖励函数r_t＝c_i×r_i+b_s×r_c-μ_i×c_u；

其中，c_i为所述消毒机器人到达的维诺图V_m之多边形子区域的奖励权值，r_i为该个所述多边形子区域的奖励值；b_s为所述马尔可夫决策过程结束时的奖励权值，r_c为所述马尔可夫决策过程结束时的奖励值，μ_i为所述消毒机器人到达的维诺图V_m之多边形子区域的惩罚权值，c_i为该个所述多边形子区域的惩罚值；

S4.2、构建一学习型神经网络，并使用所述学习型神经网络对所述消毒机器人的路径s迭代规划过程进行训练，使用经验缓冲区来记录所述消毒机器人在训练期间的状态、动作和奖励；

所述学习型神经网络在点p处的激活函数为：

其中，p_x为点p的x轴坐标，p_y为点p的y轴坐标，α为学习参量；

S4.3、所述消毒机器人在训练期间，所述学习型神经网络的每一节点均使用边际值函数对策略梯度进行拟合；

且，时间t的边际值函数G_r关于参数τ、函数

状态s_t和响应ψ_t的关系式为：

其中，

为调节期望系数，w_t为重要性权重系数，Q^τ(s_t|ψ_t)为回溯评估值，且

其中，η_t为马尔可夫决策过程中的奖励值，λ_t为奖励系数，κ为权重因子；w_t+1为t+1时刻的动态调节权重，Q(s_t+1|ψ_t+1)为t+1时刻的估计值，Q^τ(s_t+1|ψ_t+1)为t+1时刻的回溯评估值；

S4.4、采用均方跟法对所述边际值函数G_r进行优化，以将所述边际值函数G_r的权值调整为如下关系式：

M_t＝εM_t-1+(1-ε)|g_t-1|；

w_t+1＝w_t+Δw；

其中，M_t为所述边际值函数G_r的指数平均数，g_t-1为所述边际值函数G_r在t-1时刻的梯度向量，ε和ρ均为调节参数，ξ为所述学习型神经网络的学习速率；w_t+1为t+1时刻的动态调节权重，w_t为t时刻的调节权重值，Δw为t时刻的权值调节量。

与现有技术相比，本发明的有益效果是：

1、该种考虑多目标优化的消毒机器人路径规划方法，通过总代价函数C(x)的形式，在考虑消毒机器人的总行驶距离、总旋转角度、能量消耗总量以及消毒区域重合率的情况下，完成消毒机器人的多目标路径规划，并根据改进的维诺图V_m和消毒机器人的形状获得可行子区域S_O，以约束总代价函数C(x)，使消毒机器人的多目标路径规划过程快速准确。

2、该种考虑多目标优化的消毒机器人路径规划方法，简化后的路径覆盖率代价函数C₄(s)，能够针对维诺图V_m的所有多边形子区域来表示消毒机器人的消毒区域重合率，降低了计算总代价函数C(x)的最小值时的运算量。

3、该种考虑多目标优化的消毒机器人路径规划方法，学习型神经网络自动化地通过马尔可夫决策过程对消毒机器人进行训练，通过有限次的马尔可夫决策过程迭代及训练，逐渐靠近奖励函数的最大值，并通过边际值函数G_r及其优化方法，进一步靠近奖励函数的最大值并减少迭代及训练的次数，使消毒机器人的性能得以快速提高。

附图说明

图1为本发明的实施例一的步骤流程图。

图2为本发明的实施例一中的步骤S1的步骤流程图。

图3为本发明的实施例一在步骤S1中所构建的维诺图V_m的示意性视图。

图4为本发明的消毒机器人在消毒目标中以及各个消毒目标间的运行示意图。

图5为本发明的消毒机器人在消毒目标中的消毒范围示意图。

图6为本发明的实施例二的步骤流程图。

图7为本发明的实施例三的步骤流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

请参阅图1，本实施例提供一种考虑多目标优化的消毒机器人路径规划方法，其包括下述步骤：

S1、将待规划区域的地图处理为改进的维诺图V_m，以形成若干不重叠的多边形子区域，并获得维诺图V_m的改进点集S。

使用改进的维诺图V_m和改进点集S，便于对消毒机器人的路径规划提供可量化及可计算的离散地图数据，简化了消毒机器人的路径规划过程。

S2、根据改进的维诺图V_m和消毒机器人的形状，采用构型空间表示消毒机器人在待规划区域内的可行子区域S_O，并采用构型空间表示待规划区域内的障碍物子区域S_i。

可行子区域S_O即为消毒机器人的自由空间，在可行子区域S_O中，消毒机器人不与任何障碍物有交集；以此方式表示的可行子区域S_O中，可以忽略消毒机器人的形状影响，将消毒机器人视为质点，简化了消毒机器人的路径规划过程；后续的路径规划过程中，所规划的路径之点集从可行子区域S_O中获取。

S3、根据消毒机器人的多个消毒目标，规划消毒机器人的路径s，分别构建消毒机器人的路径代价函数C₁(s)、角度代价函数C₂(s)、能量消耗代价函数C₃(s)以及路径覆盖率代价函数C₄(s)，并求和或加权求和路径代价函数C₁(s)、角度代价函数C₂(s)、能量消耗代价函数C₃(s)以及路径覆盖率代价函数C₄(s)，获得总代价函数C(x)，且使用维诺图V_m的改进点集S和可行子区域S_O来约束总代价函数C(x)。

其中，路径代价函数C₁(s)关于消毒机器人在消毒目标中以及各个消毒目标间的总行驶距离，角度代价函数C₂(s)关于消毒机器人在消毒目标中以及各个消毒目标间的总旋转角度，能量消耗代价函数C₃(s)关于消毒机器人的能量消耗总量，路径覆盖率代价函数C₄(s)关于消毒机器人的消毒区域重合率。

本步骤中，消毒目标是指分布在待规划区域中的若干个需要消毒的块状区域，各个消毒目标在待规划区域中相邻或相离，但不重合。

根据总代价函数C(x)，计算总代价函数C(x)的最小值获得条件，即可达到最优的多目标规划路径。

S4、将总代价函数C(x)结构化，并进一步构造学习型神经网络，以动态获取总代价函数C(x)最小的路径。

请参阅图2，具体地，步骤S1具体包括：

S1.1、在待规划区域的地图上生成若干的随机点P_i。

实际上，随机点P_i的生成与待规划区域的参数、消毒机器人的本身参数以及外界参数均无关。

S1.2、以随机点P_i的集合作为初始点集S₀，生成改进的维诺图V_m，以形成若干不重叠的多边形子区域。

S1.3、对所有的多边形子区域赋予权值w_i，并利用权值w_i改进初始点集S₀，以获得维诺图V_m的改进点集S＝{w₁p₁,w₂p₂,...,w_np_n}。

请参阅图3，以此方式生成的维诺图V_m具有如下的性质：

其中，p_m和p_n均为改进点集S中的任意点，p为维诺图V_m上的任意点，该性质表明对于每个超出维诺图V_m边界的多边形子区域，在维诺图V_m边界外的顶点将被替换为维诺图V_m的边界或者顶点，从而能够正确地表示待规划区域。

具体地，步骤S2中的可行子区域S_O，具体为：

在构型空间下，p_r为消毒机器人的质点，S_R为全部点p_r所构成的集合，S_C为整个待规划区域的点集，S_W为消毒机器人在待规划区域中的工作空间之点集，且Sc＝S_i+S_W。

在点集S_C中，考虑并抵消消毒机器人的全部质点p_r所构成的集合S_R后，在可行子区域S_O中，可以忽略消毒机器人的形状影响，将消毒机器人视为质点，简化了消毒机器人的路径规划过程。

具体地，步骤S3中的路径代价函数C₁(s)，具体为：

请参阅图4，其中，l_i为消毒机器人从上一个消毒目标的结束点到当前消毒目标的起始点之间的行驶距离，i表示第i段的行驶距离；d_j为消毒机器人在第j个消毒目标中的行驶距离，q+1为消毒目标的总个数，q为l_i的总段数。

路径代价函数C₁(s)能够准确的以离散数学模型的形式，表示消毒机器人在消毒目标中以及各个消毒目标间的总行驶距离，从而作为总代价函数C(x)的参数之一。

具体地，步骤S3中的角度代价函数C₂(s)，具体为：

其中，(Q_i,Q_i+1)为路径s的序列点集，θ(Q_i,Q_i+1)为消毒机器人在Q_i与Q_i+1这两点之间的旋转角度，h为消毒机器人的总旋转次数。

角度代价函数C₂(s)能够准确的以离散数学模型的形式，表示消毒机器人在消毒目标中以及各个消毒目标间的总旋转角度，从而作为总代价函数C(x)的参数之一。

具体地，步骤S3中的能量消耗代价函数C₃(s)，具体为：

其中，E₁为消毒机器人从上一个消毒目标的结束点到当前消毒目标的起始点之间的行驶过程中的能量消耗系数，E₂为消毒机器人在消毒目标中的行驶及消毒过程中的能量消耗系数，E₃为消毒机器人在旋转时的能量消耗系数。

能量消耗代价函数C₃(s)能够准确的以离散数学模型的形式，表示消毒机器人的能量消耗总量，从而作为总代价函数C(x)的参数之一。

具体地，步骤S3中的路径覆盖率代价函数C₄(s)，具体为：

其中，p为消毒目标的点集，Q_i为消毒机器人的消毒范围的点集，dA为消毒目标的微分。

请参阅图5，消毒机器人的消毒范围是指消毒机器人在空间中的某一点时，其能够对环境进行消毒的有效作用范围，这与消毒机器人的动作机构及消毒机构的结构设计有关；消毒机器人在实际的消毒过程中会在消毒目标中来回行驶，在来回行驶的过程中，消毒机器人的消毒范围会有所重合，设计路径覆盖率代价函数C₄(s)的目的在于，尽量缩小消毒机器人消毒过程中的消毒范围重合面积；路径覆盖率代价函数C₄(s)能够准确的以离散数学模型的形式，表示消毒机器人的消毒区域重合率，从而作为总代价函数C(x)的参数之一。

综上，步骤S3中的总代价函数C(x)，有：

minC(x)＝(C₁(s),C₂(s),C₃(s),C₄(s))。

该种考虑多目标优化的消毒机器人路径规划方法，通过总代价函数C(x)的形式，在考虑消毒机器人的总行驶距离、总旋转角度、能量消耗总量以及消毒区域重合率的情况下，完成消毒机器人的多目标路径规划，并根据改进的维诺图V_m和消毒机器人的形状获得可行子区域S_O，以约束总代价函数C(x)，使消毒机器人的多目标路径规划过程快速准确。

实施例二：

请参阅图6，本实施例提供一种考虑多目标优化的消毒机器人路径规划方法，在实施例一提供的考虑多目标优化的消毒机器人路径规划方法的基础上，还进一步包括：

路径覆盖率代价函数C₄(s)通过下述步骤简化：

Sa、定义维诺图V_m的任意一个多边形子区域的质心为点g，则有：

其中，g_x为点g的x轴坐标，g_y为点g的y轴坐标，n_a为维诺图V_m中的顶点个数，A_g为点g所在的多边形子区域的面积，且有：

在维诺图V_m的任意一个多边形子区域中，使路径覆盖率代价函数C₄(s)的获得最小值的点是点g，因此，有必要表示出点g的x轴坐标和y轴坐标，并计算维诺图V_m的面积A_g。

Sb、综合维诺图V_m的所有多边形子区域，将路径覆盖率代价函数C₄(s)简化为：

该种考虑多目标优化的消毒机器人路径规划方法，简化后的路径覆盖率代价函数C₄(s)，能够针对维诺图V_m的所有多边形子区域来表示消毒机器人的消毒区域重合率，降低了计算总代价函数C(x)的最小值时的运算量。

实施例三：

请参阅图7，本实施例提供一种考虑多目标优化的消毒机器人路径规划方法，在实施例一提供的考虑多目标优化的消毒机器人路径规划方法的基础上，还进一步包括：

步骤S4具体包括：

S4.1、利用马尔可夫决策过程，对消毒机器人的路径s进行迭代规划；

在马尔可夫决策过程中，有：奖励函数r_t＝c_i×r_i+b_s×r_c-μ_i×c_u；

其中，c_i为消毒机器人到达的维诺图V_m之三角形区域的奖励权值，r_i为该个三角形区域的奖励值；b_s为马尔可夫决策过程结束时的奖励权值，r_c为马尔可夫决策过程结束时的奖励值，μ_i为消毒机器人到达的维诺图V_m之三角形区域的惩罚权值，c_i为该个三角形区域的惩罚值；

S4.2、构建一学习型神经网络，并使用学习型神经网络对消毒机器人的路径s迭代规划过程进行训练，使用经验缓冲区来记录消毒机器人在训练期间的状态、动作和奖励；

在马尔可夫决策过程中，有：

学习型神经网络在点p处的激活函数为：

S4.3、消毒机器人在训练期间，学习型神经网络的每一节点均使用边际值函数对策略梯度进行拟合；

且，时间t的边际值函数G_r关于参数τ、函数

状态s_t和响应ψ_t的关系式为：

其中，

其中，η_t为马尔可夫决策过程中的奖励值，初始值选取为1；λ_t为奖励系数，初始值选取为0.9；κ为权重因子，初始值选取为0.8；w_t+1为t+1时刻的动态调节权重，Q(s_t+1|ψ_t+1)为t+1时刻的估计值，Q^τ(s_t+1|ψ_t+1)为t+1时刻的回溯评估值；

S4.4、采用均方跟法对边际值函数G_r进行优化，以将边际值函数G_r的权值调整为如下关系式：

M_t＝εM_t-1+(1-ε)|g_t-1|；

w_t+1＝w_t+Δw；

其中，M_t为边际值函数G_r的指数平均数，g_t-1为边际值函数G_r在t-1时刻的梯度向量，ε和ρ均为调节参数，ξ为学习型神经网络的学习速率，初始值选取为0.8；w_t+1为t+1时刻的动态调节权重，w_t为t时刻的调节权重值，Δw为t时刻的权值调节量。

该种考虑多目标优化的消毒机器人路径规划方法，学习型神经网络自动化地通过马尔可夫决策过程对消毒机器人进行训练，通过有限次的马尔可夫决策过程迭代及训练，逐渐靠近奖励函数的最大值，并通过边际值函数G_r及其优化方法，进一步靠近奖励函数的最大值并减少迭代及训练的次数，使消毒机器人的性能得以快速提高。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种考虑多目标优化的消毒机器人路径规划方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的考虑多目标优化的消毒机器人路径规划方法，其特征在于，所述步骤S1具体包括：

S1.1、在待规划区域的地图上生成若干的随机点P_i；

3.根据权利要求2所述的考虑多目标优化的消毒机器人路径规划方法，其特征在于，所述步骤S2中的可行子区域S_O，具体为：

4.根据权利要求1所述的考虑多目标优化的消毒机器人路径规划方法，其特征在于，所述步骤S3中的路径代价函数C₁(s)，具体为：

5.根据权利要求4所述的考虑多目标优化的消毒机器人路径规划方法，其特征在于，所述步骤S3中的角度代价函数C₂(s)，具体为：

6.根据权利要求5所述的考虑多目标优化的消毒机器人路径规划方法，其特征在于，所述步骤S3中的能量消耗代价函数C₃(s)，具体为：

7.根据权利要求6所述的考虑多目标优化的消毒机器人路径规划方法，其特征在于，所述步骤S3中的路径覆盖率代价函数C₄(s)，具体为：

8.根据权利要求7所述的考虑多目标优化的消毒机器人路径规划方法，其特征在于，所述路径覆盖率代价函数C₄(s)通过下述步骤简化：

9.根据权利要求8所述的考虑多目标优化的消毒机器人路径规划方法，其特征在于，所述步骤S3中的总代价函数C(x)，有：

minC(x)＝(C₁(s),C₂(s),C₃(s),C₄(s))。

10.根据权利要求1所述的考虑多目标优化的消毒机器人路径规划方法，其特征在于，所述步骤S4具体包括：

所述学习型神经网络在点p处的激活函数为：

且，时间t的边际值函数G_r关于参数τ、函数

状态s_t和响应ψ_t的关系式为：

其中，

M_t＝εM_t-1+(1-ε)|g_t-1|；

w_t+1＝w_t+Δw；