CN116494255A

CN116494255A - 一种基于强化学习的空间机械臂路径规划系统

Info

Publication number: CN116494255A
Application number: CN202310786551.4A
Authority: CN
Inventors: 巫飞彪; 张少华
Original assignee: Guangzhou Donghan Intelligent Equipment Co ltd
Current assignee: Guangzhou Donghan Intelligent Equipment Co ltd
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2023-07-28
Anticipated expiration: 2043-06-30
Also published as: CN116494255B

Abstract

本发明公开了一种基于强化学习的空间机械臂路径规划系统，包括：第一确定模块建立空间静态障碍物环境模型以及机械臂模型，确定第一移动路径；第二确定模块在机械臂模型执行第一移动路径过程中，获取空间动态障碍物信息，建立空间动态障碍物环境模型；判断模块根据空间动态障碍物环境模型及机械臂模型判断在执行第一移动路径时，是否会发生碰撞；提取模块在确定会发生碰撞时，确定待处理路径；优化模块对所述待处理路径基于预先训练好的强化学习模型进行避障优化，得到修正路径；根据修正路径对第一移动路径进行优化，得到第二移动路径。避免在初期进行大量的数据运算，提高了系统的响应速率，也提高了确定的移动路径的准确性。

Description

一种基于强化学习的空间机械臂路径规划系统

技术领域

本发明涉及机械臂技术领域，特别涉及一种基于强化学习的空间机械臂路径规划系统。

背景技术

在机器人中涉及空间机械臂以及空间机械臂路径规划问题，空间机械臂在执行空间操作的过程中，如何保证其安全性是空间机械臂技术发展面临的一个重要问题。当空间机械臂进行空间操作时，由于空间机械臂、以及目标物的附近通常安装有其他产品，因此运动过程中需要考虑与障碍物之间的碰撞问题。

现有技术中，基于初始的环境，直接确定机械臂的移动路径，在初始的环境中包括动态障碍物和静态障碍物，会导致确定的移动路径的不准确，同时也造成了大量的数据运算，降低了系统的响应速率。

发明内容

本发明旨在至少一定程度上解决上述技术中的技术问题之一。为此，本发明的目的在于提出一种基于强化学习的空间机械臂路径规划系统，避免在初期进行大量的数据运算，提高了系统的响应速率，也提高了确定的移动路径的准确性。

为达到上述目的，本发明实施例提出了一种基于强化学习的空间机械臂路径规划系统，包括：

第一确定模块，用于建立空间静态障碍物环境模型以及机械臂模型，根据空间静态障碍物环境模型、机械臂模型的起始点和目标点，确定第一移动路径；

第二确定模块，用于在机械臂模型执行第一移动路径过程中，获取空间动态障碍物信息，建立空间动态障碍物环境模型；

判断模块，用于根据空间动态障碍物环境模型及机械臂模型判断在执行第一移动路径时，是否会发生碰撞；

提取模块，用于在判断模块确定会发生碰撞时，对第一移动路径中通过动态障碍物的部分路径进行提取，作为待处理路径；

优化模块，用于：

对所述待处理路径基于预先训练好的强化学习模型进行避障优化，得到修正路径；

根据修正路径对第一移动路径进行优化，得到第二移动路径;

还包括：

动作规划模块，用于：

获取第二移动路径的各个转折点；

在第二移动路径的初始端点设置机械臂模型的初始运动动作；

在各个转折点基于机械臂模型的当前运动动作随机生成下一运动动作，得到若干种动作组合序列；

将每种动作组合序列打包输入预先训练好的动作评分模型中，输出动作评分，确定动作评分最高的动作组合序列为目标动作序列；

数据处理模块，用于：

在机械臂执行目标动作序列时，基于设置在机械臂的监测点上的传感器获取监测数据；

基于监测数据的时间戳，合并不同采样频率的传感器的数据，得到合并数据；

对合并数据进行分析，确定偏离正态分布程度，在确定大于预设阈值时，确定为异常值并进行删除，得到筛选数据；

基于极大似然法和贝叶斯方法，对筛选数据进行处理，调整筛选数据的分布趋于正态分布，得到有效数据；

状态监测模块，用于根据有效数据确定各个监测点的移动方向、速度以及机械臂的姿态，根据各个监测点的移动方向、速度以及机械臂的姿态，确定机械臂的状态信息；在确定状态信息与预设状态信息不一致时，发出报警提示。

根据本发明的一些实施例，所述第一确定模块，包括：

建立子模块，用于：

获取空间静态障碍物信息，根据空间静态障碍物信息建立空间静态障碍物环境模型；

获取机械臂的部件信息及部件连接信息，根据部件信息及部件连接信息建立机械臂模型；

第一确定子模块，用于根据空间静态障碍物环境模型、机械臂模型的起始点和目标点基于预设算法，确定第一移动路径。

根据本发明的一些实施例，所述判断模块，包括：

判断子模块，用于判断机械臂模型在执行经过空间动态障碍物环境模型所在区域的第一移动路径时，空间动态障碍物环境模型的移动方向是否朝向机械臂模型；

第二确定子模块，用于在确定空间动态障碍物环境模型的移动方向朝向机械臂模型时，评估空间动态障碍物环境模型的移动轨迹与机械臂模型的移动轨迹是否存在交点，在确定存在交点时，

表示会发生碰撞。

根据本发明的一些实施例，所述优化模块，包括：

第三确定子模块，用于确定待处理路径对应的起点、终点及动态障碍物的类型及参数，在预设路径规划库中确定若干条初步路径；

筛选子模块，用于在若干条初步路径中基于预先训练好的强化学习模型，筛选出最优的初步路径进行避障优化，作为修正路径；

替换子模块，用于基于修正路径对第一移动路径中的相应部分进行替换，得到第二移动路径。

根据本发明的一些实施例，还包括：

获取模块，用于在机械臂执行第二移动路径时，获取机械臂的实际移动路径；

报警模块，用于判断所述实际移动路径与所述第二移动路径是否一致，在确定不一致时，发出报警提示。

根据本发明的一些实施例，所述获取模块，包括：

分帧处理子模块，用于在预设监控区域内拍摄机器臂的监控视频，基于所述监控视频进行分帧处理，读取监控视频中的图像信息；

识别子模块，用于对所述图像信息进行目标识别，确定机械臂的移动点，并进行连接，确定机械臂的实际移动路径。

根据本发明的一些实施例，所述预设算法包括空间关节路径规划方法、笛卡尔路径规划方法、曲线路径规划方法中的至少一种。

根据本发明的一些实施例，第三确定子模块确定动态障碍物的类型的方法，包括：

获取动态障碍物的图像，去除背景噪声后，进行特征提取，提取动态障碍物对应的颜色直方图；

设置目标像素值；

确定目标像素值对应的像素点的数量，根据所述数量计算在颜色直方图中的占比信息；

根据所述占比信息查询预设的占比信息-类型数据表，确定对应的类型，作为动态障碍物的类型。

本发明提出了一种基于强化学习的空间机械臂路径规划系统，首先基于空间静态障碍物环境模型、机械臂模型的起始点和目标点，确定第一移动路径；在机械臂模型执行第一移动路径过程中，获取空间动态障碍物信息，建立空间动态障碍物环境模型；根据空间动态障碍物环境模型及机械臂模型判断在执行第一移动路径时，是否会发生碰撞；在判断模块确定会发生碰撞时，对第一移动路径中通过动态障碍物的部分路径进行提取，作为待处理路径；确定对所述待处理路径基于预先训练好的强化学习模型进行避障优化，得到修正路径；根据修正路径对第一移动路径进行优化，得到第二移动路径。避免在初期进行大量的数据运算，提高了系统的响应速率，后期在执行第一移动路径的过程中，在通过动态障碍物时，进行动态调整，提高了确定的第二移动路径的准确性。便于准确确定机械臂的目标动作序列，在机械臂执行目标动作序列时，基于设置在机械臂的监测点上的传感器获取监测数据；对监测数据进行处理，提高监测数据的准确性，进而准确确定机械臂的状态信息，提高判断状态信息与预设状态信息是否一致的准确性，便于机械臂能够安全可靠的运行。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是根据本发明一个实施例的一种基于强化学习的空间机械臂路径规划系统的框图；

图2是根据本发明一个实施例的第一确定模块的框图；

图3是根据本发明一个实施例的判断模块的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

如图1所示，本发明实施例提出了一种基于强化学习的空间机械臂路径规划系统，包括：

优化模块，用于：

根据修正路径对第一移动路径进行优化，得到第二移动路径;

还包括：

动作规划模块，用于：

获取第二移动路径的各个转折点；

数据处理模块，用于：

上述技术方案的工作原理：强化学习模型是一种无标签的学习模型，通过奖励函数来判断在确定状态下执行某一动作的好坏，学习过程就是通过奖励信号来改变执行动作的策略，最终结果是形成一个使奖励最大的策略。对所述待处理路径基于预先训练好的强化学习模型进行避障优化，用于在避开动态障碍物时，从若干个初步路径中筛选出最优的初步路径进行避障优化，作为修正路径，实现对第一移动路径根据动态障碍物进行局部优化。

该实施例中，转折为第二移动路径发出路径变化的初始点，比如拐弯点等。

该实施例中，在各个转折点基于机械臂模型的当前运动动作随机生成下一运动动作，得到若干种动作组合序列；示例的，在第一个转折点，基于初始运动动作随机生成下一运动动作，在第二个转折点，基于下一运动动作再次进行动作生成，直至将第二移动路径执行完毕，将第二移动路径中各个转折点生成的运动动作，组合为一种动作组合序列，进而得到若干种动作组合序列。

该实施例中，目标动作序列为确定的机械臂在执行第二移动路径时的最优的动作规划信息。

该实施例中，监测点为机械臂的运动关节点及操作部位关键点。传感器包括六轴姿态角度传感器、位置传感器等。

该实施例中，基于监测数据的时间戳，合并不同采样频率的传感器的数据，得到合并数据，便于从整体上分析机械臂的信息。

该实施例中，对合并数据进行分析，确定偏离正态分布程度，在确定大于预设阈值时，确定为异常值并进行删除，得到筛选数据，便于剔除异常数据，提高数据的准确性。

该实施例中，基于极大似然法和贝叶斯方法，对筛选数据进行处理，调整筛选数据的分布趋于正态分布，得到有效数据；便于使基于传感器获取的监测数据分布趋于正态分布，便于提高数据分析的准确性。

该实施例中，预设状态信息为机械臂在执行相应的动作时预设的状态信息。

该实施例中，将每种动作组合序列打包输入预先训练好的动作评分模型中，输出动作评分，确定动作评分最高的动作组合序列为目标动作序列，示例的，每种动作组合序列中包括第二移动路径中各个转折点生成的运动动作，即包括若干个运动动作。动作评分模型对动作组合序列中的初始运动动作进行单独评分，基于初始运动动作与第二个运动动作的关联关系及第二个运动动作对第二个运动动作进行评分，基于第二个运动动作与第三个运动动作的关联关系及第三个运动动作对第三个运动动作进行评分，直至对最后一个运动动作进行评分，将所有的评分进行求和，输出动作评分，确定动作评分最高的动作组合序列为目标动作序列。动作评分模型是基于样本数据进行训练得到的，含有的函数关系包括:对各个运动动作的单独评分函数、以及基于两个运动动作之间的关联关系确定评分系数的函数。示例的，动作组合序列中包括运动动作A、运动动作B、运动动作C；基于单独评分函数，确定对应的分数为a、b、c；基于两个运动动作之间的关联关系确定评分系数的函数，基于运动动作A与运动动作B的关联关系，确定评分系数为1.2；基于运动动作B与运动动作C的关联关系，确定评分系数为0.8；因此，动作评分为a+1.2b+0.8c。

上述技术方案的有益效果：首先基于空间静态障碍物环境模型、机械臂模型的起始点和目标点，确定第一移动路径；在机械臂模型执行第一移动路径过程中，获取空间动态障碍物信息，建立空间动态障碍物环境模型；根据空间动态障碍物环境模型及机械臂模型判断在执行第一移动路径时，是否会发生碰撞；在判断模块确定会发生碰撞时，对第一移动路径中通过动态障碍物的部分路径进行提取，作为待处理路径；确定对所述待处理路径基于预先训练好的强化学习模型进行避障优化，得到修正路径；根据修正路径对第一移动路径进行优化，得到第二移动路径。避免在初期进行大量的数据运算，提高了系统的响应速率，后期在执行第一移动路径的过程中，在通过动态障碍物时，进行动态调整，提高了确定的第二移动路径的准确性。便于准确确定机械臂的目标动作序列，在机械臂执行目标动作序列时，基于设置在机械臂的监测点上的传感器获取监测数据；对监测数据进行处理，提高监测数据的准确性，进而准确确定机械臂的状态信息，提高判断状态信息与预设状态信息是否一致的准确性，便于机械臂能够安全可靠的运行。

如图2所示，根据本发明的一些实施例，所述第一确定模块，包括：

建立子模块，用于：

上述技术方案的工作原理及有益效果：建立子模块，用于：获取空间静态障碍物信息，根据空间静态障碍物信息建立空间静态障碍物环境模型；获取机械臂的部件信息及部件连接信息，根据部件信息及部件连接信息建立机械臂模型；第一确定子模块，用于根据空间静态障碍物环境模型、机械臂模型的起始点和目标点基于预设算法，确定第一移动路径。便于确定准确的第一移动路径。

如图3所示，根据本发明的一些实施例，所述判断模块，包括：

表示会发生碰撞。

上述技术方案的工作原理及有益效果：判断子模块，用于判断机械臂模型在执行经过空间动态障碍物环境模型所在区域的第一移动路径时，空间动态障碍物环境模型的移动方向是否朝向机械臂模型；首先从移动方向上进行粗略估计，在确定空间动态障碍物环境模型的移动方向不是朝向机械臂模型，表示将不会发生碰撞；在确定空间动态障碍物环境模型的移动方向朝向机械臂模型时，表示可能会发生碰撞。第二确定子模块，用于在确定空间动态障碍物环境模型的移动方向朝向机械臂模型的移动方向时，评估空间动态障碍物环境模型的移动轨迹与机械臂模型的移动轨迹是否存在交点，在确定存在交点时，

表示会发生碰撞。其次，进行准确评估，在确定存在交点时，表示会发生碰撞，提高判断是否会发生碰撞的准确性。

根据本发明的一些实施例，所述优化模块，包括：

上述技术方案的工作原理及有益效果：该实施例中，预设路径规划库中包括起点、终点及动态障碍物的类型及参数等数据，以及对应的初步路径。第三确定子模块，用于确定待处理路径对应的起点、终点及动态障碍物的类型及参数，在预设路径规划库中确定若干条初步路径；筛选子模块，用于在若干条初步路径中基于预先训练好的强化学习模型，筛选出最优的初步路径进行避障优化，作为修正路径；替换子模块，用于基于修正路径对第一移动路径中的相应部分进行替换，得到第二移动路径。便于准确确定第二移动路径。

根据本发明的一些实施例，还包括：

上述技术方案的工作原理及有益效果：获取模块，用于在机械臂执行第二移动路径时，获取机械臂的实际移动路径；报警模块，用于判断所述实际移动路径与所述第二移动路径是否一致，在确定不一致时，发出报警提示。对机械臂的实际移动路径进行监控，判断实际移动路径与第二移动路径是否一致，在确定不一致时，发出报警提示，便于及时进行调整。

根据本发明的一些实施例，所述获取模块，包括：

上述技术方案的工作原理及有益效果：分帧处理子模块，用于在预设监控区域内拍摄机器臂的监控视频，基于所述监控视频进行分帧处理，读取监控视频中的图像信息；识别子模块，用于对所述图像信息进行目标识别，确定机械臂的移动点，并进行连接，确定机械臂的实际移动路径。便于准确确定机械臂的实际移动路径。

设置目标像素值；

上述技术方案的工作原理：该实施例中，目标像素值为预设的像素点的像素值，用于确定动态障碍物的特征。

该实施例中，确定目标像素值对应的像素点的数量，根据所述数量计算在颜色直方图中的占比信息；根据所述占比信息查询预设的占比信息-类型数据表，确定对应的类型，作为动态障碍物的类型，识别动态障碍物的类型更加的准确且便捷。

该实施例中，预设的占比信息-类型数据表为基于样本动态障碍物对应的样本占比信息与其类型对应的数据表。

该实施例中，示例的确定占比信息为A，查询预设的占比信息-类型数据表，确定数据表中占比信息A对应的类型，为类型A，将类型A作为动态障碍物的类型。

上述技术方案的有益效果：简化了识别动态障碍物的算法，基于确定目标像素值对应的像素点的数量，根据所述数量计算在颜色直方图中的占比信息及预设的占比信息-类型数据表，准确确定动态障碍物的类型，提高了系统响应速率。

根据本发明的一些实施例，根据所述数量计算在颜色直方图中的占比信息，包括：

其中，为颜色直方图中目标像素值/>的像素点的占比信息；/>为颜色直方图中第j个像素点与颜色直方图中的中心像素点p之间的距离；/>为/>的最大值；/>为颜色直方图中第j个像素点；/>为颜色直方图中第j个像素点的像素值；为/>的权重系数；M为颜色直方图中包括的像素点的数量；T为颜色直方图中标像素值/>的像素点的数量。

基于上述算法，便于准确计算出根据所述数量计算在颜色直方图中的占比信息，进而便于根据预设的占比信息-类型数据表，提高了确定动态障碍物的类型的准确性。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于强化学习的空间机械臂路径规划系统，其特征在于，包括：

优化模块，用于：

根据修正路径对第一移动路径进行优化，得到第二移动路径；

还包括：

动作规划模块，用于：

获取第二移动路径的各个转折点；

数据处理模块，用于：

2.如权利要求1所述的基于强化学习的空间机械臂路径规划系统，其特征在于，所述第一确定模块，包括：

建立子模块，用于：

3.如权利要求1所述的基于强化学习的空间机械臂路径规划系统，其特征在于，所述判断模块，包括：

第二确定子模块，用于在确定空间动态障碍物环境模型的移动方向朝向机械臂模型时，评估空间动态障碍物环境模型的移动轨迹与机械臂模型的移动轨迹是否存在交点，在确定存在交点时，表示会发生碰撞。

4.如权利要求1所述的基于强化学习的空间机械臂路径规划系统，所述优化模块，包括：

5.如权利要求1所述的基于强化学习的空间机械臂路径规划系统，其特征在于，还包括：

6.如权利要求5所述的基于强化学习的空间机械臂路径规划系统，其特征在于，所述获取模块，包括：

7.如权利要求2所述的基于强化学习的空间机械臂路径规划系统，其特征在于，所述预设算法包括空间关节路径规划方法、笛卡尔路径规划方法、曲线路径规划方法中的至少一种。

8.如权利要求4所述的基于强化学习的空间机械臂路径规划系统，其特征在于，第三确定子模块确定动态障碍物的类型的方法，包括：

设置目标像素值；