CN116604571B

CN116604571B - 一种基于深度强化学习的机器人三维测量路径规划方法

Info

Publication number: CN116604571B
Application number: CN202310864607.3A
Authority: CN
Inventors: 王耀南; 唐永鹏; 谭浩然; 冯运; 张辉; 谢核; 彭伟星; 吴昊天; 刘学兵; 毛建旭; 朱青
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2023-07-14
Filing date: 2023-07-14
Publication date: 2023-10-27
Anticipated expiration: 2043-07-14
Also published as: CN116604571A

Abstract

本发明公开了一种基于深度强化学习的机器人三维测量路径规划方法，包含基于多层视球和下一最优视点的MLVS‑NBV规划方法生成候选视点集合，使用IKFast运动学求解器求解各视点对应的机器人的所有逆运动学解，建立视点—逆运动学解的评估矩阵，利用PC‑NBV点云网络学习和预测选择下一视点后的覆盖率，建立GTSP问题并利用DDQN深度强化学习方法求解，使用GPMP2运动规划器快速生成测量路径，将训练网络迁移到实际的机器人测量任务。通过视点规划方法保证测量视点的可行性并提高对不同测量对象的测量覆盖率，利用深度强化学习技术实现对不同已知对象的自主测量和对未知对象的探索式测量，规划速度快、适应性强、效率高。

Description

一种基于深度强化学习的机器人三维测量路径规划方法

技术领域

本发明属于机器人三维测量技术领域，特别是涉及一种基于深度强化学习的机器人三维测量路径规划方法。

背景技术

冗余机器人测量系统广泛应用于航空、航天、船舶、能源、汽车等制造业，具有灵活性强、工作空间大、测量精度高等特点。代表性的冗余机器人测量系统包括7自由度机器人测量系统（通常采用机器人和电动转台实现协同测量）、移动测量机器人系统（通常采用移动机器人和工业机器人实现协同测量）和超冗余测量系统（如采用蛇形测量机器人完成弯曲管道检测）。本发明面向一种7自由度的机器人测量系统，该系统主要包括协作机器人、双目结构光扫描仪和电动转台。协作机器人是一种柔性机器人，可以实时检测每个关节的扭矩，实现灵敏地检测碰撞，并提供友好的拖拽操作，可以保证机器人与操作人员之间的高效协作。

然而，在三维测量过程中，协作机器人末端位姿跟踪误差大，会降低三维重建的精度，通常采用标记点来对齐多个测点云而不是直接使用机器人的位姿。一个实际而关键的问题是如何保证点标记点在扫描仪感知的范围内，以保证三维重建的成功率。此外，由于冗余性，存在无限多个逆运动学解到达某一个可行的视点姿态。这一特性提供了遍历所有给定视点同时尽量减少路径成本和时间成本的可能性，但如何分析每个视点的可行性、确定其遍历顺序、选择最优的逆运动学解和生成无碰撞的测量路径变得更加复杂。传统的方法是对电动转台的角度进行采样，并根据转台的不同采样角度生成给定视点下6自由度机器人的运动学逆解，然后根据人工定义度量（例如最大机器人可操作性，最小关节运动角度）选择一个可行的次优的逆运动学解，最后规划视点的遍历顺序和生成无碰撞测量路径。这种方法简单可行，但不能综合考虑视点数量、路径成本和时间成本，获得最优的测量策略。

目前，机器人测量系统的测量对象和测量路径相对固定，尤其对未知对象缺乏有效的探索式测量技术。如何通过学习方式的实现人类技能水平的自主智能测量是机器人测量系统的未来发展趋势。

发明内容

针对以上技术问题，本发明提供一种基于深度强化学习的机器人三维测量路径规划方法。

本发明解决其技术问题采用的技术方案是：

一种基于深度强化学习的机器人三维测量路径规划方法，所述方法包括以下步骤：

S100：基于多层视球和下一最优视点的MLVS-NBV规划方法生成候选视点集合；

S200：使用IKFast运动学求解器求解候选视点集合中各视点对应的机器人的所有逆运动学解；

S300：建立视点—逆运动学解的评估矩阵；

S400：基于候选视点集合建立训练数据集，根据训练数据集对PC-NBV点云网络进行训练，基于训练后的PC-NBV点云网络学习和预测选择下一个视点后的覆盖率；

S500：将测量视点选择问题建模为GTSP问题，搭建基于DDQN的网络架构，根据评估矩阵、覆盖率预测矢量和视点遍历序列更新状态信息，根据更新后的状态信息结合DDQN强化学习方法求解GTSP问题，得到训练后的Q网络；

S600：将训练好的Q网络迁移到实际的机器人测量任务，根据观测信息生成下一个最优视点，使用GPMP2运动规划器生成无碰撞测量路径，控制机器人运动并扫描对象，直至到达预设的终止条件，结束测量。

优选地，S100包括：

S110：构建多层视球并采样生成初始视点集合；

S120：分析标志点约束和初始视点集合中视点可行性，保留可行的视点；

S130：建立基于可视锥的下一最优视点规划策略，并增加对不同对象测量的视点；

S140：融合所有可行的测量视点生成候选视点集合。

优选地，S110将每个视点定义为位置/>、方向/>和绕该方向相对旋转角度的元组，即/>，该视点的位姿计算如下：

其中，是单位矢量/>，/>是矢量/>的反对称矩阵；视点方向/>设定为视点坐标系的Z轴，即结构光三维扫描仪投影仪的光轴方向；/>为视点坐标系Z轴与测量对象坐标系Z轴的夹角；/>矢量/>旋转到矢量/>的旋转轴方向；/>为视点坐标系到测量对象坐标系/>的旋转变换矩阵；/>为视点相对于测量对象的位姿。

优选地，S120采用虚拟测量技术模拟给定视点下观测到的标志点信息，通过分析观测到的标志点的数量/>和分布/>判断视点在视觉上是否可行，即，其中/>为要求观测到的标志点的最少数量，为要求观测到的标志点聚类的最少数量，按标志点支柱的中心线进行聚类，其聚类结果为标志点占用的支柱的最少数量；同时，S120通过分析逆运动学解是否存在、机器人关节角度是否满足关节位置限制、是否存在物理碰撞、是否具有一定的可操作性来分析视点在运动学上是否可行性，即，其中，为计算给定视点/>和采样转台角度/>下的机器人逆运动学解/>，/>和/>分别为机器人关节的最小关节位置和最大关节位置，/>为机器人的无碰撞关节空间，为机器人的雅可比矩阵，/>为规定的最小机器人可操作性；当给定的视点同时满足上述条件/>，则该视点是可行的，否则该视点是不可行的。

优选地，S130包括：

S1301：对个测量对象进行泊松采样生成测量表面点集/>，其中/>；

S1302：初始化，覆盖率/>，当前迭代次数/>，最大迭代次数/>和新增视点集合/>；

S1303：通过虚拟测量技术模拟视点对/>的观测点云/>，其中/>，/>，/>为/>中视点的数量；

S1304：计算覆盖率，其中/>操作表示统计点云中的点数；

S1305：如果，则执行步骤S1312，否则执行S1306，其中/>为第/>个测量对象的期望覆盖率；

S1306：随机选择一个未观测到的表面点，其法向为/>，采用S110中视点位姿计算公式计算可视锥坐标系变换矩阵/>；

S1307：初始化可视锥角度映射矩阵，其矩阵各元素均为0，/>、/>分别为矩阵的行数和列数；

S1308：计算表面点的投影点集合，即/>，其中每个表面点/>；

S1309：遍历中的每个投影点/>，以可视锥坐标系建立球坐标系，计算极角，计算方位角/>，如果/>，则更新映射矩阵的元素/>，其中单位矢量/>，/>，矩阵元素的行索引/>，列索引/>，参数/>，/>分别为设定的方位角和极角的角度间隔；

S1310：遍历中的元素/>，如果/>为0，则采样视点/>由以下公式计算：

若视点满足/>，则/>，其中，/>为可视锥坐标系中的视点朝向，/>为扫描仪的最佳工作距离，/>为相对旋转角度的均匀采样数量，/>；

S1311：如果，则更新/>，返回步骤S1303，否则执行S1312；

S1312：如果，则更新/>，返回步骤S1306，否则执行S140。

优选地，S200包括：

S210：均匀采样个转台角度，即/>，/>；

S220：计算机器人末端姿态矩阵，，/>，/>，其中/>为候选视点数量，/>为绕Z轴的旋转矩阵，{B}为机器人基座坐标系，{E}为机器人末端坐标系，{T}为转台的坐标系，{O}为测量对象的坐标系，{V}为视点的坐标系，/>为机器人末端坐标系到基座坐标系的变换矩阵，/>为转台坐标系到机器人基座坐标系的变换矩阵，/>为转台坐标系到测量对象坐标系的变换矩阵，/>为机器人末端坐标系到视点坐标系的变换矩阵；

S230：使用IKFast机器人逆运动学求解器求解机器人的所有逆运动学解，/>，/>，/>；若求解给定/>下的机器人逆运动学解的数量少于8，则添加无意义的解保持解的数量为8个，无意义的解如超过关节极限的解或各关节的数值为无穷大。

优选地，S300包括：

S310：构造二进制矩阵，初始化矩阵各元素为0，其中/>为候选视点数量，/>为生成的逆运动学解的数量；

S320：评估是否满足S120所述的运动学可达性条件/>，如果满足该条件，则是可行的逆运动学解，更新/>中的对应的元素/>为1，其中/>，，/>。

优选地，S400包括：

S410：对个测量对象进行泊松采样生成测量表面点集/>，/>；

S420：根据候选视点集合，生成不同测量对象在不同视点下观测的点云数据/>，，/>；

S430：建立训练数据集，其中每个训练数据采用统一的数据格式（/>，/>，），其中，/>为所有选择视点的遍历序列，描述为/>，为选择的视点数量；/>为视点选择矢量，若/>中的第/>个元素/>的值为1，则第/>个视点被选择；否则，/>中的第/>个元素/>的值为0，第/>个视点未被选择；/>表示测量第个测量对象时所有遍历视点观测到的点云数据/>的集合；/>表示视点的覆盖率预测矢量，第/>个元素/>的值表示增加第/>个视点后的覆盖率，/>，/>；

S440：使用训练数据集训练PC-NBV网络，实现输入观测到的点云数据和视点选择矢量后，直接输出对选择下一个视点时覆盖率的预测。

优选地，S500包括：

S510：如图5所示，建模GTSP问题如下：

其中，为视点遍历序列/>中视点的数量，/>为扫描仪单次扫描的时间成本，为计算遍历序列中第/>个选择视点到第/>个选择视点的运动时间成本，/>为第/>个测量对象的期望覆盖率，/>表示测量第/>个测量对象时所有遍历视点观测到的点云数据/>的集合，/>操作表示统计点云中的点数；

S520：搭建基于DDQN的网络架构，将评估矩阵/>、覆盖率预测扩展矩阵/>和视点遍历扩展矩阵/>作为三个通道输入到一个/>网络中，输出对/>个视点选择的动作价值函数的预测值/>，其中，状态/>为三个通道的观测，/>为从输入状态提取的特征矢量，动作/>为选择下一个最优视点，/>为网络的参数；/>网络从输入端到输出端依次包含2个卷积层、1个展平层和1个全连接层；/>由视点的覆盖率预测矢量/>按列进行扩展生成；/>由遍历序列/>生成，即若/>，对应的矩阵元素/>的值为1，否则对应的矩阵元素/>的值为0，其中/>，/>，/>；

S530：利用DDQN强化学习方法求解GTSP问题，得到训练后的网络。

优选地，S530包括：

S5301：初始化的各元素为/>，初始化/>的各个元素为/>，初始化动作对应的价值/>，/>；随机初始化/>网络的所有参数/>，初始化目标/>网络的参数/>；初始化折扣系数/>和经验池/>；

S5302：初始化当前迭代次数、最大迭代次数/>、最大重复次数/>和参数更新间隔步数/>；

S5303：初始化，随机选择一个测量对象/>，/>；

S5304：随机选择一个视点进行测量，获得点云数据/>，基于边界框对点云数据进行分割获得/>，将/>和/>输入到PC-NBV网络中获得视点的覆盖率预测矢量，构造/>和/>；

S5305：将、/>和/>输入到/>网络中，计算/>和/>，通过贪婪算法在当前/>网络输出中选择对应的动作：

；

其中，为设定的一个阈值，/>为动作空间，/>为随机采样操作；

S5306：更新，计算及时回报/>，其中；

S5307：在视点进行测量，获得点云数据/>，基于边界框对点云数据进行分割获得/>，将/>和/>输入到PC-NBV网络中获得视点的覆盖率预测矢量/>，同时计算和覆盖率/>；

S5308：将存储到经验池/>中；

S5309：从经验池中采样个样本/>，/>为第/>个采样样本中记录的当前状态，/>为第/>个采样样本中记录的下一个状态，/>；

S5310：计算当前目标值/>：

；

S5311：使用均方差损失函数，通过神经网络的梯度反向传播来更新/>网络的所有参数/>；

S5312：如果为1，其中%表示求余操作，则更新目标/>网络的参数/>；

S5313：更新，如果/>，则/>；

S5314：如果，则执行S5303~ S5313，否则结束训练过程。

优选地，S600包括：

S610：将实际测量系统的当前位置作为起点，选择最近的一个候选视点开始测量，初始化序列/>，/>，/>，其中，/>为第/>个元素为1的单位矢量；

S620：扫描仪扫描一次，获得点云数据，基于边界框对点云数据进行分割获得，将/>和/>输入到PC-NBV网络中获得视点的覆盖率预测矢量/>，同时计算覆盖率；

S630：将按列进行扩展生成覆盖率预测扩展矩阵/>，并根据/>构造视点遍历扩展矩阵/>；

S640：将、/>和/>输入到训练后的/>网络中，获得选择一个视点的最优策略/>；

S650：选择最优的逆解和/>，其中/>；

S660：使用GPMP2机器人运动规划器生成和/>的无碰撞测量路径，控制机器人运动到/>，更新遍历序列/>，重复S620~ S660直到达到期望的覆盖率/>或最大迭代次数/>，即/>，结束测量。

本发明提供一种基于深度强化学习的机器人三维测量路径规划方法，通过从视觉上和运动学上综合分析7自由度冗余机器人三维测量系统的测量视点可行性，提供了基于多层视球和下一最优视点的MLVS-NBV视点规划器，保证视点可行性的同时提高测量不同对象的覆盖率，建立视点—逆运动学解的评估矩阵，进一步处理视点与多逆运动学解的映射关系，通过PC-NBV深度学习网络实现视点评估，结合DDQN强化学习优化测量策略，利用GPMP2运动规划器快速生成无碰撞的测量路径。该方法具有泛化性、适应性强，可以提高7自由度机器人三维测量系统的自主智能水平，实现对多种对象和未知对象的自主测量。

附图说明

图1为本发明一实施例中一种基于深度强化学习的机器人三维测量路径规划方法的流程图；

图2为本发明一实施例中一种7自由度机器人三维测量系统示意图；

图3是本发明一实施例中基于多层视球和下一最优视点的MLVS-NBV规划方法的示意图；

图4是本发明一实施例中基于虚拟测量技术的标志点约束分析仿真结果；

图5是本发明一实施例中GTSP问题的示意图；

图6是本发明一实施例中基于DDQN的Q网络架构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明的技术方案，下面结合附图对本发明作进一步的详细说明。

在一个实施例中，如图1所示，一种基于深度强化学习的机器人三维测量路径规划方法包括以下步骤：

S100：基于多层视球和下一最优视点的MLVS-NBV（Multiple-Level View Sphereand Next Best View）规划方法生成候选视点集合。

在一个实施例中，S100包括：

S110：构建多层视球并采样生成初始视点集合；

S140：融合所有可行的测量视点生成候选视点集合。

进一步的，S110的具体步骤如下：

首先，如图2所示，1为双目结构光扫描仪、2为协作机器人、3为支撑平台、4为测量对象、5为标志点支柱、6为电动转台。

每个视点定义为位置/>、方向/>和绕该方向相对旋转角度/>的元组，即，该视点的位姿由以下公式计算：

其中，是单位矢量/>，/>是矢量/>的反对称矩阵；视点方向/>设定为视点坐标系的Z轴，即结构光三维扫描仪投影仪的光轴方向；/>为视点坐标系Z轴与测量对象坐标系Z轴的夹角；/>矢量/>旋转到矢量/>的旋转轴方向；/>为视点坐标系到测量对象坐标系/>的旋转变换矩阵；/>为视点相对于测量对象的位姿。当目标物体超出或脱离扫描仪的工作体积时，可以方便地调整扫描仪朝向目标物体的观察方向并控制扫描仪的旋转。与欧拉角或四元数相比，它更直观，更有利于在机器人测量数字孪生系统或虚拟测量系统中进行可视化和交互。

其次，如图3所示，7为可视锥、8为可达锥、9为测量对象、10为边界框、11为视球。

假设所有测量对象均位于一个立方体边界框内，视球可以定义为球面分布的空间，其中心与边界框的中心重合。多层视球，如5层视球，可以划分为/>，其半径可以设置为/>，其中/>为视球的最小半径，/>为视球的最大半径，为视球的层数，/>；

最后，均匀采样生成的视点集合可以描述为，每个视点计算如下：

其中，，/>，/>，/>。以视球中心为原点建立球坐标系，/>为极角，/>为方位角，/>、/>分别为极角和方位角的均匀采样数量。

进一步地，S120具体步骤如下：

首先，通过虚拟测量技术模拟给定视点下观测到的标志点信息来分析标志点约束。如果观测到的标志点的数量/>和分布/>满足条件，则视点在视觉上是可行的，其中/>为要求观测到的标志点的最少数量，/>为要求观测到的标志点聚类的最少数量，按标志点支柱的中心线进行聚类，其聚类结果为标志点占用的支柱的最少数量。物理世界和虚拟世界是数字孪生的重要概念，这里物理世界指的是真实测量的环境，图4中展示了通过扫描仪获取点云数据后真实重建的测量对象17、重建的支柱18、重建的标志点18和重建的转台20；虚拟世界指的是虚拟仿真的环境，根据重建的各对象的模型，对测量对象、支柱、标志点和转台的三维模型的位姿进行更新，实现物理世界到虚拟世界的映射，其中，12为扫描仪工作范围、13为边界框、14为视点、15为观测到的标志点、16为未观测到的标志点；灰色的标志点是观测到的标志点，白色的标志点是未观测到的标志点，其中，观测到的12个标志点分布在3个支柱上，即/>，/>。

其次，通过分析逆运动学解是否存在、机器人关节角度是否满足关节位置限制、是否存在物理碰撞、是否具有一定的可操作性来确定视点在运动学上的可行性。上述条件可以统一描述为：

其中，为计算给定视点/>和采样转台角度/>下的机器人逆运动学解/>，/>和/>分别为机器人关节的最小关节位置和最大关节位置，/>为机器人的无碰撞关节空间，/>为机器人的雅可比矩阵，/>为规定的最小机器人可操作性，以避免机器人的位置奇异性；

最后，当给定的视点同时满足上述条件，则该视点是可行的，否则该视点是不可行的。遍历视点集合/>中的视点，从/>中删除不可行的视点，保留可行的视点，最终获得候选视点集合/>。

在一个实施例中，S130包括：

S1304：计算覆盖率，其中/>操作表示统计点云中的点数；

S1308：计算表面点的投影点集合，即/>，其中每个表面点/>；

S1309：遍历中的每个投影点/>，以可视锥坐标系建立球坐标系，计算极角，计算方位角/>，如果/>，则更新映射矩阵/>的元素/>，其中单位矢量/>，/>，矩阵元素的行索引/>，列索引/>，参数/>，/>分别为设定的方位角和极角的角度间隔；

S1311：如果，则更新/>，返回步骤S1303，否则执行S1312；

S1312：如果，则更新/>，返回步骤S1306，否则执行S140。

S200：使用IKFast求解候选视点集中各视点对应的机器人的所有逆运动学解。

在一个实施例中，S200包括：

S210：均匀采样个转台角度，即/>，/>；

S300：建立视点—逆运动学解的评估矩阵。

在一个实施例中，S300包括：

S320：评估是否满足条件S120所述的运动学可达性条件/>，如果满足该条件，则/>是可行的逆运动学解，更新/>中的对应的元素/>为1，其中，/>，/>。

S400：基于候选视点集合训练数据集并进行训练，根据训练数据集对PC-NBV（Point Cloud Based Deep Network for Efficient Next Best View Planning）点云网络进行训练，利用训练好的PC-NBV点云网络预测选择下一个视点后的覆盖率。

在一个实施例中，S400包括：

S410：对个测量对象进行泊松采样生成测量表面点集/>，/>；

S420：根据候选视点集合，生成不同测量对象在不同视点下观测的点云数据/>，/>，/>；

S430：建立训练数据集，其中每个训练数据采用统一的数据格式（/>，/>，），其中，/>为所有选择视点的遍历序列，描述为/>，为选择的视点数量；/>为视点选择矢量，如果/>中的第/>个元素/>的值为1，则第/>个视点被选择；否则，/>中的第/>个元素/>的值为0，第/>个视点未被选择；/>表示测量第/>个测量对象时所有遍历视点观测到的点云数据/>的集合；/>表示视点的覆盖率预测矢量，第/>个元素/>的值表示增加第/>个视点后的覆盖率，/>，/>；

S500：将测量视点选择问题建模为GTSP（Generalized Traveling SalesmanProblem）问题，搭建基于DDQN（Double Deep Q-Network）的网络架构，根据评估矩阵、覆盖率预测值和视点遍历序列更新状态信息，根据更新后的状态信息结合DDQN强化学习方法求解GTSP问题，得到训练后的Q网络。

在一个实施例中，S500包括：

S510：建模GTSP问题如下：

S520：搭建基于DDQN的网络架构，将评估矩阵/>、覆盖率预测扩展矩阵/>和视点遍历扩展矩阵/>作为三个通道输入到一个/>网络中，输出对/>个视点选择的动作价值函数的预测值/>，其中，状态/>为三个通道的观测，/>为从输入状态提取的特征矢量，动作/>为选择下一个最优视点，/>为网络的参数；/>网络从输入端到输出端依次包含2个卷积层、1个展平层和1个全连接层；/>由视点的覆盖率预测矢量/>按列进行扩展生成；/>由遍历序列/>生成，即如果/>，对应的矩阵元素的值为1，否则对应的矩阵元素/>的值为0，其中/>，/>，；

在一个实施例中，S530包括：

S5303：初始化，随机选择一个测量对象/>，/>；

；

S5306：更新，计算及时回报/>，其中；/>

S5308：将存储到经验池/>中；

S5310：计算当前目标值/>：

；

S5313：更新，如果/>，则/>；

S5314：如果，则执行S5303~ S5313，否则结束训练过程。

具体地，网络架构如图6所示，softmax与argmax是深度学习中常用的函数，ReLU为神经元的激活函数。在本实施例中，具体可以描述为：

其中，为选择的动作，A为动作空间；

softmax函数就可以将Q值转换为动作的概率分布。

S600：将训练后的Q网络迁移到实际的机器人测量任务，使用GPMP2（GaussianProcess Motion Planner，高斯过程运动规划器）机器人运动规划器生成无碰撞的测量路径，控制机器人运动，并更新遍历序列，直至达到预设的结束条件，结束测量。

在一个实施例中，S600包括：

S610：将实际测量系统的当前位置作为起点，选择最近的一个候选视点开始测量，初始化序列/>，/>，/>，其中，/>为第/>个元素为1的单位矢量；/>

S650：选择最优的逆解和/>，其中/>；

在一个实施例中，S660中使用GPMP2机器人运动规划器生成无碰撞的测量路径包括：

S661：定义机器人测量系统的碰撞环境和机器人连杆的包络球模型；包络球模型使用一系列球体精细地包围机器人的每个连杆。

S662：计算符号距离场，并将符号距离场作为参数传递给GPMP2；该距离场为标量场，使用一个三维矩阵来存储工作空间中每一点距离障碍物的最短距离，假设该矩阵各维度的大小分别为、/>和/>，矩阵索引偏移量分别为/>、/>和/>，则工作空间中的点与矩阵元素/>的坐标索引/>、/>、/>之间的映射关系为：

如果则空间中的点/>与障碍物不发生碰撞，如果/>则该点与障碍物发生碰撞，如果/>则该点位于障碍物内，其中/>为设定的碰撞距离，如0.02m；检查包络球中每个球体的中心位置/>及其半径/>，如果/>则机器人连杆与障碍物发生碰撞，其中/>，/>，/>，/>为取整操作；符号距离场为GPMP2机器人运动规划器提供了快速计算碰撞代价的方式；

S663：给定起点与终点/>，使用GPMP2机器人运动规划器生成/>到之间的无碰撞测量路径。/>

本发明产生的有益效果是：本发明提供一种基于深度强化学习的机器人三维测量路径规划方法，通过从视觉上和运动学上综合分析7自由度冗余机器人三维测量系统的测量视点可行性，提供了MLVS-NBV的视点规划器，保证视点可行性的同时提高测量不同对象的覆盖率，建立视点—逆运动学解的评估矩阵，进一步处理视点与多逆运动学解的映射关系，通过PC-NBV深度学习网络实现视点评估，结合DDQN强化学习优化测量策略（包括最优的遍历顺序和逆运动学解），利用GPMP2运动规划器快速生成无碰撞的测量路径。该方法具有泛化性、适应性强，可以提高7自由度机器人三维测量系统的自主智能水平，实现对多种对象和未知对象的自主测量。

以上对本发明所提供的一种基于深度强化学习的机器人三维测量路径规划方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于深度强化学习的机器人三维测量路径规划方法，其特征在于，所述方法包括以下步骤：

S300：建立视点—逆运动学解的评估矩阵；

S600：将训练好的Q网络迁移到实际的机器人测量任务，根据观测信息生成下一个最优视点，使用GPMP2运动规划器生成无碰撞测量路径，控制机器人运动并扫描对象，直至到达预设的终止条件，结束测量；

S400包括：

S410：对个测量对象进行泊松采样生成测量表面点集/>，/>；

S430：建立训练数据集，其中每个训练数据采用统一的数据格式（/>，/>，/>），其中/>为所有选择视点的遍历序列，描述为/>，为选择的视点数量；/>为视点选择矢量，若/>中的第/>个元素/>的值为1，则第/>个视点被选择；否则，/>中的第/>个元素/>的值为0，第/>个视点未被选择；/>表示测量第个测量对象时所有遍历视点观测到的点云数据/>的集合；/>表示视点的覆盖率预测矢量，第/>个元素/>的值表示增加第/>个视点后的覆盖率，/>，/>；

2.根据权利要求1所述的方法，其特征在于，S100包括：

S110：构建多层视球并采样生成初始视点集合；

S140：融合所有可行的测量视点生成候选视点集合。

3.根据权利要求2所述的方法，其特征在于，S110将每个视点定义为位置/>、方向/>和绕该方向相对旋转角度/>的元组，即/>，该视点的位姿计算如下：

；

其中，是单位矢量/>，/>是矢量/>的反对称矩阵；视点方向/>设定为视点坐标系的Z轴，即结构光三维扫描仪投影仪的光轴方向；/>为视点坐标系Z轴与测量对象坐标系Z轴的夹角；/>矢量/>旋转到矢量/>的旋转轴方向；/>为视点坐标系/>到测量对象坐标系/>的旋转变换矩阵；/>为视点相对于测量对象的位姿。

4.根据权利要求2所述的方法，其特征在于，S120采用虚拟测量技术模拟给定视点下观测到的标志点信息，通过分析观测到的标志点的数量/>和分布/>判断视点在视觉上是否可行，即/>，其中/>为要求观测到的标志点的最少数量，/>为要求观测到的标志点聚类的最少数量，按标志点支柱的中心线进行聚类，其聚类结果为标志点占用的支柱的最少数量；同时，S120通过分析逆运动学解是否存在、机器人关节角度是否满足关节位置限制、是否存在物理碰撞、是否具有一定的可操作性来分析视点在运动学上是否可行性，即，其中，为计算给定视点/>和采样转台角度/>下的机器人逆运动学解/>，/>和/>分别为机器人关节的最小关节位置和最大关节位置，/>为机器人的无碰撞关节空间，为机器人的雅可比矩阵，/>为规定的最小机器人可操作性；当给定的视点同时满足上述条件/>，则该视点是可行的，否则该视点是不可行的。

5.根据权利要求2所述的方法，其特征在于，S130包括：

S1303：通过虚拟测量技术模拟视点对/>的观测点云/>，其中/>，，/>为/>中视点的数量；

S1304：计算覆盖率，其中/>操作表示统计点云中的点数；

S1308：计算表面点的投影点集合，即/>，其中每个表面点/>；

；

若视点满足/>，则/>，其中，/>为可视锥坐标系中的视点朝向，/>为扫描仪的最佳工作距离，/>为相对旋转角度的均匀采样数量，；

S1311：如果，则更新/>，返回步骤S1303，否则执行S1312；

S1312：如果，则更新/>，返回步骤S1306，否则执行S140。

6.根据权利要求1所述的方法，其特征在于，S200包括：

S210：均匀采样根据权利要求1的方法，其特征在于，S200包括：

S210：均匀采样个转台角度，即/>，/>；

7.根据权利要求1所述的方法，其特征在于，S300包括：

S320：评估是否满足权利要求4所述的运动学可达性条件/>，如果满足该条件，则是可行的逆运动学解，更新/>中的对应的元素/>为1，其中/>，，/>。

8.根据权利要求1所述的方法，其特征在于，S500包括：

S510：建模GTSP问题如下：

；

其中为视点遍历序列/>中视点的数量，/>为扫描仪单次扫描的时间成本，为计算遍历序列中第/>个选择视点到第/>个选择视点的运动时间成本，/>为第/>个测量对象的期望覆盖率，/>表示测量第/>个测量对象时所有遍历视点观测到的点云数据/>的集合，/>操作表示统计点云中的点数；

S520：搭建基于DDQN的网络架构，将评估矩阵/>、覆盖率预测扩展矩阵/>和视点遍历扩展矩阵/>作为三个通道输入到一个/>网络中，输出对/>个视点选择的动作价值函数的预测值/>，其中状态/>为三个通道的观测，/>为从输入状态提取的特征矢量，动作/>为选择下一个视点，/>为网络的参数；/>网络从输入端到输出端依次包含2个卷积层、1个展平层和1个全连接层；/>由视点的覆盖率预测矢量/>按列进行扩展生成；/>由遍历序列/>生成，即若/>，对应的矩阵元素/>的值为1，否则对应的矩阵元素/>的值为0，其中/>，/>，/>；

9.根据权利要求8所述的方法，其特征在于，S530包括：

S5301：初始化的各元素为/>，初始化/>的各个元素为/>，初始化动作对应的价值/>，/>；随机初始化/>网络的所有参数/>，初始化目标/>网络的参数；初始化折扣系数/>和经验池/>；

S5303：初始化，随机选择一个测量对象/>，/>；

S5304：随机选择一个视点进行测量，获得点云数据/>，基于边界框对点云数据进行分割获得/>，将/>和/>输入到PC-NBV网络中获得视点的覆盖率预测矢量/>，构造/>和/>；

S5305：将、/>和/>输入到/>网络中，计算/>和/>，通过/>贪婪算法在当前/>网络输出中选择对应的动作：

；

S5306：更新，计算及时回报/>，其中；

S5307：在视点进行测量，获得点云数据/>，基于边界框对点云数据进行分割获得，将/>和/>输入到PC-NBV网络中获得视点的覆盖率预测矢量/>，同时计算和覆盖率/>；

S5308：将存储到经验池/>中；

S5310：计算当前目标值/>：

；

S5313：更新，如果/>，则/>；

S5314：如果，则执行S5303~ S5313，否则结束训练过程。

10.根据权利要求1所述的方法，其特征在于，S600包括：

S620：扫描仪扫描一次，获得点云数据，基于边界框对点云数据进行分割获得/>，将和/>输入到PC-NBV网络中获得视点的覆盖率预测矢量/>，同时计算覆盖率；

S640：将、/>和/>输入到训练后的/>网络中，获得选择一个视点的最优策略；

S650：选择最优的逆解和/>，其中/>；