CN114518762B

CN114518762B - 机器人避障装置、避障控制方法和机器人

Info

Publication number: CN114518762B
Application number: CN202210413519.7A
Authority: CN
Inventors: 陈俊逸; 汤继敏
Original assignee: Changsha Xiaogu Technology Co ltd
Current assignee: Changsha Xiaogu Technology Co ltd
Priority date: 2022-04-20
Filing date: 2022-04-20
Publication date: 2022-07-22
Anticipated expiration: 2042-04-20
Also published as: CN114518762A

Abstract

本发明涉及机器人避障装置、避障控制方法和机器人，一方面提取时序特征和空间特征，融合目标位置数据和机器人速度数据，能够提高深度强化学习的特征表达能力，提高预设动作的价值的预测及时性和精准度；另一方面充分考虑机器人t‑T1至t时刻的场景数据，有效利用当前局部环境信息、历史信息和空间信息，对机器人预设动作价值做出准确评价，能保障机器人后续避障的可靠性，相较于现有技术，其避障效果的准确性和及时性都有显著提升，而且能够直接利用原始激光雷达测距数据，具有快速的反应能力，且便于网络的部署与应用。

Description

机器人避障装置、避障控制方法和机器人

技术领域

本发明涉及机器人控制领域，特别是涉及一种机器人的避障控制。

背景技术

随着机器人技术的发展，机器人开始广泛应用于各种场景，例如快递机器人、扫地机器人、安防机器人等。其利用激光雷达、摄像头等传感器感知周围环境，进而实现碰撞避免和自主导航。然而在动态环境中，来自车辆、行人、其他机器人的交互移动行为，给机器人的避障带来极大挑战。

近年来，基于深度强化学习的避障方法在动态环境中有着优良的表现，是当前研究的热点。公开专利CN108255182B开发了一种基于深度强化学习的服务机器人行人感知避障方法，能够将行人右行规则融合进深度强化学习的训练中。公开专利CN109407676B提出了基于DoubleDQN网络和深度强化学习的移动机器人避障方法，解决了现有方法存在的响应延迟高以及避障成功率低等问题。公开专利CN107065890B提出了一种基于强化学习的无人车智能避障方法及系统，不需人为设定避障规则，境适应性强。

这些方法取得了不错的效果，但在构建深度强化学习的神经网络时，通常只考虑当前的局部环境信息，缺乏对历史信息和空间信息的有效利用，在动态复杂的环境中的避障效果还有待提升。因此，如何提供在深度学习基础上，提供一种避障效果更佳的机器人控制方法，是机器人控制领域亟待解决的技术问题。

发明内容

为解决上述技术问题，本发明提供一种机器人避障装置，包括：

避障输入模块，用于输入机器人t-T1时刻至t时刻的场景数据、目标位置数据和机器人速度数据；

时序特征提取模块，与避障输入模块连接，用于根据机器人t-T1时刻至t时刻的场景数据提取机器人的时序特征；

空间特征提取模块，与避障输入模块连接，用于根据机器人t时刻的场景数据提取机器人的空间特征；

避障全连接层，与避障输入模块、时序特征提取模块、空间特征提取模块连接，用于融合机器人的时序特征、空间特征、目标位置数据和机器人速度数据，以计算预设动作的价值；

避障输出模块，与避障全连接层连接，用于输出预设动作的价值；

其中，t代表某一时刻；T1为正数，t-T1代表过去某一时刻。

进一步地，时序特征提取模块，通过构建以t-T1时刻至t时刻的场景数据为输入、t+1时刻至t+T2时刻的场景数据为输出的时序特征网络模型，提取机器人的时序特征；

其中，T2为正数，t+T2代表未来某一时刻。

进一步地，时序特征网络模型，包括：

时序输入模块，用于输入t-T1时刻至t时刻的场景数据；

依次连接的LSTM₁模块、LSTM₂模块和时序全连接层，用于预测t+1时刻至t+T2时刻的场景数据；

时序输出模块，与时序全连接层连接，用于输出t+1时刻至t+T2时刻的场景数据。

进一步地，空间特征提取模块，采用两个卷积提取机器人的空间特征。

进一步地，预设动作的价值根据机器人动作期间与障碍物之间的最小距离确定。

进一步地，预设动作的价值根据奖励函数R计算为：

其中，d(t)是机器人动作期间机器人与障碍物之间的最小距离，p(t)是机器人当前时刻位置数据，Goal是机器人目标位置数据，p(t-1)是机器人t-1时刻位置数据。

进一步地，预设动作由n个速度在(0, V_max ]之间呈指数间隔的速度向量和m个方向在 [0, Theta_max)之间均匀分布的方向向量组合而成；

其中，n、m为正整数；V_max表示机器人的最大速度，Theta_max表示机器人的最大角度。

另一方面，本发明还提供一种机器人避障控制方法，包括：

T1：构建上述任意的机器人避障装置；

T2：训练机器人避障装置，得到训练后的机器人避障装置；

T3：获取机器人t-T1时刻至t时刻的场景数据、目标位置数据和机器人速度数据；

T4：将机器人t-T1时刻至t时刻的场景数据、目标位置数据和机器人速度数据，输入训练后的机器人避障装置，得到每个预设动作的价值；

T5：根据每个预设动作的价值，控制机器人动作。

进一步地，步骤T5，包括：

T51：比较每个预设动作的价值；

T52：选取最大价值所对应的预设动作为当前控制动作；

T53：根据当前控制动作，控制机器人动作。

另一方面，本发明还提供一种机器人，由上述任意的机器人避障控制方法而控制。

本发明提供的机器人避障装置、避障控制方法和机器人，一方面提取时序特征和空间特征，融合目标位置数据和机器人速度数据，能够提高深度强化学习的特征表达能力，提高预设动作的价值的预测及时性和精准度；另一方面充分考虑机器人t-T1至t时刻的场景数据，有效利用当前局部环境信息、历史信息和空间信息；二者配合相辅相成，构建避障模型，对机器人预设动作价值做出准确评价，能保障机器人后续避障的可靠性，相较于现有技术，其避障效果的准确性和及时性都有显著提升，而且本发明提出的避障模型能够直接利用原始激光雷达测距数据，具有快速的反应能力，且便于网络的部署与应用。在此基础上，时序特征提取模块，优选为采用时序特征网络模型，提取时序特征，能够在后续进行强化学习的训练前（避障模型的构建训练过程中），先对时序特征网络模型进行预训练，提升后续网络的泛化性能，进一步提高避障效果。空间特征提取模块，优选为采用卷积，提取空间特征，能够增加网络的空间感知能力，有助于选择合适的避障动作。避障全连接层，对预设动作集及每个预设动作的价值，都做了进一步举例说明，既考虑了每个动作在动作期间与障碍物的距离，也考虑了其到达的步长，鼓励其沿着最短路径、以最短时间到达目标位置，能进一步提高其避障效果，同时缩短其路径、以最快速度到达目标位置。

附图说明

图1为本发明避障模型的一个实施例的结构框图；

图2为本发明避障模型的时序特征网络模型的一个实施例的结构框图；

图3为本发明避障控制方法的一个实施例的流程图；

图4为本发明避障控制方法的一个实施例的训练更新框图；

图5为本发明避障控制方法的步骤T5的一个实施例的流程图。

具体实施方式

如图1 所示，为提高机器人的避障及时性和准确性，本发明首先提供了一种机器人避障装置QNet，包括：

一：避障输入模块，用于输入机器人t-T1时刻至t时刻的场景数据、目标位置数据和机器人速度数据（参数t表征某一当前时刻，T1表征一个正数，用t-T1表征过去的某一段时间，即历史时刻）；优选的，针对避障模型的输入，可选但不仅限于以机器人的状态矩阵state(t)=[O(t-T1)……O(t), Goal(t), Velocity(t)]表征。其中，O(t-T1)……O(t)，表征机器人t-T1时刻至t时刻的场景数据（t-T1至t这段时间内的历史数据和当前时刻t的当前数据）。Goal(t) =[Goal_x(t), Goal_y(t)]，表征目标相对于机器人的位置数据（可选但不仅限于以二维坐标表示，优选的还可选但不仅限于增设Goal_z(t)，以三维坐标表示）。Velocity(t)=[ Velocity_x(t), Velocity_y(t)]（可选但不仅限于以二维向量表示，优选的还可选但不仅限于增设Velocity_z(t)，以三维向量表示），表征机器人的当前速度数据。更为优选的，该状态矩阵的具体数据，可选但不仅限于由激光雷达提供，其随时扫描机器人的所在场景，提供其扫描测距数据为场景数据（以扫地机器人为例，激光雷达扫描得到房间内成千上万个点位的场景信息，不仅能提供固定的场景地图，还能提供当前场景下，机器人本身的运动轨迹、所在位置，以及场景下的障碍物信息，如沙发等静止物体的位置；宠物等移动物体的位置、移动速度等）；更为具体的，激光雷达的具体型号、类型等，可根据精度要求、成本控制等而任意设定，可选但不仅限于在精度要求低、成本控制要求高的情况下，选用二维雷达，其虽然没有高度信息、无法成像，但是实时性高、成本低；反之选用三维雷达，其虽然造价昂贵、成本高，但是可以三维动态实时成像、实时还原空间的三维信息。

二：时序特征提取模块，与避障输入模块连接，用于根据机器人t-T1时刻至t时刻的场景数据提取机器人的时序特征Feat1；优选的，时序特征Feat1，可选但不仅限于提取于时序特征网络模型。具体的，如图2所示，时序特征网络模型，可选但不仅限于包括：

时序输入模块，用于输入t-T1时刻至t时刻的场景数据；

依次连接的LSTM₁模块、LSTM₂模块和时序全连接层，用于预测t+1时刻至t+T2时刻的场景数据（参数t表征某一当前时刻，T2表征一个正数，用t+T2表征未来的某一段时间，即未来时刻）；表示为：O_out (t)= FC(LSTM(LSTM(O_in(t))))。更为具体的，每个LSTM模块的神经元个数为256，全连接层FC的神经元个数是N。其中，N是激光雷达当前帧的扫描测距数据的维度。

时序输出模块，与时序全连接层连接，用于输出t+1时刻至t+T2时刻的场景数据。具体的，在时序特征网络模型的训练中，可选但不仅限于：

以t1-T1至t1时刻的场景数据为输入O_in(t1)（t1只是对当前时刻的指代，可与上述t时刻相同，也可不同），以t1+1至t1+T2时刻的场景数据为输出O_out(t1)，构建时序特征网络模型；其中，输入O_in(t1)，可选但不仅限于为激光雷达t1时刻的过去T1个时序数据，可表示为O(t1-T1)……O(t1)，其中O(t1)是激光雷达的当前帧的扫描测距数据，数据维度为N。输出O_out(t1)是未来T2个时序数据，可表示为O(t1+1)……O(t1+T2)，是对未来数据的预测。

训练时序特征网络模型，得到训练后的时序特征网络模型。优选的，可选但不仅限于利用机器人模拟器（Stage模拟器）建立仿真环境，用最优相互碰撞避免（Optimalreciprocal collision avoidance，ORCA）避障算法控制移动障碍物和机器人的运动，记录机器人的移动过程中的激光雷达数据，生成训练集（若干组t1-T1至t1时刻数据和t1+1至t1+T2时刻的数据），对时序特征网络模型进行训练。具体的，将每组t1-T1至t1时刻数据输入时序特征网络模型，得到对应的t1+1至t1+T2时刻的预测值，与激光雷达实际测量的t1+1至t1+T2时刻的数据进行比较，反馈修正时序特征网络模型的参数。具体的，可选但不仅限于以回归损失作为损失函数，即

。其中，

是时序t1+1至t1+T2的预测值（时序特征网络模型的输出），y(t1’)是时序t1+1至t1+T2的实际测量值，即标签。

将机器人t-T1至t时刻的场景数据输入时序特征网络模型，提取机器人的时序特征Feat1。具体的，在时序特征网络模型包括2个LSTM模块和一个全连接层FC组成，表示为：O_out (t)= FC(LSTM(LSTM(O_in (t))))时，可选但不仅限于以第二个LSTM₂的输出作为时序特征，表示为：feat1= LSTM(LSTM(O_in (t)))。

三：空间特征提取模块，与避障输入模块连接，用于根据机器人t时刻的场景数据O(t)提取机器人的空间特征；优选的，空间特征，可选但不仅限于根据机器人当前时刻t的场景数据（可选但不仅限于为t时刻的激光雷达数据O(t)），使用两个卷积进行特征提取，用来提取空间相关的信息，表示为：feat2= Conv (Conv (O(t)))。更为具体的，若激光雷达为二维激光雷达，则采用一维卷积进行特征提取；若激光雷达为三维激光雷达，则采用二维卷积进行特征提取。

四：避障全连接层，与避障输入模块、时序特征提取模块、空间特征提取模块连接，用于融合机器人的时序特征、空间特征、目标位置数据和机器人速度数据，以计算预设动作的价值。优选的，针对避障模型的输出（预设动作的价值Value），其预设动作，可选但不仅限于以预设动作集A表征。示例的：预设动作集A，可选但不仅限于包括n*m个离散动作，具体由n个速度在 (0, V_max ]之间呈指数间隔的速度向量，m个方向在 [0, Theta_max)之间均匀分布的方向向量组成，其中V_max是机器人的最大速度，Theta_max是机器人的最大角度。更为详细示例的，预设动作集A，可选但不仅限于由5个速度在 (0, V_max ]之间呈指数间隔的速度向量，8个方向均匀分布在 [0, Theta_max)之间的方向向量一一搭配组成，形成40个离散动作，作为预设动作集。更为优选的，其预设动作的价值Value，可选但不仅限于以预设动作的奖励函数R表征。具体的，奖励函数R可选但不仅限于表示为：

其中，d(t)是机器人动作期间机器人与障碍物之间的最小距离，p(t)是机器人当前时刻位置数据，p(t-1)是机器人t-1时刻位置数据，Goal是目标位置数据。

由此可见，奖励函数R的第一项，是d(t)＜0，表征机器人与障碍物发生了碰撞，需要对此动作做出惩罚，为-25分；第二项，是d(t)＜0.1，表征机器人与障碍区仅有0.1的距离，存在碰撞威胁，同样需要对此动作做出惩罚，具体惩罚数值根据二者的具体距离值而定，为-20+100* d(t)分；第三项，是p（t）=Goal，表征机器人到达目的地，需要对此动作做出奖励，为15分；第四项，

是对步长的奖励，鼓励机器人沿着缩短目标位置的方向前进，需要对此动作做出额外奖励。最后根据奖励函数R的最后得分，对预设动作做出价值评价。

五：避障输出模块，与避障全连接层连接，用于输出预设动作的价值。

在该实施例中，提供了本发明的机器人避障装置（基于预设动作的价值作为输出，可详解为动作价值网络模型），一方面提取时序特征和空间特征，融合目标位置数据和机器人速度数据，能够提高深度强化学习的特征表达能力，提高预设动作的价值的预测及时性和精准度；另一方面充分考虑机器人t-T1至t时刻的场景数据，有效利用当前局部环境信息、历史信息和空间信息；二者配合相辅相成，构建避障模型，对机器人预设动作价值做出准确评价，能保障机器人后续避障的可靠性，相较于现有技术，其避障效果的准确性和及时性都有显著提升，而且本发明提出的避障模型能够直接利用原始激光雷达测距数据，具有快速的反应能力，且便于网络的部署与应用。在此基础上，时序特征提取模块，优选为采用时序特征网络模型，提取时序特征，能够在后续进行强化学习的训练前（避障模型的构建训练过程中），先对时序特征网络模型进行预训练，提升后续网络的泛化性能，进一步提高避障效果。空间特征提取模块，优选为采用卷积，提取空间特征，能够增加网络的空间感知能力，有助于选择合适的避障动作。避障全连接层，对预设动作集及每个预设动作的价值，都做了进一步举例说明，既考虑了每个动作在动作期间与障碍物的距离，也考虑了其到达的步长，鼓励其沿着最短路径、以最短时间到达目标位置，能进一步提高其避障效果，同时缩短其路径、以最快速度到达目标位置。

在上述机器人避障装置的基础上，如图3所示，本发明还提供一种机器人避障控制方法，包括步骤：

T1：构建上述机器人避障装置QNet；

T2：训练避障模型QNet，得到训练后的避障模型QNet。优选的，如图4所示，可选但不仅限于在避障模型与环境的交互中，利用Stage模拟器建立仿真环境，一方面用OCRA避障算法控制移动障碍物的运动，另一方面用避障模型的输出控制机器人的运动。采用深度Q学习方法对避障模型进行训练，包括经验回放缓存、避障模型更新、时间差分学习、梯度下降法（stochastic gradient descent，SGD）优化等。示例的，可选但不仅限于以时间差分损失TD-error作为损失函数，对避障模型的参数进行优化修正，得到训练后的避障模型。还可选但不仅限于使用Double DQN、Dueling DQN等其他深度强化学习方法对深度Q学习进行训练。

T3：获取机器人t-T1至T时刻的场景数据、目标位置数据和机器人速度数据（t只是对当前时刻的指代，可为任意某一时刻，可与上述构建避障模型的t时刻、训练时序特征网络模型的t1时刻相同，也可不同）；优选的，可选但不仅限于采用二维/三维激光雷达，以发射激光束获取上述数据。与上述相同的，可选但不仅限于以机器人的状态矩阵state(t)=[O(t-T1)……O(t), Goal(t), Velocity(t)]表征。

T4：将机器人当前时刻t的t-T1至t时刻的场景数据、目标位置数据和机器人速度数据，输入训练后的避障模型QNet，得到每个预设动作的价值；优选的，可选但不仅限于将机器人的当前状态矩阵state(t)=[O(t-T1)……O(t), Goal(t), Velocity(t)]输入训练后的动作避障模型QNet，输出预设动作集A（1……N_A）中每个预设动作的价值Value（1……N_A）（奖励函数R的最后得分）。

T5：根据每个预设动作的价值，确定机器人的当前控制动作。优选的，可选但不仅限于选取最大价值所对应的预设动作，为机器人的当前控制动作。

在该实施例中，提供了一种本发明的机器人避障控制方法，其基于上述避障模型而创造，具备相同的技术效果：一方面提取时序特征和空间特征，融合目标位置数据和机器人速度数据，能够提高深度强化学习的特征表达能力；另一方面充分考虑机器人t-T1至t时刻的场景数据，有效利用当前局部环境信息、历史信息和空间信息；二者配合相辅相成，对机器人预设动作价值做出准确评价，能保障机器人后续避障的可靠性，相较于现有技术，其避障效果的准确性和及时性都有显著提升。在此基础上，结合选用最大价值所对应的预设动作，为机器人的当前控制动作，能够在预设动作中，选择最优的动作控制机器人动作。

具体的，如图5所示，步骤T5，可选但不仅限于包括：

T51：比较每个预设动作的价值；

T52：选取最大价值所对应的预设动作为当前控制动作；

T53：根据当前控制动作，控制机器人动作。

在该实施例中，为提高控制动作点的及时性和准确性，选取最大价值所对应的预设动作为机器人的当前控制动作。具体的，机器人的当前控制动作，可选但不仅限于表示为a = A[argmax(QNet(state))]。其中，A是动作集，利用argmax(QNet(state))则可以得到QNet(state)最大值所对应的动作，即机器人的当前控制动作，可用于控制部署机器人的当前执行活动。

在上述机器人避障控制方法的基础上，本发明还提供一种机器人，应用上述任意的避障控制方法进行控制。具体的，该机器人可选但不仅限于为扫地机器人、快递机器人、安防机器人、工厂机器人等自动控制设备。

上述机器人的避障控制方法及其机器人基于上述机器人避障装置创造，其技术作用和有益效果在此不再赘述，以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种机器人避障装置，其特征在于，包括：

其中，t代表某一时刻；T1为正数，t-T1代表过去某一时刻；

时序特征提取模块，通过构建以t-T1时刻至t时刻的场景数据为输入、 t+1时刻至t+T2时刻的场景数据为输出的时序特征网络模型，提取机器人的时序特征；

其中，T2为正数，t+T2代表未来某一时刻；时序特征网络模型，包括：

时序输入模块，用于输入t-T1时刻至t时刻的场景数据；

2.根据权利要求1所述的机器人避障装置，其特征在于，空间特征提取模块，采用两个卷积提取机器人的空间特征。

3.根据权利要求1-2任意一项所述的机器人避障装置，其特征在于，预设动作的价值根据机器人动作期间与障碍物之间的最小距离确定。

4.根据权利要求3所述的机器人避障装置，其特征在于，预设动作的价值根据奖励函数R计算为：

5.根据权利要求4所述的机器人避障装置，其特征在于，预设动作由n个速度在(0, V_max ]之间呈指数间隔的速度向量和m个方向在 [0, Theta_max)之间均匀分布的方向向量组合而成；

6.一种机器人避障控制方法，其特征在于，包括：

T1：构建权利要求1-5任意一项所述的机器人避障装置；

T2：训练机器人避障装置，得到训练后的机器人避障装置；

T5：根据每个预设动作的价值，控制机器人动作。

7.根据权利要求6所述的机器人避障控制方法，其特征在于，步骤T5，包括：

T51：比较每个预设动作的价值；

T52：选取最大价值所对应的预设动作为当前控制动作；

T53：根据当前控制动作，控制机器人动作。

8.一种机器人，其特征在于，由权利要求6-7任意一项所述的机器人避障控制方法而控制。