CN114518762B - 机器人避障装置、避障控制方法和机器人 - Google Patents

机器人避障装置、避障控制方法和机器人 Download PDF

Info

Publication number
CN114518762B
CN114518762B CN202210413519.7A CN202210413519A CN114518762B CN 114518762 B CN114518762 B CN 114518762B CN 202210413519 A CN202210413519 A CN 202210413519A CN 114518762 B CN114518762 B CN 114518762B
Authority
CN
China
Prior art keywords
robot
obstacle avoidance
time
data
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210413519.7A
Other languages
English (en)
Other versions
CN114518762A (zh
Inventor
陈俊逸
汤继敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha Xiaogu Technology Co ltd
Original Assignee
Changsha Xiaogu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha Xiaogu Technology Co ltd filed Critical Changsha Xiaogu Technology Co ltd
Priority to CN202210413519.7A priority Critical patent/CN114518762B/zh
Publication of CN114518762A publication Critical patent/CN114518762A/zh
Application granted granted Critical
Publication of CN114518762B publication Critical patent/CN114518762B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0238Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
    • G05D1/024Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0257Control of position or course in two dimensions specially adapted to land vehicles using a radar
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Optics & Photonics (AREA)
  • Electromagnetism (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明涉及机器人避障装置、避障控制方法和机器人,一方面提取时序特征和空间特征,融合目标位置数据和机器人速度数据,能够提高深度强化学习的特征表达能力,提高预设动作的价值的预测及时性和精准度;另一方面充分考虑机器人t‑T1至t时刻的场景数据,有效利用当前局部环境信息、历史信息和空间信息,对机器人预设动作价值做出准确评价,能保障机器人后续避障的可靠性,相较于现有技术,其避障效果的准确性和及时性都有显著提升,而且能够直接利用原始激光雷达测距数据,具有快速的反应能力,且便于网络的部署与应用。

Description

机器人避障装置、避障控制方法和机器人
技术领域
本发明涉及机器人控制领域,特别是涉及一种机器人的避障控制。
背景技术
随着机器人技术的发展,机器人开始广泛应用于各种场景,例如快递机器人、扫地机器人、安防机器人等。其利用激光雷达、摄像头等传感器感知周围环境,进而实现碰撞避免和自主导航。然而在动态环境中,来自车辆、行人、其他机器人的交互移动行为,给机器人的避障带来极大挑战。
近年来,基于深度强化学习的避障方法在动态环境中有着优良的表现,是当前研究的热点。公开专利CN108255182B开发了一种基于深度强化学习的服务机器人行人感知避障方法,能够将行人右行规则融合进深度强化学习的训练中。公开专利CN109407676B提出了基于DoubleDQN网络和深度强化学习的移动机器人避障方法,解决了现有方法存在的响应延迟高以及避障成功率低等问题。公开专利CN107065890B提出了一种基于强化学习的无人车智能避障方法及系统,不需人为设定避障规则,境适应性强。
这些方法取得了不错的效果,但在构建深度强化学习的神经网络时,通常只考虑当前的局部环境信息,缺乏对历史信息和空间信息的有效利用,在动态复杂的环境中的避障效果还有待提升。因此,如何提供在深度学习基础上,提供一种避障效果更佳的机器人控制方法,是机器人控制领域亟待解决的技术问题。
发明内容
为解决上述技术问题,本发明提供一种机器人避障装置,包括:
避障输入模块,用于输入机器人t-T1时刻至t时刻的场景数据、目标位置数据和机器人速度数据;
时序特征提取模块,与避障输入模块连接,用于根据机器人t-T1时刻至t时刻的场景数据提取机器人的时序特征;
空间特征提取模块,与避障输入模块连接,用于根据机器人t时刻的场景数据提取机器人的空间特征;
避障全连接层,与避障输入模块、时序特征提取模块、空间特征提取模块连接,用于融合机器人的时序特征、空间特征、目标位置数据和机器人速度数据,以计算预设动作的价值;
避障输出模块,与避障全连接层连接,用于输出预设动作的价值;
其中,t代表某一时刻;T1为正数,t-T1代表过去某一时刻。
进一步地,时序特征提取模块,通过构建以t-T1时刻至t时刻的场景数据为输入、t+1时刻至t+T2时刻的场景数据为输出的时序特征网络模型,提取机器人的时序特征;
其中,T2为正数,t+T2代表未来某一时刻。
进一步地,时序特征网络模型,包括:
时序输入模块,用于输入t-T1时刻至t时刻的场景数据;
依次连接的LSTM1模块、LSTM2模块和时序全连接层,用于预测t+1时刻至t+T2时刻的场景数据;
时序输出模块,与时序全连接层连接,用于输出t+1时刻至t+T2时刻的场景数据。
进一步地,空间特征提取模块,采用两个卷积提取机器人的空间特征。
进一步地,预设动作的价值根据机器人动作期间与障碍物之间的最小距离确定。
进一步地,预设动作的价值根据奖励函数R计算为:
Figure DEST_PATH_IMAGE001
其中,d(t)是机器人动作期间机器人与障碍物之间的最小距离,p(t)是机器人当前时刻位置数据,Goal是机器人目标位置数据,p(t-1)是机器人t-1时刻位置数据。
进一步地,预设动作由n个速度在(0, V_max ]之间呈指数间隔的速度向量和m个方向在 [0, Theta_max)之间均匀分布的方向向量组合而成;
其中,n、m为正整数;V_max表示机器人的最大速度,Theta_max表示机器人的最大角度。
另一方面,本发明还提供一种机器人避障控制方法,包括:
T1:构建上述任意的机器人避障装置;
T2:训练机器人避障装置,得到训练后的机器人避障装置;
T3:获取机器人t-T1时刻至t时刻的场景数据、目标位置数据和机器人速度数据;
T4:将机器人t-T1时刻至t时刻的场景数据、目标位置数据和机器人速度数据,输入训练后的机器人避障装置,得到每个预设动作的价值;
T5:根据每个预设动作的价值,控制机器人动作。
进一步地,步骤T5,包括:
T51:比较每个预设动作的价值;
T52:选取最大价值所对应的预设动作为当前控制动作;
T53:根据当前控制动作,控制机器人动作。
另一方面,本发明还提供一种机器人,由上述任意的机器人避障控制方法而控制。
本发明提供的机器人避障装置、避障控制方法和机器人,一方面提取时序特征和空间特征,融合目标位置数据和机器人速度数据,能够提高深度强化学习的特征表达能力,提高预设动作的价值的预测及时性和精准度;另一方面充分考虑机器人t-T1至t时刻的场景数据,有效利用当前局部环境信息、历史信息和空间信息;二者配合相辅相成,构建避障模型,对机器人预设动作价值做出准确评价,能保障机器人后续避障的可靠性,相较于现有技术,其避障效果的准确性和及时性都有显著提升,而且本发明提出的避障模型能够直接利用原始激光雷达测距数据,具有快速的反应能力,且便于网络的部署与应用。在此基础上,时序特征提取模块,优选为采用时序特征网络模型,提取时序特征,能够在后续进行强化学习的训练前(避障模型的构建训练过程中),先对时序特征网络模型进行预训练,提升后续网络的泛化性能,进一步提高避障效果。空间特征提取模块,优选为采用卷积,提取空间特征,能够增加网络的空间感知能力,有助于选择合适的避障动作。避障全连接层,对预设动作集及每个预设动作的价值,都做了进一步举例说明,既考虑了每个动作在动作期间与障碍物的距离,也考虑了其到达的步长,鼓励其沿着最短路径、以最短时间到达目标位置,能进一步提高其避障效果,同时缩短其路径、以最快速度到达目标位置。
附图说明
图1为本发明避障模型的一个实施例的结构框图;
图2为本发明避障模型的时序特征网络模型的一个实施例的结构框图;
图3为本发明避障控制方法的一个实施例的流程图;
图4为本发明避障控制方法的一个实施例的训练更新框图;
图5为本发明避障控制方法的步骤T5的一个实施例的流程图。
具体实施方式
如图1 所示,为提高机器人的避障及时性和准确性,本发明首先提供了一种机器人避障装置QNet,包括:
一:避障输入模块,用于输入机器人t-T1时刻至t时刻的场景数据、目标位置数据和机器人速度数据(参数t表征某一当前时刻,T1表征一个正数,用t-T1表征过去的某一段时间,即历史时刻);优选的,针对避障模型的输入,可选但不仅限于以机器人的状态矩阵state(t)=[O(t-T1)……O(t), Goal(t), Velocity(t)]表征。其中,O(t-T1)……O(t),表征机器人t-T1时刻至t时刻的场景数据(t-T1至t这段时间内的历史数据和当前时刻t的当前数据)。Goal(t) =[Goal_x(t), Goal_y(t)],表征目标相对于机器人的位置数据(可选但不仅限于以二维坐标表示,优选的还可选但不仅限于增设Goal_z(t),以三维坐标表示)。Velocity(t)=[ Velocity_x(t), Velocity_y(t)](可选但不仅限于以二维向量表示,优选的还可选但不仅限于增设Velocity_z(t),以三维向量表示),表征机器人的当前速度数据。更为优选的,该状态矩阵的具体数据,可选但不仅限于由激光雷达提供,其随时扫描机器人的所在场景,提供其扫描测距数据为场景数据(以扫地机器人为例,激光雷达扫描得到房间内成千上万个点位的场景信息,不仅能提供固定的场景地图,还能提供当前场景下,机器人本身的运动轨迹、所在位置,以及场景下的障碍物信息,如沙发等静止物体的位置;宠物等移动物体的位置、移动速度等);更为具体的,激光雷达的具体型号、类型等,可根据精度要求、成本控制等而任意设定,可选但不仅限于在精度要求低、成本控制要求高的情况下,选用二维雷达,其虽然没有高度信息、无法成像,但是实时性高、成本低;反之选用三维雷达,其虽然造价昂贵、成本高,但是可以三维动态实时成像、实时还原空间的三维信息。
二:时序特征提取模块,与避障输入模块连接,用于根据机器人t-T1时刻至t时刻的场景数据提取机器人的时序特征Feat1;优选的,时序特征Feat1,可选但不仅限于提取于时序特征网络模型。具体的,如图2所示,时序特征网络模型,可选但不仅限于包括:
时序输入模块,用于输入t-T1时刻至t时刻的场景数据;
依次连接的LSTM1模块、LSTM2模块和时序全连接层,用于预测t+1时刻至t+T2时刻的场景数据(参数t表征某一当前时刻,T2表征一个正数,用t+T2表征未来的某一段时间,即未来时刻);表示为:O_out (t)= FC(LSTM(LSTM(O_in(t))))。更为具体的,每个LSTM模块的神经元个数为256,全连接层FC的神经元个数是N。其中,N是激光雷达当前帧的扫描测距数据的维度。
时序输出模块,与时序全连接层连接,用于输出t+1时刻至t+T2时刻的场景数据。具体的,在时序特征网络模型的训练中,可选但不仅限于:
以t1-T1至t1时刻的场景数据为输入O_in(t1)(t1只是对当前时刻的指代,可与上述t时刻相同,也可不同),以t1+1至t1+T2时刻的场景数据为输出O_out(t1),构建时序特征网络模型;其中,输入O_in(t1),可选但不仅限于为激光雷达t1时刻的过去T1个时序数据,可表示为O(t1-T1)……O(t1),其中O(t1)是激光雷达的当前帧的扫描测距数据,数据维度为N。输出O_out(t1)是未来T2个时序数据,可表示为O(t1+1)……O(t1+T2),是对未来数据的预测。
训练时序特征网络模型,得到训练后的时序特征网络模型。优选的,可选但不仅限于利用机器人模拟器(Stage模拟器)建立仿真环境,用最优相互碰撞避免(Optimalreciprocal collision avoidance,ORCA)避障算法控制移动障碍物和机器人的运动,记录机器人的移动过程中的激光雷达数据,生成训练集(若干组t1-T1至t1时刻数据和t1+1至t1+T2时刻的数据),对时序特征网络模型进行训练。具体的,将每组t1-T1至t1时刻数据输入时序特征网络模型,得到对应的t1+1至t1+T2时刻的预测值,与激光雷达实际测量的t1+1至t1+T2时刻的数据进行比较,反馈修正时序特征网络模型的参数。具体的,可选但不仅限于以回归损失作为损失函数,即
Figure DEST_PATH_IMAGE003
。其中,
Figure DEST_PATH_IMAGE005
是时序t1+1至t1+T2的预测值(时序特征网络模型的输出),y(t1’)是时序t1+1至t1+T2的实际测量值,即标签。
将机器人t-T1至t时刻的场景数据输入时序特征网络模型,提取机器人的时序特征Feat1。具体的,在时序特征网络模型包括2个LSTM模块和一个全连接层FC组成,表示为:O_out (t)= FC(LSTM(LSTM(O_in (t))))时,可选但不仅限于以第二个LSTM2的输出作为时序特征,表示为:feat1= LSTM(LSTM(O_in (t)))。
三:空间特征提取模块,与避障输入模块连接,用于根据机器人t时刻的场景数据O(t)提取机器人的空间特征;优选的,空间特征,可选但不仅限于根据机器人当前时刻t的场景数据(可选但不仅限于为t时刻的激光雷达数据O(t)),使用两个卷积进行特征提取,用来提取空间相关的信息,表示为:feat2= Conv (Conv (O(t)))。更为具体的,若激光雷达为二维激光雷达,则采用一维卷积进行特征提取;若激光雷达为三维激光雷达,则采用二维卷积进行特征提取。
四:避障全连接层,与避障输入模块、时序特征提取模块、空间特征提取模块连接,用于融合机器人的时序特征、空间特征、目标位置数据和机器人速度数据,以计算预设动作的价值。优选的,针对避障模型的输出(预设动作的价值Value),其预设动作,可选但不仅限于以预设动作集A表征。示例的:预设动作集A,可选但不仅限于包括n*m个离散动作,具体由n个速度在 (0, V_max ]之间呈指数间隔的速度向量,m个方向在 [0, Theta_max)之间均匀分布的方向向量组成,其中V_max是机器人的最大速度,Theta_max是机器人的最大角度。更为详细示例的,预设动作集A,可选但不仅限于由5个速度在 (0, V_max ]之间呈指数间隔的速度向量,8个方向均匀分布在 [0, Theta_max)之间的方向向量一一搭配组成,形成40个离散动作,作为预设动作集。更为优选的,其预设动作的价值Value,可选但不仅限于以预设动作的奖励函数R表征。具体的,奖励函数R可选但不仅限于表示为:
Figure 665177DEST_PATH_IMAGE006
其中,d(t)是机器人动作期间机器人与障碍物之间的最小距离,p(t)是机器人当前时刻位置数据,p(t-1)是机器人t-1时刻位置数据,Goal是目标位置数据。
由此可见,奖励函数R的第一项,是d(t)<0,表征机器人与障碍物发生了碰撞,需要对此动作做出惩罚,为-25分;第二项,是d(t)<0.1,表征机器人与障碍区仅有0.1的距离,存在碰撞威胁,同样需要对此动作做出惩罚,具体惩罚数值根据二者的具体距离值而定,为-20+100* d(t)分;第三项,是p(t)=Goal,表征机器人到达目的地,需要对此动作做出奖励,为15分;第四项,
Figure DEST_PATH_IMAGE007
是对步长的奖励,鼓励机器人沿着缩短目标位置的方向前进,需要对此动作做出额外奖励。最后根据奖励函数R的最后得分,对预设动作做出价值评价。
五:避障输出模块,与避障全连接层连接,用于输出预设动作的价值。
在该实施例中,提供了本发明的机器人避障装置(基于预设动作的价值作为输出,可详解为动作价值网络模型),一方面提取时序特征和空间特征,融合目标位置数据和机器人速度数据,能够提高深度强化学习的特征表达能力,提高预设动作的价值的预测及时性和精准度;另一方面充分考虑机器人t-T1至t时刻的场景数据,有效利用当前局部环境信息、历史信息和空间信息;二者配合相辅相成,构建避障模型,对机器人预设动作价值做出准确评价,能保障机器人后续避障的可靠性,相较于现有技术,其避障效果的准确性和及时性都有显著提升,而且本发明提出的避障模型能够直接利用原始激光雷达测距数据,具有快速的反应能力,且便于网络的部署与应用。在此基础上,时序特征提取模块,优选为采用时序特征网络模型,提取时序特征,能够在后续进行强化学习的训练前(避障模型的构建训练过程中),先对时序特征网络模型进行预训练,提升后续网络的泛化性能,进一步提高避障效果。空间特征提取模块,优选为采用卷积,提取空间特征,能够增加网络的空间感知能力,有助于选择合适的避障动作。避障全连接层,对预设动作集及每个预设动作的价值,都做了进一步举例说明,既考虑了每个动作在动作期间与障碍物的距离,也考虑了其到达的步长,鼓励其沿着最短路径、以最短时间到达目标位置,能进一步提高其避障效果,同时缩短其路径、以最快速度到达目标位置。
在上述机器人避障装置的基础上,如图3所示,本发明还提供一种机器人避障控制方法,包括步骤:
T1:构建上述机器人避障装置QNet;
T2:训练避障模型QNet,得到训练后的避障模型QNet。优选的,如图4所示,可选但不仅限于在避障模型与环境的交互中,利用Stage模拟器建立仿真环境,一方面用OCRA避障算法控制移动障碍物的运动,另一方面用避障模型的输出控制机器人的运动。采用深度Q学习方法对避障模型进行训练,包括经验回放缓存、避障模型更新、时间差分学习、梯度下降法(stochastic gradient descent,SGD)优化等。示例的,可选但不仅限于以时间差分损失TD-error作为损失函数,对避障模型的参数进行优化修正,得到训练后的避障模型。还可选但不仅限于使用Double DQN、Dueling DQN等其他深度强化学习方法对深度Q学习进行训练。
T3:获取机器人t-T1至T时刻的场景数据、目标位置数据和机器人速度数据(t只是对当前时刻的指代,可为任意某一时刻,可与上述构建避障模型的t时刻、训练时序特征网络模型的t1时刻相同,也可不同);优选的,可选但不仅限于采用二维/三维激光雷达,以发射激光束获取上述数据。与上述相同的,可选但不仅限于以机器人的状态矩阵state(t)=[O(t-T1)……O(t), Goal(t), Velocity(t)]表征。
T4:将机器人当前时刻t的t-T1至t时刻的场景数据、目标位置数据和机器人速度数据,输入训练后的避障模型QNet,得到每个预设动作的价值;优选的,可选但不仅限于将机器人的当前状态矩阵state(t)=[O(t-T1)……O(t), Goal(t), Velocity(t)]输入训练后的动作避障模型QNet,输出预设动作集A(1……NA)中每个预设动作的价值Value(1……NA)(奖励函数R的最后得分)。
T5:根据每个预设动作的价值,确定机器人的当前控制动作。优选的,可选但不仅限于选取最大价值所对应的预设动作,为机器人的当前控制动作。
在该实施例中,提供了一种本发明的机器人避障控制方法,其基于上述避障模型而创造,具备相同的技术效果:一方面提取时序特征和空间特征,融合目标位置数据和机器人速度数据,能够提高深度强化学习的特征表达能力;另一方面充分考虑机器人t-T1至t时刻的场景数据,有效利用当前局部环境信息、历史信息和空间信息;二者配合相辅相成,对机器人预设动作价值做出准确评价,能保障机器人后续避障的可靠性,相较于现有技术,其避障效果的准确性和及时性都有显著提升。在此基础上,结合选用最大价值所对应的预设动作,为机器人的当前控制动作,能够在预设动作中,选择最优的动作控制机器人动作。
具体的,如图5所示,步骤T5,可选但不仅限于包括:
T51:比较每个预设动作的价值;
T52:选取最大价值所对应的预设动作为当前控制动作;
T53:根据当前控制动作,控制机器人动作。
在该实施例中,为提高控制动作点的及时性和准确性,选取最大价值所对应的预设动作为机器人的当前控制动作。具体的,机器人的当前控制动作,可选但不仅限于表示为a = A[argmax(QNet(state))]。其中,A是动作集,利用argmax(QNet(state))则可以得到QNet(state)最大值所对应的动作,即机器人的当前控制动作,可用于控制部署机器人的当前执行活动。
在上述机器人避障控制方法的基础上,本发明还提供一种机器人,应用上述任意的避障控制方法进行控制。具体的,该机器人可选但不仅限于为扫地机器人、快递机器人、安防机器人、工厂机器人等自动控制设备。
上述机器人的避障控制方法及其机器人基于上述机器人避障装置创造,其技术作用和有益效果在此不再赘述,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种机器人避障装置,其特征在于,包括:
避障输入模块,用于输入机器人t-T1时刻至t时刻的场景数据、目标位置数据和机器人速度数据;
时序特征提取模块,与避障输入模块连接,用于根据机器人t-T1时刻至t时刻的场景数据提取机器人的时序特征;
空间特征提取模块,与避障输入模块连接,用于根据机器人t时刻的场景数据提取机器人的空间特征;
避障全连接层,与避障输入模块、时序特征提取模块、空间特征提取模块连接,用于融合机器人的时序特征、空间特征、目标位置数据和机器人速度数据,以计算预设动作的价值;
避障输出模块,与避障全连接层连接,用于输出预设动作的价值;
其中,t代表某一时刻;T1为正数,t-T1代表过去某一时刻;
时序特征提取模块,通过构建以t-T1时刻至t时刻的场景数据为输入、 t+1时刻至t+T2时刻的场景数据为输出的时序特征网络模型,提取机器人的时序特征;
其中,T2为正数,t+T2代表未来某一时刻;时序特征网络模型,包括:
时序输入模块,用于输入t-T1时刻至t时刻的场景数据;
依次连接的LSTM1模块、LSTM2模块和时序全连接层,用于预测t+1时刻至t+T2时刻的场景数据;
时序输出模块,与时序全连接层连接,用于输出t+1时刻至t+T2时刻的场景数据。
2.根据权利要求1所述的机器人避障装置,其特征在于,空间特征提取模块,采用两个卷积提取机器人的空间特征。
3.根据权利要求1-2任意一项所述的机器人避障装置,其特征在于,预设动作的价值根据机器人动作期间与障碍物之间的最小距离确定。
4.根据权利要求3所述的机器人避障装置,其特征在于,预设动作的价值根据奖励函数R计算为:
Figure DEST_PATH_IMAGE002
其中,d(t)是机器人动作期间机器人与障碍物之间的最小距离,p(t)是机器人当前时刻位置数据,Goal是机器人目标位置数据,p(t-1)是机器人t-1时刻位置数据。
5.根据权利要求4所述的机器人避障装置,其特征在于,预设动作由n个速度在(0, V_max ]之间呈指数间隔的速度向量和m个方向在 [0, Theta_max)之间均匀分布的方向向量组合而成;
其中,n、m为正整数;V_max表示机器人的最大速度,Theta_max表示机器人的最大角度。
6.一种机器人避障控制方法,其特征在于,包括:
T1:构建权利要求1-5任意一项所述的机器人避障装置;
T2:训练机器人避障装置,得到训练后的机器人避障装置;
T3:获取机器人t-T1时刻至t时刻的场景数据、目标位置数据和机器人速度数据;
T4:将机器人t-T1时刻至t时刻的场景数据、目标位置数据和机器人速度数据,输入训练后的机器人避障装置,得到每个预设动作的价值;
T5:根据每个预设动作的价值,控制机器人动作。
7.根据权利要求6所述的机器人避障控制方法,其特征在于,步骤T5,包括:
T51:比较每个预设动作的价值;
T52:选取最大价值所对应的预设动作为当前控制动作;
T53:根据当前控制动作,控制机器人动作。
8.一种机器人,其特征在于,由权利要求6-7任意一项所述的机器人避障控制方法而控制。
CN202210413519.7A 2022-04-20 2022-04-20 机器人避障装置、避障控制方法和机器人 Active CN114518762B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210413519.7A CN114518762B (zh) 2022-04-20 2022-04-20 机器人避障装置、避障控制方法和机器人

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210413519.7A CN114518762B (zh) 2022-04-20 2022-04-20 机器人避障装置、避障控制方法和机器人

Publications (2)

Publication Number Publication Date
CN114518762A CN114518762A (zh) 2022-05-20
CN114518762B true CN114518762B (zh) 2022-07-22

Family

ID=81600452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210413519.7A Active CN114518762B (zh) 2022-04-20 2022-04-20 机器人避障装置、避障控制方法和机器人

Country Status (1)

Country Link
CN (1) CN114518762B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117232531B (zh) * 2023-11-14 2024-01-30 长沙小钴科技有限公司 机器人导航规划方法及存储介质和终端设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255182A (zh) * 2018-01-30 2018-07-06 上海交通大学 一种基于深度强化学习的服务机器人行人感知避障方法
CN110370273A (zh) * 2019-06-27 2019-10-25 华为技术有限公司 一种机器人避障方法、装置和系统
CN112316436A (zh) * 2020-11-30 2021-02-05 超参数科技(深圳)有限公司 智能体的避障方法、装置、计算机设备和存储介质
CN113253733A (zh) * 2021-06-03 2021-08-13 杭州未名信科科技有限公司 一种基于学习和融合的导航避障方法、装置及系统
WO2021190484A1 (zh) * 2020-03-23 2021-09-30 北京三快在线科技有限公司 一种障碍物的轨迹预测方法及装置
CN113715842A (zh) * 2021-08-24 2021-11-30 华中科技大学 一种基于模仿学习和强化学习的高速运动车辆控制方法
CN114372503A (zh) * 2021-12-03 2022-04-19 同济大学 一种集群车辆运动轨迹预测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018083672A1 (en) * 2016-11-04 2018-05-11 Deepmind Technologies Limited Environment navigation using reinforcement learning
US11034357B2 (en) * 2018-09-14 2021-06-15 Honda Motor Co., Ltd. Scene classification prediction
US11407431B2 (en) * 2019-11-22 2022-08-09 Samsung Electronics Co., Ltd. System and method for object trajectory prediction in an autonomous scenario
US11127142B2 (en) * 2019-12-31 2021-09-21 Baidu Usa Llc Vehicle trajectory prediction model with semantic map and LSTM
CN111679970B (zh) * 2020-05-14 2022-09-27 南京理工大学 机器人软件系统运行环境状态预测方法
CN111814766B (zh) * 2020-09-01 2020-12-15 中国人民解放军国防科技大学 车辆行为预警方法、装置、计算机设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255182A (zh) * 2018-01-30 2018-07-06 上海交通大学 一种基于深度强化学习的服务机器人行人感知避障方法
CN110370273A (zh) * 2019-06-27 2019-10-25 华为技术有限公司 一种机器人避障方法、装置和系统
WO2021190484A1 (zh) * 2020-03-23 2021-09-30 北京三快在线科技有限公司 一种障碍物的轨迹预测方法及装置
CN112316436A (zh) * 2020-11-30 2021-02-05 超参数科技(深圳)有限公司 智能体的避障方法、装置、计算机设备和存储介质
CN113253733A (zh) * 2021-06-03 2021-08-13 杭州未名信科科技有限公司 一种基于学习和融合的导航避障方法、装置及系统
CN113715842A (zh) * 2021-08-24 2021-11-30 华中科技大学 一种基于模仿学习和强化学习的高速运动车辆控制方法
CN114372503A (zh) * 2021-12-03 2022-04-19 同济大学 一种集群车辆运动轨迹预测方法

Also Published As

Publication number Publication date
CN114518762A (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
US11017550B2 (en) End-to-end tracking of objects
US11673269B2 (en) Method of identifying dynamic obstacle and robot implementing same
KR102303432B1 (ko) 장애물의 특성을 고려한 dqn 및 slam 기반의 맵리스 내비게이션 시스템 및 그 처리 방법
Botteghi et al. On reward shaping for mobile robot navigation: A reinforcement learning and SLAM based approach
CN114518762B (zh) 机器人避障装置、避障控制方法和机器人
Mahadevuni et al. Navigating mobile robots to target in near shortest time using reinforcement learning with spiking neural networks
CN117289691A (zh) 用于导航场景下强化学习的路径规划智能体的训练方法
CN112857370A (zh) 一种基于时序信息建模的机器人无地图导航方法
Sasaki et al. A3C based motion learning for an autonomous mobile robot in crowds
CN114667494A (zh) 机器人控制模型学习方法、机器人控制模型学习装置、机器人控制模型学习程序、机器人控制方法、机器人控制装置、机器人控制程序以及机器人
Jiang et al. iTD3-CLN: Learn to navigate in dynamic scene through Deep Reinforcement Learning
CN115755887A (zh) 一种多agv协同感知方法
Qin et al. Deep imitation learning for autonomous navigation in dynamic pedestrian environments
Chen et al. Deep reinforcement learning of map-based obstacle avoidance for mobile robot navigation
Akmandor et al. Deep reinforcement learning based robot navigation in dynamic environments using occupancy values of motion primitives
US11467598B2 (en) Method of estimating position in local area of large space and robot and cloud server implementing thereof
KR20220136796A (ko) 보행경로예측장치
Doellinger et al. Environment-aware multi-target tracking of pedestrians
Huang et al. An autonomous UAV navigation system for unknown flight environment
US20230161356A1 (en) Method of updating map in fusion slam and robot implementing same
Khalil et al. Integration of motion prediction with end-to-end latent RL for self-driving vehicles
Zeng et al. Robot navigation in crowd based on dual social attention deep reinforcement learning
Gebregziabher Multi object tracking for predictive collision avoidance
CN114723782A (zh) 一种基于异构图学习的交通场景运动目标感知方法
CN114563011A (zh) 一种用于无地图导航的主动听觉定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant