CN113096161A - 一种密集行人环境下强化学习移动机器人的导航方法及装置 - Google Patents

一种密集行人环境下强化学习移动机器人的导航方法及装置 Download PDF

Info

Publication number
CN113096161A
CN113096161A CN202110353618.6A CN202110353618A CN113096161A CN 113096161 A CN113096161 A CN 113096161A CN 202110353618 A CN202110353618 A CN 202110353618A CN 113096161 A CN113096161 A CN 113096161A
Authority
CN
China
Prior art keywords
pedestrian
track
tracking
adopting
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110353618.6A
Other languages
English (en)
Inventor
刘奇
李衍杰
牟涌金
许运鸿
刘悦丞
高建琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202110353618.6A priority Critical patent/CN113096161A/zh
Publication of CN113096161A publication Critical patent/CN113096161A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/005Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 with correlation of navigation data from several sources, e.g. map or contour matching
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition

Abstract

本发明公开了一种基于空间‑时间图注意力神经网络的密集行人环境下强化学习移动机器人的导航方法,首先使用了三维多物体跟踪JRMOT技术进行2D和3D的行人轨迹追踪技术,对行人的位置进行实时追踪,在让机器人使用空间‑时间图注意力STGAT模型,根据行人历史轨迹预测未来轨迹,当机器人在行人环境中有了各个行人的轨迹后,再使用蒙特卡洛树搜索和价值估计网络,做出最优决策,进行导航任务。本发明能够在密集行人环境下快速做出避障决策,拓展了移动机器人的应用场景。

Description

一种密集行人环境下强化学习移动机器人的导航方法及装置
技术领域
本发明属于移动机器人导航领域,涉及一种密集行人环境下强化学习移动机器人的导航方法及装置,尤其涉及一种基于空间-时间图注意力神经网络的密集行人环境下强化学习移动机器人的导航方法及装置。
背景技术
近些年,移动机器人越来越多的应用于各个领域,作为机器人的核心功能,移动机器人的导航是人们重点研究的方向。面对机器人在复杂的动态环境中,如何快速有效的导航并且能与环境无碰撞是一个急需解决的问题。当前移动机器人可以在静态环境中高效的解决导航避障问题,然而面对现实的人类生活环境,需要机器人在执行导航任务时,根据瞬息变化的环境,做出有效的决策,传统的导航算法并不能解决此问题,随着人工智能技术的飞速发展,将其应用到机器人导航的过程中,已经是不约而同的做法,对移动机器人导航发展具有重大意义。
发明内容
本发明为了解决现有技术中的问题,提出了一种密集行人环境下强化学习移动机器人的导航方法,该方法基于空间-时间图注意力神经网络,该方法能够在密集行人环境下快速做出避障决策,拓展了移动机器人的应用场景。
为了达到上述目的,本发明的实施例提供了一种密集行人环境下强化学习移动机器人的导航方法,包括以下步骤:
S101:采用JRMOT技术对行人轨迹进行实时追踪,所述JRMOT技术在多目标跟踪MOT的基础上,引入3D检测;
S102:基于获取到的行人轨迹信息,采用空间-时间图注意力模型对行人轨迹进行预测;
S103:基于行人的历史轨迹和预测轨迹,采用蒙特卡洛树搜索方法和价值估计网络进行决策,获得机器人的导航方案。
进一步地,所述JRMOT技术包括输入、检测、追踪三个部分;
在输入部分,包括2DRGB图像和3D点云信息;对于2D检测器,其输入周围环境2DRGB图像,采用图像分割Mask R-CNN或目标检测器YOLO架构作为2D检测器输出一个参数集合
Figure BDA0003000957220000021
对于3D检测器,其采集周围环境的3D点云信息,然后采用F-PointNet算法对其进行检测和特征提取得到
Figure BDA0003000957220000022
对于提取到的
Figure BDA0003000957220000023
Figure BDA0003000957220000024
进行特征耦合,使二者经过一个三层的全连接神经网络,输出一个新的融合特征;在追踪轨迹时,对t-1时刻和t时刻的轨迹关联起来。
进一步地,采用卡尔曼滤波器对追踪轨迹的输出进行滤波,以此来估计一条平滑的3D轨迹,以此来输出每一个追踪对象的轨迹。
进一步地,采用空间-时间图注意力STGAT模型进行行人轨迹预测,具体包括:
采用LSTM捕捉每个行人的历史运动状态,并且用M-LSTM和G-LSTM来表示对行人的运动状态进行编码过程;在采用M-LSTM和G-LSTM方法对两个步道的轨迹编码后,将这二者进行结合,以此实现空间-时间信息融合;采用GNNs和GAT方法对每个时刻即每一层的行人轨迹进行处理;使用D-LSTM作为解码器;对模型训练后,机器人可以预测出行人的未来轨迹。
进一步地,采用蒙特卡洛树搜索方法和价值估计网络决策,具体为:使用状态价值预测网络对推演的状态进行价值估计,根据每个状态的价值,不断地优化出最优策略,机器人根据以此策略选择执行的动作。
本发明实施例还提供了一种密集行人环境下强化学习移动机器人的导航装置,包括以下模块:
行人轨迹实时追踪模块,采用JRMOT技术对行人轨迹进行实时追踪,所述JRMOT技术在多目标跟踪MOT的基础上,引入3D检测;
行人轨迹预测模块,基于获取到的行人轨迹信息,采用空间-时间图注意力模型对行人轨迹进行预测;
决策模块,基于行人的历史轨迹和预测轨迹,采用蒙特卡洛树搜索方法和价值估计网络进行决策,获得机器人的导航方案。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明的密集行人环境下强化学习移动机器人的导航方法流程图;
图2为本发明的基于2D和3D信息检测行人轨迹系统框图;
图3为本发明的用GNNs和GAT方法对每个时刻即每一层的行人轨迹进行处理示意图;
图4为本发明的基于时间与空间预测行人轨迹的系统框图;
图5为本发明的机器人基于行人轨迹进行蒙特卡洛树搜索优化策略示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的密集行人环境下强化学习移动机器人的导航方法,流程图如图1所示,包括:在机器人执行导航任务时,面对复杂的行人环境,使用2D与3D行人检测及追踪技术,实时追踪行人位置,再根据历史轨迹构建空间-时间图注意力(STGAT)模型进行行人轨迹预测,根据预测的轨迹,机器人使用蒙特卡洛树搜索和价值估计网络,选择最优动作进行决策导航。
具体的实现步骤如下:
S101,首先对行人轨迹进行实时追踪,采用JRMOT技术,在多目标跟踪(multi-object tracking,MOT)基础上,加入了3D检测技术。JRMOT技术参见非专利文献1。
JRMOT技术包括输入、检测、追踪三个部分。
在输入部分,分为2DRGB图像和3D点云信息两个输入信息部分。
对于2D检测器,其输入周围环境2DRGB图像,输出一个参数集合:
Figure BDA0003000957220000041
本发明优选采用最先进的图像分割Mask R-CNN(参见非专利文献2)或目标检测器YOLO(参见非专利文献3)架构作为2D检测器。
对于3D检测器,其采集周围环境的3D点云信息,然后对其进行检测和特征提取得到
Figure BDA0003000957220000042
本发明优选采用F-PointNet算法(参见非专利文献4)作为3D检测器。
对于提取到的
Figure BDA0003000957220000043
Figure BDA0003000957220000044
进行特征耦合,使二者经过一个三层的全连接神经网络,输出一个新的融合特征。
在第三部分追踪轨迹时,需要对t-1时刻和t时刻的轨迹关联起来。本发明优选采用JPDA(参见非专利文献5),它对杂波具有很强的抗噪性。
并且构造特征和3D IoU两个成本矩阵,通过熵测量的方法选择需要哪个成本矩阵,对每一个轨迹的阈值范围内的检测进行JPDA式的关联。
由于2D检测与3D检测通常是有噪声的,因此,采用卡尔曼滤波器对输出进行滤波,以此来估计一条平滑的3D轨迹,以此来输出每一个追踪对象的轨迹,具体流程如图2所示。
S102,在机器人得到周围行人的轨迹信息后,需要对行人未来的轨迹进行预测,因此采用空间-时间图注意力(Spatial-Temporal Graph Attention,STGAT)模型进行行人轨迹预测。空间-时间图注意力模型可参见非专利文献6。
若机器人周围环境中有N个行人,分别表示为p1,p2,...,pN,第i个行人在t时刻的位置为
Figure BDA0003000957220000051
给定每一位行人在前t时刻t=1,...,Tobs的位置,要预测出行人t=Tobs+1,...,Tpred的位置。
采用长短期记忆人工神经网络(Long Short-Term Memory,LSTM)捕捉每个行人的历史运动状态。LSTM可参见非专利文献7。
并且用M-LSTM来表示对行人的运动状态进行编码过程,在此之前需要计算每个行人与前一个时间步长的相对位置,即:
Figure BDA0003000957220000052
Figure BDA0003000957220000053
然后将计算好的相对位置嵌入到每一个时间步长的固定长度向量
Figure BDA0003000957220000054
中,将这些向量作为LSTM单元的输入,即:
Figure BDA0003000957220000055
Figure BDA0003000957220000056
其中函数
Figure BDA0003000957220000057
为嵌入函数,Wee为嵌入权值,
Figure BDA0003000957220000058
是M-LSTM在时刻t的隐状态,Wm是M-LSTM单元的权重。
预测行人的轨迹,不仅要用M-LSTM对每个行人轨迹进行编码,还要考虑行人之间交互的影响,因此采用GNNs(Graph neural networks)和GAT(Graph Attention Network)方法对每个时刻即每一层的行人轨迹进行处理,具体如图3所示。
每一层输入集合为
Figure BDA00030009572200000510
其中
Figure BDA00030009572200000511
N是节点的个数,F是每一个节点的特征维度,则输出为
Figure BDA00030009572200000512
其中
Figure BDA00030009572200000513
F与F′可能不相等。
前面提到机器人观测到的历史轨迹为
Figure BDA00030009572200000514
作为输入信息,节点之间的注意力系数可用下式计算:
Figure BDA0003000957220000059
上式中||是拼接操作,
Figure BDA00030009572200000610
是节点j到节点i在时刻t的注意力系数,
Figure BDA00030009572200000611
是节点i所关联的节点个数,W∈RF′×F是一个加权矩阵,a∈R2F′为单层前馈神经网络的权值向量,LeakyReLU为激活函数。
在得到归一化的系数后,则在节点i在时刻t的输出为:
Figure BDA0003000957220000061
其中σ为非线性函数。为了明确行人轨迹的时间关联性,采用G-LSTM:
Figure BDA0003000957220000062
在采用M-LSTM和G-LSTM方法对两个步道的轨迹编码后,将这二者进行结合,以此实现空间-时间信息融合。
在Tobs中,使用M-LSTM和G-LSTM对每个行人的轨迹进行编码后可以得到
Figure BDA00030009572200000612
在将二者进行结合前需要将其输入进多层感知器δ1(·)、δ2(·),然后可得:
Figure BDA0003000957220000063
Figure BDA0003000957220000064
Figure BDA0003000957220000065
然后再添加噪声z:
Figure BDA0003000957220000066
使用D-LSTM作为解码器,
Figure BDA0003000957220000067
作为D-LSTM的初始隐状态,则预测的相对位置为:
Figure BDA0003000957220000068
Figure BDA0003000957220000069
其中Wd是权重,δ3(·)是线性函数,得到Tobs+1的相对位置后,可以计算出后续的行人的绝对位置,并且D-LSTM的后续输入位置也可易得。
更新网络参数,计算损失函数,对于每个行人,模型通过从
Figure BDA00030009572200000613
(标准正态分布)中随机抽样z个预测轨迹(可参见非专利文献8),然后选择距离真实值最小的轨迹作为模型输出,计算损失函数:
Figure BDA0003000957220000071
上式中Yi为行人的真实轨迹,
Figure BDA0003000957220000075
为模型预测轨迹,k为超参数。
通过对模型训练后,机器人可以预测出行人的未来轨迹,预测轨迹总流程如图4所示。
S103,在得到行人的历史轨迹和预测的轨迹后,机器人需要使用蒙特卡洛树搜索方法和价值估计网络,以此选择最优动作进行决策导航(蒙特卡洛树搜索方法和价值估计网络参见非专利文献9)。
根据每个行人的当前时刻位置和预测的未来位置p=[px,py],速度v=[vx,vy]与半径r(一个抽象的用来测量的标准),还有期望的目标位置pg与速度vpref,分别用
Figure BDA0003000957220000076
Figure BDA0003000957220000077
表示时间t时机器人的状态和第i个人的观察状态。
则机器人的输入状态定义为
Figure BDA0003000957220000078
最大化的得到最优策略:
Figure BDA0003000957220000072
Figure BDA0003000957220000073
上式中(St,at)是在t时刻接收的奖励,γ∈(0,1)为折扣因子,V*是最优价值函数,P(St,at,St+Δt)表示概率,遵循非专利文献10中定义的奖励函数公式:
Figure BDA0003000957220000074
上式中dt为机器人距离行人的最小距离,使用蒙特卡洛树搜索的方法进行d步推演.
使用状态价值预测网络对推演的状态进行价值估计,根据每个状态的价值,不断地优化出最优策略,机器人根据以此策略选择执行的动作,如附图5所示。
本发明引用的非专利文献如下:
非专利文献1:Shenoi A,Patel M,Gwak J Y,et al.Jrmot:A real-time 3dmulti-object tracker and a new large-scale dataset[J].arXiv preprint arXiv:2002.08397.2020.
非专利文献2:K.He,G.Gkioxari,P.Dollár,and R.Girshick,“Mask r-cnn,”inProceedings of the IEEE ICCV,2017.
非专利文献3:J.Redmon,S.Divvala,R.Girshick,and A.Farhadi,“You onlylook once:Unified,real-time object detection,”in IEEE CVPR.
非专利文献4:C.R.Qi,W.Liu,C.Wu,H.Su,and L.J.Guibas,“Frustum pointnetsfor 3d object detection from RGB-D data,”CoRR,vol.abs/1711.08488,2017.[Online].Available:http://arxiv.org/abs/1711.08488
非专利文献5:T.Fortmann,Y.Bar-Shalom,and M.Scheffe,“Sonar tracking ofmul-tiple targets using joint probabilistic data association,”IEEE journal ofOceanic Engineering,vol.8,no.3,pp.173-184,1983.
非专利文献6:Huang Y,Bi H,Li Z,et a1.Stgat:Modeling spatial-temporalinteractions for human trajectory prediction[C]//Proceedings of the IEEE/CVFInternational Conference on Computer Vision.2019:6272-6281.
非专利文献7:Alexandre Alahi,Kratarth Goel,Vignesh Ramanathan,Alexandre Robicquet,Li Fei-Fei,and Silvio Savarese.Social lstm:Humantrajectory prediction in crowded spaces.In Proceedings of the IEEE conferenceon computer vision and pattern recognition,pages 961-971,2016.
非专利文献8:Agrim Gupta,Justin Johnson,Li Fei-Fei,Silvio Savarese,andAlexandre Alahi.Social gan:Socially acceptable trajectories with generativeadversarial networks.In Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition,pages 2255-2264,2018.
非专利文献9:Chen C,Hu S,Nikdel P,et al.Relational graph learningforcrowd navigation[J].arXiv preprint arXiv:1909.13165,2019.
非专利文献10:C.Chen,Y.Liu,S.Kreiss,and A.Alahi,“Crowd-robotinteraction:Crowd-aware robot navigation with attention-based deepreinforcement learning.”[Online].Available:http://arxiv.org/abs/1809.08835.
所属领域的技术人员可以清楚的了解到,为了描述的方便和简洁,上述描述的装置、模块和单元的具体工作过程,可以参考前述方法实施例的对应过程,在此不再赘述。
附图中的流程图和框图显示了根据本发明的多个实施例的方法、装置和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图和框图中的每个方框可以代表一个模块、程序段或代码的一部分,包含一个或多个用于实现逻辑功能的计算机可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。也要注意的是,框图和流程图中的每个方框或方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或者操作区分开来,而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。而且,术语″包括″、″包含″或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句″包括一个......″限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明,上述实施例仅是为说明所作的举例,而并非对实施方式的限定。对于本领域技术人员来说,在上述说明的基础上,还可以做出其它不同形式的变化或变动,而这些变化或变动将是显而易见的,处于本发明的保护范围之中。

Claims (10)

1.一种密集行人环境下强化学习移动机器人的导航方法,其特征在于,包括以下步骤:
S101:采用JRMOT技术对行人轨迹进行实时追踪,其中,所述JRMOT技术在多目标跟踪MOT的基础上引入3D检测;
S102:基于获取到的行人轨迹信息,采用空间-时间图注意力模型对行人轨迹进行预测;
S103:基于行人的历史轨迹和预测轨迹,采用蒙特卡洛树搜索方法和价值估计网络进行决策,获得机器人的导航方案。
2.根据权利要求1所述的方法,其特征在于:所述JRMOT技术包括输入、检测、追踪三个部分;
在输入部分,包括2DRGB图像和3D点云信息;对于2D检测器,其输入周围环境2DRGB图像,采用图像分割Mask R-CNN或目标检测器YOLO架构作为2D检测器输出一个参数集合
Figure FDA0003000957210000011
对于3D检测器,其采集周围环境的3D点云信息,然后采用F-PointNet算法对其进行检测和特征提取得到
Figure FDA0003000957210000014
对于提取到的
Figure FDA0003000957210000013
Figure FDA0003000957210000012
进行特征耦合,使二者经过一个三层的全连接神经网络,输出一个新的融合特征;在追踪轨迹时,对t-1时刻和t时刻的轨迹关联起来。
3.根据权利要求2所述的方法,其特征在于:采用卡尔曼滤波器对追踪轨迹的输出进行滤波,以此来估计一条平滑的3D轨迹,以此来输出每一个追踪对象的轨迹。
4.根据权利要求1所述的方法,其特征在于:采用空间-时间图注意力STGAT模型进行行人轨迹预测,具体包括:
采用LSTM捕捉每个行人的历史运动状态,并且用M-LSTM和G-LSTM来表示对行人的运动状态进行编码过程;在采用M-LSTM和G-LSTM方法对两个步道的轨迹编码后,将这二者进行结合,以此实现空间-时间信息融合;采用GNNs和GAT方法对每个时刻即每一层的行人轨迹进行处理;使用D-LSTM作为解码器;对模型训练后,机器人可以预测出行人的未来轨迹。
5.根据权利要求1所述的方法,其特征在于:采用蒙特卡洛树搜索方法和价值估计网络决策,具体为:使用状态价值预测网络对推演的状态进行价值估计,根据每个状态的价值,不断地优化出最优策略,机器人根据以此策略选择执行的动作。
6.一种密集行人环境下强化学习移动机器人的导航装置,其特征在于,所述装置包括以下模块:
行人轨迹实时追踪模块,采用JRMOT技术对行人轨迹进行实时追踪,所述JRMOT技术在多目标跟踪MOT的基础上,引入3D检测;
行人轨迹预测模块,基于获取到的行人轨迹信息,采用空间-时间图注意力模型对行人轨迹进行预测;
决策模块,基于行人的历史轨迹和预测轨迹,采用蒙特卡洛树搜索方法和价值估计网络进行决策,获得机器人的导航方案。
7.根据权利要求6所述的装置,其特征在于:所述JRMOT技术包括输入、检测、追踪三个部分;
在输入部分,包括2DRGB图像和3D点云信息;对于2D检测器,其输入周围环境2DRGB图像,采用图像分割Mask R-CNN或目标检测器YOLO架构作为2D检测器输出一个参数集合
Figure FDA0003000957210000021
对于3D检测器,其采集周围环境的3D点云信息,然后采用F-PointNet算法对其进行检测和特征提取得到
Figure FDA0003000957210000024
对于提取到的
Figure FDA0003000957210000023
Figure FDA0003000957210000022
进行特征耦合,使二者经过一个三层的全连接神经网络,输出一个新的融合特征;在追踪轨迹时,对t-1时刻和t时刻的轨迹关联起来。
8.根据权利要求7所述的装置,其特征在于:采用卡尔曼滤波器对追踪轨迹的输出进行滤波,以此来估计一条平滑的3D轨迹,以此来输出每一个追踪对象的轨迹。
9.根据权利要求6所述的装置,其特征在于:采用空间-时间图注意力STGAT模型进行行人轨迹预测,具体包括:
采用LSTM捕捉每个行人的历史运动状态,并且用M-LSTM和G-LSTM来表示对行人的运动状态进行编码过程;在采用M-LSTM和G-LSTM方法对两个步道的轨迹编码后,将这二者进行结合,以此实现空间-时间信息融合;采用GNNs和GAT方法对每个时刻即每一层的行人轨迹进行处理;使用D-LSTM作为解码器;对模型训练后,机器人可以预测出行人的未来轨迹。
10.根据权利要求6所述的装置,其特征在于:采用蒙特卡洛树搜索方法和价值估计网络决策,具体为:使用状态价值预测网络对推演的状态进行价值估计,根据每个状态的价值,不断地优化出最优策略,机器人根据以此策略选择执行的动作。
CN202110353618.6A 2021-03-31 2021-03-31 一种密集行人环境下强化学习移动机器人的导航方法及装置 Pending CN113096161A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110353618.6A CN113096161A (zh) 2021-03-31 2021-03-31 一种密集行人环境下强化学习移动机器人的导航方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110353618.6A CN113096161A (zh) 2021-03-31 2021-03-31 一种密集行人环境下强化学习移动机器人的导航方法及装置

Publications (1)

Publication Number Publication Date
CN113096161A true CN113096161A (zh) 2021-07-09

Family

ID=76672335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110353618.6A Pending CN113096161A (zh) 2021-03-31 2021-03-31 一种密集行人环境下强化学习移动机器人的导航方法及装置

Country Status (1)

Country Link
CN (1) CN113096161A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113334395A (zh) * 2021-08-09 2021-09-03 常州唯实智能物联创新中心有限公司 多夹具的机械臂无序抓取方法及系统
CN113807230A (zh) * 2021-09-14 2021-12-17 中国人民解放军国防科技大学 基于主动强化学习的装备目标识别方法及人机智能体
CN113837063A (zh) * 2021-10-15 2021-12-24 中国石油大学(华东) 一种基于强化学习的冰壶运动现场分析和辅助决策方法
CN114003042A (zh) * 2021-11-02 2022-02-01 福建省海峡智汇科技有限公司 一种基于强化学习的移动机器人路径跟踪方法
CN114510038A (zh) * 2022-01-18 2022-05-17 山东大学 一种在移动人群环境中的机器人导航方法及系统
CN114779792A (zh) * 2022-06-20 2022-07-22 湖南大学 基于模仿与强化学习的医药机器人自主避障方法及系统
CN113837063B (zh) * 2021-10-15 2024-05-10 中国石油大学(华东) 一种基于强化学习的冰壶运动现场分析和辅助决策方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111044045A (zh) * 2019-12-09 2020-04-21 中国科学院深圳先进技术研究院 基于神经网络的导航方法、装置及终端设备
CN112270226A (zh) * 2020-10-16 2021-01-26 淮阴工学院 一种基于多特征提取和多注意力机制的行人轨迹预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111044045A (zh) * 2019-12-09 2020-04-21 中国科学院深圳先进技术研究院 基于神经网络的导航方法、装置及终端设备
CN112270226A (zh) * 2020-10-16 2021-01-26 淮阴工学院 一种基于多特征提取和多注意力机制的行人轨迹预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ABHIJEET SHENOI ET AL: "JRMOT: A Real-Time 3D Multi-Object Tracker and a New Large-Scale Dataset", 《IEEE》 *
CHANGAN CHEN ET AL: "Relational Graph Learning for Crowd Navigation"", 《IEEE》 *
YINGFAN HUANG ET AL: "STGAT: Modeling Spatial-Temporal Interactions for Human Trajectory Prediction", 《IEEE》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113334395A (zh) * 2021-08-09 2021-09-03 常州唯实智能物联创新中心有限公司 多夹具的机械臂无序抓取方法及系统
CN113334395B (zh) * 2021-08-09 2021-11-26 常州唯实智能物联创新中心有限公司 多夹具的机械臂无序抓取方法及系统
CN113807230A (zh) * 2021-09-14 2021-12-17 中国人民解放军国防科技大学 基于主动强化学习的装备目标识别方法及人机智能体
CN113807230B (zh) * 2021-09-14 2023-11-03 中国人民解放军国防科技大学 基于主动强化学习的装备目标识别方法及装置
CN113837063A (zh) * 2021-10-15 2021-12-24 中国石油大学(华东) 一种基于强化学习的冰壶运动现场分析和辅助决策方法
CN113837063B (zh) * 2021-10-15 2024-05-10 中国石油大学(华东) 一种基于强化学习的冰壶运动现场分析和辅助决策方法
CN114003042A (zh) * 2021-11-02 2022-02-01 福建省海峡智汇科技有限公司 一种基于强化学习的移动机器人路径跟踪方法
CN114003042B (zh) * 2021-11-02 2023-05-12 福建省海峡智汇科技有限公司 一种基于强化学习的移动机器人路径跟踪方法
CN114510038A (zh) * 2022-01-18 2022-05-17 山东大学 一种在移动人群环境中的机器人导航方法及系统
CN114779792A (zh) * 2022-06-20 2022-07-22 湖南大学 基于模仿与强化学习的医药机器人自主避障方法及系统
CN114779792B (zh) * 2022-06-20 2022-09-09 湖南大学 基于模仿与强化学习的医药机器人自主避障方法及系统

Similar Documents

Publication Publication Date Title
CN113096161A (zh) 一种密集行人环境下强化学习移动机器人的导航方法及装置
JP6759474B2 (ja) 深層学習ネットワーク及び平均シフトに基づく船舶自動追跡方法及びシステム
CN112767451B (zh) 一种基于双流卷积神经网络的人群分布预测方法及其系统
Khalkhali et al. Vehicle tracking with Kalman filter using online situation assessment
Ranjith et al. Anomaly detection using DBSCAN clustering technique for traffic video surveillance
WO2011015800A1 (en) Correlated probabilistic trajectories pedestrian motion detection using a decision forest
CN117077727B (zh) 基于时空注意力机制和神经常微分方程的轨迹预测方法
Bae et al. A set of control points conditioned pedestrian trajectory prediction
Kadim et al. Deep-learning based single object tracker for night surveillance.
Bamaqa et al. Anomaly detection using hierarchical temporal memory (HTM) in crowd management
Nayak et al. Deep learning based loitering detection system using multi-camera video surveillance network
Choi et al. Future trajectory prediction via RNN and maximum margin inverse reinforcement learning
Roy et al. A comprehensive survey on computer vision based approaches for moving object detection
CN108280408B (zh) 一种基于混合跟踪和广义线性模型的人群异常事件检测方法
Bondalapati et al. RETRACTED ARTICLE: Moving object detection based on unified model
Chauhan et al. Study of moving object detection and tracking for video surveillance
CN113837148A (zh) 一种基于自调节稀疏图transformer的行人轨迹预测方法
CN117314956A (zh) 一种基于图神经网络的交互行人轨迹预测方法
CN111681264A (zh) 一种监控场景的实时多目标跟踪方法
Parvathy et al. Anomaly detection using motion patterns computed from optical flow
Agarwal et al. iSGAN: An Improved SGAN for Crowd Trajectory Prediction from Surveillance Videos
Owens et al. Novelty detection in video surveillance using hierarchical neural networks
Li et al. Weighted average precision: adversarial example detection in the visual perception of autonomous vehicles
Chebi et al. Strategy of detecting abnormal behaviors by fuzzy logic
Serajeh et al. Robust multiple human tracking using particle swarm optimization and the Kalman filter on full occlusion conditions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210709

RJ01 Rejection of invention patent application after publication