CN111860269A - 一种多特征融合的串联rnn结构及行人预测方法 - Google Patents
一种多特征融合的串联rnn结构及行人预测方法 Download PDFInfo
- Publication number
- CN111860269A CN111860269A CN202010667800.4A CN202010667800A CN111860269A CN 111860269 A CN111860269 A CN 111860269A CN 202010667800 A CN202010667800 A CN 202010667800A CN 111860269 A CN111860269 A CN 111860269A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- gru
- module
- information
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000004927 fusion Effects 0.000 title claims abstract description 23
- 239000013598 vector Substances 0.000 claims abstract description 40
- 239000011159 matrix material Substances 0.000 claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims abstract description 16
- 230000010365 information processing Effects 0.000 claims abstract description 14
- 230000004913 activation Effects 0.000 claims abstract description 11
- 230000005284 excitation Effects 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims description 19
- 230000006399 behavior Effects 0.000 claims description 10
- 238000007477 logistic regression Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 230000003213 activating effect Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 19
- 230000036544 posture Effects 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 230000007935 neutral effect Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 241000288105 Grus Species 0.000 description 2
- 210000003423 ankle Anatomy 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 210000001513 elbow Anatomy 0.000 description 2
- 210000004247 hand Anatomy 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 210000001624 hip Anatomy 0.000 description 2
- 210000003127 knee Anatomy 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 210000002832 shoulder Anatomy 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 210000000707 wrist Anatomy 0.000 description 2
- 241000283070 Equus zebra Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Traffic Control Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多特征融合的串联RNN结构及行人预测方法,结构包括:信息采集模块、信息处理模块、串联GRU模块、全连接层模块、激活函数模块和预测模块;信息采集模块采集车辆在不同道路和人群密度的环境中驾驶时的行人和周围环境的视频图像、自车车速;信息处理模块对上述采集到的数据进行处理生成数据集;串联GRU模块中每级GRU处理数据集中的不同的信息和串联的前一级GRU的隐藏状态的输入,将不同的信息进行融合计算;全连接层模块对上述多维矩阵进行整合得到一维向量;激励函数模块对上述一维向量信息处理;预测模块得到行人轨迹的预测结果。本发明将来自多个来源的信息根据其复杂性,在不同的神经网络层逐层融合,实现行人行为理解和轨迹预测。
Description
技术领域
本发明属于汽车智能驾驶计算机视觉领域,具体指代一种多特征融合的串联RNN(循环神经网络)结构及行人预测方法。
背景技术
自动驾驶技术的快速发展对准确理解行人活动、预测行人运动轨迹提出了更高的要求;准确理解行人活动、预测行人运动轨迹有助于帮助汽车驾驶系统选择正确的行驶路线,避免发生潜在的人车碰撞及其导致的交通流中断。此外,神经网络在自动驾驶领域中关于理解行人活动、预测行人运动轨迹获得较大的应用。
目前,解决行人行为预测问题的主要方法是基于行人本身的运动模式预测其在未来某个时间的轨迹,但是由于周围各种因素的干扰,例如:信号灯、自车运动、道路结构,行人表现出高度可变的运动模式,所以这类方法不足以准确理解行人的完整行为。例如:中国发明专利申请号为CN201910097865,名称“一种基于卷积神经网络的无人驾驶行人轨迹预测方法”中将样本数据中即将通过斑马线的人群进行划分,并从中获取行人位置-比例信息序列、行人骨架信息序列、视觉传感器自身运动序列等信息,将这几类信息输入卷积神经网络进行训练测试评估,最终输出预测轨迹和动作类别,但是在输入卷积神经网络时没有考虑到几类信息归一化处理以及融合的先后顺序,也没有考虑到自车的运动状态,导致卷积神经网络的训练效果不好;中国发明专利申请号为CN201810294015,名称为“基于社会亲和力长短期记忆网络模型的拥挤场景行人轨迹预测方法”中应用长短期记忆网络结合社会亲和力映射图,结合提取到的个人轨迹模式和周围相关行人的轨迹特征实现复杂场景的行人轨迹预测,但是该方法中特征选择太少,易造成预测结果准确度不高。
发明内容
针对于上述现有技术的不足,本发明的目的在于提供一种多特征融合的串联RNN结构及行人预测方法,以解决现有技术中未充分考虑行人周围情况而导致的行人轨迹预测准确度不高的问题。本发明将来自多个来源的信息(包括行人外观、周围道路环境、行人姿势和自车速度)根据其复杂性,在不同的神经网络层逐层融合,实现行人行为理解和轨迹预测。
为达到上述目的,本发明采用的技术方案如下:
本发明的一种多特征融合的串联RNN结构,包括:信息采集模块、信息处理模块、串联 GRU模块、全连接层模块、激活函数模块和预测模块;
信息采集模块,其包括:车载单目摄像头和车速传感器,车载单目摄像头用于采集车辆在不同道路和人群密度的环境中驾驶时的行人和周围环境的视频图像;车速传感器用于采集自车车速;
信息处理模块,其对上述信息采集模块采集到的数据进行处理生成数据集;
串联GRU模块,其对上述数据集中的信息进行处理,串联GRU模块中每级GRU处理数据集中的不同的信息和串联的前一级GRU的隐藏状态的输入,将不同的信息进行融合计算,并将融合计算得到的多维矩阵输入给全连接层模块;
全连接层模块,其对上述多维矩阵进行整合得到一维向量;
激励函数模块,其对上述一维向量信息采用ReLU函数处理;
预测模块,其对上述激励函数模块处理后的信息进行分类,计算行人轨迹概率,辨别行人意图,得到行人轨迹的预测结果。
进一步地,所述数据集包含:行人的二维边框注释及自车车速数据;数据集中的数据被随机分为训练集和测试集,样本比例为6:4。
进一步地,所述串联GRU模块由一级GRU、二级GRU、三级GRU、四级GRU、五级GRU组成。
本发明的一种基于多特征融合的串联RNN结构的行人预测方法,包括步骤如下:
步骤1:利用车载单目摄像头采集车辆在不同街道行驶时的行人和周围环境的图像数据,利用车速传感器采集自车车速;
步骤2:对上述步骤1中采集到的图像数据及自车车速数据进行处理,将行人过街预测定义为一个二元分类问题来预测第i个行人在采集的时间m内的行走轨迹,对预测依赖的行人特征、周围环境特征、行人姿势特征、行人二维框、自车车速五个信息源进行信息处理;
步骤3:将上述步骤2处理得到的数据分别输入到一级GRU、二级GRU、三级GRU、四级GRU、五级GRU中依次进行信息融合计算,得到多维矩阵;
步骤4:对上述得到的多维矩阵进行整合,得到一维向量;
步骤5:采用ReLU函数对上述一维向量进行激活处理;
步骤6:采用softmax逻辑回归对上述步骤5中处理后的数据进行分类预测,得到行人轨迹的预测结果。
进一步地,所述步骤2具体包括:
将行人特征及周围环境特征表示为{Cpi,Csi},Cpi={cpi 1,…,cpi m},Csi={csi 1,…,csi m}, cpi、csi为第i个行人特征和周围环境的坐标表示,由数据集中的图像数据得到,行人姿势特征表示为Pi={pi 1,…,pi m},pi为第i个行人姿势特征的坐标表示,由数据集中的图像数据得到;行人二维框用坐标Bi={bi 1,…,bi m}来表示,其中,bi是两点坐标[(x1i;y1i)(x2i;y2i)],两点坐标(x1i;y1i)和(x2i);y2i)指的是数据集标注后的图像数据中第i个行人对应的边界框的左上角和右下角;自车车速表示为S={si 1,…,si m};在对行人特征、周围环境特征、行人姿势特征、行人二维框、自车车速五个信息源进行处理后分别用多维矩阵 vp1:m、vb1:m、vs1:m来表示。
对于行人,使用裁剪成框架中围绕行人的二维边界框大小的图像来捕获的,裁剪过程中将原始边界框坐标中的像素值设置为中性灰色来抑制行人外观;对于周围环境,通过放大二维边界框坐标,并对尺寸进行平方运算,以使缩放边界框的宽度与其高度匹配,从而提取出行人周围的区域;使用1:5x缩放版本的2D边界框裁剪周围环境,裁剪后的图像中包含感兴趣的行人的部分用中性灰色和RGB为(128;128;128),将这些图像的大小调整为224*224;使用在ImageNet上预先训练的VGG16层来处理图像,然后生成512维的特征向量;行人特征和周围环境特征使用卷积神经网络处理产生两个特征向量和
对于行人姿态特征,主要是在一帧包含人体的深度图像中确定人体关节点位置,关节点主要是:手、肘部、腕部、肩部、头部、踝部、膝盖、臀部等人的骨骼关节;在COCO数据集上预先训练出行人姿态网络,该网络为每个行人样本生成18个关节;每个关节对应于二维空间中的一个点,即用每个关节用一个二维坐标表示,18个关节坐标被规范化并拼接成36维特征向量vp1:m;
其中,行人姿态网络的训练使用文献Realtime multi-person 2d poseestimation using part affinity fields.In CVPR,pages 7291–7299,2017中的多人2d姿态实时估计方法;
对于行人二维框,将其转换为初始位置的相对位移,形成特征向量vb1:m;
自车车速用向量vs1:m表示,单位为km/h。
进一步地,所述步骤3具体包括:
五个信息源特征从一级GRU开始依次进行信息融合计算,第j级GRU由下式给出:
进一步地,所述步骤4具体包括:
一个全连接层包含100个神经元,对多维矩阵进行整合处理,转成一维向量。
进一步地,所述步骤5具体包括:
ReLU激活函数表达式为:ReLU(x)=max(0,x),如果输入x小于0,则令输出等于0;如果输入x大于0,则令输出等于输入。
进一步地,所述步骤6具体包括:
softmax逻辑回归的概率函数为将输入的多维实数映射成实数向量,其中,向量的每个元素都介于(0,1)之间,且所有元素的和为1;通过softmax逻辑回归进行分类,得到行人轨迹的概率,公式为:输入为xi,输出向量的每个元素为K个类别中行人轨迹每个类的生成概率,其中θj为第j类的模型参数,为归一化项,使得所有概率之和为1,将步骤5激活后的信息映射成实数向量,即为每个类的生成概率,根据生成概率的大小对行人行为分类。
本发明的有益效果:
本发明的串联RNN结构由五级GRU组成,考虑到行人行为预测既依赖于动态信息又依赖于视觉场景信息的多模态特性,串联RNN结构可以将来自多个来源的信息在不同级的GRU逐层融合,有利于对行人行为预测时考虑车道周围环境和自车运动状态对行人行为的影响。
本发明的行人预测方法,将行人过街预测定义为一个二元分类问题,将五类信息源抽象成坐标的形式表现,将现实问题转换成数学建模问题,对行人特征和周围环境特征使用卷积神经网络处理产生特征向量,将行人姿态18个关节坐标被规范化并拼接成36维特征向量,将信息源分别用矩阵表示更加便于计算,使用全连接层和激活函数模块对融合之后的信息源进行整合处理,由多维矩阵转成一维向量,降低信息处理的难度,便于预测模块对行人行为进行预测。
附图说明
图1本发明行人预测方法流程图。
图2本发明中GRU输入输出结构图。
图3本发明GRU内部结构图。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
本发明的一种多特征融合的串联RNN结构,包括:信息采集模块、信息处理模块、串联 GRU模块、全连接层模块、激活函数模块和预测模块;
信息采集模块,其包括:车载单目摄像头和车速传感器,车载单目摄像头用于采集车辆在不同道路和人群密度的环境中驾驶时的行人和周围环境的视频图像;车速传感器用于采集自车车速;
信息处理模块,其对上述信息采集模块采集到的数据进行处理生成数据集;所述数据集包含:行人的二维边框注释及自车车速数据;数据集中的数据被随机分为训练集和测试集,样本比例为6:4。
串联GRU模块,其接收上述信息处理模块发送的数据集,串联GRU模块中每级GRU处理数据集中的不同的信息特征和串联的前一级GRU的隐藏状态的ht-1的输入,将多种信息特征进行融合计算,并将融合计算得到的多维矩阵输入给全连接层模块;所述串联GRU模块由一级 GRU、二级GRU、三级GRU、四级GRU、五级GRU组成。
全连接层模块,其用于处理串联GRU模块的输入,对输入的多维矩阵进行整合,转成一维向量;一个全连接层包含100个神经元,对多维矩阵进行整合处理,转成一维向量。
激励函数模块,采用ReLU函数处理全连接层模块整合得到的一维向量信息;所述ReLU 激活函数表达式为:ReLU(x)=max(0,x),如果输入x小于0,则令输出等于0;如果输入x大于0,则令输出等于输入。
预测模块,其对上述激励函数模块处理后的信息进行分类,计算行人轨迹概率,辨别行人意图,得到行人轨迹的预测结果。
其中,所述数据集包含:行人的二维边框注释及自车车速数据;数据集中的数据被随机分为训练集和测试集,样本比例为6:4。
其中,所述串联GRU模块由一级GRU、二级GRU、三级GRU、四级GRU、五级GRU组成。
参照图1所示,本发明的一种基于多特征融合的串联RNN结构的行人预测方法,包括步骤如下:
步骤1:利用车载单目摄像头采集车辆在不同道路和人群密度的环境中驾驶时的行人和周围环境的视频图像,利用车速传感器采集自车车速;
步骤2:对上述步骤1中采集到的图像数据及自车车速数据进行处理,将行人过街预测定义为一个二元分类问题来预测第i个行人在给定的时间m内的行走目的,对预测依赖的行人特征、周围环境特征、行人姿势特征、行人二维框、自车车速五个信息源进行信息处理;
其中,对于行人,使用裁剪成框架中围绕行人的二维边界框大小的图像来捕获的,裁剪过程中将原始边界框坐标中的像素值设置为中性灰色来抑制行人外观;对于周围环境,通过放大二维边界框坐标,并对尺寸进行平方运算,以使缩放边界框的宽度与其高度匹配,从而提取出行人周围的区域;使用1:5x缩放版本的2D边界框裁剪周围环境,裁剪后的图像中包含感兴趣的行人的部分用中性灰色和RGB为(128;128;128),将这些图像的大小调整为 224*224;使用在ImageNet上预先训练的VGG16层来处理图像,然后生成512维的特征向量;行人特征和周围环境特征使用卷积神经网络处理产生两个特征向量和
对于行人姿态特征,主要是在一帧包含人体的深度图像中确定人体关节点位置,关节点主要是:手、肘部、腕部、肩部、头部、踝部、膝盖、臀部等人的骨骼关节;示例中使用文献Realtime multi-person 2d pose estimation using part affinity fields.InCVPR,pages 7291–7299,2017中已有的方法,在COCO数据集上预先训练出行人姿态网络,该网络为每个行人样本生成18个关节。每个关节对应于二维空间中的一个点,即用每个关节用一个二维坐标表示,18个关节坐标被规范化并拼接成36维特征向量vp1:m;
对于行人二维框,将其转换为初始位置的相对位移,形成特征向量vb1:m;自车车速用向量vs1:m表示,单位为km/h。
步骤3:根据上述信息源从复杂到简单的程度,将行人特征、周围环境特征、行人姿势特征、行人二维框、自车车速经过信息处理得到的矩阵分别输入一级GRU、二级GRU、三级GRU、四级GRU、五级GRU依次进行信息融合计算,得到多维矩阵;实例中采用五个信息源是为了通过考虑道路环境的其他因素来提高模型预测行人轨迹的精确度,对五个信息源依次分级融合计算能充分利用各个信息源的特征,减少计算;
其中,每级GRU的输入输出结构如图2所示,当前的输入xt和上一个节点传递下来的隐藏状态ht-1,隐藏状态包含了之前节点的相关信息,结合xt和ht-1,GRU会得到当前隐藏节点的输出yt和传递给下一个节点的隐状态ht。根据图3的GRU内部结构图,本发明提出的一种基于多特征融合的串联RNN结构中使用的门控递归单元(GRU),结合GRU方程,第j级GRU由下式给出:
步骤4:对行人特征、周围环境特征、行人姿势特征、行人二维框、自车车速五个信息源进行融合计算之后的特征矩阵进行信息整合;
步骤5:采用ReLU函数对上述步骤4整合得到的一维矩阵进行激活处理;ReLU激活函数表达式为:ReLU(x)=max(0,x),如果输入x小于0,则令输出等于0;如果输入x大于0,则令输出等于输入,ReLU函数激活处理后的信息特征具有代表性,有利于提高步骤6预测的精确度。
步骤6:采用softmax逻辑回归对上述步骤5中处理后的数据进行分类预测,得到行人轨迹的预测结果;
softmax逻辑回归的概率函数为将输入的多维实数映射成实数向量,其中,输出的实数向量的每个元素都介于(0,1)之间,且所有元素的和为1;应用softmax逻辑回归进行分类,公式如下:输入为xi,输出向量的每个元素为K个类别中行人轨迹每个类的生成概率,其中θj为第j类的模型参数,为归一化项,使得所有概率之和为1,将步骤5激活之后的信息映射成实数向量,即为每个类的生成概率,根据生成概率的大小对行人行为分类。
本发明具体应用途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进,这些改进也应视为本发明的保护范围。
Claims (9)
1.一种多特征融合的串联RNN结构,其特征在于,包括:信息采集模块、信息处理模块、串联GRU模块、全连接层模块、激活函数模块和预测模块;
信息采集模块,其包括:车载单目摄像头和车速传感器,车载单目摄像头用于采集车辆在不同道路和人群密度的环境中驾驶时的行人和周围环境的视频图像;车速传感器用于采集自车车速;
信息处理模块,其对上述信息采集模块采集到的数据进行处理生成数据集;
串联GRU模块,其对上述数据集中的信息进行处理,串联GRU模块中每级GRU处理数据集中的不同的信息和串联的前一级GRU的隐藏状态的输入,将不同的信息进行融合计算,并将融合计算得到的多维矩阵输入给全连接层模块;
全连接层模块,其对上述多维矩阵进行整合得到一维向量;
激励函数模块,其对上述一维向量信息采用ReLU函数处理;
预测模块,其对上述激励函数模块处理后的信息进行分类,计算行人轨迹概率,辨别行人意图,得到行人轨迹的预测结果。
2.根据权利要求1所述的多特征融合的串联RNN结构,其特征在于,所述数据集包含:行人的二维边框注释及自车车速数据;数据集中的数据被随机分为训练集和测试集,样本比例为6:4。
3.根据权利要求1所述的多特征融合的串联RNN结构,其特征在于,所述串联GRU模块由一级GRU、二级GRU、三级GRU、四级GRU、五级GRU组成。
4.一种基于多特征融合的串联RNN结构的行人预测方法,其特征在于,包括步骤如下:
步骤1:利用车载单目摄像头采集车辆在不同街道行驶时的行人和周围环境的图像数据,利用车速传感器采集自车车速;
步骤2:对上述步骤1中采集到的图像数据及自车车速数据进行处理,将行人过街预测定义为一个二元分类问题来预测第i个行人在采集的时间m内的行走轨迹,对预测依赖的行人特征、周围环境特征、行人姿势特征、行人二维框、自车车速五个信息源进行信息处理;
步骤3:将上述步骤2处理得到的数据分别输入到一级GRU、二级GRU、三级GRU、四级GRU、五级GRU中依次进行信息融合计算,得到多维矩阵;
步骤4:对上述得到的多维矩阵进行整合,得到一维向量;
步骤5:采用ReLU函数对上述一维向量进行激活处理;
步骤6:采用softmax逻辑回归对上述步骤5中处理后的数据进行分类预测,得到行人轨迹的预测结果。
5.根据权利要求4所述的基于多特征融合的串联RNN结构的行人预测方法,其特征在于,所述步骤2具体包括:
将行人特征及周围环境特征表示为{Cpi,Csi},Cpi={cpi 1,…,cpi m},Csi={csi 1,…,csi m},cpi、csi为第i个行人特征和周围环境的坐标表示,由数据集中的图像数据得到,行人姿势特征表示为Pi={pi 1,…,pi m},pi为第i个行人姿势特征的坐标表示,由数据集中的图像数据得到;行人二维框用坐标Bi={bi 1,…,bi m}来表示,其中,bi是两点坐标[(x1i;y1i)(x2i;y2i)],两点坐标(x1i;y1i)和(x2i);y2i)指的是数据集标注后的图像数据中第i个行人对应的边界框的左上角和右下角;自车车速表示为S={si 1,…,si m};在对行人特征、周围环境特征、行人姿势特征、行人二维框、自车车速五个信息源进行处理后分别用多维矩阵vp1:m、vb1:m、vs1:m来表示。
7.根据权利要求4所述的基于多特征融合的串联RNN结构的行人预测方法,其特征在于,所述步骤4具体包括:一个全连接层包含100个神经元,对多维矩阵进行整合处理,转成一维向量。
8.根据权利要求4所述的基于多特征融合的串联RNN结构的行人预测方法,其特征在于,所述步骤5具体包括:ReLU激活函数表达式为:ReLU(x)=max(0,x),如果输入x小于0,则令输出等于0;如果输入x大于0,则令输出等于输入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010667800.4A CN111860269B (zh) | 2020-07-13 | 2020-07-13 | 一种多特征融合的串联rnn结构及行人预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010667800.4A CN111860269B (zh) | 2020-07-13 | 2020-07-13 | 一种多特征融合的串联rnn结构及行人预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111860269A true CN111860269A (zh) | 2020-10-30 |
CN111860269B CN111860269B (zh) | 2024-04-16 |
Family
ID=72984494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010667800.4A Active CN111860269B (zh) | 2020-07-13 | 2020-07-13 | 一种多特征融合的串联rnn结构及行人预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111860269B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329684A (zh) * | 2020-11-16 | 2021-02-05 | 常州大学 | 一种基于注视检测和交通场景识别的行人穿越马路意图识别方法 |
CN113537002A (zh) * | 2021-07-02 | 2021-10-22 | 安阳工学院 | 一种基于双模神经网络模型的驾驶环境评估方法及装置 |
CN113673412A (zh) * | 2021-08-17 | 2021-11-19 | 驭势(上海)汽车科技有限公司 | 关键目标物的识别方法、装置、计算机设备及存储介质 |
CN113744524A (zh) * | 2021-08-16 | 2021-12-03 | 武汉理工大学 | 一种基于车辆间协同计算通信的行人意图预测方法及系统 |
CN114120439A (zh) * | 2021-10-12 | 2022-03-01 | 江苏大学 | 一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法 |
WO2022110611A1 (zh) * | 2020-11-26 | 2022-06-02 | 东南大学 | 一种面向平面交叉口的行人过街行为预测方法 |
CN115496978A (zh) * | 2022-09-14 | 2022-12-20 | 北京化工大学 | 一种图像和车速信息融合的驾驶行为分类方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110321833A (zh) * | 2019-06-28 | 2019-10-11 | 南京邮电大学 | 基于卷积神经网络和循环神经网络的人体行为识别方法 |
CN110675632A (zh) * | 2019-11-11 | 2020-01-10 | 重庆邮电大学 | 针对多特征空间和数据稀疏的车辆短时轨迹预测控制方法 |
CN111027461A (zh) * | 2019-12-06 | 2020-04-17 | 长安大学 | 基于多维单步lstm网络的车辆轨迹预测方法 |
CN111339867A (zh) * | 2020-02-18 | 2020-06-26 | 广东工业大学 | 一种基于生成对抗网络的行人轨迹预测方法 |
-
2020
- 2020-07-13 CN CN202010667800.4A patent/CN111860269B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110321833A (zh) * | 2019-06-28 | 2019-10-11 | 南京邮电大学 | 基于卷积神经网络和循环神经网络的人体行为识别方法 |
CN110675632A (zh) * | 2019-11-11 | 2020-01-10 | 重庆邮电大学 | 针对多特征空间和数据稀疏的车辆短时轨迹预测控制方法 |
CN111027461A (zh) * | 2019-12-06 | 2020-04-17 | 长安大学 | 基于多维单步lstm网络的车辆轨迹预测方法 |
CN111339867A (zh) * | 2020-02-18 | 2020-06-26 | 广东工业大学 | 一种基于生成对抗网络的行人轨迹预测方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329684A (zh) * | 2020-11-16 | 2021-02-05 | 常州大学 | 一种基于注视检测和交通场景识别的行人穿越马路意图识别方法 |
CN112329684B (zh) * | 2020-11-16 | 2024-04-30 | 常州大学 | 一种基于注视检测和交通场景识别的行人穿越马路意图识别方法 |
WO2022110611A1 (zh) * | 2020-11-26 | 2022-06-02 | 东南大学 | 一种面向平面交叉口的行人过街行为预测方法 |
CN113537002A (zh) * | 2021-07-02 | 2021-10-22 | 安阳工学院 | 一种基于双模神经网络模型的驾驶环境评估方法及装置 |
CN113537002B (zh) * | 2021-07-02 | 2023-01-24 | 安阳工学院 | 一种基于双模神经网络模型的驾驶环境评估方法及装置 |
CN113744524A (zh) * | 2021-08-16 | 2021-12-03 | 武汉理工大学 | 一种基于车辆间协同计算通信的行人意图预测方法及系统 |
CN113673412A (zh) * | 2021-08-17 | 2021-11-19 | 驭势(上海)汽车科技有限公司 | 关键目标物的识别方法、装置、计算机设备及存储介质 |
CN113673412B (zh) * | 2021-08-17 | 2023-09-26 | 驭势(上海)汽车科技有限公司 | 关键目标物的识别方法、装置、计算机设备及存储介质 |
CN114120439A (zh) * | 2021-10-12 | 2022-03-01 | 江苏大学 | 一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法 |
CN115496978A (zh) * | 2022-09-14 | 2022-12-20 | 北京化工大学 | 一种图像和车速信息融合的驾驶行为分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111860269B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111860269B (zh) | 一种多特征融合的串联rnn结构及行人预测方法 | |
Zheng et al. | A novel background subtraction algorithm based on parallel vision and Bayesian GANs | |
CN110837778B (zh) | 一种基于骨架关节点序列的交警指挥手势识别方法 | |
Li et al. | Deep neural network for structural prediction and lane detection in traffic scene | |
Ondruska et al. | End-to-end tracking and semantic segmentation using recurrent neural networks | |
Li et al. | Stepwise domain adaptation (SDA) for object detection in autonomous vehicles using an adaptive CenterNet | |
Peng et al. | MASS: Multi-attentional semantic segmentation of LiDAR data for dense top-view understanding | |
JP2016062610A (ja) | 特徴モデル生成方法及び特徴モデル生成装置 | |
KR20200121206A (ko) | 심층 네트워크와 랜덤 포레스트가 결합된 앙상블 분류기의 경량화를 위한 교사-학생 프레임워크 및 이를 기반으로 하는 분류 방법 | |
Mahaur et al. | Road object detection: a comparative study of deep learning-based algorithms | |
CN114120439A (zh) | 一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法 | |
Dewangan et al. | Towards the design of vision-based intelligent vehicle system: methodologies and challenges | |
Švorc et al. | An infrared video detection and categorization system based on machine learning | |
Gomez-Donoso et al. | Three-dimensional reconstruction using SFM for actual pedestrian classification | |
Bourja et al. | Real time vehicle detection, tracking, and inter-vehicle distance estimation based on stereovision and deep learning using YOLOv3 | |
Wachs et al. | Human posture recognition for intelligent vehicles | |
KR102178469B1 (ko) | 교사-학생 프레임워크 기반의 소프트 타겟 학습방법을 이용한 보행자 포즈 방향 추정 방법 및 시스템 | |
Shan et al. | Focal Distillation From High-Resolution Data to Low-Resolution Data for 3D Object Detection | |
Lu et al. | A cylindrical convolution network for dense top-view semantic segmentation with LiDAR point clouds | |
CN113191324A (zh) | 一种基于多任务学习的行人行为意图预测方法 | |
Fan et al. | Multiple obstacle detection for assistance driver system using deep neural networks | |
Wang et al. | Lidar Point Cloud Object Detection and Semantic Segmentation Fusion Based on Bird's-Eye-View | |
Pehlivan et al. | Real-Time Implementation of Mini Autonomous Car Based on MobileNet-Single Shot Detector | |
Amir et al. | Traffic sign recognition using deep learning | |
Qazzaz et al. | Car Detection and Features Identification Based on YOLOV5 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |