CN111860269A

CN111860269A - 一种多特征融合的串联rnn结构及行人预测方法

Info

Publication number: CN111860269A
Application number: CN202010667800.4A
Authority: CN
Inventors: 汪桉旭; 赵万忠; 周小川; 栾众楷; 章波
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2020-07-13
Filing date: 2020-07-13
Publication date: 2020-10-30
Anticipated expiration: 2040-07-13
Also published as: CN111860269B

Abstract

本发明公开了一种多特征融合的串联RNN结构及行人预测方法，结构包括：信息采集模块、信息处理模块、串联GRU模块、全连接层模块、激活函数模块和预测模块；信息采集模块采集车辆在不同道路和人群密度的环境中驾驶时的行人和周围环境的视频图像、自车车速；信息处理模块对上述采集到的数据进行处理生成数据集；串联GRU模块中每级GRU处理数据集中的不同的信息和串联的前一级GRU的隐藏状态的输入，将不同的信息进行融合计算；全连接层模块对上述多维矩阵进行整合得到一维向量；激励函数模块对上述一维向量信息处理；预测模块得到行人轨迹的预测结果。本发明将来自多个来源的信息根据其复杂性，在不同的神经网络层逐层融合，实现行人行为理解和轨迹预测。

Description

一种多特征融合的串联RNN结构及行人预测方法

技术领域

本发明属于汽车智能驾驶计算机视觉领域，具体指代一种多特征融合的串联RNN(循环神经网络)结构及行人预测方法。

背景技术

自动驾驶技术的快速发展对准确理解行人活动、预测行人运动轨迹提出了更高的要求；准确理解行人活动、预测行人运动轨迹有助于帮助汽车驾驶系统选择正确的行驶路线，避免发生潜在的人车碰撞及其导致的交通流中断。此外，神经网络在自动驾驶领域中关于理解行人活动、预测行人运动轨迹获得较大的应用。

目前，解决行人行为预测问题的主要方法是基于行人本身的运动模式预测其在未来某个时间的轨迹，但是由于周围各种因素的干扰，例如：信号灯、自车运动、道路结构，行人表现出高度可变的运动模式，所以这类方法不足以准确理解行人的完整行为。例如：中国发明专利申请号为CN201910097865，名称“一种基于卷积神经网络的无人驾驶行人轨迹预测方法”中将样本数据中即将通过斑马线的人群进行划分，并从中获取行人位置-比例信息序列、行人骨架信息序列、视觉传感器自身运动序列等信息，将这几类信息输入卷积神经网络进行训练测试评估，最终输出预测轨迹和动作类别，但是在输入卷积神经网络时没有考虑到几类信息归一化处理以及融合的先后顺序，也没有考虑到自车的运动状态，导致卷积神经网络的训练效果不好；中国发明专利申请号为CN201810294015，名称为“基于社会亲和力长短期记忆网络模型的拥挤场景行人轨迹预测方法”中应用长短期记忆网络结合社会亲和力映射图，结合提取到的个人轨迹模式和周围相关行人的轨迹特征实现复杂场景的行人轨迹预测，但是该方法中特征选择太少，易造成预测结果准确度不高。

发明内容

针对于上述现有技术的不足，本发明的目的在于提供一种多特征融合的串联RNN结构及行人预测方法，以解决现有技术中未充分考虑行人周围情况而导致的行人轨迹预测准确度不高的问题。本发明将来自多个来源的信息(包括行人外观、周围道路环境、行人姿势和自车速度)根据其复杂性，在不同的神经网络层逐层融合，实现行人行为理解和轨迹预测。

为达到上述目的，本发明采用的技术方案如下：

本发明的一种多特征融合的串联RNN结构，包括：信息采集模块、信息处理模块、串联 GRU模块、全连接层模块、激活函数模块和预测模块；

信息采集模块，其包括：车载单目摄像头和车速传感器，车载单目摄像头用于采集车辆在不同道路和人群密度的环境中驾驶时的行人和周围环境的视频图像；车速传感器用于采集自车车速；

信息处理模块，其对上述信息采集模块采集到的数据进行处理生成数据集；

串联GRU模块，其对上述数据集中的信息进行处理，串联GRU模块中每级GRU处理数据集中的不同的信息和串联的前一级GRU的隐藏状态的输入，将不同的信息进行融合计算，并将融合计算得到的多维矩阵输入给全连接层模块；

全连接层模块，其对上述多维矩阵进行整合得到一维向量；

激励函数模块，其对上述一维向量信息采用ReLU函数处理；

预测模块，其对上述激励函数模块处理后的信息进行分类，计算行人轨迹概率，辨别行人意图，得到行人轨迹的预测结果。

进一步地，所述数据集包含：行人的二维边框注释及自车车速数据；数据集中的数据被随机分为训练集和测试集，样本比例为6:4。

进一步地，所述串联GRU模块由一级GRU、二级GRU、三级GRU、四级GRU、五级GRU组成。

本发明的一种基于多特征融合的串联RNN结构的行人预测方法，包括步骤如下：

步骤1：利用车载单目摄像头采集车辆在不同街道行驶时的行人和周围环境的图像数据，利用车速传感器采集自车车速；

步骤2：对上述步骤1中采集到的图像数据及自车车速数据进行处理，将行人过街预测定义为一个二元分类问题来预测第i个行人在采集的时间m内的行走轨迹，对预测依赖的行人特征、周围环境特征、行人姿势特征、行人二维框、自车车速五个信息源进行信息处理；

步骤3：将上述步骤2处理得到的数据分别输入到一级GRU、二级GRU、三级GRU、四级GRU、五级GRU中依次进行信息融合计算，得到多维矩阵；

步骤4：对上述得到的多维矩阵进行整合，得到一维向量；

步骤5：采用ReLU函数对上述一维向量进行激活处理；

步骤6：采用softmax逻辑回归对上述步骤5中处理后的数据进行分类预测，得到行人轨迹的预测结果。

进一步地，所述步骤2具体包括：

将行人特征及周围环境特征表示为{C_pi，C_si}，C_pi＝{c_pi ¹,…,c_pi ^m},C_si＝{c_si ¹,…,c_si ^m}， c_pi、c_si为第i个行人特征和周围环境的坐标表示，由数据集中的图像数据得到，行人姿势特征表示为P_i＝{p_i ¹,…,p_i ^m}，p_i为第i个行人姿势特征的坐标表示，由数据集中的图像数据得到；行人二维框用坐标B_i＝{b_i ¹,…,b_i ^m}来表示，其中，b_i是两点坐标[(x1_i；y1_i)(x2_i；y2_i)]，两点坐标(x1_i；y1_i)和(x2_i)；y2_i)指的是数据集标注后的图像数据中第i个行人对应的边界框的左上角和右下角；自车车速表示为S＝{s_i ¹,…,s_i ^m}；在对行人特征、周围环境特征、行人姿势特征、行人二维框、自车车速五个信息源进行处理后分别用多维矩阵

vp^1:m、vb^1:m、vs^1:m来表示。

对于行人，使用裁剪成框架中围绕行人的二维边界框大小的图像来捕获的，裁剪过程中将原始边界框坐标中的像素值设置为中性灰色来抑制行人外观；对于周围环境，通过放大二维边界框坐标，并对尺寸进行平方运算，以使缩放边界框的宽度与其高度匹配，从而提取出行人周围的区域；使用1:5x缩放版本的2D边界框裁剪周围环境，裁剪后的图像中包含感兴趣的行人的部分用中性灰色和RGB为(128；128；128)，将这些图像的大小调整为224*224；使用在ImageNet上预先训练的VGG16层来处理图像，然后生成512维的特征向量；行人特征和周围环境特征使用卷积神经网络处理产生两个特征向量

和

对于行人姿态特征，主要是在一帧包含人体的深度图像中确定人体关节点位置，关节点主要是：手、肘部、腕部、肩部、头部、踝部、膝盖、臀部等人的骨骼关节；在COCO数据集上预先训练出行人姿态网络，该网络为每个行人样本生成18个关节；每个关节对应于二维空间中的一个点，即用每个关节用一个二维坐标表示，18个关节坐标被规范化并拼接成36维特征向量vp^1:m；

其中，行人姿态网络的训练使用文献Realtime multi-person 2d poseestimation using part affinity fields.In CVPR,pages 7291–7299,2017中的多人2d姿态实时估计方法；

对于行人二维框，将其转换为初始位置的相对位移，形成特征向量vb^1:m；

自车车速用向量vs^1:m表示，单位为km/h。

进一步地，所述步骤3具体包括：

五个信息源特征从一级GRU开始依次进行信息融合计算，第j级GRU由下式给出：

其中，sigm代表sigmoid函数，r^t和z^t代表重置门和更新门，w代表两个GRU单元之间权重，对于一级GRU，

对于二级GRU、三级GRU、四级GRU、五级GRU，

进一步地，所述步骤4具体包括：

一个全连接层包含100个神经元，对多维矩阵进行整合处理，转成一维向量。

进一步地，所述步骤5具体包括：

ReLU激活函数表达式为：ReLU(x)＝max(0,x)，如果输入x小于0，则令输出等于0；如果输入x大于0，则令输出等于输入。

进一步地，所述步骤6具体包括：

softmax逻辑回归的概率函数为

将输入的多维实数映射成实数向量，其中，向量的每个元素都介于(0,1)之间，且所有元素的和为1；通过softmax逻辑回归进行分类，得到行人轨迹的概率，公式为：

输入为xⁱ，输出向量的每个元素为K个类别中行人轨迹每个类的生成概率，其中θ_j为第j类的模型参数，

为归一化项，使得所有概率之和为1，将步骤5激活后的信息映射成实数向量，即为每个类的生成概率，根据生成概率的大小对行人行为分类。

本发明的有益效果：

本发明的串联RNN结构由五级GRU组成，考虑到行人行为预测既依赖于动态信息又依赖于视觉场景信息的多模态特性，串联RNN结构可以将来自多个来源的信息在不同级的GRU逐层融合，有利于对行人行为预测时考虑车道周围环境和自车运动状态对行人行为的影响。

本发明的行人预测方法，将行人过街预测定义为一个二元分类问题，将五类信息源抽象成坐标的形式表现，将现实问题转换成数学建模问题，对行人特征和周围环境特征使用卷积神经网络处理产生特征向量，将行人姿态18个关节坐标被规范化并拼接成36维特征向量，将信息源分别用矩阵表示更加便于计算，使用全连接层和激活函数模块对融合之后的信息源进行整合处理，由多维矩阵转成一维向量，降低信息处理的难度，便于预测模块对行人行为进行预测。

附图说明

图1本发明行人预测方法流程图。

图2本发明中GRU输入输出结构图。

图3本发明GRU内部结构图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。

信息处理模块，其对上述信息采集模块采集到的数据进行处理生成数据集；所述数据集包含：行人的二维边框注释及自车车速数据；数据集中的数据被随机分为训练集和测试集，样本比例为6:4。

串联GRU模块，其接收上述信息处理模块发送的数据集，串联GRU模块中每级GRU处理数据集中的不同的信息特征和串联的前一级GRU的隐藏状态的h^t-1的输入，将多种信息特征进行融合计算，并将融合计算得到的多维矩阵输入给全连接层模块；所述串联GRU模块由一级 GRU、二级GRU、三级GRU、四级GRU、五级GRU组成。

全连接层模块，其用于处理串联GRU模块的输入，对输入的多维矩阵进行整合，转成一维向量；一个全连接层包含100个神经元，对多维矩阵进行整合处理，转成一维向量。

激励函数模块，采用ReLU函数处理全连接层模块整合得到的一维向量信息；所述ReLU 激活函数表达式为：ReLU(x)＝max(0,x)，如果输入x小于0，则令输出等于0；如果输入x大于0，则令输出等于输入。

其中，所述数据集包含：行人的二维边框注释及自车车速数据；数据集中的数据被随机分为训练集和测试集，样本比例为6:4。

其中，所述串联GRU模块由一级GRU、二级GRU、三级GRU、四级GRU、五级GRU组成。

参照图1所示，本发明的一种基于多特征融合的串联RNN结构的行人预测方法，包括步骤如下：

步骤1：利用车载单目摄像头采集车辆在不同道路和人群密度的环境中驾驶时的行人和周围环境的视频图像，利用车速传感器采集自车车速；

步骤2：对上述步骤1中采集到的图像数据及自车车速数据进行处理，将行人过街预测定义为一个二元分类问题来预测第i个行人在给定的时间m内的行走目的，对预测依赖的行人特征、周围环境特征、行人姿势特征、行人二维框、自车车速五个信息源进行信息处理；

其中，对于行人，使用裁剪成框架中围绕行人的二维边界框大小的图像来捕获的，裁剪过程中将原始边界框坐标中的像素值设置为中性灰色来抑制行人外观；对于周围环境，通过放大二维边界框坐标，并对尺寸进行平方运算，以使缩放边界框的宽度与其高度匹配，从而提取出行人周围的区域；使用1:5x缩放版本的2D边界框裁剪周围环境，裁剪后的图像中包含感兴趣的行人的部分用中性灰色和RGB为(128；128；128)，将这些图像的大小调整为 224*224；使用在ImageNet上预先训练的VGG16层来处理图像，然后生成512维的特征向量；行人特征和周围环境特征使用卷积神经网络处理产生两个特征向量

和

对于行人姿态特征，主要是在一帧包含人体的深度图像中确定人体关节点位置，关节点主要是：手、肘部、腕部、肩部、头部、踝部、膝盖、臀部等人的骨骼关节；示例中使用文献Realtime multi-person 2d pose estimation using part affinity fields.InCVPR,pages 7291–7299,2017中已有的方法，在COCO数据集上预先训练出行人姿态网络，该网络为每个行人样本生成18个关节。每个关节对应于二维空间中的一个点，即用每个关节用一个二维坐标表示，18个关节坐标被规范化并拼接成36维特征向量vp^1:m；

对于行人二维框，将其转换为初始位置的相对位移，形成特征向量vb^1:m；自车车速用向量vs^1:m表示，单位为km/h。

步骤3：根据上述信息源从复杂到简单的程度，将行人特征、周围环境特征、行人姿势特征、行人二维框、自车车速经过信息处理得到的矩阵分别输入一级GRU、二级GRU、三级GRU、四级GRU、五级GRU依次进行信息融合计算，得到多维矩阵；实例中采用五个信息源是为了通过考虑道路环境的其他因素来提高模型预测行人轨迹的精确度，对五个信息源依次分级融合计算能充分利用各个信息源的特征，减少计算；

其中，每级GRU的输入输出结构如图2所示，当前的输入x^t和上一个节点传递下来的隐藏状态h^t-1，隐藏状态包含了之前节点的相关信息，结合x^t和h^t-1，GRU会得到当前隐藏节点的输出y^t和传递给下一个节点的隐状态h^t。根据图3的GRU内部结构图，本发明提出的一种基于多特征融合的串联RNN结构中使用的门控递归单元(GRU)，结合GRU方程，第j级GRU由下式给出：

对于二级GRU、三级GRU、四级GRU、五级GRU，

步骤4：对行人特征、周围环境特征、行人姿势特征、行人二维框、自车车速五个信息源进行融合计算之后的特征矩阵进行信息整合；

步骤5：采用ReLU函数对上述步骤4整合得到的一维矩阵进行激活处理；ReLU激活函数表达式为：ReLU(x)＝max(0,x)，如果输入x小于0，则令输出等于0；如果输入x大于0，则令输出等于输入，ReLU函数激活处理后的信息特征具有代表性，有利于提高步骤6预测的精确度。

步骤6：采用softmax逻辑回归对上述步骤5中处理后的数据进行分类预测，得到行人轨迹的预测结果；

softmax逻辑回归的概率函数为

将输入的多维实数映射成实数向量，其中，输出的实数向量的每个元素都介于(0,1)之间，且所有元素的和为1；应用softmax逻辑回归进行分类，公式如下：

为归一化项，使得所有概率之和为1，将步骤5激活之后的信息映射成实数向量，即为每个类的生成概率，根据生成概率的大小对行人行为分类。

本发明具体应用途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进，这些改进也应视为本发明的保护范围。

Claims

1.一种多特征融合的串联RNN结构，其特征在于，包括：信息采集模块、信息处理模块、串联GRU模块、全连接层模块、激活函数模块和预测模块；

全连接层模块，其对上述多维矩阵进行整合得到一维向量；

激励函数模块，其对上述一维向量信息采用ReLU函数处理；

2.根据权利要求1所述的多特征融合的串联RNN结构，其特征在于，所述数据集包含：行人的二维边框注释及自车车速数据；数据集中的数据被随机分为训练集和测试集，样本比例为6:4。

3.根据权利要求1所述的多特征融合的串联RNN结构，其特征在于，所述串联GRU模块由一级GRU、二级GRU、三级GRU、四级GRU、五级GRU组成。

4.一种基于多特征融合的串联RNN结构的行人预测方法，其特征在于，包括步骤如下：

步骤4：对上述得到的多维矩阵进行整合，得到一维向量；

步骤5：采用ReLU函数对上述一维向量进行激活处理；

5.根据权利要求4所述的基于多特征融合的串联RNN结构的行人预测方法，其特征在于，所述步骤2具体包括：

将行人特征及周围环境特征表示为{C_pi，C_si}，C_pi＝{c_pi ¹,…,c_pi ^m},C_si＝{c_si ¹,…,c_si ^m}，c_pi、c_si为第i个行人特征和周围环境的坐标表示，由数据集中的图像数据得到，行人姿势特征表示为P_i＝{p_i ¹,…,p_i ^m}，p_i为第i个行人姿势特征的坐标表示，由数据集中的图像数据得到；行人二维框用坐标B_i＝{b_i ¹,…,b_i ^m}来表示，其中，b_i是两点坐标[(x1_i；y1_i)(x2_i；y2_i)]，两点坐标(x1_i；y1_i)和(x2_i)；y2_i)指的是数据集标注后的图像数据中第i个行人对应的边界框的左上角和右下角；自车车速表示为S＝{s_i ¹,…,s_i ^m}；在对行人特征、周围环境特征、行人姿势特征、行人二维框、自车车速五个信息源进行处理后分别用多维矩阵

vp^1:m、vb^1:m、vs^1:m来表示。

6.根据权利要求5所述的基于多特征融合的串联RNN结构的行人预测方法，其特征在于，所述步骤3具体包括：

对于二级GRU、三级GRU、四级GRU、五级GRU，

7.根据权利要求4所述的基于多特征融合的串联RNN结构的行人预测方法，其特征在于，所述步骤4具体包括：一个全连接层包含100个神经元，对多维矩阵进行整合处理，转成一维向量。

8.根据权利要求4所述的基于多特征融合的串联RNN结构的行人预测方法，其特征在于，所述步骤5具体包括：ReLU激活函数表达式为：ReLU(x)＝max(0,x)，如果输入x小于0，则令输出等于0；如果输入x大于0，则令输出等于输入。

9.根据权利要求4所述的基于多特征融合的串联RNN结构的行人预测方法，其特征在于，所述步骤6具体包括：

softmax逻辑回归的概率函数为