CN110599521B

CN110599521B - 生成易受伤害道路使用者轨迹预测模型的方法及预测方法

Info

Publication number: CN110599521B
Application number: CN201910838347.6A
Authority: CN
Inventors: 李克强; 熊辉; 王思佳; 王建强
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2022-02-15
Anticipated expiration: 2039-09-05
Also published as: CN110599521A

Abstract

本发明公开了一种生成易受伤害道路使用者轨迹预测模型的方法及相应的预测方法。生成轨迹预测模型包括下述步骤：步骤S1：获取训练集，训练集包括已标记的N+M帧时间上连续的图像；步骤S2：从训练集中连续的N+M帧图像中根据每个目标真值的跟踪ID序号筛选训练样本，具有相同跟踪ID序号的同一目标的训练样本为一组；步骤S3：提取时空多线索特征，得到训练输入向量X^j _t+k和训练输出向量Y^j _t+k；步骤S4：生成模型，将所述训练输入向量X^j _t+k和训练输出向量Y^j _t+k输入至采用了自适应双参数激活函数的门控循环单元神经网络，采用预先设计的损失函数进行模型训练，生成易受伤害道路使用者轨迹预测模型。

Description

生成易受伤害道路使用者轨迹预测模型的方法及预测方法

技术领域

本发明涉及自动驾驶领域，特别是涉及一种生成易受伤害道路使用者轨迹预测模型的方法及相应的预测方法。

背景技术

交通场景中的行人以及骑行者(包含骑自行车的人、骑电动车和骑摩托车的人)是易受伤害道路使用者(Vulnerable Road Users,简记为VRU)。预测智能车辆周围易受伤害道路使用者的轨迹预测是智能交通的关键技术之一，是智能车辆进行轨迹规划和运动避障的基础。

现有的VRU轨迹预测方法的主要研究对象是行人。而且，传统的行人轨迹预测方法，仅仅聚焦于位置变化这一运动时间线索，忽略外观特征。也就是说，现有轨迹预测模型或方法没有考虑不同类VRU的运动特性，比如骑行者因为下半身的骑行工具为刚体，从而比行人的随机性小，且运动速度更快。此外，现有轨迹预测模型或方法也没有考虑VRU目标间的相互联系，没有充分利用VRU目标的时间运动特征和矩形框外观特征，以及不同VRU目标间的共享上下文图像特征。从而，现有的VRU轨迹预测模型或方法预测的准确性较差，不适用于复杂多变场景下的易受伤害道路使用者的轨迹预测。

发明内容

本发明的目的在于提供一种生成易受伤害道路使用者轨迹预测模型的方法及相应地预测方法，来更好地生成VRU轨迹预测模型，以及利用所述VRU轨迹预测模型来更好地进行VRU轨迹预测。

本发明的一个方面提供一种生成易受伤害道路使用者轨迹预测模型的方法，所述生成易受伤害道路使用者轨迹预测模型的方法包括下述步骤：

步骤S1：获取训练集，训练集包括N+M帧时间上连续的图像，且针对所述图像已经标记所有易受伤害道路使用者目标的矩形目标框、类别和跟踪ID序号，所述类别包括行人和骑行者(骑行者例如包含骑自行车的人、骑电动车和骑摩托车的人中的每一种，或者至少一种)；

步骤S2：筛选训练样本，从训练集中连续的N+M帧图像中根据每个目标真值的跟踪ID序号筛选训练样本，具有相同跟踪ID序号的同一目标的训练样本为一组，共有P组训练样本，P为跟踪ID序号的个数，即已经标记的不同易受伤害道路使用者目标的个数(即在每帧图像中都出现的VRU的个数)；

步骤S3：提取特征，对于前N帧图像，提取训练样本的时间运动特征、矩形框外观特征和共享的上下文特征(共享的上下文特征对于相应的一帧图像内的所有目标矩形框是共用的)，然后融合所述时间运动特征、矩形框外观特征和共享的上下文特征，得到N*P个训练输入向量X^j _t+k；对于后M帧图像，只提取训练样本的时间运动特征，得到M*P个训练输出向量Y^j _t+k；

上标j为易受伤害道路使用者目标的跟踪ID序号,

下标t+k为图像的帧序号，所述帧序号与相应时刻相对应,

其中，t表示开始进行预测前的最后一帧图像，即第N帧图像，

Z^-表示负整数集合，Z⁺表示表示正整数集合；

步骤S4：生成模型，将所述训练输入向量X^j _t+k和训练输出向量Y^j _t+k输入至门控循环单元神经网络，采用预先设计的损失函数进行模型训练，生成易受伤害道路使用者轨迹预测模型。

损失函数(loss function)，它是用来量化预测标签的得分(由输入向量X和模型获得)与真实标签(真实的输出向量Y)之间一致性的。该方法可转化为一个最优化问题，在最优化过程中，将通过更新评分函数的参数来最小化损失函数值L_total。简而言之，是用来训练模型的参数，到达模型的最优化。

在有监督的学习(有标签)中，需要衡量神经网络输出和所预期的输出之间的差异大小。这种误差函数需要能够反映出当前网络输出和实际结果之间一种量化之后的不一致程度，也就是说函数值越小，反映出模型预测的结果越准确。

优选地，在生成模型的过程中，单独考虑位置和尺寸的损失，采用的总体的损失函数如下：

L_total＝l_pos+ηl_size

其中，

l_pos表示位置损失，l_size表示尺寸损失，

η表示学习权重，可以根据需要设置，通常，在0-1之间取值，例如取0.1，

K是所有参与训练的目标个数，

下标i表示全部序列中参与训练的所有目标中第i个目标，

x_pred表示预测位置x坐标(图像中预测的矩形框中心点横坐标)；y_pred表示预测位置y坐标(图像中预测的矩形框中心点横坐标)；

x_gt表示真值位置x坐标(真值矩形框的中心点横坐标)；y_gt表示真值位置y坐标(真值矩形框的中心点纵坐标)；

w_pred表示矩形框预测宽度；h_pred表示矩形框预测高度；

w_gt表示矩形框真值宽度；h_gt表示矩形框真值高度；

预测结果通过易受伤害道路使用者轨迹预测模型获取，真值直接从训练集中的标记信息中获取。

L_total表示整个图像序列的损失，不是针对某帧图像中的某个目标的损失。

优选地，在步骤S4中，所述门控循环单元神经网络采用双参数激活函数lelu，对于每一组训练样本，进行从组内训练输入向量X_t-N+1:t到组内训练输出向量Y_t+1:M的参数映射学习，双参数激活函数lelu如下：

其中，C为常数，根据具体情况预先设置，例如C取6；α和β为变量，通过训练样本数据自学习而确定，具体地，在组内训练输入向量X_t-N+1:t到组内训练输出向量Y_t+1:M的参数映射学习中自适应学习，z为变量，是循环神经网络中隐藏神经元的输入，由历史输入与当前输入线性组合而成，

t-N+1：t，表示从前N帧图像到当前帧图像，即从第1帧至第N帧；

t+1：M，表示当前帧的未来连续M帧，即从第N+1帧至第N+M帧。

门控循环单元神经网络由多个门控循环单元组成，采用了自适应双参数激活函数，迭代地进行轨迹预测模型的学习。所述门控循环单元神经网络为自适应双参数激活函数的门控循环单元神经网络。

优选地，以下述方式对于前N帧图像和后M帧图像提取时间运动特征：

从训练集中的标记信息中获取每个易受伤害道路使用者目标的时间运动特征

此特征向量为时间运动特征向量，记为motion_cue，(每帧图像提取P个矩形框外观特征，共提取(N+M)*P个矩形框外观特征)

其中，

(x，y)为目标的真值矩形框的中心点坐标，

(w，h)为目标的真值矩形框(ground truth bounding box)的宽度、高度，

(c)为目标的类别，例如，对应的行人及骑行者；或者对应于行人、骑自行车的人、骑电动车和骑摩托车的人，

下标i为图像的帧序号，上标j为目标的跟踪ID序号，表示整个N+M帧图像中第i帧图像中的第j个目标。

优选地，以下述方式对于前N帧图像提取矩形框外观特征(每帧图像提取P个矩形框外观特征，共提取N*P个矩形框外观特征)：

采用3个卷积层、1个池化层、6个残差层和1个全连接层共十一层组成的深度神经网络结构，进行易受伤害道路使用者目标矩形框外观特征的提取，输入为前N帧图像中的多组训练样本的目标真值矩形框，目标真值矩形框的数量为N*P个，输出为N*P个128维的特征向量1x128，

3个卷积层分别采用是64层连续的3x 3卷积核，将输入矩形框的特征逐层抽象为32x128维的特征向量，

池化层用于将卷积层3输出的特征向量进行降维，得到32x 64维的特征向量，

第一和第二残差层采用的是由32个3x 3卷积核组成的跳跃连接结构，保持输入和输出维度不变，

第三残差层采用的是由16个3x 3卷积核组成的跳跃连接结构，将输入的32x 64维的特征向量变成64x32维的特征向量，

第四残差层采用的是由16个3x 3卷积核组成的跳跃连接结构，保持输入和输出维度不变，

第五残差层采用的是由8个3x 3卷积核组成的跳跃连接结构，将输入的64x32维的特征向量变成128x 16维的特征向量，

第六残差层采用的是由8个3x 3卷积核组成的跳跃连接结构，保持输入和输出维度不变。

全连接层将128x 16维的特征向量聚合和归一化成1x 128维的特征向量，此特征向量为矩形框外观特征向量，记为bb_visual_cue。

优选地，以下述方式对于前N帧图像提取共享的上下文特征：在常规的YOLO模型网络结构的最后一层再加一层随机失活层(dropout层)，将1x4096维的特征向量降维为1x1024的特征向量的稀疏化处理的YOLO模型，来提供每一帧图像中不同易受伤害道路使用者目标间的上下文特征，用于不同易受伤害道路使用者目标间的上下文特征共享。

优选地，对于前N帧图像，以按行连接在一起的方式，融合时间运动特征向量、矩形框外观特征向量和共享的上下文特征向量，形成用于门控循环单元神经网络训练用的训练输入向量，所述训练输入向量记为X^j _t+k，

X^j _t+k＝[motion_cue,bb_visual_cue,context_cue]^j _t+k

其中，

所述输入特征向量记X^j _t+k为1x 1157的列向量。

优选地，所述方法包括模型测试阶段，

所述模型测试阶段包括：

步骤S21：获取测试集，测试集包括N+M帧时间上连续的图像，且针对所述图像已经标记所有易受伤害道路使用者目标的目标框、类别和跟踪ID序号；

步骤S22：筛选测试样本，从测试集中连续的N+M帧图像中根据每个目标真值的跟踪ID序号筛选测试样本，具有相同跟踪ID序号的同一目标为一组，前N帧为输入，后M帧为输出的真值与模型输出的预测结果进行对比，评价模型性能；

步骤S23：提取特征，对于N帧图像，提取训练样本的时间运动特征、矩形框外观特征和共享的上下文特征，并融合时间运动特征、矩形框外观特征和共享的上下文特征，得到测试输入向量；

步骤S24：将所述测试输入向量输入至生成的易受伤害道路使用者轨迹预测模型，得到测试输出向量，从而，预测易受伤害道路使用者目标在未来连续M帧轨迹，

步骤S25：评价模型性能，采用归一化的平均位置偏移评价指标NDAE来评价模型性能，

其中，变量i为帧序号，j为目标序号(跟踪目标ID)，M为预测帧的长度，L为序列的长度；函数Num(i)为第i帧中目标的个数；w_img和h_img分别表示图像宽高，

表示预测结果，(x,y)表示真值结果，NADE指标越小说明VRU_TP模型性能越好。

本发明的另一方面提供一种易受伤害道路使用者轨迹预测方法，所述预测方法包括：

步骤S31：获取应用集，应用集包括N帧时间上连续的图像，且针对所述图像已经标记所有易受伤害道路使用者目标的目标框、类别和跟踪ID序号；

步骤S22：筛选输入样本，从应用集中连续的N帧图像中根据每个目标的跟踪ID序号筛选输入样本，具有相同跟踪ID序号的同一目标为一组；

步骤S23：提取特征，对于N帧图像，提取训练样本的时间运动特征、矩形框外观特征和共享的上下文特征，并融合时间运动特征、矩形框外观特征和共享的上下文特征，得到应用输入向量；

步骤S24：将所述应用输入向量输入至易受伤害道路使用者轨迹预测模型，得到测试输出向量，从而，预测易受伤害道路使用者目标在未来连续M帧轨迹，其中，所述易受伤害道路使用者轨迹预测模型是以权利要求1-8中任一项所述的方法生成的。

本发明的方法能够生成较好的VRU轨迹预测模型能够在车辆行驶过程中准确预测易受伤害道路使用者的运动轨迹，可用于先进驾驶辅助系统中易受伤害道路使用者的保护，也可为智能车辆的碰撞预警和路径规划提供依据。

附图说明

图1是本发明的生成易受伤害道路使用者轨迹预测模型的方法的示意性流程框图。

图2是本发明一实施例中用于提取矩形框外观特征的深度神经网络结构的示意图。

图3是本发明一实施例中采用自适应双参数激活函数的门控循环单元神经网络进行轨迹预测的示意图。

图4是本发明一实施例的生成易受伤害道路使用者轨迹预测模型的装置的示意图。

具体实施方式

本发明中的易受伤害道路使用者(VRU)包括行人、骑车人(骑自行车的人)、骑电动车和骑摩托车的人这四类，后三者由于有交通工具，可以统称为“骑行者”。

通过对VRU目标建立易受伤害道路使用者轨迹数据库(记为“VRU-TrajectoryDataset”),针对VRU-TrajectoryDataset进行学习，生成可以通过历史连续帧中VRU目标的多轨迹线索中预测出其未来运动轨迹的VRU轨迹预测模型,进而通过VRU_TP达到对VRU目标进行轨迹预测的目的。

本发明所提供的生成VRU轨迹预测模型的方法能够生成优质的VRU轨迹预测模型(VRUTrajectoryPredictor，简称“VRU_TP模型”)。采用所述模型的VRU轨迹预测方法可以为智能车辆提供行人和骑行者未来数秒内的运动轨迹结果(在后续图像帧中的位置)，可用于先进驾驶辅助系统中易受伤害道路使用者(VRU)的保护，也可为智能车辆(AD)的碰撞预警和路径规划提供依据。

所述易受伤害道路使用者轨迹数据库，分为训练集(Train Set)和测试集(TestSet)。训练集(Train Set)用于模型学习，测试集(Test Set)用于模型测试。训练集(TrainSet)和测试集(Test Set)均包括车载相机或其他成像装置采集的多帧连续图像。

在一个实施例中，如图1所示，本实施例所提供的一种生成易受伤害道路使用者的轨迹预测模型的方法包括：模型学习阶段和模型测试阶段。模型测试阶段不是必须的。另外，根据需要，所述方法还可以包括应用阶段，这也在本发明的范围之内。

根据本发明实施例的生成易受伤害道路使用者轨迹预测模型的方法包括下述步骤：

步骤S1：获取训练集；

步骤S2：筛选训练样本；

步骤S3：提取特征，包括提取前N帧图像中VRU目标的多维度特征；对于后M帧图像中VRU目标，只需提取其时间运动特征。具有相同跟踪ID序号的同一目标在前N帧的多维度特征融合作为一组输入，后M帧的时间运动特征作为对应的输出，作为门控循环单元神经网络的训练样本向量；

步骤S4：生成模型。

具体地，步骤S1中训练集包括N+M帧时间上连续的图像，且针对所述图像已经标记所有易受伤害道路使用者目标的矩形目标框、类别和跟踪ID序号。所述类别包括行人和骑行者(骑行者例如包含骑自行车的人、骑电动车和骑摩托车的人中的每一种，或者至少一种)。N和M为设定的正整数。在一个实施例中，N＝10，M＝5。N和M也可以采用其他的取值，有利的是，N大于1。

训练集可以采用通用的标准连续图像，也可以采用利用车载相机在特定实际场景下拍摄的连续图像。

所述图像可以是已经标记好的，也可以是在获取训练集的过程中人工或自动标记。通常的获取方法例如包括下述步骤：拍照、抽图和标记。

例如，本发明中训练集和测试集中的图像为车载感知传感器采集的视觉输入的图像。所述图像可以具有适当的分辨率、帧率等参数。在一个实施例中，所述图像的分辨率为2048x1024，采集帧率为25Hz，基线为20cm。

因为采集的帧率较高，每秒采集25帧图像，相邻图像之间的变化较小，可以进行适当的抽样处理。例如，标记间隔为10帧，每10帧抽取1帧进行标记。这样，尽管采集的相邻图像对应的时间间隔为0.04秒，但是，被标记的相邻图像对应的时间间隔为0.4秒。

在N＝10、M＝5的情况下，记为{N，M}＝{10，5}，表示利用某一VRU目标10帧4秒的历史信息(对应提取多维度特征单元3的三种维度的特征)，来预测同一VRU目标在未来5帧2秒内的运动轨迹(对应提取多维度特征单元3的第一种维度的特征)。

在本发明中，“标记”是指，对于Train Set和Test Set中的每帧图像都标记了所有VRU的目标框(Bounding Box,BB)、类别和跟踪ID序号。目标框就是VRU目标的外包围框。目标框是矩形框，不管是长方形还是正方形的，都包含在内。

采用本领域通用的标记方法，在标记目标框(x,y,w,h)时，同时标记目标类别(c)和跟踪ID序号(id)。例如，将一个目标框标记为(x1,y1,w1,h1,c1,id1)₁，将另一个目标框标记为(x2,y2,w2,h2,c2,id2)₂。下标1表示第一帧图像，下标2表示第二帧图像。

上述的分辨率、时间间隔是示例性的，本发明不限于上述的具体内容，而是可以采用其他的具体数值，上述数值不构成对本发明保护范围的限制。

在步骤S2中，从训练集中连续的N+M帧图像中根据每个目标真值的跟踪ID序号筛选训练样本，具有相同跟踪ID序号的同一目标的训练样本为一组，共有P组训练样本，P为跟踪ID序号的个数，即已经标记的不同易受伤害道路使用者目标的个数(即在每帧图像中都出现的VRU的个数)。

筛选训练样本是根据目标的跟踪ID序号筛选。图像序列中一个VRU目标有唯一的跟踪ID序号，筛选训练样本相当于从图像序列中找相同的目标，并进行分组。换言之，N+M帧图像中具有相同跟踪ID序号的目标为一组，多个目标就形成了多组训练样本。

具体地，在步骤S3中，对于前N帧图像，提取训练样本的时间运动特征、矩形框外观特征和共享的上下文特征(共享的上下文特征对于相应的一帧图像内的所有目标矩形框是共用的)，然后融合所述时间运动特征、矩形框外观特征和共享的上下文特征，得到N*P个训练输入向量X^j _t+k；对于后M帧图像，只提取训练样本的时间运动特征，得到M*P个训练输出向量Y^j _t+k；

上标j为易受伤害道路使用者目标的跟踪ID序号,

下标t+k为图像的帧序号，所述帧序号与相应时刻相对应,

Z^-表示负整数集合，Z⁺表示表示正整数集合。

共享的上下文特征作为下一阶段融合时空特征步骤的输入之一。上下文特征是指矩形框周围的信息，英文为context feature，简单地说，就是图像中某个VRU目标周围的像素信息。一帧图像内的所有矩形框共享一个相同的上下文特征。

时间运动特征、矩形框外观特征和共享的上下文特征，融合形成连续时间序列帧间的时空特征。从而，具有相同跟踪ID序号的同一目标在前N帧的融合特征作为一组输入。后M帧的时间运动特征作为对应的输出。所述输入和输出作为门控循环单元神经网络的训练样本向量。多组VRU目标形成多组训练样本向量，进行网络参数学习生成VRU_TP模型。

在步骤S4中，将所述训练输入向量X^j _t+k和训练输出向量Y^j _t+k输入至门控循环单元神经网络，采用预先设计的损失函数进行模型训练，生成易受伤害道路使用者轨迹预测模型。

下面进一步对上面的举例进行详细说明。假设训练集包括10+5个连续图像，即N＝10，M＝5。针对所述10+5个图像已经标记易受伤害道路使用者目标共6个，所述VRU目标需要在每个图像中都有出现，如果不是在每个图像中都有出现，则不作为VRU目标进行标记。

前10帧图像作为输入，用于进行预测。后5帧图像作为输出，作为预测结果的真值。由此进行易受伤害道路使用者轨迹预测模型的学习和训练。

15个图像例如依次记为image00001、image00002、……、image00015。上述图像已经标记所有易受伤害道路使用者目标的目标矩形框(位置及宽度、高度)、类别和跟踪ID序号。具体的标记方式可以人工标记，也可以由软件智能标记；且可以采用现有技术中任何适当的方式来进行标记。

6个VRU目标的跟踪ID号例如依次记为500001、500002、500003、500004、500005、5000006，也可以标记为1、2、3、4、5、6等等，按统一标准编号，由数字等组成，不重复即可。

所述类别包括行人和骑行者，在一个实施例中，骑行者能够被进一步细分为骑自行车的人、骑电动车的人和骑摩托车的人。例如，跟踪ID号500001、500002对应的VRU目标为行人，跟踪ID号500003、500004对应的VRU目标为骑自行车的人，跟踪ID号500005对应的VRU目标为骑电动车的人，跟踪ID号500006对应的VRU目标为和骑摩托车的人。

在同一帧图像中，不同VRU目标可能会具有不同的矩形框大小和不同形状(高宽比)。同一VRU目标(指具有相同跟踪ID号的VRU目标)在不同的图像中，可能会具有不同的矩形框大小和不同形状(高宽比)。

对上述10+5帧图像提取训练样本。根据每个目标真值的跟踪ID序号(共6个跟踪ID序号)筛选训练样本。具有相同跟踪ID序号的同一目标的训练样本为一组，一共筛选出90个训练样本，这90个训练样本分为6组。每组训练样本包括15个训练样本，即与前10帧图像对应的10个训练输入样本，以及与后5帧图像对应的5个训练输出样本。

对于上述训练样本提取特征。一共得到(10+5)*6＝90个时间运动特征向量、60个外观特征向量、10个共享的上下文特征向量(被6个目标共用)。

90个时间运动特征向量中与后5帧图像对应的30个时间运动特征向量形成30个训练输出向量(分为6组，每组5个)。

在进行融合处理后，得到与前10帧图像对应的60个训练输入向量(也分为6组，每组10个)。

在VRU_TP模型训练中，为了单独考虑位置和尺寸的损失学习情况(位置的学习权重更大)，门控循环单元神经网络5采用特定的损失函数。也就是说，在生成模型的过程中，单独考虑位置和尺寸的损失，采用的总体的损失函数如下：

L_total＝l_pos+ηl_size

其中，

l_pos表示位置损失，l_size表示尺寸损失，

K是所有参与训练的目标个数，

下标i表示全部序列中参与训练的所有目标中第i个目标，

x_pred表示预测位置x坐标(图像中预测的矩形框的中心点横坐标)；y_pred表示预测位置y坐标(图像中预测的矩形框的中心点横坐标)；

x_gt表示真值位置x坐标；y_gt表示真值位置y坐标；

w_pred表示矩形框预测宽度；h_pred表示矩形框预测高度；

w_gt表示矩形框真值宽度；h_gt表示矩形框真值高度；

其中，η表示学习权重，取0.1，下标pred和gt分别表示预测结果

和真值结果

预测结果是通过VRU_TP模型获取，真值直接从Train Set中的标记信息中获取。

由于门控循环单元神经网络GRU常用的激活函数tanh饱和性产生的梯度消失，激活函数elu一定程度上缓解了此问题，但输出无界。因此，如图3所示，本实施例在激活函数elu的基础上进一步地设计能自适应地从数据中学习参数和输出有界的参数化激活函数lelu。在图3中，对于上面一行的GRU门控循环单元，左下角为当前时刻的输入信息，右上角为上一时刻的输入信息。

在步骤S4中，所述门控循环单元神经网络采用双参数激活函数lelu，对于每一组训练样本，进行从组内训练输入向量X_t-N+1:t到组内训练输出向量Y_t+1:M的参数映射学习，双参数激活函数lelu如下：

t-N+1：t，表示从前N帧图像到当前帧图像，即从第1帧至第N帧；当前帧指的是某一具体时刻(或某一具体的帧序号，时刻也对应帧号)，用变量t表示，

t+1：M，表示当前帧的未来连续M帧，即从第N+1帧至第N+M帧。

在一个实施例中，以下述方式对于前N帧图像和后M帧图像提取时间运动特征：

此特征向量为时间运动特征向量，维度为1x5，记为motion_cue。每帧图像提取P个矩形框外观特征，共提取(N+M)*P个矩形框外观特征。

其中，

(x，y)为目标在图像中的位置信息，即目标的真值矩形框的中心点坐标，

(w，h)为尺寸信息，表示目标的真值矩形框(ground truth bounding box)的宽度、高度，

(c)为目标的类别，例如，对应于行人或骑行者；或者对应于行人、骑自行车的人、骑电动车或骑摩托车的人，

在一个实施例中，如图2所示，以下述方式对于前N帧图像提取矩形框外观特征(每帧图像提取P个矩形框外观特征，共提取N*P个矩形框外观特征)：

采用3个卷积层(卷积层1、2、3)、1个池化层(池化层4)、6个残差层(残差层5、6、7、8、9、10)和1个全连接层(全连接层11)共十一层组成的深度神经网络结构，进行易受伤害道路使用者目标矩形框外观特征的提取，输入为前N帧图像中的多组训练样本的目标真值矩形框，目标真值矩形框的数量为N*P个，输出为N*P个128维的特征向量1x128，

3个卷积层(卷积层1、2、3)分别采用是64层连续的3x 3卷积核，将输入矩形框的特征逐层抽象为32x128维的特征向量，

池化层4用于将卷积层3输出的特征向量进行降维，得到32x 64维的特征向量，

第一和第二残差层(残差层5、6)采用的是由32个3x 3卷积核组成的跳跃连接结构，保持输入和输出维度不变，

第三残差层(残差层7)采用的是由16个3x 3卷积核组成的跳跃连接结构，将输入的32x 64维的特征向量变成64x32维的特征向量，

第四残差层(残差层8)采用的是由16个3x 3卷积核组成的跳跃连接结构，保持输入和输出维度不变，

第五残差层(残差层9)采用的是由8个3x 3卷积核组成的跳跃连接结构，将输入的64x32维的特征向量变成128x 16维的特征向量，

第六残差层(残差层10)采用的是由8个3x 3卷积核组成的跳跃连接结构，保持输入和输出维度不变。

全连接层11将128x 16维的特征向量聚合和归一化成1x 128维的特征向量，此特征向量为矩形框外观特征向量，记为bb_visual_cue。

由于目标检测常用的YOLO模型是回归模型，利用整张图作为网络的输入，直接在输出层回归边界框的位置和类别信息，具有全局推理和空间映射能力，同时泛化能力较强，故采用YOLO模型来提供每一帧图像中不同VRU目标间的上下文特征，用于不同VRU目标间的上下文特征共享。

每帧图像提取一个共享的上下文特征，共提取N个共享的上下文特征，每个共享的上下文特征对于相应的一帧图像内的所有目标矩形框是共用的。具体地，本发明一实施例以下述方式对于前N帧图像提取共享的上下文特征：

在常规的YOLO模型网络结构的最后一层再加一层随机失活层(dropout层)，将1x4096维的特征向量降维为1x 1024的特征向量的稀疏化处理的YOLO模型，来提供每一帧图像中不同易受伤害道路使用者目标间的上下文特征，用于不同易受伤害道路使用者目标间的上下文特征共享。dropout层对特征向量进行降维操作，随机丢弃某些维度上的值。

常规的YOLO模型的网络结构由24个卷积核、2个全连接网络组成，输出维度较高，计算复杂度较大。故本发明在常规的YOLO模型网络结构的最后一层再加一层随机失活层(dropout层)，将1x4096维的特征向量降维为1x 1024的特征向量(也称为稀疏化处理)。从而，计算效率大大提高。

关于特征融合，具体地，对于前N帧图像，以按行连接在一起的方式，融合时间运动特征向量、矩形框外观特征向量和共享的上下文特征向量，形成用于门控循环单元神经网络训练用的训练输入向量，所述训练输入向量记为X^j _t+k，

X^j _t+k＝[motion_cue,bb_visual_cue,context_cue]^j _t+k

其中，

所述输入特征向量记X^j _t+k为1x 1157的列向量。

在一个实施例中，所述生成模型的方法包括模型测试阶段。模型测试阶段，如图2所示，用于从易受伤害道路使用者轨迹数据库的测试集的连续N帧图像中筛选测试样本，类似于模型学习阶段进行筛选出的样本的多维度特征的提取和融合，生成用于VRU_TP模型测试的输入——测试样本向量，输出预测目标在未来M帧的轨迹，包括VRU矩形目标框的位置、尺寸、类别和ID序号。

具体地，例如，所述模型测试阶段包括：

步骤S25对Test Set中的测试输出结果进行定量统计分析，用于在同一标准下评价不同数据库下VRU_TP模型性能的好坏。

本发明的方法从时间和空间维度考虑运动轨迹的线索，同时考虑VRU目标的时间运动特征和矩形框外观特征，以及共享的上下文图像特征，结合连续的时间序列帧，进行多运动轨迹线索融合的时空特征，从而VRU目标运动轨迹预测更准确。而且，利用本发明的模型可以为智能车辆提供行人和骑行者未来数秒内的运动轨迹结果，可用于先进驾驶辅助系统中VRU的保护，也可为智能车辆的碰撞预警和路径规划提供依据。

图4所示装置包括：VRU数据库建立单元1、筛选训练样本单元2、提取多维度特征单元3、融合时空特征单元4和门控循环单元神经网络5。图4所示装置仅仅能够实现VRU轨迹预测模型(VRU_TP模型)的生成。为了进行模型的测试和/或模型的应用，还可以包括其他的单元。

VRU数据库建立单元1用于标记车载视角场景下的易受伤害道路使用者轨迹数据库。该数据库可以包括训练集(Train Set)和测试集(Test Set)。根据需要，该数据库还可以进一步包括应用集。

筛选训练样本单元2用于筛选训练样本。具体的，从VRU数据库建立单元1建立的训练集中连续的N+M帧图像中，根据每个目标真值的跟踪ID序号筛选多组训练样本(具有相同跟踪ID序号的同一目标为一组)。其中前N帧作为输入，后M帧作为输出。

提取多维度特征单元3用于依次对筛选训练样本单元2筛选的连续N帧图像中的标记信息提取同一目标的多维度特征，多维度特征涉及时间运动特征、矩形框外观特征和共享的上下文特征，提取的多维度特征作为融合时空特征单元4的输入。此外，提取多维度特征单元3用于依次对连续M帧图像中的标记信息提取同一目标的时间运动特征，作为训练门控循环单元神经网络5的输入之一，记为Y_t+k。

融合时空特征单元4用于将提取多维度特征单元3输出的每组矩形目标框对应的三个维度的特征向量进行融合，形成用于门控循环单元神经网络5训练用的另一个特征向量，记为X_t+k。

门控循环单元神经网络5用于基于Y_t+k和X_t+k进行VRU_TP模型的学习，即VRU_TP模型网络参数的学习。

图4所示装置用于实现上文描述的生成易受伤害道路使用者轨迹预测模型的方法。图4所示装置各单元的具体工作方式可以参见上文对的生成易受伤害道路使用者轨迹预测模型的方法的描述。

当前帧时刻为t，Train Set(训练集)中连续N帧中同一VRU目标组成一组特征向量，为模型的输入X_t-N+1:t＝[X_t-N+1,X_t-N+2,...,X_t-1,X_t]。

而连续的M帧图像(序号t+1:M)只需提取每一时刻同一VRU目标(根据跟踪ID序号确定同一目标)的时间运动特征Y_t+k＝(x_c,y_c,w,h,c)(k∈Z⁺&k≤M)，连续M帧组成模型的输出Y_t+1:M＝[Y_t+1,Y_t+2,...,Y_M-1,Y_M]。

VRU_TP模型是用历史连续的N帧同一VRU目标对应的一组特征向量X_t-N+1:t来预测未来连续的M帧图像该VRU目标的位置、尺寸信息(类别和跟踪ID序号不变)，即Y_t+1:M。

最后需要指出的是：以上实施例仅用以说明本发明的技术方案，而非对其限制。本领域的普通技术人员应当理解：可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种生成易受伤害道路使用者轨迹预测模型的方法，其特征在于，包括下述步骤：

步骤S1：获取训练集，训练集包括N+M帧时间上连续的图像，且针对所述图像已经标记所有易受伤害道路使用者目标的矩形目标框、类别和跟踪ID序号，所述类别包括行人和骑行者；

步骤S2：筛选训练样本，从训练集中连续的N+M帧图像中根据每个目标真值的跟踪ID序号筛选训练样本，具有相同跟踪ID序号的同一目标的训练样本为一组，共有P组训练样本，P为跟踪ID序号的个数，即已经标记的不同易受伤害道路使用者目标的个数；

步骤S3：提取特征，对于前N帧图像，提取训练样本的时间运动特征、矩形框外观特征和共享的上下文特征，然后融合所述时间运动特征、矩形框外观特征和共享的上下文特征，得到N*P个训练输入向量X^j _t+k；对于后M帧图像，只提取训练样本的时间运动特征，得到M*P个训练输出向量Y^j _t+k；

上标j为易受伤害道路使用者目标的跟踪ID序号,

下标t+k为图像的帧序号，所述帧序号与相应时刻对应,

Z^-表示负整数集合，Z⁺表示正整数集合；

步骤S4：生成模型，将所述训练输入向量X^j _t+k和训练输出向量Y^j _t+k输入至门控循环单元神经网络，采用预先设计的损失函数进行模型训练，生成易受伤害道路使用者轨迹预测模型；

在生成模型的过程中，单独考虑位置和尺寸的损失，采用的总体的损失函数如下：

L_total＝l_pos+ηl_size

其中，

l_pos表示位置损失，l_size表示尺寸损失，

η表示学习权重，

K是所有参与训练的目标个数，

下标i表示全部序列中参与训练的所有目标中第i个目标，

x_pred表示预测的矩形框中心点横坐标；y_pred表示预测的矩形框中心点纵坐标；

x_gt表示真值矩形框的中心点横坐标；y_gt表示真值矩形框的中心点纵坐标；

w_pred表示矩形框预测宽度；h_pred表示矩形框预测高度；

w_gt表示矩形框真值宽度；h_gt表示矩形框真值高度；

2.如权利要求1所述的生成易受伤害道路使用者轨迹预测模型的方法，其特征在于，

其中，C为常数；α和β为变量，通过训练样本数据自学习而确定，具体地，在组内训练输入向量X_t-N+1:t到组内训练输出向量Y_t+1:M的参数映射学习中自适应学习，z为变量，是循环神经网络中隐藏神经元的输入，由历史输入与当前输入线性组合而成，

t+1：M，表示当前帧的未来连续M帧，即从第N+1帧至第N+M帧。

3.如权利要求1-2中任一项所述的生成易受伤害道路使用者轨迹预测模型的方法，其特征在于，以下述方式对于前N帧图像和后M帧图像提取时间运动特征：

此特征向量为时间运动特征向量，记为motion_cue，

其中，

(x，y)为目标的真值矩形框的中心点坐标，

(w，h)为目标的真值矩形框的宽度、高度，

(c)为目标的类别，

4.如权利要求3所述的生成易受伤害道路使用者轨迹预测模型的方法，其特征在于，

以下述方式对于前N帧图像提取矩形框外观特征：

3个卷积层分别采用是64层连续的3x3卷积核，将输入矩形框的特征逐层抽象为32x128维的特征向量，

池化层用于将卷积层3输出的特征向量进行降维，得到32x64维的特征向量，

第一和第二残差层采用的是由32个3x3卷积核组成的跳跃连接结构，保持输入和输出维度不变，

第三残差层采用的是由16个3x3卷积核组成的跳跃连接结构，将输入的32x64维的特征向量变成64x32维的特征向量，

第四残差层采用的是由16个3x3卷积核组成的跳跃连接结构，保持输入和输出维度不变，

第五残差层采用的是由8个3x3卷积核组成的跳跃连接结构，将输入的64x32维的特征向量变成128x16维的特征向量，

第六残差层采用的是由8个3x3卷积核组成的跳跃连接结构，保持输入和输出维度不变，

全连接层将128x16维的特征向量聚合和归一化成1x128维的特征向量，此特征向量为矩形框外观特征向量，记为bb_visual_cue。

5.如权利要求4所述的生成易受伤害道路使用者轨迹预测模型的方法，其特征在于，以下述方式对于前N帧图像提取共享的上下文特征：

在常规的YOLO模型网络结构的最后一层再加一层随机失活层，将1x4096维的特征向量降维为1x1024的特征向量的稀疏化处理的YOLO模型，来提供每一帧图像中不同易受伤害道路使用者目标间的上下文特征，用于不同易受伤害道路使用者目标间的上下文特征共享。

6.如权利要求5所述的生成易受伤害道路使用者轨迹预测模型的方法，其特征在于，对于前N帧图像，以按行连接在一起的方式，融合时间运动特征向量、矩形框外观特征向量和共享的上下文特征向量，形成用于门控循环单元神经网络训练用的训练输入向量，所述训练输入向量记为X^j _t+k，

X^j _t+k＝[motion_cue,bb_visual_cue,context_cue]^j _t+k

其中，

所述输入特征向量记X^j _t+k为1x1157的列向量。

7.如权利要求1-2中任一项所述的生成易受伤害道路使用者轨迹预测模型的方法，其特征在于，所述方法包括模型测试阶段，所述模型测试阶段包括：

8.一种易受伤害道路使用者轨迹预测方法，其特征在于，所述预测方法包括：

步骤S24：将所述应用输入向量输入至易受伤害道路使用者轨迹预测模型，得到测试输出向量，从而，预测易受伤害道路使用者目标在未来连续M帧轨迹，其中，所述易受伤害道路使用者轨迹预测模型是以权利要求1-7中任一项所述的方法生成的；

L_total＝l_pos+ηl_size

其中，

l_pos表示位置损失，l_size表示尺寸损失，

η表示学习权重，

K是所有参与训练的目标个数，

下标i表示全部序列中参与训练的所有目标中第i个目标，

w_pred表示矩形框预测宽度；h_pred表示矩形框预测高度；

w_gt表示矩形框真值宽度；h_gt表示矩形框真值高度；