CN117325865A

CN117325865A - 一种lstm轨迹预测的智能车辆换道决策方法及系统

Info

Publication number: CN117325865A
Application number: CN202311513403.1A
Authority: CN
Inventors: 杨正才; 孙天骏; 高镇海; 葛林鹤; 吴桐; 吴浩然; 胡明茂; 雷天龙; 吴政均
Original assignee: Hubei University of Automotive Technology
Current assignee: Hubei University of Automotive Technology
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2024-01-02

Abstract

本发明属于车辆自动驾驶技术领域，公开了一种LSTM轨迹预测的智能车辆换道决策方法及系统，包括：采集自车周围交通参与者的历史运动轨迹信息，并预处理轨迹信息；根据交通场景进行道路环境建模，搭建融合LSTM预测模型和深度确定性策略梯度DDPG的算法模型；通过LSTM预测模型，对周围交通参与者的未来轨迹进行预测；将所预测出的交通参与者的未来轨迹、道路环境、车辆状态作为DDPG算法的状态空间，同时考虑纵向速度和横向变道来设计DDPG算法的动作空间；设置奖励函数对自车所做动作进行评价，使自车通过与道路环境的不断交互来学习如何最大化奖励函数的值；利用损失函数去更新网络参数，快速改进模型；经过模型不断地改进，决策出一条满足要求的换道轨迹。

Description

一种LSTM轨迹预测的智能车辆换道决策方法及系统

技术领域

本发明属于车辆自动驾驶技术领域，尤其涉及一种LSTM轨迹预测的智能车辆换道决策方法及系统。

背景技术

近年来随着汽车保有量的不断增长，道路安全、交通拥堵问题日趋严峻。一方面公路交通事故频发造成大量人员伤亡和财产损失，另一方面事故造成的交通拥堵给城市交通系统带来巨大的压力。根据统计分析结果显示，在交通事故发生的关键原因驾驶员、车辆、环境和其他因素中，仅仅由于驾驶员造成事故的原因就高达94％±2.2％，这其中驾驶员由于认知错误、决策错误、操作不当等原因引发事故分别约占41％、33％和11％。当前背景下，传统汽车采用先进的自动驾驶技术取代人类驾驶员为解决该问题提供了一种新思路。

自动驾驶汽车通过车载摄像头(主要传感器)采集道路图像用于神经网络训练，使得车辆沿道路方向行驶同时避开障碍物。此后自动驾驶的各个方面得到了研究和应用，包括感知、定位、规划和控制。根据美国汽车工程师协会(SAE)对自动驾驶等级的划分标准，目前的量产汽车自动驾驶等级仍然处在L2-L3之间。智能车辆虽然已经可以实现封闭场景、结构化道路下的规划、决策和控制，但是在复杂场景下无人车辆仍然需要人类驾驶员干预。这一方面是因为复杂工况的测试、验证由于安全原因在实际场景中往往难以开展，就其算法设计来讲，也存在所需大量数据难以获取的问题；另一方面，传统无人车控制常基于规则设计，即人为规定车辆在特定景下的行为模式，导致在复杂场景应用此类算法无法求得最优解甚至无解。为了使无人车在面对复杂场景或者突发事故时仍能顺利完成驾驶任务，就需要摆脱基于规则的设计方法，寻找一种通过与环境的不断交互进行自我学习的智能体。

机器学习的一个分支强化学习，可以使智能体在与环境的交互中通过不断地“试错”、反馈学习以寻找完成任务的最优策略。由于早期RL算法固有的存储复杂度、计算复杂度和采样复杂度,使得其只能局限于解决低维状态空间问题，将具有感知能力的深度学习和具有决策能力的强化学习相结合得到的深度强化学习可以解决这一问题。但目前的各种强化学习算法的输入都没有加入周围车辆未来的一些特征，而且状态集的输入过少，使得收敛过慢、训练时间过长；奖励函数设置的过于单一且不合适，不能得到符合真实驾驶员的换道策略。

通过上述分析，现有技术存在的问题及缺陷为：目前的各种强化学习算法的输入都没有加入周围车辆未来的一些特征，而且状态集的输入过少，使得收敛过慢、训练时间过长；奖励函数设置的过于单一且不合适，不能得到符合真实驾驶员的换道策略。

发明内容

针对现有技术存在的问题，本发明提供了一种LSTM轨迹预测的智能车辆换道决策方法及系统。

本发明是这样实现的，一种LSTM轨迹预测的智能车辆换道决策方法，本技术方案通过融合长短时记忆网络(LSTM)和深度确定性策略梯度(DDPG)算法来实现智能车辆换道决策。首先，通过车载相机收集周围车辆的历史运动轨迹，并进行预处理。然后，利用各类传感器数据构建交通环境模型，并在此基础上搭建LSTM预测模型以及DDPG决策模型。LSTM用于预测交通参与者的未来轨迹，而DDPG模型则根据预测轨迹、道路环境和车辆状态来决定最优换道动作。通过设计奖励函数和损失函数，系统能够自我学习并持续优化，最终实现满足道路条件和安全要求的换道决策。为了提升模型性能，使用了数据的标准化处理和优化器选择，采用RMSE评估轨迹预测准确性，确保决策的精确度。

进一步，包括：

S1：采集自车周围交通参与者的历史运动轨迹信息，并预处理轨迹信息；

S2：根据交通场景进行道路环境建模，搭建融合LSTM预测模型和深度确定性策略梯度DDPG的算法模型；

S3：通过训练的LSTM预测模型，对周围交通参与者的未来轨迹进行预测；

S4：将所预测出的交通参与者的未来轨迹、道路环境、车辆状态作为DDPG算法的状态空间，同时考虑纵向速度和横向变道来设计DDPG算法的动作空间；

S5：设置奖励(惩罚)函数对自车所做动作进行评价，使自车通过与道路环境的不断交互来学习如何最大化奖励函数的值；利用损失函数去更新网络参数，快速改进模型；

S6：经过模型不断地改进，决策出一条满足要求的换道轨迹。

进一步，S1中，采集自车周围交通参与者的历史运动轨迹信息，并预处理轨迹信息，具体方法如下：

通过车载相机对道路进行拍摄，然后对拍摄的每张道路图像进行校准处理，使用目标检测识别出周围车辆，记录当前时刻当前车辆的几何中心位置、所处车道并进行编号，得到周围车辆的历史轨迹信息。再将轨迹信息以时间戳为索引，对车辆的几何中心位置坐标进行滤波处理，最终将处理好的数据按时间戳升序排列。

进一步，S2中，根据车载相机、雷达等一些传感器得到的周围车辆的几何中心位置、道路边界线、道路中心线构建环境模型；LSTM-DDPG模型的搭建包括LSTM的观测模块、状态模块和DDPG的在线策略网络、目标策略网络、在线Q网络、目标Q网络。

进一步，S3中，基于Matlab构建直道上稀疏、较稀疏和稠密的道路车流场景，获取车辆在上述工况下每一个时间步长的轨迹坐标序列用于模型训练；降低原始数据的采集频率，尽保留数据中的重要特征；用滑动窗口在重采样后的数据上提取数据以制作样本，并将样本分割成训练集、验证集、测试集；在进行LSTM轨迹预测前需要对轨迹坐标进行标准化处理，计算数据集的平均值和标准差，将其转化为具有单位均值和单位方差的标准化数据集，同时后期在LSTM网络预测时，为方便逐步训练，利用cell型数据类型存放数据集。LSTM网络初始学习率为0.005，Batch数量为128，最大迭代次数为500，梯度阈值为1，选取Adam优化器进行训练，预测轨迹和真实轨迹间的偏离程度以均方根误差RMSE作为评价指标。

进一步，S4中，状态空间由主车信息和道路环境信息组成；在车辆行驶过程中，车辆和环境之间相互影响，具有连续的状态信息；在自动驾驶换道决策任务中，需要考虑本车的行驶状态以及本车与周围的车辆相互运动关系。在本发明的智能车辆决策换道问题中，需要同时考虑纵向速度和横向变道，因此定义了动作空间为连续值的加速度和方向盘转角。

进一步，S5中，基于S4中的状态空间与动作空间，智能体(自车)的Actor网络从LSTM模块中获取当前时刻的状态信息，并根据策略从动作空间中选取动作，同时Critic网络根据动作获得相应的奖励(或惩罚)，如此不断交互直至达到结束条件；智能体的目标是获取最大的累积奖励，要达到目标，就要通过奖励(惩罚)函数对智能体所采取动作进行优化；奖励函数的合理设计是LSTM-DDPG算法的关键，因此从安全性、效率、舒适性三个指标设计模块化奖励函数，总奖励通过给与各个奖励模块以不同的权重加权得到；

DDPG的在线策略网络、目标策略网络、在线Q网络、目标Q网络四个网络之间参数交替更新；Critic网络根据当前状态信息和Actor生成的期望动作拟合动作状态值函数，为了让Critic网络更加精准地评估动作价值好坏，通过最小化损失函数更新在线Q网络参数值；每次训练完，先使用梯度更新两个在线网络参数值，再更新两个目标网络参数，目标网络参数值更新均采取一种软更新的方式，能有效得防止网络梯度计算产生震荡和发散，避免网络参数更新波动幅度过大，便于模型训练快速收敛。

进一步，S6中，通过使用回合奖励和平均奖励来反映训练收敛水平和学习效果；同时将训练过程中单步归一化的平均奖励值进行曲线平滑，并以车辆换道过程中的平均车速、平均加加速度值、方向盘最大转角与Conv-DDPG算法比较，本发明的LSTM-DDPG算法表现更优；最终自车在奖励函数的引导下不断迭代训练，能够学习到考虑交互车辆未来状态的最优自主换道决策。

本发明的另一目的在于提供一种应用所述LSTM轨迹预测的智能车辆换道决策方法的LSTM轨迹预测的智能车辆换道决策系统，包括：

轨迹信息采集模块：用于采集自车周围交通参与者的历史运动轨迹信息，并预处理轨迹信息；

算法模型搭建模块：用于根据交通场景进行道路环境建模，搭建融合LSTM预测模型和深度确定性策略梯度DDPG的算法模型；

轨迹预测模块：用于通过训练的LSTM预测模型，对周围交通参与者的未来轨迹进行预测；

动作空间设计模块：用于将所预测出的交通参与者的未来轨迹、道路环境、车辆状态作为DDPG算法的状态空间，同时考虑纵向速度和横向变道来设计DDPG算法的动作空间；

动作评价模块：用于设置奖励(惩罚)函数对自车所做动作进行评价，使自车通过与道路环境的不断交互来学习如何最大化奖励函数的值；利用损失函数去更新网络参数，快速改进模型；

换道轨迹决策模块：用于经过模型不断地改进，决策出一条满足要求的换道轨迹。

本发明的另一目的在于提供一种计算机设备，计算机设备包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行所述的LSTM轨迹预测的智能车辆换道决策方法的步骤。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行所述的LSTM轨迹预测的智能车辆换道决策方法的步骤。

本发明的另一目的在于提供一种信息数据处理终端，信息数据处理终端用于实现所述的LSTM轨迹预测的智能车辆换道决策系统。

结合上述的技术方案和解决的技术问题，本发明所要保护的技术方案所具备的优点及积极效果为：

第一，本发明在考虑交通环境中自车状态的前提下，提出了考虑周围车辆未来轨迹的影响，用于预测周围车辆在未来一定时间内的姿态变化情况；通过融合预测模型预测的轨迹信息、道路边界信息、交通参与者的状态等，对强化学习算法进行改进；丰富状态集的输入，建立起融合预测模型的强化学习模型；将随机过程加入动作空间，提高动作策略；考虑安全性、舒适性和高效性，对奖励函数进行多元化设计；网络更新采用合理的损失函数进行更新，提高模型训练的收敛速度与训练时间。从而更加安全有效地决策出自车在该场景中的换道路径，以保证车辆换道的行驶安全性、舒适性与高效性。

第二，把技术方案看做一个整体或者从产品的角度，本发明所要保护的技术方案具备的技术效果和优点，具体描述如下：

增强决策能力：通过融合LSTM(长短时记忆网络)和DDPG(深度确定性策略梯度)算法，该技术方案能够更好地捕捉车辆换道过程中的时间序列信息，提高了决策系统对复杂交通情况的理解和应对能力。

实时响应：LSTM的使用允许算法考虑车辆位置、速度、加速度等参数的历史数据，以更好地预测其他车辆的行为。这有助于系统在实时交通中更准确地做出换道决策，提高了道路安全性。

学习和适应性：DDPG是一种深度强化学习算法，可以使系统从实际交通经验中不断学习并优化换道策略。这种适应性意味着系统可以应对各种道路条件和交通模式，包括不断变化的车流量和行车速度。

交通流优化：通过更智能的车辆换道决策，该技术方案可以有助于优化交通流动，减少交通拥堵，提高道路通行效率。这将对城市交通管理和交通规划产生积极影响。

提高安全性：通过准确的决策和考虑历史行为数据，该技术方案有助于减少车辆之间的碰撞风险，从而提高道路的安全性。

第三，本发明的技术方案解决了人们一直渴望解决、但始终未能获得成功的技术难题：

目前基于强化学习的决策算法具备场景遍历深度的优势，通过大量数据集可以覆盖全部工况，能够自行提炼环境信息特征和决策属性，便于算法迭代。但同时算法模型解释性较差，决策效果依赖于样本数据集质量，模型网络结构不合理、样本数量不足会导致模型过学习、欠学习等问题。完全端到端的解决方案，对智能车辆的硬件算力需求大，系统复杂度极高、透明度低、可解释性差。因此决策规划模块采取单独开发，利仅用强化学习算法做高层决策，再由规划模块生成平滑、满足车辆动力学可行驶的车辆轨迹，能够提高系统的可解释性与可调节性。然而上述利用强化学习做高层决策的算法大多都是在静态环境中进行分析决策，状态输入均采用当前时刻下的环境信息，没有考虑未来时刻状态变化，因此算法输出的决策仅是局部最优解，并不能对整个环境做出全局最优的决策。

本发明针对上述算法在智能车辆换道决策算法中出现的问题，提出了基于LSTM轨迹预测的DDPG智能车辆决策算法，算法输入融入了交互车辆的预测轨迹，在Matlab/Simulink平台进行了LSTM-DDPG模型搭建，通过与仅考虑当前状态信息的Conv-DDPG的决策算法进行对比验证，可以看出LSTM-DDPG算法收敛速度更快，单步平均奖励也提高，证明了本发明在换道算法中将道路车辆的预测轨迹融入换道决策的优越性。同时LSTM-DDPG算法更加贴近车辆交互的真实交通场景。

第四，本发明提供的LSTM轨迹预测的智能车辆换道决策方法获取的显著的技术进步：

1.增强道路安全：通过对周围车辆进行准确的轨迹预测，智能车辆能够更好地理解和预测其他车辆的行为，从而做出更安全的驾驶决策。

2.提高交通效率：DDPG算法能够考虑多方面的因素来进行动态优化，生成更为流畅和高效的换道策略，这有助于减少交通拥堵，提高道路利用效率。

3.加强自动驾驶算法的性能：融合LSTM和DDPG的方法可以更准确地模拟复杂的交通环境，为自动驾驶车辆提供更为复杂环境下的决策支持。

4.扩展车辆自主功能：通过这种方法可以扩展智能车辆在各种道路条件和交通场景下的自主功能，进一步推进自动驾驶技术的发展。

本发明提供的进步是建立在深度学习、大数据分析、传感器技术和计算机视觉等多个领域的综合应用基础之上的，它们代表了各自领域的前沿技术，并带来行业的变革。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的LSTM轨迹预测的智能车辆换道决策方法流程图；

图2是本发明实施例提供的LSTM轨迹预测的智能车辆换道决策系统结构图；

图3是本发明实施例提供的模型整体框架图；

图4是本发明实施例提供的不同历史轨迹长度输入的均方根误差的曲线图；

图5是本发明实施例提供的预测轨迹与真实轨迹对比图；

图6是本发明实施例提供的训练过程总奖赏值示意图；

图7是本发明实施例提供的归一化单步奖励回报对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下是本发明提供的两个具体的实施例以及相应的实现方案：

实施例1

本实施例提供一种应用于城市交通场景的LSTM轨迹预测的智能车辆换道决策方法。在该方案中，先利用城市交通监控视频作为数据源，通过计算机视觉技术提取车辆轨迹。随后，采用一个混合神经网络模型，该模型结合了LSTM网络用于轨迹预测，和DDPG算法用于生成最优换道决策。

具体步骤如下：

a)使用目标跟踪算法处理视频，得到每辆车的轨迹。

b)通过LSTM网络，预测交通参与者在未来时间点的位置。

c)利用DDPG算法，综合车辆当前状态、预测信息及道路环境，产生换道决策。

d)对于换道决策，通过仿真验证其有效性。

实施例2

在本实施例中，考虑到高速公路交通环境的特点，如车速快、车流量大等，设计了一个高精度的LSTM轨迹预测模型，辅以DDPG算法进行换道决策。这种方法在确保安全的同时，可以提高换道的效率和流畅性。

具体步骤如下：

a)从高速公路交通监控系统获取车辆运动数据。

b)对数据进行预处理，以提高LSTM模型的预测精度。

c)采用DDPG算法，结合实时交通情况和LSTM预测结果，形成换道策略。

d)通过高速公路交通仿真软件测试所提出方法的性能，以确保在高速和大流量条件下的适用性和可靠性。

两个实施例中的具体实现方案涉及如下方面：

数据采集与预处理：确保采集到的轨迹数据准确、完整，预处理步骤能有效过滤噪声、纠正误差。

模型训练与验证：在多种交通场景下训练LSTM模型，确保其具有较好的泛化能力；DDPG算法的奖励函数设计需合理，能够真实反映交通场景中的换道需求和约束。

性能测试：在实施前进行充分的模拟测试，包括不同交通密度和各种应急情况，确保模型的鲁棒性和决策的有效性。

这些实施例和实现方案的描述提供了具体的技术步骤和预期效果，但是在具体执行时还需要根据实际情况进行调整。这些调整包括对硬件设备的选择、软件平台的搭建、算法参数的优化等。实施前还需要考虑法律法规、成本预算和技术风险评估等因素。

针对现有技术存在的问题，本发明提供了一种LSTM轨迹预测的智能车辆换道决策方法及系统，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的LSTM轨迹预测的智能车辆换道决策方法，包括：

S1中，采集自车周围交通参与者的历史运动轨迹信息，并预处理轨迹信息，具体方法如下：

S2中，根据车载相机、雷达等一些传感器得到的周围车辆的几何中心位置、道路边界线、道路中心线构建环境模型；LSTM-DDPG模型的搭建包括LSTM的观测模块、状态模块和DDPG的在线策略网络、目标策略网络、在线Q网络、目标Q网络。

S3中，基于Matlab构建直道上稀疏、较稀疏和稠密的道路车流场景，获取车辆在上述工况下每一个时间步长的轨迹坐标序列用于模型训练；降低原始数据的采集频率，尽保留数据中的重要特征；用滑动窗口在重采样后的数据上提取数据以制作样本，并将样本分割成训练集、验证集、测试集；在进行LSTM轨迹预测前需要对轨迹坐标进行标准化处理，计算数据集的平均值和标准差，将其转化为具有单位均值和单位方差的标准化数据集，同时后期在LSTM网络预测时，为方便逐步训练，利用cell型数据类型存放数据集。LSTM网络初始学习率为0.005，Batch数量为128，最大迭代次数为500，梯度阈值为1，选取Adam优化器进行训练，预测轨迹和真实轨迹间的偏离程度以均方根误差RMSE作为评价指标。

S4中，状态空间由主车信息和道路环境信息组成；在车辆行驶过程中，车辆和环境之间相互影响，具有连续的状态信息；在自动驾驶换道决策任务中，需要考虑本车的行驶状态以及本车与周围的车辆相互运动关系。在本发明的智能车辆决策换道问题中，需要同时考虑纵向速度和横向变道，因此定义了动作空间为连续值的加速度和方向盘转角。

S5中，基于S4中的状态空间与动作空间，智能体(自车)的Actor网络从LSTM模块中获取当前时刻的状态信息，并根据策略从动作空间中选取动作，同时Critic网络根据动作获得相应的奖励(或惩罚)，如此不断交互直至达到结束条件；智能体的目标是获取最大的累积奖励，要达到目标，就要通过奖励(惩罚)函数对智能体所采取动作进行优化；奖励函数的合理设计是LSTM-DDPG算法的关键，因此从安全性、效率、舒适性三个指标设计模块化奖励函数，总奖励通过给与各个奖励模块以不同的权重加权得到；

S6中，通过使用回合奖励和平均奖励来反映训练收敛水平和学习效果；同时将训练过程中单步归一化的平均奖励值进行曲线平滑，并以车辆换道过程中的平均车速、平均加加速度值、方向盘最大转角与Conv-DDPG算法比较，本发明的LSTM-DDPG算法表现更优；最终自车在奖励函数的引导下不断迭代训练，能够学习到考虑交互车辆未来状态的最优自主换道决策。

如图2所示，本发明实施例提供的LSTM轨迹预测的智能车辆换道决策系统，包括：

如图3所示，本发明实施例提供的模型整体框架图：

LSTM分为两条线路，一路的LSTM每个单元具有观测模块和状态模块，状态模块可以将观测模块的观测值转化成具有代表性的状态信息；另一路LSTM将障碍车的位置信息作为输入，通过编码器、卷积层、解码器得到预测的轨迹信息。DDPG强化学习算法由Actor网络和Critic网络组成，神经网络结构如图所示；Actor网络和Critic网络均包含4层结构，包含输入层、输出层和中间两个隐藏层，均采用ReLu激活函数拟合隐层输入输出信号转换关系。

LSTM预测模接收各种车辆传感器信号，得到自身车辆及周围车辆的当前状态，预测出周围车辆的未来轨迹信息。将预测的轨迹信息和车辆的当前位置信息作为DDPG动作网络的输入，Actor网络经过动作策略，输出连续动作值加速度和前轮转角；Critic网络接收来自LSTM转化的状态和Actor网络输出的动作，输出变量为回报值，根据回报值评价Actor网络的策略并不断优化。最终将当前状态、动作、新状态、回报值、是否终止状态这五元组存入经验池，Actor网络与Critic网络通过从经验池中抽取样本进行更新。

实施例：

基于Matlab/Simulink仿真平台建立仿真场景和算法模型，选取典型的双车道公路环境，进行融入障碍车预测轨迹的LSTM-DDPG算法和传统的无轨迹预测的Conv-DDPG算法的对比验证。场景中自动驾驶主车的初始位置被放置在右侧车道上，在当前车道前方和左后侧随机生成两辆障碍车，且障碍车的初始状态(与主车的相对距离和车速)满足一定限度，主车初始车速为65km/h，最高车速为100km/h，障碍车车速在60-70km/h范围内随机生成，前方障碍车的初始距离为25m。当车辆在变道过程中发生碰撞或驶出双车道，训练会终止并开始新的训练轮次。

原始数据的采集频率为10HZ，将采样频率定为5HZ，尽保留数据中的重要特征。在重采样后的数据上，用大小为8s滑动窗口提取数据以制作样本；每8s作为一个完整的数据样本，前3s的数据作为历史数据输入模型，后5s的数据作为预测未来轨迹的ground truth；按照前70％、70％-80％、80％-100％将全部样本分割成训练集、验证集、测试集。

t时刻道路上周围车辆的预测轨迹计算：

周围车辆的轨迹预测采用LSTM进行预测。为了统一表征车辆轨迹中的高维特征，全连接层通过将输入的当前时刻周围车辆的历史轨迹坐标映射到词嵌入向量v^t：

v^t＝FC(X^t；W_fc) (1)

式中，FC()为全连接层函数，W_fc为全连接层的权重参数；

将对应车辆历史轨迹的词嵌入向量和上一时刻历史轨迹的隐含状态向量h^t-1通过LSTM编码器encoder()，得到包含车辆运动特征上下文信息的当前隐含状态向量h^t：

h^t＝encoder(v^t,h^t-1；W_enc) (2)

式中，编码器encoder()负责将车辆轨迹的词嵌入向量v^t编码成隐含状态向量，W_enc为编码器的权重参数；

最终，得到当前时刻周围所有车辆的轨迹编码隐态向量：

预测轨迹：任意时刻t，轨迹预测模型的输入为目标车v_o和其的所有周围车辆v_s历史观测域长his内的的轨迹坐标：

模型输出为未来预测域长pred内目标车行驶轨迹的坐标：

安全性奖励函数计算如公式7所示：

当车辆在左车道上选择正向方向盘转角(向左换道)以及在右车道选择负向方向盘转角(向右换道)，这两种情况输出的均是异常转向角，给予50的惩罚值；换道或者跟车过程中出现碰撞，给予200的惩罚值，并终止训练；车距小于当前车速下的安全距离时，给予50的惩罚值，其他情况下均给予5的奖励值。

D_safe＝vt+D_-default (6)

式中，D_safe为给定车速下车辆的安全距离，v为当前车辆车速，t为速度系数，D_-default为初始安全距离。

式中，d为车辆与前车车距，y为车辆横向坐标，δ为车辆前轮转角，L_vehicle为车辆长度，L_lane为车道宽度。

换道效率奖励函数计算如公式8所示：

在保证安全的前提下，应该满足行驶速度尽快、不超过最大速度限制、不频繁变换车道的要求，换道过程时间越长，道路利用率越差，因此受到的惩罚值也越大。

r₂＝-dt (8)

式中，dt为仿真步长

舒适性奖励函数计算如公式9所示：

针对车辆加速度和加加速度设计换道舒适性的奖励函数.

奖励函数的集成如公式10所示：

R＝ω₁r₁+ω₂r₂+ω₃r₃ (10)

式中，ω₁ω₂ω₃为安全性、换道效率、舒适性奖励函数的各自权重，权重越大,训练出来的模型越侧重于该因素,同时,某个过高的权重又导致模型不收敛，奖赏函数对策略网络的影响是复杂的，最佳权重系数取值经调参确定。

通过最小化损失函数更新在线Q网络参数值θ^Q，损失函数定义如公式11所示：

式中，n为批采样经历样本数；R_i为经历样本i奖励值；γ为折扣因子；θ^Q为在线Q网络参数；为目标Q网络参数；Q(s_i,a_i|θ^Q)为使用在线评论家网络估计的动作价值；为使用目标演员网络和目标评论家网络估计的未来动作价值。

Actor网络根据模型输入的当前状态信息s_t，拟合策略函数生成期望动作μ_t，在线策略网络参数θ^μ更新策略梯度表达式为：

式中，μ(s|θ^μ)为确定性策略；θ^μ为在线策略网络参数。

用梯度更新两个在线网络参数值，再更新两个目标网络参数，避免网络参数更新波动幅度过大，便于模型训练快速收敛，更新过程如公式14所示：

式中，θ^μ、为Actor、Target Actor网络参数θ^Q、/>为Critic、Target Critic网络参数，τ为软更新系数。

本发明的应用实施例提供了一种计算机设备，计算机设备包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行LSTM轨迹预测的智能车辆换道决策方法的步骤。

本发明的应用实施例提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行LSTM轨迹预测的智能车辆换道决策方法的步骤。

本发明的应用实施例提供了一种信息数据处理终端，信息数据处理终端用于实现LSTM轨迹预测的智能车辆换道决策系统。

本发明提供的融合LSTM轨迹预测的深度强化学习可以更好地进行智能车辆换道决策。LSTM能更好地捕捉车辆换道过程中的时间序列，提高实时响应能力；DDPG这种深度强化学习算法可以在换道过程中不断学习优化，具有很好的学习和适应性；两者结合各取其优点，提高智能车辆在换道过程中的决策能力，提高了安全性与道路通行效率，减少交通拥堵。

如图4所示，本发明实施例提供的不同历史轨迹长度输入的均方根误差的曲线图。不同的输入历史域长在50步左右时模型便已经开始收敛。当输入历史域长为1s到4s时，随着模型输入历史轨迹的增加，预测轨迹与真实轨迹间的偏差逐渐减小，可见历史轨迹的增加对车辆交互特征的提取有积极地帮助；但当历史域长增加到5s时，预测轨迹的误差开始反弹，甚至不如历史域长为1s、2s时的预测精度；由此可知，历史时域的轨迹输入不需要太长，太长反而会对模型提取张量中的交互特征造成干扰。由平均RSEM值可以得到4s时误差最小，模型预测精度较高，但综合看输入域长为4s时的轨迹预测偏差较输入域长3s时的优化程度不大，时间成本上和计算成本上付出的代价更大。均衡后，选择3s的历史域长作为模型输入较为合适。

如图5所示，本发明实施例提供的预测轨迹与真实轨迹对比图。输入域长为3s时，车辆预测轨迹和真实轨迹的对比图。从中可以看出，车辆预测轨迹坐标能够较好的贴合实际真实轨迹，轨迹预测误差较小说明本文构建的LSTM模块能够较好的预测真实轨迹，训练完成的编码器可以应用到后续的DDPG强化学习决策模型中。

如图6所示，本发明实施例提供的训练过程总奖赏值示意图。改进的LSTM-DDPG训练过程，在训练开始时，智能体并不能进行合适的换道决策，在600-1000个周期时，平均奖励增加了很多，且后期平均回报大致保持稳定趋势，这一趋势表明车辆逐渐学会了使用奖励价值更高的动作进行合适的换道决策。

如图7所示，本发明实施例提供的归一化单步奖励回报对比图。经过约1000轮次训练后奖励值逐渐稳定在高位，有收敛趋势。LSTM-DDPG最终单步平均奖励值约为0.87，相比Conv-DDPG收敛速度加快，提高了7.4％的奖励回报。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种LSTM轨迹预测的智能车辆换道决策方法，其特征在于，通过融合长短时记忆网络和深度确定性策略梯度算法来实现智能车辆换道决策；首先，通过车载相机收集周围车辆的历史运动轨迹，并进行预处理；然后，利用各类传感器数据构建交通环境模型，并在此基础上搭建LSTM预测模型以及DDPG决策模型；LSTM用于预测交通参与者的未来轨迹，而DDPG模型则根据预测轨迹、道路环境和车辆状态来决定最优换道动作；通过设计奖励函数和损失函数，系统能够自我学习并持续优化，最终实现满足道路条件和安全要求的换道决策。

2.如权利要求1所述的LSTM轨迹预测的智能车辆换道决策方法，其特征在于，包括：

S5：设置奖励函数对自车所做动作进行评价，使自车通过与道路环境的不断交互来学习如何最大化奖励函数的值；利用损失函数去更新网络参数，快速改进模型；

3.如权利要求2所述的LSTM轨迹预测的智能车辆换道决策方法，其特征在于，S1中，采集自车周围交通参与者的历史运动轨迹信息，并预处理轨迹信息，具体方法如下：

4.如权利要求2所述的LSTM轨迹预测的智能车辆换道决策方法，其特征在于，S2中，根据车载相机、雷达等一些传感器得到的周围车辆的几何中心位置、道路边界线、道路中心线构建环境模型；LSTM-DDPG模型的搭建包括LSTM的观测模块、状态模块和DDPG的在线策略网络、目标策略网络、在线Q网络、目标Q网络。

5.如权利要求2所述的LSTM轨迹预测的智能车辆换道决策方法，其特征在于，S3中，基于Matlab构建直道上稀疏、较稀疏和稠密的道路车流场景，获取车辆在上述工况下每一个时间步长的轨迹坐标序列用于模型训练；降低原始数据的采集频率，尽保留数据中的重要特征；用滑动窗口在重采样后的数据上提取数据以制作样本，并将样本分割成训练集、验证集、测试集；在进行LSTM轨迹预测前需要对轨迹坐标进行标准化处理，计算数据集的平均值和标准差，将其转化为具有单位均值和单位方差的标准化数据集，同时后期在LSTM网络预测时，为方便逐步训练，利用cell型数据类型存放数据集。LSTM网络初始学习率为0.005，Batch数量为128，最大迭代次数为500，梯度阈值为1，选取Adam优化器进行训练，预测轨迹和真实轨迹间的偏离程度以均方根误差RMSE作为评价指标。

6.如权利要求2所述的LSTM轨迹预测的智能车辆换道决策方法，其特征在于，S4中，状态空间由主车信息和道路环境信息组成；在车辆行驶过程中，车辆和环境之间相互影响，具有连续的状态信息；在自动驾驶换道决策任务中，需要考虑本车的行驶状态以及本车与周围的车辆相互运动关系。在本发明的智能车辆决策换道问题中，需要同时考虑纵向速度和横向变道，因此定义了动作空间为连续值的加速度和方向盘转角。

7.如权利要求2所述的LSTM轨迹预测的智能车辆换道决策方法，其特征在于，S5中，基于S4中的状态空间与动作空间，智能体的Actor网络从LSTM模块中获取当前时刻的状态信息，并根据策略从动作空间中选取动作，同时Critic网络根据动作获得相应的奖励/惩罚，如此不断交互直至达到结束条件；智能体的目标是获取最大的累积奖励，要达到目标，就要通过奖励/惩罚函数对智能体所采取动作进行优化；奖励函数的合理设计是LSTM-DDPG算法的关键，因此从安全性、效率、舒适性三个指标设计模块化奖励函数，总奖励通过给与各个奖励模块以不同的权重加权得到；

8.如权利要求2所述的LSTM轨迹预测的智能车辆换道决策方法，其特征在于，S6中，通过使用回合奖励和平均奖励来反映训练收敛水平和学习效果；同时将训练过程中单步归一化的平均奖励值进行曲线平滑，并以车辆换道过程中的平均车速、平均加加速度值、方向盘最大转角与Conv-DDPG算法比较，本发明的LSTM-DDPG算法表现更优；最终自车在奖励函数的引导下不断迭代训练，能够学习到考虑交互车辆未来状态的最优自主换道决策。

9.一种应用如权利要求1～8任意一项所述LSTM轨迹预测的智能车辆换道决策方法的LSTM轨迹预测的智能车辆换道决策系统，其特征在于，包括：

动作评价模块：用于设置奖励/惩罚函数对自车所做动作进行评价，使自车通过与道路环境的不断交互来学习如何最大化奖励函数的值；利用损失函数去更新网络参数，快速改进模型；

10.一种信息数据处理终端，信息数据处理终端用于实现如权利要求9所述的LSTM轨迹预测的智能车辆换道决策系统。