CN113386790B

CN113386790B - 一种面向跨海大桥路况的自动驾驶决策方法

Info

Publication number: CN113386790B
Application number: CN202110641322.4A
Authority: CN
Inventors: 唐晓峰
Original assignee: Yangzhou University
Current assignee: Yangzhou University
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2022-07-12
Anticipated expiration: 2041-06-09
Also published as: CN113386790A

Abstract

本发明公开了一种面向跨海大桥路况的自动驾驶决策方法，包括针对单车的自动驾驶车辆对跨海大桥路况环境的决策过程，和多车协作的自动驾驶车辆对跨海大桥路况环境的决策过程；通过采用多任务特征的元学习与软行动者‑评论家算法（Soft Actor‑Critic）结合进行基于策略梯度的强化学习决策，有助于实现自动驾驶车辆对不确定性跨海大桥路况环境的自适应性和稳定性；针对多车协作的自动驾驶车辆经过跨海大桥路况环境情况，采用元强化学习方法进行基于多车的策略梯度的车辆决策，并采用分布式移动边缘计算节点和车车通信方式实现多车协作行驶的数据共享，以进一步调整网络参数，保证车辆安全通行跨海大桥路况环境。

Description

一种面向跨海大桥路况的自动驾驶决策方法

技术领域

本发明涉及自动驾驶领域，尤其涉及一种面向跨海大桥路况的自动驾驶决策方法。

背景技术

在复杂跨海大桥路况环境和恶劣天气环境下，自动驾驶车辆容易因路面湿滑、能见度较低以及强风干扰引起桥面振动等现象，引起车辆模型和轮胎模型陷入不确定性状态和极限状态，使车辆产生侧滑、侧倾以及横摆等不稳定性现象，车辆无法准确做出决策而难以实现车辆的安全控制。传统的自动驾驶车辆决策及控制方法难以兼顾复杂多变环境的状态转移，不能满足自动驾驶车辆对复杂环境的实时性和准确性，因此探索能适应多变复杂道路环境下自动驾驶车辆的决策和控制，是实现自动驾驶车辆自主智能的主要方法。

因此，需要一种新的面向跨海大桥路况的自动驾驶决策方法。

发明内容

本发明的目的在于提供一种面向跨海大桥路况的自动驾驶决策方法，以解决现有的自动驾驶决策技术难以兼顾复杂多变环境的状态转移，不能满足自动驾驶车辆对复杂环境的实时性和准确性的问题。

为解决上述技术问题，本发明提供一种面向跨海大桥路况的自动驾驶决策方法，所述方法包括：

获取当前车辆通过跨海大桥的环境状态信息，基于预先训练的自动驾驶模型确定当前的车辆动作；

所述自动驾驶模型包括元学习网络、Actor网络和Critic网络，所述自动驾驶模型基于以下方式训练获得：

获取车辆通过跨海大桥的环境状态信息；

基于元学习网络确定Actor网络和Critic网络的网络参数；

将环境状态信息输入Actor网络，得到Actor网络基于决策策略的决策车辆动作；

根据预定奖励函数，获取对于决策策略的奖励；

Critic网络根据环境状态信息和决策车辆动作，对所述决策策略进行评价；

Actor网络根据所述评价的结果，更新所述决策策略；

Critic网络根据所述奖励，更新对所述决策策略进行评价的评价策略。

优选地，所述环境状态信息包括：道路周围交通状态、车辆状态、车辆周围障碍物状态信息、车辆与道路环境状态、路面的滑移率、附着系数、桥面振动角度中的一种或多种。

优选地，所述车辆动作的动作空间包括转向角δ、油门和制动动作中的一种或多种。

优选地，获取车辆通过跨海大桥的环境状态信息，包括，通过经验回放获取车辆通过跨海大桥的历史环境状态信息。

优选地，所述预定奖励函数为：

其中，

为轨迹误差奖励，

为轨迹误差变化率奖励，

为航向角度误差奖励，

为航向角度误差变化率奖励，

和

分别为车辆与参考轨迹的侧滑移角差和变化率奖励，r_δ为方向盘转角奖励，e_Θ和

分别为车辆侧倾误差和侧倾误差变化率，

分别为其下标参数的权重、K为方向盘转角权重，y是实际轨迹，y_t是标准轨迹；θ是实际侧倾角度，θ_ref是参考侧倾角度。

优选地，所述Critic网络包括值网络和3个Q网络，所述对所述决策车辆动作进行评分，包括，根据所述值网络和3个Q网络的输出值，分别获取3个Q值，根据3个Q值中的最低值，确定对所述决策策略进行评价的评价结果。

优选地，所述Actor网络包括输入层、隐藏层、输出层，Actor网络输出的决策车辆动作为由转向角和油门动作组成的矢量，分别对应Actor网络输出层的2个输出神经元，其中，对应油门动作的输出神经元的激活函数是Sigmoid函数，对应转向角动作的神经元的激活函数为Tanh函数；所述隐藏层包括三层子隐藏层，其中，第一子隐藏层包括200个神经元，第二子隐藏层包括400个神经元，第三子隐藏层包括采用200个神经元，隐藏层神经元的激活函数为ReLu函数。

优选地，将环境状态信息输入Actor网络，得到决策车辆动作，包括，将环境状态信息输入Actor网络，得到多种任务下的决策车辆动作；

所述基于元学习模型确定Actor网络和Critic网络的网络参数，包括，基于元学习模型确定多个任务下的Actor网络和Critic网络的网络参数。

具体地，所述多任务包括，车道保持(Lane-keeping)、换道(Lane-changing)、巡航行驶(Acc)、超车(overtaking)中的一种或多种。

优选地，通过跨海大桥的车辆为多辆，所述方法还包括；

将所述多个车辆分别设定为移动边缘计算节点，在所述多个车辆中分别架构元学习模型、actor网络和critic网络，通过车车通信技术进行各元学习模型、actor网络和critic网络中的参数共享，并基于共享的参数，进行各元学习模型、actor网络和critic网络的训练。

本发明所达到的有益技术效果：

1)通过元学习与软执行者-评论家算法的强化学习相结合，采用策略梯度算法，实现元强化学习在自动驾驶车辆的使用，保证了对跨海大桥复杂路况环境的稳定性。

2)采用分布式移动边缘计算节点和车车通信技术实现自动驾驶车辆与周围行驶车辆的信息交互，采用通信技术实现多任务分布节点的任务交互，解决了自动驾驶车辆面对复杂道路环境的动作概率的选择问题，确保多自动驾驶车辆在跨海大桥复杂路况环境的协作行驶。

3)构建经验缓存池，将周围道路环境信息存储在经验缓存池里，并发布于各自车辆的移动边缘计算节点，并采用车车通信方式实现信息交互，有助于从经验缓存池中随机获取多批数据转换信息，确保自动驾驶车辆经过复杂道路环境时的数据获取的可适用性。

附图说明

图1为本发明实施例提供的一种面向跨海大桥路况的自动驾驶决策方法的示意图；

图2为本发明实施例提供的单车自动驾驶决策模型的网络架构图；

图3为本发明实施例提供的基于分布式移动边缘计算节点和车联网技术的多车协作实现原理图；

图4为本发明实施例提供的多车自动驾驶决策模型的网络架构图；

图5为本发明实施例提供的Critic网络中的Q_i网络的结构图。

具体实施方式

下面结合具体实施例对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如前所述，现有的自动驾驶决策技术难以兼顾复杂多变环境的状态转移，不能满足自动驾驶车辆对复杂环境的实时性和准确性。

为解决上述技术问题，本发明提供了一种面向跨海大桥路况的自动驾驶决策方法，其基本思想是通过元学习与软执行者-评论家算法(Soft Actor-Critic)的强化学习相结合，实现一种基于元强化学习的自动驾驶决策方法。元强化学习结合元学习和强化学习实现智能体快速的学习新的任务，尤其针对复杂多变环境来说，元强化学习有助于实现少量样本数据以及智能体的鲁棒性问题。自动驾驶车辆能够通过与环境的交互来学习提升自身智能决策能力，以快速适应新任务；强化学习具有实现与环境进行试错交互来获取行驶状态的作用，尤其结合深度学习的深度强化学习算法，更容易实现对道路环境的多任务执行，然而传统的强化学习算法对数据样本要求较高，如果样本质量低下或者需要通过大量的试错与环境交互获取的样本等工作较为复杂，尤其多任务场景的转换，会影响自动驾驶车辆的训练速度和质量。元强化学习机理是通过学习来促进学习，其可以通过使用少量的样本数据来调整多任务场景，并且可以多新的任务进行实时性的适应性，尤其可以加速基于策略梯度强化学习的微调，改善模型收敛，进而实现自动驾驶车辆智能适应复杂多变环境的能力。

本发明实施例提供的一种面向跨海大桥路况的自动驾驶决策方法，至少包括如下步骤：

步骤11，获取当前车辆通过跨海大桥的环境状态信息，基于预先训练的自动驾驶模型确定当前的车辆动作。

在一个实施例中，环境状态信息可以包括，道路周围交通状态、车辆状态、车辆周围障碍物状态信息、车辆与道路环境状态、路面的滑移率、附着系数、桥面振动角度中的一种或多种。

在一个具体的实施例中，环境状态信息的种类及取值范围可以入表1所示：

表1 环境状态信息表

在一个实施例中，车辆动作的动作空间可以包括转向角δ、油门和制动动作中的一种或多种。

在一个具体的实施例中，车辆动作的动作空间包括转向角δ、油门。具体的，自动驾驶车辆在跨海大桥路口环境，遇到恶劣天气下，为减少车辆发送侧滑、侧倾和横摆现象的概率，行驶过程中不采取制动行为，所以，设置车辆的动作行为是油门和转向角。在一个例子中，还限定车辆行驶速度在中低速范围。

该自动驾驶模型至少包括元学习网络、Actor网络和Critic网络，该自动驾驶模型基于以下步骤训练获得：

步骤111，获取车辆通过跨海大桥的环境状态信息；

在一个实施例中，可以通过经验回放获取车辆通过跨海大桥的环境状态信息。

具体的，可以通过自动驾驶车辆与跨海大桥路况环境进行动作交互，确定车辆的环境状态S，并将环境状态信息放入经验缓冲池中。

步骤112，基于元学习网络确定Actor网络和Critic网络的网络参数；

在一个实施例中，动作策略网络actor，可以输出动作行为的概率。在一个例子中，首先将环境的状态信息输入到网络中，将会输出在状态中执行的所有动作的概率。在一个例子中，根据可以动作概率，进行下一状态，得到奖励R，并且存储在经验缓冲池D内。将动作行为概率存储在经验缓冲池中，有助于今后进行探索环境状态时，根据先前的动作经验来获取今后的动作概率，以增加今后动作概率的合适性。

跨海大桥经常面大风雨等恶劣天气影响，所以会引起桥面道路产生振动现象，依次会改变道路曲率和道路倾角。因此，在一个例子中，自动驾驶车辆还可以实时进行与环境交互，产生实时性动作空间，并且实时获取状态空间，同时发送到经验缓冲池中，以更好实现动作策略网络对每一时刻的动作集合。

在一些场景中，例如道路倾角的变化，会影响车辆的路径规划的变化，也会导致车辆产生侧滑现象，使车辆轮胎与轨迹产生一定角度，导致路径轨迹和状态发生变化，会严重影响车辆的安全性，因此可以通过元强化学习实现多任务状态和动作的选取，以更好地控制自动驾驶车辆的安全性。因此，在一个实施例中，可以基于元学习网络确定多个任务下的Actor网络和Critic网络的网络参数。

根据一种实施方式，由于桥区道路环境行驶较为恶劣，自动驾驶车辆的行驶具有不确定性，基于车辆的安全行驶特点，需要设计多任务工作，并设计多任务分布，确保设计网络时，可以计算较为实时性的参数。例如，在一个实施例中，自动驾驶车辆行驶在跨海大桥路口环境，在遇到恶劣雨雪天气下，桥面发生振动现象，会导致桥面道路的曲率实时变化和产生道路倾角，车辆极容易发生侧滑、侧倾和横摆现象，自动驾驶车辆需要在车道保持(Lane-keeping)、换道(Lane-changing)、巡航行驶(Acc)、超车(overtaking)等多行驶任务中，实时调整行驶行为。在一个具体的实施例中，可以定义一组多任务状态分布集p(T)∈{Lane-keeping,Lane-chaning,Acc,overtaking}，并初始化任务分布和元学习网络的参数M；从p(T)中随机采样K个轨迹训练，训练f_M策略函数，计算有关任务p(T)_i的元学习损失函数，并计算梯度下降后的新参数M′，根据新梯度，训练新的策略函数f′_M，并继续更新参数M。

在一个实施例中，自动驾驶车辆在跨海大桥路口环境，遇到恶劣天气下，为减少车辆发送侧滑、侧倾和横摆现象的概率，行驶过程中不采取制动行为，所以，设置车辆的动作行为是油门和转向角，并且限定车辆行驶速度在中低速范围，以更好的提高网络训练效率。

步骤113，将环境状态信息输入Actor网络，得到Actor网络基于决策策略的决策车辆动作；

在一个实施例中，可以将环境状态信息输入Actor网络，得到多种任务下的决策车辆动作。

步骤114，根据预定奖励函数，获取对于决策策略的奖励；

在一个实施例中，预定奖励函数的数学表示式为：

其中，

为轨迹误差奖励，

为轨迹误差变化率奖励，

为航向角度误差奖励，

为航向角度误差变化率奖励，

和

分别为车辆侧倾误差和侧倾误差变化率，

分别为其下标参数的权重、K为方向盘转角权重，y是实际轨迹，y_r是标准轨迹；θ是实际侧倾角度，θ_ref是参考侧倾角度。

该预定奖励函数旨在确保车辆能实现在跨海大桥道路环境的稳定安全行驶，减少湿滑路面引起的车辆侧滑、侧偏和侧倾现象。在不同的实施例中，预定奖励函数还可以具有不同的具体形式，本发明对预定奖励函数的具体形式不做限制。

步骤115，Critic网络根据环境状态信息和决策车辆动作，对所述决策策略进行评价；

在一个实施例中，Critic网络可以包括值网络和3个Q网络，

可以根据值网络和3个Q网络的输出值，分别获取3个Q值，根据3个Q值中的最低值，确定对所述决策策略进行评价的评价结果。

本质上，值网络的作用为通过神经网络拟合值函数，用于对决策策略进行评价。

步骤116，Actor网络根据所述评价的结果，更新所述决策策略；

该步骤中，Actor网络根据critic网络的评价，更新其决策策略，即更新其神经网络参数。

步骤117，Critic网络根据所述奖励，更新对所述决策策略进行评价的评价策略。

该步骤中，Critic网络可以根据奖励来调整其评价策略，即更新其神经网络参数。

在一个具体的实施例中，可以构建动作策略网络(Actor网络)，以环境状态信息为输入，输出是无人车的决策动作，由转向角和油门信息组成的矢量，分别对应策略网络输出层的2个神经元，并设定油门的激活函数是Sigmoid，转向动作值的激活函数采用Tanh；对隐藏层的结构设计，采用三层隐藏层实现，一层采用200个神经元，第二层采用400个神经元，第三层采用200个神经元，为使网络具有稀疏性，降低参数的相关性，采用ReLu函数作为隐藏层神经元的激活函数。构建评论家网络(Critic网络)，其中的q网络的输入为动作集合，值网络的输入是状态集合，经过两层神经网络(第一层神经网络200层，第二层120层)与激活函数后进行拼接，再经过隐藏层与ReLu激活层，最终得到Q值，其中，状态和动作各输入48个，隐藏层是三层，第一层120层，第二层240层，第三层120层，最终得出Q值，如图5所示。复制动作网络和评论家网络的目标参数，并根据阶段初始化网络参数M，在每一回合中，接受初始观测状态，选择动作执行，并获得奖励和新状态，并存储在经验回放池中，同时从经验回放池中随机选取N组数组进行训练，计算目标值函数。在一个例子中，如图2所示，在进行Q函数求解时，设计了Q₁、Q₂、Q₃三组网络，并取其中最小值作为网络计算min_i{Q_i}，并以此来求解评论家网络的损失函数，并更新动作网络和评论家网络参数。

在一个实施例中，可以不考虑制动动作，将方向盘转角动作归一化为δ∈[-1 1]，考虑中低速车辆在跨海大桥路况环境行驶，为防止车辆在湿滑路面发生侧翻和侧滑，应设计转向角在较小范围δ∈[-0.5 0.5]；在跨海大桥油门动作归一化的范围是a_i∈[0 1]，由于车辆预计以中低速行驶跨海大桥路况环境，将油门进一步限制在a_i∈[0 0.4]，以防止出现高速行驶情况，提高训练效率。在一个例子中，自动驾驶车辆行驶在跨海大桥路况环境，在遇到恶劣雨雪天气下，桥区道路会因风振而导致桥面发生倾角和曲率变化，为减少车辆发生侧滑现象的概率，不采取制动行为，所以设置自动驾驶车辆的动作行为有油门和方向角两个动作行为。在另一个例子中，还可以限定车辆行驶速度在中低速范围，以更好的提高网络训练效率。

在一个实施例中，可以更新策略网络和价值网络、Q网络的参数，从经验缓冲池中随机提取K批转换信息(s_K a_K r_K s_K+1)用来更新值函数网络、Q函数网络和策略网络。式中，s_K是第K+1步动作执行前的环境状态，a_K表示第K+1步执行的动作，r_K表示第K+1步动作得到的即时奖励，s_K+1表示执行K+1步动作执行后所所达到的环境状态；

在一个实施例中，如图1所示，可以从任务的初始状态分布中，采样T_i个轨迹训练策略函数，计算有关任务的元强化学习损失函数，建立任务和模型的交叉熵损失公式，首先需要进行多任务驾驶场景的训练，学习跨海大桥道路环境的规则，再基于特定的道路行驶场景，使用策略梯度方法训练新策略函数，进行网络参数更新，以学习到最优策略，获取最大有效回报，促进自动驾驶车辆自适应寻找高效的新任务方法。在一个例子中，还可以进一步计算目标状态值、价值网络损失函数，更新目标状态值(例如前述车道偏离、侧倾角度，侧滑误差等)和更新价值网络参数；计算Q网络损失，并更新Q网络参数；更新策略网络参数。

本发明实施例提供的通过跨海大桥的自动驾驶决策方法，也可以用于多车协同通过跨海大桥的场景，在此场景下，该方法还可以包括，将通过跨海大桥的多个车辆分别设定为移动边缘计算节点，在所述多个车辆中分别架构元学习模型、actor网络和critic网络，通过车车通信技术进行各元学习模型、actor网络和critic网络中的参数共享，并基于共享的参数，进行各元学习模型、actor网络和critic网络的训练，如图4所示。

具体的，自动驾驶车辆与多车协作行驶经过跨海大桥路况环境时，由于道路环境复杂多变，对于多车协作行驶，可以采用分散学习和分散控制执行的方法实现。

因此，在一个实施例中，可以首先获取各自自动驾驶车辆的状态和环境信息，自动驾驶车辆与跨海大桥路况环境进行动作交互，确定车辆的环境状态S_i，包括：道路周围交通状态(车道结构、限速标志、交通标志)，统一采用Τ_i-0表示，车辆自身状态(速度v_i-0、位置H_i-0、航向角Γ_i-0、横摆角速度ω_i-0)、车辆周围障碍物状态信息(周围车辆的速度v_i-0、位置S_i-0、行驶轨迹预测状态L_i-0、车辆与道路环境的状态(与车道中心线偏移距离e_yi-0、偏航误差

)、路面的滑移率S_Li、滑移角φ_i-0、附着系数μ_i-0、桥面振动角度λ_i-0；确定动作空间A_i-0，包括：转向角δ_i-0、油门和制动动作，统一采用加速度a_i-0表示，并且把这些状态变量和动作变量放入经验缓存池中，用以更新网络参数。

在一个具体的实施例中，可以在每辆车构建策略网络，将环境的状态信息输入到策略网络，实现多种动作的执行概率，并设置采用分布式边缘计算节点实现数据信息的共享和传输，将自动驾驶车辆设置为移动边缘计算节点，通过车车通信技术实现每辆车的策略梯度信息和输出的动作概率之间的信息交互发送到自动驾驶车辆中；将车辆感知的周围道路环境信息发送到经验缓存池后，发布在各自车辆的边缘计算节点上，自动驾驶车辆在进行策略网络、价值网络和Q函数网络时，都会从边缘计算节点中的经验缓存池中获取K批转换信息，转入网络层计算，如图3所示。在一个例子中，还可以在每辆车上放置分布式移动边缘计算节点，采用车车通信技术实现车辆之间状态和动作信息的交互，尤其是实现K批经验缓存池、策略梯度信息的数据共享；当多车协作行驶时，面对同一道路的环境状态，采取车辆通信技术，可以实现每辆车的元学习网络参数M的数据共享，同时可以实现车辆之间多任务分布p的共享，经验缓冲池的数据共享，进而实现所有车辆的网络训练，如下公式所示：

其中，j为车辆序号，M为元学习网络参数，p为多任务分布集合，R为奖励，S为状态，a为动作。

其意义在于，借助于车辆通信和可移动边缘计算节点，能实现车辆之间的多任务分布的共享，然后每辆车实时调整各自的网络训练，因为当跨海大桥在恶劣天气行驶时，每辆车的行驶状态不同，决定了其任务不同，或者是车道保持，或者是加速或者是减速，所以通过共享这些任务，进行调整各自车辆训练网络。

在一个实施例中，还可以将各自动驾驶车辆的多任务分布信息，采用车联网技术，实现车辆的信息交互，保证车辆使用元强化学习时，进行多任务信息共享，以更好的更新策略网络参数。并从任务的初始状态分布中，采样T_i个轨迹训练策略函数，计算有关任务的元强化学习损失函数。在一个例子中，元强化学习损失函数为交叉熵损失，其公式如下：

式中，

是车辆某一状态和动作下的交叉熵损失；γ·f(χ_i)是车联网数据传输率；γ是权重；x_i是车辆状态，y_j是权重其中，i＝1,…,N是车辆数；

在一个实施例中，各车还可以使用策略梯度方法更新其元学习网络参数M，根据新梯度训练新策略函数，更新参数M。

在一个实施例中，各车还可以计算目标状态值、价值网络损失函数，更新目标状态值和更新价值网络参数；计算Q网络损失，并更新Q网络参数；更新策略网络和策略网络参数。通过获取跨海大桥路况环境状态信息，确定自动驾驶车辆决策行为，实现自动驾驶车辆多车协作。

本发明提供的一种面向跨海大桥路况的自动驾驶决策方法，具有以下优点：

一方面，通过元学习与软执行者-评论家算法的强化学习相结合，采用策略梯度算法，实现元强化学习在自动驾驶车辆的使用，保证了对跨海大桥复杂路况环境的稳定性。

第二方面，采用分布式移动边缘计算节点和车车通信技术实现自动驾驶车辆与周围行驶车辆的信息交互，采用通信技术实现多任务分布节点的任务交互，解决了自动驾驶车辆面对复杂道路环境的动作概率的选择问题，确保多自动驾驶车辆在跨海大桥复杂路况环境的协作行驶。

第三方面，构建经验缓存池，将周围道路环境信息存储在经验缓存池里，并发布于各自车辆的移动边缘计算节点，并采用车车通信方式实现信息交互，有助于从经验缓存池中随机获取多批数据转换信息，确保自动驾驶车辆经过复杂道路环境时的数据获取的可适用性。

以上已以较佳实施例公布了本发明，然其并非用以限制本发明，凡采取等同替换或等效变换的方案所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种面向跨海大桥路况的自动驾驶决策方法，其特征在于，包括：

所述自动驾驶模型包括元学习网络、Actor网络和Critic网络，所述自动驾驶模型基于以下步骤训练获得：

获取车辆通过跨海大桥的环境状态信息；

基于元学习网络确定Actor网络和Critic网络的网络参数；

根据预定奖励函数，获取对于决策策略的奖励；

Actor网络根据所述评价的结果，更新所述决策策略；

Critic网络根据所述奖励，更新对所述决策策略进行评价的评价策略；

其中，所述预定奖励函数为：

其中，

为轨迹误差奖励，

为轨迹误差变化率奖励，

为航向角度误差奖励，

为航向角度误差变化率奖励，

和

分别为车辆侧倾误差和侧倾误差变化率，

分别为其下标参数的权重，K为方向盘转角权重，y是实际轨迹，y_r是标准轨迹；θ是实际侧倾角度，θ_ref是参考侧倾角度。

2.根据权利要求1的方法，其特征在于，所述环境状态信息包括：道路周围交通状态、车辆状态、车辆周围障碍物状态信息、车辆与道路环境状态、路面的滑移率、附着系数、桥面振动角度中的一种或多种。

3.根据权利要求1的方法，其特征在于，所述车辆动作的动作空间包括转向角、油门和制动动作中的一种或多种。

4.根据权利要求1的方法，其特征在于，获取车辆通过跨海大桥的环境状态信息，包括，通过经验回放获取车辆通过跨海大桥的环境状态信息。

5.根据权利要求1所述的方法，其特征在于，所述Critic网络包括值网络和3个Q网络，

所述对所述决策策略进行评价，包括，根据所述值网络和3个Q网络的输出值，分别获取3个Q值，根据3个Q值中的最低值，确定对所述决策策略进行评价的评价结果。

6.根据权利要求1所述的方法，其特征在于，所述Actor网络包括输入层、隐藏层、输出层，Actor网络输出的决策车辆动作为由转向角和油门动作组成的矢量，分别对应Actor网络输出层的2个输出神经元，其中，对应油门动作的输出神经元的激活函数是Sigmoid函数，对应转向角动作的神经元的激活函数为Tanh函数；所述隐藏层包括三层子隐藏层，其中，第一子隐藏层包括200个神经元，第二子隐藏层包括400个神经元，第三子隐藏层包括采用200个神经元，隐藏层神经元的激活函数为ReLu函数。

7.根据权利要求1所述的方法，其特征在于，所述基于元学习网络确定Actor网络和Critic网络的网络参数，包括，基于元学习网络确定多个任务下的Actor网络和Critic网络的网络参数；

所述将环境状态信息输入Actor网络，得到决策车辆动作，包括，将环境状态信息输入Actor网络，得到多个任务下的决策车辆动作。

8.根据权利要求7所述的方法，其特征在于，所述多个任务包括，车道保持、换道、巡航行驶、超车中的一种或多种。

9.根据权利要求1所述的方法，其特征在于，通过跨海大桥的车辆为多辆，所述方法还包括；