CN114861318A

CN114861318A - 自动驾驶控制参数模型的训练方法、参数获取方法和装置

Info

Publication number: CN114861318A
Application number: CN202210547436.7A
Authority: CN
Inventors: 刘征宇; 谭益农; 朱振广; 梁琪; 李柳涛
Original assignee: Apollo Intelligent Technology Beijing Co Ltd
Current assignee: Apollo Intelligent Technology Beijing Co Ltd
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-08-05

Abstract

本公开提出了一种自动驾驶控制参数模型的训练方法、参数获取方法和装置。本公开涉及计算机技术领域，尤其涉及自动驾驶领域和自动控制领域。具体实施方式为：将场景信息输入第一控制参数模型，得到所述第一控制参数模型输出的控制参数；根据所述控制参数与动力学仿真环境交互，以获取训练样本；以及根据所述训练样本对所述第一控制参数模型进行更新，得到训练后的第二控制参数模型。本公开实施例，第一控制参数模型根据场景信息自动生成控制参数，进而自动获取训练样本，提高训练样本的生成效率，进而提高模型训练速度。

Description

自动驾驶控制参数模型的训练方法、参数获取方法和装置

技术领域

本公开涉及计算机技术领域，尤其涉及自动驾驶领域和自动控制领域。

背景技术

自动驾驶的横纵向控制是自动驾驶的基础，横纵向控制的好坏，直接影响着自动驾驶的效果。传统控制的方案一般采用单一的控制参数，并不随场景的变化而变化。事实上，对于不同场景，控制的目标往往有所差异，要想达到最优的控制效果，需要对不同场景采用对应合适的参数。

发明内容

本公开提出了一种自动驾驶控制参数模型的训练方法、控制参数的获取方法和装置。

根据本公开的一方面，提供了一种自动驾驶控制参数模型的训练方法，包括：

将自动驾驶场景信息输入第一控制参数模型，得到所述第一控制参数模型输出的控制参数；

根据所述控制参数与动力学仿真环境交互，以获取训练样本；以及

根据所述训练样本对所述第一控制参数模型进行更新，得到训练后的第二控制参数模型。

根据本公开的另一方面，提供了一种控制参数的获取方法，包括：

将目标场景信息输入自动驾驶控制参数模型进行处理，得到所述自动驾驶控制参数模型输出的目标控制参数；

其中，所述自动驾驶控制参数模型是采用本公开实施例任意一个训练方法进行训练得到的第二控制参数模型。

根据本公开的另一方面，提供了一种控制参数模型的训练装置，包括：

输入模块，用于将场景信息输入第一控制参数模型，得到所述第一控制参数模型输出的控制参数；

获取模块，用于根据所述控制参数与动力学仿真环境交互，以获取训练样本；以及

训练模块，用于根据所述训练样本对所述第一控制参数模型进行训练，得到训练后的第二控制参数模型。

根据本公开的另一方面，提供了一种控制参数的获取装置，包括：

获取模块，用于将目标场景信息输入自动驾驶控制参数模型进行处理，得到所述自动驾驶控制参数模型输出的目标控制参数；

其中，所述自动驾驶控制参数模型是采用上述任一项所述的训练装置进行训练得到的第二控制参数模型。

根据本公开的另一方面，提供了一种电子设备，包括：

一个或多个处理器；

与所述一个或多个处理器通信连接的存储器；

一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，当所述一个或多个计算机程序被所述电子设备执行时，使得所述电子设备执行上述任一项所提供的方法。

根据本公开的另一方面，提供了一种计算机可读存储介质，其存储有计算机指令，当所述计算机指令在计算机上运行时，使得所述计算机执行上述任一项所提供的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述任一项的方法。

本公开实施例通过第一控制参数模型根据场景信息自动生成控制参数，进而自动获取训练样本，提高训练样本的生成效率，进而提高模型训练速度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为根据本公开一实施例的自动驾驶控制参数模型的训练方法的流程图；

图2为根据本公开另一实施例的自动驾驶控制参数模型的训练方法的流程图；

图3为根据本公开另一实施例的自动驾驶控制参数模型的训练方法的流程图；

图4为根据本公开另一实施例的自动驾驶控制参数模型的训练方法的流程图；

图5为根据本公开一实施例的控制参数的获取方法的流程图；

图6为根据本公开一实施例的自动驾驶控制参数模型的训练装置的结构示意图；

图7为根据本公开另一实施例的自动驾驶控制参数模型的训练装置的结构示意图；

图8为根据本公开一实施例的控制参数的获取装置的结构示意图；

图9为根据本公开实施例的自动化的参数自调节框架的结构示意图；

图10示出用来实施本公开的实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1为根据本公开一实施例的自动驾驶控制参数模型的训练方法的流程图。该方法可以包括：

S101、将自动驾驶场景信息输入第一控制参数模型，得到所述第一控制参数模型输出的控制参数；

S102、根据所述控制参数与动力学仿真环境交互，以获取训练样本；以及

S103、根据述训练样本对所述第一控制参数模型进行训练，得到训练后的第二控制参数模型。

在本公开实施例中，场景信息可以包括被控对象在某个状态对应的各种状态参数。不同状态可以对应不同的场景信息，具体可以根据实际状态的特点来确定场景信息。控制参数可以包括被控对象在该状态下执行某个动作对应的各种控制参数。第一控制参数模型的输入为场景信息，输出为控制参数。第一控制参数模型可以对输入的场景信息进行处理，输出该场景信息对应的控制参数。然后，可以根据控制参数与动力学仿真环境交互，得到该状态的下一状态对应的场景信息、回报函数值等，进而得到训练样本。利用训练样本对第一控制参数模型进行训练，以更新第一控制参数模型的参数，得到第二控制参数模型。第一控制参数模型根据场景信息自动生成控制参数，进而自动获取训练样本，提高训练样本的生成效率，进而提高模型训练速度。

在一种可能的实施方式中，所述自动驾驶场景信息包括以下至少之一：速度、曲率、横向位置误差、横向航向角误差、纵向位置误差、纵向速度误差、纵向加速度误差、期望速度、期望加速度、期望横向位移和期望航向角。

在本公开实施例中，不同的状态可能对应不同的场景信息。例如，状态1对应的场景信息包括速度、曲率、横向位置误差、横向航向角误差、期望速度和期望加速度。状态2对应的场景信息包括速度、曲率、纵向位置误差、纵向速度误差、纵向加速度误差、期望横向位移和期望航向角、本公开实施例中列举的场景信息仅是示例而非限制，在实际应用中，可能包括其他场景信息例如加加速度等。通过丰富的场景信息，可以划分更加精细化场景，使用场景更多更准确。

在一种可能的实施方式中，所述控制参数包括以下至少之一：横向前进的Q值、横向前进的R1值、横向前进的R2值、横向衰减值、纵向的Q值、纵向的R1值、纵向的R2值和纵向衰减值。其中，所述Q值表示模型预测控制MPC算法的目标函数中的误差项惩罚权重，所述R1值表示所述目标函数中的控制量的惩罚权重，所述R2值表示所述目标函数中的控制量增量的惩罚权重。

在本公开实施例中，控制模型可以包括横向模型和纵向模型。横向前进的Q值与横向模型所包括的状态量有关，如果横向模型包括多个状态量，横向前进的Q值则可以包括每个状态量对应的误差项惩罚权重值。纵向的Q值与纵向模型所包括的状态量有关，如果纵向模型包括多个状态量，纵向前进的Q值则可以包括每个状态量对应的误差项惩罚权重值。

例如，如果横向模型的状态量包括横向位移、横向速度、航向角、横摆角速度和实际前轮转角，则横向前进的Q值可以包括这5个状态量的误差项惩罚权重值q₁、q₂、q₃、q₄和q₅的对角阵。

再如，如果纵向模型包括位移、速度和实际力矩，则纵向的Q值可以为包括这3个状态量的误差项惩罚权重值q₁、q₂和q₃的对角阵。

在本公开实施例中，通过更多维度的控制参数，能够适用于更丰富的控制场景。

在一种可能的实施方式中，如图2所示，在S101中，将自动驾驶场景信息输入第一控制参数模型，得到所述第一控制参数模型输出的控制参数，包括：S201、将第一场景信息输入第一控制参数模型的第一策略网络进行处理，得到所述第一策略网络输出的第一控制参数。

在本公开实施例中，控制参数模型可以采用基于强化学习算法的模型，例如DDPG(Deep Deterministic Policy Gradient,深度确定性策略梯度)模型。例如，控制参数模型可以包括在线网络和目标网络，有利于加快网络收敛。其中，在线网络为第一控制参数模型，在线网络可以包括第一策略网络和第一值网络。目标网络为第二控制参数模型，目标网络可以包括第二策略网络和第二值网络。在获取训练样本的过程中，可以主要利用在线网络的第一策略网络。将第一场景信息第一策略网络进行处理，得到在第一状态执行第一控制参数。这样，第一控制参数模型的第一策略网络，可以根据第一场景信息自动生成第一控制参数，提高生成控制参数的效率。然后第一策略网络可以将第一控制参数发送给控制模块。在控制模块可以利用第一控制参数和目标函数计算控制量。然后基于控制量与动力学仿真环境交互，以获取从第一状态转移到第二场景信息。将第二场景信息作为下次的第一场景信息输入第一策略网络，可以迭代生成下一状态对应的场景信息。以此类推，不做赘述。其中，控制模块的控制模型中可以包括横向模型和纵向模型，基于横向模型和纵向模型以及惩罚权重参数等可以构建目标函数。

在本公开实施例中，控制模块也可以不直接利用第一控制参数计算目标函数值，而是对第一控制参数进行一定衰减再计算目标函数值。一种方式中，控制模块可以对第一控制参数进行惩罚权重衰减处理后，再利用衰减的控制参数计算目标函数值，并基于目标函数值和衰减的控制参数与动力学仿真环境交互，获得第二场景信息。

在一种可能的实施方式中，如图2所示，在S102中，根据所述控制参数与动力学仿真环境交互，以获取训练样本，包括：

S202、根据衰减系数对所述第一控制参数中的Q值进行衰减处理，并将衰减的Q值带入控制模型的目标函数以计算控制量，其中，所述Q值表示控制模型的目标函数中的误差项惩罚权重；

S203、利用所述控制量与所述动力学仿真环境交互，得到所述动力学仿真环境输出的仿真交互结果，所述仿真交互结果包括第二场景信息；

S204、根据所述第一场景信息和所述仿真交互结果计算回报函数值；以及

S205、根据所述第一场景信息、所述第一控制参数、所述回报函数值和所述第二场景信息，获取样本数据。

在本公开实施例中，控制模块可以利用控制模型中的横向模型、纵向模型以及惩罚权重参数等构建优化问题的目标函数，利用目标函数实现对第一控制参数的衰减。例如，目标函数中的惩罚权重参数可以包括误差项的惩罚权重Q、控制量的惩罚权重R₁、控制量增量的惩罚权重R₂等。

在本公开实施例中，在基于第一场景信息s_i获取第一控制参数a_i后，对第一控制参数进行惩罚权重衰减处理，得到衰减的控制参数a_id。利用衰减的控制参数a_id代入目标函数，计算控制量。利用控制量与所述动力学仿真环境交互，可以得到包括第二场景信息s_i+1的仿真交互结果。此外，根据第一场景信息s_i和仿真交互结果可以计算回报函数值r_i。然后，可以将(s_i,a_i,r_i,s_i+1)作为一个样本数据。该样本数据可以直接作为训练样本，也可以对多个样本数据经过采样后得到训练样本。

在本公开实施例中，对第一控制参数进行惩罚权重衰减处理，能够根据衰减后的控制参数获取模型的样本数据，有利于减少模型失真。

在一种可能的实施方式中，所述回报函数值是根据误差回报值、误差变化率回报值、控制量变化量回报值和仿真度量回报值确定的。

例如，回报函数r(i)＝b₁r₁(i)+b₂r₂(i)+b₃r₃(i)+b₄r₄(i)。其中，r₁(i)表示误差回报，r₂(i)表示误差变化率回报值，r₃(i)表示控制量变化量回报，r₄(i)表示仿真度量回报。b₁至b₄表示各项的系数，可以是经验值。仿真度量回报可以基于碰撞回报、猛急刹回报、猛打方向回报和轨迹发生重新规划的回报中的一个或者多个计算得到。从误差、误差变化率、控制量变化量、仿真度量等多个角度计算回报函数值，有利于得到更加合适的回报函数值。

在一种可能的实施方式中，在S202中，对所述第一控制参数进行惩罚权重衰减处理，得到所述第一动作对应的衰减的控制参数，包括：根据衰减系数对所述第一控制参数中的Q值进行衰减处理，得到衰减的Q值，其中，所述衰减的Q值小于衰减处理前的Q值。其中，所述Q值表示模型预测控制MPC算法的目标函数中的误差项惩罚权重。例如，衰减系数d＜1，在预测步数i的误差项惩罚权重Q_i＝Q*dⁱ。i可以为自然数。例如，第一步的Q₀＝Q，第二步的Q₁＝Q*d。依次类推。这样，可以随着预测步数i越大惩罚权重Q_i越小，从而解决模型失真的问题。

在一种可能的实施方式中，在S205中，根据所述第一场景信息、第一控制参数、回报函数值和第二场景信息，获取样本数据，包括：

根据所述第一场景信息、第一控制参数、回报函数值和第二场景信息，生成本次的样本数据；以及

将每次生成的所述样本数据的第二场景信息作为下一次输入第一控制参数模型的第一场景信息，迭代执行获取样本数据的步骤例如迭代执行S201至S205，以得到多个样本数据。

在本公开实施例中，一个样本数据也可以称为一组样本数据，是一个数据集合。例如，样本数据包括第一场景信息、第一控制参数、回报函数值和第二场景信息。本次得到样本数据第二场景信息s_i+1，可以作为下一次第一场景信息输入第一控制参数模型，由第一控制参数模型再次输出第一控制参数a_i+1。然后对第一控制参数进行衰减处理得到衰减的控制参数，使用衰减的控制参数与所述动力学仿真环境交互，可以得到第二场景信息s_i+2。进而，可以得到样本数据(s_i+1,a_i+1,r_i+1,s_i+2)。这样，可以逐步得到多个样本数据，从而为后续的模型训练建立合适的训练样本集合。

在一种可能的实施方式中，在S102中，根据所述控制参数与动力学仿真环境交互，以获取训练样本，还包括：

S206、将多个所述样本数据加入回放池；以及

S207、对所述回放池中的多个所述样本数据进行采样，得到训练样本。

在本公开实施例中，强化学习算法可以包括回放池，回放池也可以称为记忆回放池、经验回放池等。回放池中可以包括多个样本数据，可以对回放池中的多个样本数据进行随机采样，得到训练样本。例如，可以设置最小批量(mini-batch)的样本数量，按照该数量从回放池随机采样最小批量个训练样本，即训练样本集合。通过采样例如随机采样，可以消除选取的样本间的关联性，得到更好的训练样本集合，训练得到的模型也更加准确。

在一种可能的实施方式中，所述训练样本中包括第一场景信息、第一控制参数、回报函数值和第二场景信息，所述第一控制参数模型包括第一策略网络、第一值网络、第二策略网络和第二值网络。

在一种可能的实施方式中，如图3所示，在S103中，根据所述训练样本对所述第一控制参数模型进行训练，得到训练后的第二控制参数模型，包括：

S301、将所述第一场景信息分别输入所述第一策略网络和第二策略网络进行处理，得到所述第一策略网络输出的第一控制参数以及所述第二策略网络输出的第二控制参数；

S302、将所述第一场景信息和所述第一控制参数输入所述第一值网络进行处理，得到所述第一值网络输出的第一值函数；

S303、将所述第一场景信息和所述第二控制参数输入所述第二值网络进行处理，得到所述第二值网络输出的第二值函数；以及

S304、根据所述训练样本、所述第一值函数和所述第二值函数，对所述第一控制参数模型进行训练，得到训练后的第二控制参数模型。

在本公开实施例中，第一策略网络和第一值网络属于在线网络，第二策略网络和第二值网络属于目标网络，在强化学习中，通过多个网络更新模型参数，有利于加快模型收敛。

在一种可能的实施方式中，如图4所示，在S304中，根据所述训练样本、所述第一值函数和所述第二值函数，对所述第一控制参数模型进行训练，得到训练后的第二控制参数模型，包括：

S401、采用损失函数更新所述第一值网络的参数，所述损失函数是根据所述第一场景信息、所述第一控制参数、所述第二场景信息、所述第二控制参数、所述第一值函数和所述第二值函数确定的；

S402、采用梯度下降方式更新所述第一策略网络的参数，所述梯度下降方式需要采用的信息至少包括所述第一场景信息、所述第一控制参数和所述第一值函数；

S403、根据所述第一策略网络的参数和所述第二策略网络的参数，更新所述第二策略网络的参数；以及

S404、根据第一值网络的参数和第二值网络的参数，更新所述第二值网络的参数。

在本公开实施例中，第一策略网络、第一值网络、第二策略网络和第二值网络可以分别具有对应的更新公式。

例如，第一值网络的更新公式为：

其中，L为损失函数，N为预测时域。y_i＝r_i+γV’(s_i+1,μ’(s_i+1|θ^μ’)|θ^V’)。V为第一值网络的输出，s_i为第一场景信息，a_i代表第一控制参数，s_i+1为第二场景信息。θ^V为第一值网络的参数，θ^V′为第二值网络的参数。

再如，第一策略网络的更新公式为：

其中，

为策略梯度，θ^μ为策略网络1的参数，s代表场景信息，a代表控制参数，θ^V为值网络参数。，μ(s|θ^μ)表示第一策略网络的输出，V(s,a|θ^V)表示第一值网络的输出。基于该公式可以采用梯度下降的方式更新第一策略网络。

再如，第二值网络的更新公式为：θ^V′←τθ^V+(1τ)θ^V′。基于第一值网络的参数θ^V和第二值网络2的参数θ^V′可以更新值网络2的参数。τ表示比例，可以是经验值。

再如，第二策略网络的更新公式为：θ^μ′←τθ^μ+(1τ)θ^μ′。基于策略网络1的参数θ^μ和策略网络2的参数θ^μ′可以更新策略网络2的参数。τ表示比例，可以是经验值。第二策略网络的更新公式的τ的值与第二值网络的更新公式的τ的值可以相同，也可以不同。

上述步骤S401至步骤S404的时序不做限制，可以根据需求任意调整执行顺序。例如，可以并行更新第一策略网络和第一值网络，也可以并行更新第二策略网络和第二值网络，还可以先更新第二策略网络再更新第一策略网络。利用损失函数和梯度下降法等，更新第一策略网络、第一值网络、第二策略网络和第二值网络，可以使得控制参数模型快速收敛。

图5为根据本公开一实施例的控制参数的获取方法的流程图。该方法可以包括：S501、将目标场景信息输入自动驾驶控制参数模型进行处理，得到所述自动驾驶控制参数模型输出的目标控制参数；其中，所述自动驾驶控制参数模型是采用上述实施例中任一训练方法进行训练得到的第二控制参数模型。基于训练好的第二控制参数模型可以针对不同的目标场景信息快速准确的生成对应的目标控制参数，无需人工调参，提高调参效率。

图6为根据本公开一实施例的自动驾驶控制参数模型的训练装置的结构示意图。该装置可以包括：

输入模块601，用于将自动驾驶场景信息输入第一控制参数模型，得到所述第一控制参数模型输出的控制参数；

获取模块602，用于根据所述控制参数与动力学仿真环境交互，以获取训练样本；以及

训练模块603，用于根据所述训练样本对所述第一控制参数模型进行训练，得到训练后的第二控制参数模型。

在一种可能的实施方式中，所述场景信息包括以下至少之一：速度、曲率、横向位置误差、横向航向角误差、纵向位置误差、纵向速度误差、纵向加速度误差、期望速度、期望加速度、期望横向位移和期望航向角。

图7是根据本公开一实施例的自动驾驶控制参数模型的训练装置的结构示意图。该实施例的装置包括上述自动驾驶控制参数模型的训练装置实施例的一个或多个特征。在一种可能的实施方式中，所述输入模块601，包括：

输入子模块701，用于将第一场景信息输入第一控制参数模型的第一策略网络进行处理，得到所述第一策略网络输出的第一控制参数。

在一种可能的实施方式中，所述获取模块602，包括：

处理子模块702，用于根据衰减系数对所述第一控制参数中的Q值进行衰减处理，并将衰减的Q值带入控制模型的目标函数以计算控制量，其中，所述Q值表示控制模型的目标函数中的误差项惩罚权重；

交互子模块703，用于利用所述控制量与所述动力学仿真环境交互，得到所述动力学仿真环境输出的仿真交互结果，所述仿真交互结果包括第二场景信息；

计算子模块704，用于根据所述第一场景信息和所述仿真交互结果计算回报函数值；以及

获取子模块705，用于根据所述第一场景信息、所述第一控制参数、所述回报函数值和所述第二场景信息，获取样本数据。

在一种可能的实施方式中，所述获取子模块705，还用于：

根据所述第一场景信息、所述第一控制参数、所述回报函数值和所述第二场景信息，生成本次的样本数据；以及

将每次生成的所述样本数据的第二场景信息作为下一次输入第一控制参数模型的第一场景信息，迭代执行获取样本数据的步骤，以得到多个样本数据。

在一种可能的实施方式中，所述获取模块602还包括：

回放子模块706，用于将多个所述样本数据加入回放池；以及

采样子模块707，用于对所述回放池中的多个所述样本数据进行采样，得到训练样本。

在一种可能的实施方式中，所述训练模块603包括：

策略网络子模块708，用于将所述第一场景信息分别输入所述第一策略网络和第二策略网络进行处理，得到所述第一策略网络输出的第一控制参数以及所述第二策略网络输出的第二控制参数；

值网络子模块709，用于将所述第一场景信息和所述第一控制参数输入所述第一值网络进行处理，得到所述第一值网络输出的第一值函数；将所述第一场景信息和所述第二控制参数输入所述第二值网络进行处理，得到所述第二值网络输出的第二值函数；以及

更新子模块710，用于根据所述训练样本、所述第一值函数和所述第二值函数，对所述第一控制参数模型进行训练，得到训练后的第二控制参数模型。

在一种可能的实施方式中，所述更新子模块303用于：

采用损失函数更新所述第一值网络的参数，所述损失函数是根据所述第一场景信息、所述第一控制参数、所述第二场景信息、所述第二控制参数、所述第一值函数和所述第二值函数确定的；

采用梯度下降方式更新所述第一策略网络的参数，所述梯度下降方式需要采用的信息至少包括所述第一场景信息、所述第一控制参数和所述第一值函数；

根据所述第一策略网络的参数和所述第二策略网络的参数，更新所述第二策略网络的参数；以及

根据所述第一值网络的参数和所述第二值网络的参数，更新所述第二值网络的参数。

图8为根据本公开一实施例的控制参数的获取装置的结构示意图。该装置可以包括：

获取模块801，用于将目标场景信息输入自动驾驶控制参数模型进行处理，得到所述自动驾驶控制参数模型输出的目标控制参数；

其中，所述自动驾驶控制参数模型是采用实施例中任一的训练装置进行训练得到的第二控制参数模型。

本公开装置实施例中各模块和/或子模块的功能可以参见本公开上述方法实施例中的相关描述，在此不在赘述。

本公开实施例针对车辆横纵向控制提供了一种全量式参数自调节的方法，可以大幅提高参数适配的效率和控制的效果。本公开实施例可以适用于但不限于自动驾驶横纵向控制、机器人控制等应用场景。

自动驾驶控制的优化的方法有多种。例如优化动力学模型，考虑更复杂的模型，加入更合理的约束，考虑对环境的不确定性及噪声建模等。再如，简单模型加上自适应，针对不同场景调节控制参数或者控制输出，以获得更好的控制效果。第一种方法由于计算时延较大，难以落地，目前业界主流选用的是第二种方法。但是相关技术在自适应方面的设计比较简单，例如只是根据速度、曲率(横向)、加速度(纵向)来区分场景，给出相应的MPC控制参数(例如QR矩阵)，并且未对场景进行精细化的参数优化。

相关技术存在以下的问题：

1、对于场景的划分比较粗糙，一般只考虑速度、曲率、加速度信息。没有考虑控制误差对控制参数的影响，没有考虑到横纵向控制之间的相互影响。

2、对于不同场景的控制参数，没有进行差异化的适配，往往粗略地选取几个场景确定其控制参数，其余场景均用线性插值的方式确定参数，无法达到更好的控制效果。

3、不同车辆的参数往往是不一样的，需要调整的参数有很多，人工调参的成本大，自动化程度低。

本公开提供的一种控制方法为模型预测控制方法，该方法主要包含预测模型、滚动优化和反馈校正等部分。在每一采样时刻，根据当前的状态信息，利用系统模型预测未来的状态，计算预测轨迹与期望轨迹的误差，作为代价函数。并且，根据约束信息，构建约束型控制问题。之后，求解最优的控制序列，并将最优控制序列中的第一个控制量作用于系统。在下一个采样时刻继续计算新的最优控制序列。该模型预测控制方法需要设置优化问题的目标函数。

例如，对于预测时域为N的MPC控制模型的目标函数为：

Y＝DX，Y_r＝DX_r

该目标函数包括三部分：误差项的惩罚(Y_i-Y_ri)^TQ(Y_i-Y_ri)、对控制量的惩罚U_i ^TR₁U_i，以及对控制量增量的惩罚ΔU_i ^TR₂ΔU_i。其中，(Y_i-Y_ri)为误差项，Y_i为当前状态值，Y_ri为期望状态值；U_i为控制量，ΔU_i为控制量增量。在该目标函数中，i是离散化的时间值，可以理解为每执行一步对应一个i。X是控制模型的状态方程。

对于一般的控制问题，D为单位阵，惩罚权重参数包括误差项的惩罚权重Q、控制量的惩罚权重R₁、控制量增量的惩罚权重R₂。惩罚权重参数为对角矩阵，如果MPC控制中对角线上的值不随i变化，代表着对不同预测步数的惩罚权重是相等的。Q、R₁、R₂参数直接影响控制效果，这三个参数大小的确定是控制误差及控制量平衡(balance)的结果。例如，增大Q可以减少误差；增大R₁可以减少横向的画龙(例如产生严重的横向晃动)，使纵向更节能；增大R₂可以不使横向方向盘打的过猛，纵向急刹急加速过多。

下述具体介绍控制模型的示例。控制模型可以包括纵向模型和横向模型。

纵向模型可以包括状态量、Q和控制量。例如，状态量可以包括位移x、速度v和实际力矩T。误差项的惩罚权重Q＝blockdiag{q₁,q₂,q₃}。控制量可以包括下发力矩。纵向模型的状态方程

则可以得到以下公式：

其中，v_r为车辆期望速度、m为车辆质量、m_e为车辆等效质量、k为风阻系数、R为轮胎半径、g为重力常数、C_r为滚动阻力系数、θ为俯仰角。τ为延迟时间系数，T_des为下发力矩。

横向模型可以包括状态量、Q和控制量。例如，状态量可以包括横向位移y_e、横向速度

航向角θ_e、横摆角速度

和实际前轮转角δ。误差项的惩罚权重Q＝blockdiag{q₁,q₂,q₃,q₄,q₅}。控制量可以包括下发前轮转角。

纵向模型的状态方程

则可以得到以下公式：

c_f为前轮侧偏刚度、c_r为后轮侧偏刚度、v_x为车辆纵向速度、m为车辆质量、l_f为质心到前轴距离、l_r为质心到轴后距离、I_z为转动惯量、τ为延迟时间系数，δ_des为下发前轮转角。

在本公开实施例中，采用权重衰减策略减少模型预测失真；利用神经网络作为载体建立场景信息和最优参数的映射关系，实现对场景的精细化划分；利用自动化参数自调节框架训练神经网络，得到最优的控制参数(也可以称为控制信息、控制参数信息等)。

一、预测时域内权重衰减策略

一方面由于MPC采用的简化模型有一定的误差，导致对远处状态的预测精度较差，另一方面，控制其实更关心近处的误差。而传统MPC控制，不同预测步数的惩罚权重是一样的，本公开实施例的方案增加衰减(decay)系数(d＜1)，利用衰减系数可以使得预测步数i越大惩罚权重Q越小，以解决模型失真的问题。本公开实施例的方案中不再使用恒定的误差项的惩罚权重Q，而是随预测步数增大而减小误差项的惩罚权重，设Q_i为预测步数i时的惩罚权重，则Q_i＝Q*d^i-1。

二、精细化的场景划分方法

相比传统线性插值的场景划分方法，本公开实施例的方案采用更为精细化的神经网络模型作为载体，描述场景和参数的映射关系，将场景划分得更加精细。

其中，神经网络模型的输入可以为场景信息例如自动驾驶场景信息。例如场景信息可以包括：速度、曲率、横向位置误差、横向航向角误差、纵向位置误差、纵向速度误差、纵向加速度误差、期望速度、期望加速度、期望横向位移、期望航向角(系统状态)，共11维。

神经网络模型的输出为控制参数信息。例如控制参数信息包括：横向前进Q值(5维)、横向前进R₁、R₂值、横向decay值、纵向Q值(3维)、纵向R₁、R₂值、纵向decay值，共14维。由于惩罚权重是相对大小，可以将横向和纵向的R₁值固定为1。这种情况下，需要训练的R值可以仅包含对Δu的惩罚权重R₂，从而可以将控制参数信息的维数降为12维。

上述场景信息和控制参数的具体内容和维数仅是示例而非限制，在实际应用中可以根据具体需求增加或者减少。

三、自动化的参数自调节框架

基于强化学习方法与仿真环境进行互动得到样本数据，然后利用样本数据训练神经网络模型，可以得到MPC的最优的控制参数，例如，Q、R₂、及衰减(decay)系数等。

参见图9，基于该参数自调节框架的具体算法步骤的示例如下：

1、在线网络(Online Network)的策略网络1可以根据场景信息s生成控制参数a(例如包括Q、R₂、decay)，将控制参数a传给控制模块。

2、控制模块与仿真环境交互，生成一系列样本数据，并将样本数据存入记忆回放池。样本数据的示例可以参见下述公式。

其中，s_i为第一状态对应的场景信息，a_i为第一状态所采取的第一动作对应的控制参数信息，r_i为在第一状态采取第一动作后得到的回报函数值，s_i+1为在第一状态采取第一动作后转移到的第二状态对应的控制参数信息。这里的下标i的取值范围为0到n，n为自然数。例如，向策略网络1输入第一状态对应的场景信息s_n，策略网络1可以输出在第一状态采取第一动作对应的控制参数信息a_n(例如包括Q、R₂、decay)。在控制模块可以采用惩罚权重衰减策略对第一动作对应的控制参数信息中的Q进行权重衰减计算，使得Q发生变化。将计算得到的衰减后的a_n′发送到仿真环境。仿真环境可以基于a_n′输出第二状态对应的场景信息s_n+1。此外，根据s_n+1可以计算回报函数值r_n。如果n为0，第一组样本数据包括(s₀,a₀,r₀,s₁)。如果n为1，第二组样本数据包括(s₁,a₁,r₁,s₂)。通过策略网络可以迭代生成多组样本数据。

3、通过随机采样，消除样本间的关联性，从记忆回放池的样本数据中，选取出最小批量(mini-batch)的样本数据。

4、根据强化学习算法例如：DDPG，利用最小批量的样本数据，离线训练策略网络和值网络。更新策略可以采用强化学习算法。重复步骤1到4，直到网络收敛(策略网络和值函数都收敛)。

其中，策略网络和值网络的输入输出的示例如下：

(1)策略网络：

输入：系统状态对应的场景信息s_n，例如包括速度、曲率、误差、期望速度等。

输出：动作对应的控制参数信息a_n，例如包括Q、R2、decay值等。

(2)值网络：

输入：系统状态对应的场景信息s_n，以及动作对应的控制参数信息a_n

输出：值函数V(s_n)＝r_n+V(s_n+1)*γ，γ是折扣因子。值函数可以评价状态和动作的好坏程度。

基于DDPG算法的神经网络模型可以包括在线网络和目标网络。其中，在线网络可以包括策略网络1和值网络1，目标网络可以包括策略网络2和值网络2。V代表值网络的输出，s代表状态对应的场景信息，a代表动作对应的控制参数信息。训练过程中，可以将样本中的系统状态对应的场景信息s_i输入策略网络1和策略网络2，策略网络1可以输出动作对应的控制参数信息a_i，策略网络2可以输出动作对应的控制参数信息a_i’。然后可以将s_i和a_i输入值网络1，将s_i和a_i’输入值网络2。值网络1和值网络2可以根据V(s_i)＝r_i+V(s_i+1)*γ计算值函数1为V和值函数2为V’。

DDPG算法为了解决过估计问题，采用了两套值网络和策略网络，第二套值网络和策略网络为目标值网络和目标策略网络，其初始参数与第一套网络相同。

下面介绍策略网络和值网络更新公式的示例。

值网络1的输出可以表示为V(s,a|θ^V)，其中，V代表值网络，s代表状态，a代表动作，θ^V为值网络参数。

策略网络的输出可以表示为μ(s|θ^μ)。其中，μ代表策略网络，θ^μ为策略网络参数。

值网络2的目标y是目标值，策略梯度(Policy gradient)包括策略网络的更新公式，值损失函数(Value loss function)包括值网络的更新公式。

值网络1更新公式为：

其中，L为损失函数，N为预测时域。y_i＝r_i+γV’(s_i+1,μ’(s_i+1|θ^μ’)|θ^V’)。V为值网络1的输出，s_i为第一场景信息，a_i代表第一控制参数，s_i+1为第二场景信息，i可以表示时刻。θ^V为第一值网络的参数，θ^V′为第二值网络的参数。基于该公式可以基于最小化的损失L更新值网络1。

策略网络1更新公式为：

其中，

为策略梯度，θ^μ为策略网络1的参数，s代表状态，a代表动作，θ^V为值网络参数，μ(s|θ^μ)表示策略网络1的输出，V(s,a|θ^V)表示值网络1的输出。基于该公式可以采用梯度下降的方式更新策略网络1。

值网络2更新公式为：θ^V′←τθ^V+(1-τ)θ^V′。其中，θ^V为值网络1的参数，θ^V′为值网络2的参数。基于值网络1的参数和值网络2的参数可以更新值网络2的参数。

策略网络2更新公式为：θ^μ′←τθ^μ+(1τ)θ^μ′。其中，θ^μ为策略网络1的参数，θ^μ′为策略网络2的参数。基于策略网络1的参数和策略网络2的参数可以更新策略网络2的参数。

下面介绍一种回报函数r(i)的示例。

r(i)＝b₁r₁(i)+b₂r₂(i)+b₃r₃(i)+b₄r₄(i)，该回报函数中各项回报分别为：

1.误差回报

e(i)表示当前时刻i的误差。g(e)表示e(i)的线性函数。∈为允许的误差范围。A和-A表示具体的误差回报值。e(i)小于∈该范围则说明误差已经很小了，无需调整，可以给一个较大的正的回报。误差e(i)超过∈且不到∈_max则可以给一个连续的负回报。超过∈_max则可以给一个较大的负的回报。

2.误差变化率回报

如果下一时刻i+1误差增大，则给一个负的回报。B、-C表示具体的误差回报值。

3.控制量变化量回报r₃(i)＝Δu

对控制量的变化值也可以作为惩罚，给一个负的回报。

4.仿真度量(metric)回报r₄(i)＝∑r_4-j(i)，其中，j是从1到4，回报函数表示以下几项的和：碰撞回报r_4-1(i)、猛急刹回报r_4-2(i)、猛打方向回报r_4-3(i)和轨迹发生重新规划的回报r_4-4(i)。这几项仅是示例，也可以包括其他回报。

相关技术的方案通常采用线性插值的方法，简单的将场景划分为不同的速度、曲率、加速度等区间，之后人工根据经验调整相应的参数。但是需要调整的参数会很多，适配的效率很低。本方案基于强化学习方法，无需人工调参，可以自动化的找到最优的控制参数；大幅提高了适配的效率；方案中的预测时域权重衰减策略和精细化场景划分方法，进一步优化了控制的效果。

本方案基于强化学习方法，无需人工调参，可以自动化的找到最优的控制参数，大幅提高了适配的效率，方案中的预测时域权重衰减策略和精细化场景划分方法，进一步优化了控制的效果。

需要说明的是，本公开实施例中对各功能单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。在本公开的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)或处理器(processor)执行本公开各个实施例提供的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，本公开还提供了一种自动驾驶车辆，可以包括用于用来实施本公开的实施例的自动驾驶控制参数模型的训练方法或控制参数的获取方法的电子设备。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如自动驾驶控制参数模型的训练方法或控制参数的获取方法。例如，在一些实施例中，自动驾驶控制参数模型的训练方法或控制参数的获取方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的自动驾驶控制参数模型的训练方法或控制参数的获取方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行自动驾驶控制参数模型的训练方法或控制参数的获取方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种自动驾驶控制参数模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，所述自动驾驶场景信息包括以下至少之一：

速度、曲率、横向位置误差、横向航向角误差、纵向位置误差、纵向速度误差、纵向加速度误差、期望速度、期望加速度、期望横向位移和期望航向角。

3.根据权利要求1或2所述的方法，其中，所述控制参数包括以下至少之一：

横向前进的Q值、横向前进的R₁值、横向前进的R₂值、横向衰减值、纵向的Q值、纵向的R₁值、纵向的R₂值和纵向衰减值；

其中，所述Q值表示模型预测控制MPC算法的目标函数中的误差项惩罚权重，所述R₁值表示所述目标函数中的控制量的惩罚权重，所述R₂值表示所述目标函数中的控制量增量的惩罚权重。

4.根据权利要求1至3中任一项所述的方法，其中，将自动驾驶场景信息输入第一控制参数模型，得到所述第一控制参数模型输出的控制参数，包括：

将第一场景信息输入第一控制参数模型的第一策略网络进行处理，得到所述第一策略网络输出的第一控制参数。

5.根据权利要求4所述的方法，其中，根据所述控制参数与动力学仿真环境交互，以获取训练样本，包括：

根据衰减系数对所述第一控制参数中的Q值进行衰减处理，并将衰减的Q值带入控制模型的目标函数以计算控制量，其中，所述Q值表示控制模型的目标函数中的误差项惩罚权重；

利用所述控制量与所述动力学仿真环境交互，得到所述动力学仿真环境输出的仿真交互结果，所述仿真交互结果包括第二场景信息；

根据所述第一场景信息和所述仿真交互结果计算回报函数值；以及

根据所述第一场景信息、所述第一控制参数、所述回报函数值和所述第二场景信息，获取样本数据。

6.根据权利要求5所述的方法，其中，所述回报函数值是根据误差回报值、误差变化率回报值、控制量变化量回报值和仿真度量回报值确定的。

7.根据权利要求5或6所述的方法，其中，根据所述第一场景信息、所述第一控制参数、所述回报函数值和所述第二场景信息，获取样本数据，包括：

8.根据权利要求7所述的方法，其中，根据所述控制参数与动力学仿真环境交互，以获取训练样本，还包括：

将多个所述样本数据加入回放池；以及

对所述回放池中的多个所述样本数据进行采样，得到训练样本。

9.根据权利要求1至8中任一项所述的方法，其中，所述训练样本中包括第一场景信息、第一控制参数、回报函数值和第二场景信息；所述第一控制参数模型包括第一策略网络、第一值网络、第二策略网络和第二值网络；根据所述训练样本对所述第一控制参数模型进行更新，得到训练后的第二控制参数模型，包括：

将所述第一场景信息分别输入所述第一策略网络和第二策略网络进行处理，得到所述第一策略网络输出的第一控制参数以及所述第二策略网络输出的第二控制参数；

将所述第一场景信息和所述第一控制参数输入所述第一值网络进行处理，得到所述第一值网络输出的第一值函数；

将所述第一场景信息和所述第二控制参数输入所述第二值网络进行处理，得到所述第二值网络输出的第二值函数；以及

根据所述训练样本、所述第一值函数和所述第二值函数，对所述第一控制参数模型进行更新，得到训练后的第二控制参数模型。

10.根据权利要求9所述的方法，其中，根据所述训练样本、所述第一值函数和所述第二值函数，对所述第一控制参数模型进行更新，得到训练后的第二控制参数模型，包括：

11.一种控制参数的获取方法，包括：

其中，所述自动驾驶控制参数模型是采用权利要求1至10中任一项所述的训练方法进行训练得到的第二控制参数模型。

12.一种自动驾驶控制参数模型的训练装置，包括：

训练模块，用于根据所述训练样本对所述第一控制参数模型进行更新，得到训练后的第二控制参数模型。

13.根据权利要求12所述的装置，其中，所述自动驾驶场景信息包括以下至少之一：

14.根据权利要求12或13所述的装置，其中，所述控制参数包括以下至少之一：

15.根据权利要求12至14中任一项所述的装置，其中，所述输入模块，包括：

输入子模块，用于将第一场景信息输入第一控制参数模型的第一策略网络进行处理，得到所述第一策略网络输出第一控制参数。

16.根据权利要求15所述的装置，其中，所述获取模块，包括：

处理子模块，用于根据衰减系数对所述第一控制参数中的Q值进行衰减处理，并将衰减的Q值带入控制模型的目标函数以计算控制量，其中，所述Q值表示控制模型的目标函数中的误差项惩罚权重；

交互子模块，用于利用所述控制量与所述动力学仿真环境交互，得到所述动力学仿真环境输出的仿真交互结果，所述仿真交互结果包括第二场景信息；

计算子模块，用于根据所述第一场景信息和所述仿真交互结果计算回报函数值；以及

获取子模块，用于根据所述第一场景信息、所述第一控制参数、所述回报函数值和所述第二场景信息，获取样本数据。

17.根据权利要求16所述的装置，其中，所述回报函数值是根据误差回报值、误差变化率回报值、控制量变化量回报值和仿真度量回报值确定的。

18.根据权利要求16或17所述的装置，其中，所述获取子模块，还用于：

19.根据权利要求18所述的装置，其中，所述获取模块还包括：

回放子模块，用于将多个所述样本数据加入回放池；以及

采样子模块，用于对所述回放池中的多个所述样本数据进行采样，得到训练样本。

20.根据权利要求12至19中任一项所述的装置，其中，所述训练样本中包括第一场景信息、第一控制参数、回报函数值和第二场景信息，所述第一控制参数模型包括第一策略网络、第一值网络、第二策略网络和第二值网络；所述训练模块包括：

策略网络子模块，用于将所述第一场景信息分别输入所述第一策略网络和第二策略网络进行处理，得到所述第一策略网络输出的第一控制参数以及所述第二策略网络输出的第二控制参数；

值网络子模块，用于将所述第一场景信息和所述第一控制参数输入所述第一值网络进行处理，得到所述第一值网络输出的第一值函数；将所述第一场景信息和所述第二控制参数输入所述第二值网络进行处理，得到所述第二值网络输出的第二值函数；以及

更新子模块，用于根据所述训练样本、所述第一值函数和所述第二值函数，对所述第一控制参数模型进行更新，得到训练后的第二控制参数模型。

21.根据权利要求20所述的装置，其中，所述更新子模块用于：

22.一种控制参数的获取装置，包括：

其中，所述自动驾驶控制参数模型是采用权利要求12至21中任一项所述的训练装置进行训练得到的第二控制参数模型。

23.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。

24.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-11中任一项所述的方法。

25.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-11中任一项所述的方法。

26.一种自动驾驶车辆，包括如权利要求23所述的电子设备。