CN116653993B

CN116653993B - 油门灵敏度控制模型的训练方法、灵敏度控制方法及装置

Info

Publication number: CN116653993B
Application number: CN202310222624.7A
Authority: CN
Inventors: 张虎; 周元清; 何俊达; 王奔; 张梦杰; 何华
Original assignee: Guangzhou Automobile Group Co Ltd
Current assignee: Guangzhou Automobile Group Co Ltd
Priority date: 2023-03-08
Filing date: 2023-03-08
Publication date: 2024-04-05
Anticipated expiration: 2043-03-08
Also published as: CN116653993A

Abstract

本申请公开了一种油门灵敏度控制模型的训练方法、油门灵敏度控制方法、装置、电子设备以及存储介质，该油门灵敏度控制模型的训练方法包括：获得多个采样数据，每个采样数据包括：样本车辆在第一时刻的驾驶数据；基于所述多个采样数据进行强化学习，获得所述油门灵敏度控制模型，其中，所述油门灵敏度控制模型用于基于车辆的驾驶数据确定车辆的油门灵敏度状态，所述油门灵敏度状态用于表征油门踏板深度值与油门动力输出值的关系。也即避免了驾驶员手动调节油门踏板灵敏度，实现了油门灵敏度在不同驾驶环境下的自适应调节。

Description

油门灵敏度控制模型的训练方法、灵敏度控制方法及装置

技术领域

本申请涉及智能驾驶技术领域，更具体地，涉及一种油门灵敏度控制模型的训练方法、油门灵敏度控制方法、装置、电子设备以及存储介质。

背景技术

驾驶风格是指驾驶员在长期的驾驶过程中所积累形成的、具有一定规律性的驾驶行为倾向，它受不同的人群、性别、年龄、性格等因素的影响。不同驾驶员的驾驶风格具有一定的差异性。同时，即使对于同一位驾驶员，在面对不同的道路状况、天气或心情时，其驾驶风格有时也表现出一样的差异。比如，在操纵车辆的方式上，激进型的驾驶者会选择更高的速度和加速度，且会在车辆和路况条件准许的情况下对车辆进行更频繁的加速、减速操作，从而更快地到达目的地，避免过多的等待；而保守型的驾驶者出于对安全因素的顾虑，亦或是驾驶技术的不熟练，其驾驶车辆时的各种操作都更为平稳，车速的绝对值和变化率往往都低于前者，很少出现急加速或急减速的情况。

为适应于不同用户的需求，目前的解决方案通常是设定几种模式供用户选择，如：运动模式、普通模式、舒适模式等。显然，有限的模式无法适用于所有情况，也无法根据不同的驾驶情况和驾驶人员进行自适应调节。

发明内容

鉴于上述问题，本申请提出了一种油门灵敏度控制模型的训练方法、油门灵敏度控制方法、装置、电子设备以及存储介质。

第一方面，本申请实施例提供了一种油门灵敏度控制模型的训练方法，所述方法包括：获得多个采样数据，每个采样数据包括：车辆在第一时刻的驾驶数据，其中，车辆的驾驶数据包含：车辆状态数据和/或驾驶员操作数据；基于所述多个采样数据进行强化学习，获得所述油门灵敏度控制模型，其中，所述油门灵敏度控制模型用于基于车辆的驾驶数据确定车辆的油门灵敏度状态，所述油门灵敏度状态用于表征油门踏板深度值与油门动力输出值的关系。

第二方面，本申请实施例提供了一种油门灵敏度控制方法，所述方法包括：获取车辆的驾驶数据，所述车辆的驾驶数据包含：车辆状态数据和/或驾驶员操作数据；将所述驾驶数据输入油门灵敏度控制模型获得油门灵敏度控制状态，所述油门灵敏度控制模型基于上述第一方面提供的所述的油门灵敏度控制模型的训练方法训练而成；根据所述油门灵敏度控制状态和所述车辆的油门踏板深度值，确定所述车辆的油门动力输出值。

第三方面，本申请实施例提供了一种油门灵敏度控制模型的训练装置，所述装置包括：采样数据获取模块，用于获得多个采样数据，每个采样数据包括：车辆在第一时刻的驾驶数据，其中，车辆的驾驶数据包含：车辆状态数据和/或驾驶员操作数据；油门灵敏度控制模型获取模块，用于基于所述多个采样数据进行强化学习，获得所述油门灵敏度控制模型，其中，所述油门灵敏度控制模型用于基于车辆的驾驶数据确定车辆的油门灵敏度状态，所述油门灵敏度状态用于表征油门踏板深度值与油门动力输出值的关系。

第四方面，本申请实施例提供了一种油门灵敏度控制装置，所述装置包括：驾驶数据获取模块，用于获取车辆的驾驶数据，所述车辆的驾驶数据包含：车辆状态数据和/或驾驶员操作数据；油门灵敏度控制状态获取模块，用于将所述驾驶数据输入油门灵敏度控制模型获得油门灵敏度控制状态，所述油门灵敏度控制模型基于上述第一方面提供的所述的油门灵敏度控制模型的训练方法训练而成；油门动力输出度确定模块，用于根据所述油门灵敏度控制状态和所述车辆的油门踏板深度，确定所述车辆的油门动力输出度。

第五方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述第一方面提供的油门灵敏度控制模型的训练方法以及第二方面提供的油门灵敏度控制方法。

第六方面，本申请实施例提供了一种计算机可读取存储介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述第一方面提供的油门灵敏度控制模型的训练方法以及第二方面提供的油门灵敏度控制方法。

本申请提供的方案，油门灵敏度控制模型的训练引入了强化学习算法，强化学习算法中融入了车辆的多个驾驶数据，充分考虑到驾驶员行驶过程中的各个习惯或者车辆的状态，避免了驾驶员手动调节油门踏板灵敏度，实现了油门灵敏度在不同驾驶环境下的自适应调节。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提供的油门灵敏度控制模型的训练方法的流程示意图。

图2示出了本申请一实施例提供的油门灵敏度控制方法的流程示意图。

图3示出了本申请实施例提供的一种油门灵敏度控制方法的调节示意图。

图4示出了本申请提供的一种动力输出度与油门踏板深度的自适应关系示意图。

图5示出了本申请实施例提供的油门灵敏度控制模型的训练装置的结构框图。

图6示出了本申请实施例提供的油门灵敏度控制装置的结构框图。

图7示出了本申请实施例提供的用于执行根据本申请实施例的车辆授权服务方法的电子设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

针对背景技术提出的技术问题，发明人提出了一种油门灵敏度控制方法、油门灵敏度控制方法、装置、电子设备以及存储介质，油门灵敏度控制模型的训练引入了深度强化学习算法，深度强化学习算法中融入了车辆的多个驾驶数据，充分考虑到驾驶员行驶过程中的各个习惯或车辆的状态信息，避免了驾驶员手动调节油门踏板灵敏度，实现了油门灵敏度在不同驾驶环境下的自适应调节。

请参阅图1，图1示出了本申请一实施例提供的油门灵敏度控制模型的训练方法的流程示意图。在具体的实施例中，所述油门灵敏度控制模型的训练方法应用于如图5所示的油门灵敏度控制模型的训练装置300以及配置有所述油门灵敏度控制模型的训练装置300的电子设备100。

下面将针对图1所示的流程进行详细的阐述，所述油门灵敏度控制模型的训练方法具体可以包括以下步骤：

步骤S110：获得多个采样数据，每个采样数据包括：样本车辆在第一时刻的驾驶数据，其中，车辆的驾驶数据包含：车辆状态数据和/或驾驶员操作数据。

车辆状态包括但不限于平均速度、最大速度、速度标准差、加速度、平均加速度、最大加速度、加速度标准差、平均减速度、最大减速度以及减速度标准差。

平均速度v_a的计算公式可以为：其中，T表示对样本车辆采集驾驶数据的采集片段时长，N代表单个采集片段内的采集的数据个数，v_i为单个采集片段内各个时刻对应的车速。

最大速度v_max是指单个采集片段内最大的驾驶速度，计算公式为：v_max＝max{v_i}，i＝1,2,3,...,N 公式2速度标准差S_v通过单个采集片段内的最大速度与平均速度计算获得，具体计算公式为：

加速度的计算公式为：其中，a_i,i-1为第i秒和第i-1秒之间的加速度，v_i代表第i秒的驾驶车速，v_i-1第i-1秒的驾驶车速，t_i代表第i秒，t_i-1第i-1秒的时刻。

平均加速度：其中a_i为样本车辆在该时刻的瞬时加速度数值，T_a为样本车辆行驶过程中加速行为所持续的时间。

最大加速度是指样本车辆行驶过程中加速行为中所达到的最大加速度：a_max＝max{a_i}，i＝1,2,3,...,N。

加速度标准差S_a与平均加速度以及瞬时加速度有关，具体公式为：

平均减速度d_a的计算公式为：其中a_i2为样本车辆在该时刻的瞬时加速度数值，T_d为样本车辆行驶过程中减速行为所持续的时间。

最大减速度是指样本车辆行驶过程中减速行为中所达到的最大减速度：d_max＝min{a_i}，i＝1,2,3,...,N。

减速度标准差S_d与平均减速度以及瞬时减速度有关，具体计算公式为：

驾驶员操作数据可以包括平均油门踏板开度、油门踏板开度标准差、平均制动踏板开度以及制动踏板开度标准差。

平均油门踏板开度t_a的计算公式为：其中，t_i为样本车辆在该时刻的油门踏板开度，T_t为样本车辆在该运动片段中油门踏板被触发的总时间。

油门踏板开度标准差S_t与平均油门踏板开度以及瞬时油门踏板开度有关，具体计算公式为：

平均制动踏板开度：其中，b_i为样本车辆在该时刻的油门踏板开度，T_b为样本车辆在该运动片段中制动踏板被触发的总时间。

制动踏板开度标准差S_b计算公式为：

通过公式1～公式12计算获得的样本车辆的驾驶数据。

步骤S120：基于所述多个采样数据进行强化学习，获得所述油门灵敏度控制模型，其中，所述油门灵敏度控制模型用于基于样本车辆的驾驶数据确定车辆的油门灵敏度状态，所述油门灵敏度状态用于表征油门踏板深度值与油门动力输出值的关系。

强化学习是机器学习的范式和方法论之一，用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。本申请方案中，多个采样数据进行强化学习以实现基于样本车辆的驾驶数据确定车辆的油门灵敏度状态。

在一些具体实施方式中，油门灵敏度控制模型的获取包括：构建初始化的强化学习模型，所述油门灵敏度控制模型包含：初始策略网络、初始评价网络、目标策略网络、目标评价网络，对所述初始策略网络与所述目标策略网络赋予相同的参数，对所述目标策略网络与所述目标评价网络赋予相同的参数；针对所述多个采样数据中的每个采样数据执行以下动作以获得多组训练数据：将样本车辆在第一时刻的驾驶数据输入所述初始策略网络，获得初始驾驶动作；执行所述初始驾驶动作，确定所述初始驾驶动作对应的奖励值和样本车辆在第一时刻的下一时刻的驾驶数据；其中，所述初始驾驶动作包含：油门踏板输入值和油门动力输出值，每组训练数据包含：初始驾驶数据、初始驾驶动作、所述初始驾驶动作对应的奖励值、目标驾驶数据，所述初始驾驶数据为样本车辆在第一时刻的驾驶数据，所述目标驾驶数据为样本车辆在第一时刻的下一时刻的驾驶数据；通过所述多组训练数据对所述初始化的强化学习模型进行训练，以获得所述油门灵敏度控制模型。

策略网络优选为Actor网络，训练过程中，Actor网络作为动作者，Actor网络将获取得到的车辆状态以及动作空间获取车辆状态对应的驾驶动作。再基于驾驶数据执行初始驾驶动作，获取与初始驾驶动作对应的奖励值。

动作空间主要是指油门踏板深度和动力输出度两个指标，在不同的模式下，对应不同的油门踏板深度值以及不同的动力输出值。例如，在正常模式下，20％的油门踏板深度值，对应于20％的动力输出值。在运动模式下，踩10％的油门则相当于正常模式下踩20％-30％的油门。为了实现油门灵敏度的无极变化和对驾驶环境的自适应调节，设定油门踏板深度值a₁在[0～1]范围内变化，油门动力输出值a₂也在[0～1]范围内变化，即智能体的动作空间A＝{a₁,a₂}。

驾驶动作包括但不限于踩下油门踏板以及松开油门踏板，驾驶动作由驾驶策略决定。

奖励值可以是根据车辆驾驶数据进行评价的评价值，根据用户习惯对车辆驾驶动作对应的多个指标进行计算。本申请实施例中，奖励值与驾驶习惯适应性指标、驾驶安全性指标、驾驶舒适性指标以及经济性指标相关。

根据所述样本车辆在第一时刻的下一时刻的驾驶数据对应的第二纵向加速度决策以及所述样本车辆在第一时刻的驾驶数据对应的第一纵向加速度决策；根据所述第一纵向加速度决策、第二纵向加速度决策以及适应性权重系数，获取所述样本车辆的驾驶习惯适应性指标；

驾驶习惯适应性指标J₁计算公式为：J₁＝w_d(a_href(k)-a_h(k))² 公式13

其中，a_href(k)是第一车辆状态下的参考驾驶人纵向加速度决策，a_h(k)是第一车辆状态的前一状态下的参考驾驶人纵向加速度决策，w_d表示权重系数。

根据所述第一时刻的下一时刻时所述样本车辆与前车之间对应的车间距误差、车间距误差对应的车间距误差权重系数、所述第一时刻的下一时刻时所述样本车辆与前车之间相对车速以及相对车速对应的相对车速权重系数，获取所述样本车辆的驾驶安全性指标；

驾驶安全性指标J₂对应的计算公式为：J₂＝w_vΔv²+w_dΔd² 公式14

Δv＝v₁-v₂ 公式15

Δd＝d-(τ_hv_h+d₀) 公式16

其中，Δv为前车车速与样本车辆车速之间的差值，v₁为前车车速，v₂为本车车速，Δd为车间距误差，d为标准车间距，τ_h为跟车时距，v_h为当前车速，d₀为最小车间距，w_v为相对车速对应的权重系数，w_d为车间距误差对应的权重系数。

在一些实施方式中，当样本车辆在行驶过程中无前车时，Δv为固定值，Δv由用户进行设定，在此不做具体限定。

通过公式14求得相对车速，通过公式15求得车间距误差，再根据公式16计算获得驾驶安全性指标。

根据所述第一纵向加速度决策、所述第一时刻的上一时刻对应的纵向加速度以及所述第一时刻的上一时刻与所述第一时刻之间的时间差，获取所述样本车辆的驾驶舒适性指标；

驾驶舒适性指标J₃的计算公式：

其中，a_h(k)是第一车辆状态的前一状态下的参考驾驶人纵向加速度决策，a_h(k)是第一车辆状态的前一状态的前一状态下的参考驾驶人纵向加速度决策，T_s为第一车辆状态的前一状态与第一车辆状态的前一状态的前一状态之间的时间差。

根据预设历史时长内的样本车辆的车辆加速度矩阵、所述车辆加速度矩阵的逆矩阵以及经济性权重系数，获取所述车辆的经济性指标；

经济性指标J₄的计算公式是：J₄＝uQu^T 公式18其中，u为固定历史时窗内的车辆的加速度矩阵，u^T为车辆的加速度的逆矩阵，Q加速度矩阵的权重系数。

固定历史时窗内是一个设定的值，比如说60s。时间窗内的加速度矩阵可理解为，以1s为间隔，得到的各个加速度组成的矩阵。固定历史时窗由用户设定，在此不做具体限定。

根据所述驾驶习惯适应性指标、驾驶安全性指标、驾驶舒适性指标以及经济性指标之和获取所述奖励值。

通过公式13～18，计算可得驾驶习惯适应性指标、驾驶安全性指标、驾驶舒适性指标以及经济性指标，奖励值R的计算公式为：R＝J₁+J₂+J₃+J₄ 公式19

驾驶习惯适应性指标、驾驶安全性指标、驾驶舒适性指标以及经济性指标之和为奖励值，并将样本车辆第一时刻对应的奖励值记录于训练数据中。

w_d、w_v、w_d以及Q在训练开始时可以是相同权重值，在训练过程中，根据用户习惯，对多个权重系数进行调整，在训练结束后，获得与用户习惯对应的权重系数。

具体的，从所述多组训练数据中获取预设数量的训练数据；将所述预设数量的训练数据中的所述初始驾驶动作以及所述初始驾驶数据输入所述初始评价网络，确定初始状态动作价值；将所述预设数量的训练数据中的所述目标驾驶数据输入所述目标策略网络，获取所述目标驾驶数据对应的目标驾驶动作；将所述目标驾驶数据以及所述目标驾驶动作输入目标评价网络，确定所述目标驾驶数据对应的目标状态动作价值；根据所述奖励值、所述初始状态动作价值和所述目标状态动作价值对所述初始评价网络的参数进行更新，根据更新后的初始评价网络的参数对所述目标评价网络的网络参数进行更新；根据所述初始状态动作价值对所述初始策略网络的参数进行更新，根据更新后的初始策略网络的参数对所述目标策略网络的参数进行更新，直至达到模型训练结束条件，从而获得所述油门灵敏度控制模型。

预设数量由用户进行确定，在此不做限定，在本申请中，预设数量优选为32组。

评价网络为策略网络的评价者，它对当前状况下策略网络做出动作的好坏进行评价，指导策略网络选取可以获得最大状态动作价值的动作。

将所述预设数量的训练数据中的所述初始驾驶动作以及所述初始驾驶数据输入所述初始评价网络，获取初始驾驶动作对应的初始状态动作价值Q(s_t,a_t|θ^Q)。

将所述预设数量的训练数据中的所述目标驾驶数据输入所述目标策略网络，获取所述目标驾驶数据对应的目标驾驶动作；将所述目标驾驶数据以及所述目标驾驶动作输入目标评价网络，确定所述目标驾驶数据对应的目标状态动作价值Q′(s_t+1，μ′(s_t+1|θ^μ′)iθ^Q′)。

计算目标评价网络中的目标Q值y_t的公式是：

y_t＝r_t+YQ′(s_t+1，μ′(s_t+1|θ^μ′）|θ^Q′）公式20

其中，γ是折扣因子，r_t是样本车辆第一时刻对应的奖励值，Q′(s_t+1，μ′(s_t+1|θ^μ′)|θ^Q′)为目标评价网络对于样本车辆对应的目标状态动作价值，S_t+1是样本车辆的目标驾驶数据，μ′是样本车辆的目标驾驶动作。

根据所述奖励值、所述初始状态动作价值和所述目标状态动作价值获取损失函数L(θ^Q)，根据损失函数均值对所述初始评价网络的参数进行更新，损失函数均值为：

其中，m为预设数量。

根据更新后的初始评价网络的参数对所述目标评价网络的网络参数进行更新，根据更新系数τ，τ∈(0，1)获得更新后的主评价网络的参数θ^Q′，更新参数τ可以进行手动调节，更新公式为：θ^Q′←τθ_t|θ^Q+(1-τ)θ^Q′ 公式22

其中，τ取值通常极小，因此更新速度较慢，但稳定性较高，易于收敛。

对初始策略网络参数进行更新可以根据多个训练样本以及梯度下降方法对所述第一策略网络的策略网络参数进行更新。

阶梯下降公式为：

用阶梯下降公式对第一策略网络的策略网络参数进行更新。

更新后的策略网络参数对主策略网络的参数进行更新，通过更新公式获得主策略网络的参数θ^μ′，更新公式为：θ^μ'←τθ^μ|θ^Q+(1-τ)θ^μ' 公式24其中，更新系数τ的取值由用户进行确定。

在对目标网络的目标网络参数进行更新后，需要清空训练数据，避免训练数据的存在带来参数更新的误差，导致模型训练失败。

当第一评价网络以及第一策略网络达到网络收敛或到达最大训练回合时，表示该轮训练结束。

本申请提供的方案，油门灵敏度控制模型的训练引入了深度强化学习算法，深度强化学习算法中融入了车辆的多个驾驶数据，充分考虑到驾驶员行驶过程中的各个习惯，使得训练后的车辆的油门灵敏度更贴近驾驶员习惯，避免了驾驶员手动调节油门踏板灵敏度，实现了油门灵敏度在不同驾驶环境下的自适应调节。

请参阅图2，图2示出了本申请一实施例提供的油门灵敏度控制方法的流程示意图。所述油门灵敏度控制方法应用于如图6所示的油门灵敏度控制装置400以及配置有所述油门灵敏度控制装置400的电子设备100。下面将针对图2所示的流程进行详细的阐述，所述油门灵敏度控制方法具体可以包括以下步骤：

步骤S210：获取车辆的驾驶数据，所述车辆的驾驶数据包含：车辆状态数据和/或驾驶员操作数据。

车辆的驾驶数据的获取方式参照步骤S110中的样本车辆的驾驶数据获取方式，在此不再赘述。

步骤S220：将所述驾驶数据输入油门灵敏度控制模型获得油门灵敏度控制状态，所述油门灵敏度控制模型上述任一油门灵敏度控制模型的训练实施例训练而成。

步骤S230：根据所述油门灵敏度控制状态和所述车辆的油门踏板深度，确定所述车辆的油门动力输出度。

通过油门灵敏度控制模型得到的油门灵敏度控制状态可以获取得到车辆当前的驾驶数据于油门动力输出度的关系，再根据车辆的油门踏板深度值确定与油门踏板深度值对应的油门动力输出值，。无需用户手动调节来改变油门的灵敏度，而是深度强化学习算法，设定驾驶环境的状态特征表示、动作和考虑多种因素的奖励函数，训练智能体来根据不同的驾驶习惯和驾驶环境进行油门灵敏度的自适应调节。

请参阅图3，其示出了本申请实施例提供的一种油门灵敏度控制方法的调节示意图。

车辆上的个性化驾驶数据感知模块获取驾驶员日常的驾驶习惯数据，该数据由CAN总线数据记录仪、踏板等传感器进行记录，记录仪的采样频率设置为仪器的采样频率设置为1Hz，即每秒记录一组数据。驾驶习惯数据包括车辆状态数据以及驾驶员操作数据等，统称为车辆状态。油门灵敏度控制模型中的Actor网络以及Critic网络对获取到的车辆状态进行深度学习，并将动力输出值与油门踏板深度值的关系发送给油门灵敏度调节模块，油门灵敏度调节模块对车辆的油门灵敏度进行自适应调节，油门灵敏度控制模型在深度学习过程中，油门灵敏度控制模型还会对车辆状态发送给决策评价模块，对车辆状态对应的驾驶习惯适应性指标、驾驶安全性指标、驾驶舒适性指标以及经济性指标进行评价，以获取适应驾驶员习惯且符合驾驶习惯适应性指标、驾驶安全性指标、驾驶舒适性指标以及经济性指标的动力输出度。

动力输出度与油门踏板深度的自适应关系请参阅图4。图4示出了本申请提供的一种动力输出度与油门踏板深度的自适应关系示意图。运动模式、普通模式以及舒适模式为现有技术中车辆的三种行驶模式。从图4可以看出，运动模式更注重动力输出度，舒适模式更注重行驶过程中的舒适性，运动模式相对于普通模式以及舒适模式，同样的油门深度，动力输出度不同，在油门踏板深度达到40％时，运动模式的动力输出度高达70％，逼近80％。而舒适模式下，动力输出度未达20％。普通模式下，动力输出度达30％。由此可以看出，运动模式下油门灵敏度更高，舒适模式下油门灵敏度较低。在图5中，自适应曲线1与自适应曲线2是通过油门灵敏度控制模型生成的，从自适应曲线1与自适应曲线2可以看出，相同的踏板深度下，自适应曲线1与自适应曲线2的动力输出度相差不大，动力输出度差值最大只有30％，而运动模式与舒适模式之间的动力输出度差值最大可达70％。由此观之，由油门灵敏度控制模型生成的自适应曲线从驾驶习惯适应性指标、驾驶安全性指标、驾驶舒适性指标以及经济性指标多方面进行了考虑，为用户提供了相应的驾驶策略。

请参阅图5，其示出了本申请实施例提供的一种油门灵敏度控制模型的训练装置300的结构框图。该油门灵敏度控制模型的训练装置300应用于电子设备100，该油门灵敏度控制模型的训练装置300包括：采样数据获取模块310，用于获得多个采样数据，每个采样数据包括：车辆在第一时刻的驾驶数据，其中，车辆的驾驶数据包含：车辆状态数据和/或驾驶员操作数据；油门灵敏度控制模型获取模块320，用于基于所述多个采样数据进行强化学习，获得所述油门灵敏度控制模型，其中，所述油门灵敏度控制模型用于基于车辆的驾驶数据确定车辆的油门灵敏度状态，所述油门灵敏度状态用于表征油门踏板深度值与油门动力输出值的关系。

具体的，所述车辆状态数据包括以下至少一种数据：平均速度、最大速度、速度标准差、加速度、平均加速度、最大加速度、加速度标准差、平均减速度、最大减速度、减速度标准差、平均油门踏板开度、油门踏板开度标准差、平均制动踏板开度以及制动踏板开度标准差；所述驾驶员操作数据包含以下至少一种数据：平均油门踏板开度、油门踏板开度标准差、平均制动踏板开度、制动踏板开度标准差。

在本申请的一些实施方式中，油门灵敏度控制模型获取模块320还包括：模型构建模块，用于构建初始化的强化学习模型，所述油门灵敏度控制模型包含：初始策略网络、初始评价网络、目标策略网络、目标评价网络，对所述初始策略网络与所述目标策略网络赋予相同的参数，对所述目标策略网络与所述目标评价网络赋予相同的参数；训练数据获取模块，用于针对所述多个采样数据中的每个采样数据执行以下动作以获得多组训练数据：将样本车辆在第一时刻的驾驶数据输入所述初始策略网络，获得初始驾驶动作；执行所述初始驾驶动作，确定所述初始驾驶动作对应的奖励值和样本车辆在第一时刻的下一时刻的驾驶数据；其中，所述初始驾驶动作包含：油门踏板输入值和油门动力输出值，每组训练数据包含：初始驾驶数据、初始驾驶动作、所述初始驾驶动作对应的奖励值、目标驾驶数据，所述初始驾驶数据为样本车辆在第一时刻的驾驶数据，所述目标驾驶数据为样本车辆在第一时刻的下一时刻的驾驶数据；油门灵敏度控制模型训练模块，用于通过所述多组训练数据对所述初始化的强化学习模型进行训练，以获得所述油门灵敏度控制模型。

在本申请的一些实施方式中，训练数据获取模块还包括：预设数量的训练数据获取模块，用于从所述多组训练数据中获取预设数量的训练数据；初始状态动作价值确定模块，用于将所述预设数量的训练数据中的所述初始驾驶动作以及所述初始驾驶数据输入所述初始评价网络，确定初始状态动作价值；目标状态动作价值确定模块，用于将所述预设数量的训练数据中的所述目标驾驶数据输入所述目标策略网络，获取所述目标驾驶数据对应的目标驾驶动作；将所述目标驾驶数据以及所述目标驾驶动作输入目标评价网络，确定所述目标驾驶数据对应的目标状态动作价值；目标评价网络的网络参数更新模块，用于根据所述奖励值、所述初始状态动作价值和所述目标状态动作价值对所述初始评价网络的参数进行更新，根据更新后的初始评价网络的参数对所述目标评价网络的网络参数进行更新；目标策略网络的参数更新模块，用于根据所述初始状态动作价值对所述初始策略网络的参数进行更新，根据更新后的初始策略网络的参数对所述目标策略网络的参数进行更新，直至达到模型训练结束条件，从而获得所述油门灵敏度控制模型。

在本申请的一些实施方式中，训练数据获取模块还包括：样本车辆指标确定模块，用于执行所述初始驾驶动作之后，确定样本车辆的驾驶习惯适应性指标、驾驶安全性指标、驾驶舒适性指标、经济性指标；奖励值确定模块，用于基于样本车辆的驾驶习惯适应性指标、驾驶安全性指标、驾驶舒适性指标、经济性指标确定所述奖励值。

在本申请的一些实施方式中，样本车辆指标确定模块包括：纵向加速度决策获取模块，用于根据所述样本车辆在第一时刻的下一时刻的驾驶数据对应的第二纵向加速度决策以及所述样本车辆在第一时刻的驾驶数据对应的第一纵向加速度决策；根据所述第一纵向加速度决策、第二纵向加速度决策以及适应性权重系数，获取所述样本车辆的驾驶习惯适应性指标；驾驶安全性指标获取模块，用于根据所述第一时刻的下一时刻时所述样本车辆与前车之间对应的车间距误差、车间距误差对应的车间距误差权重系数、所述第一时刻的下一时刻时所述样本车辆与前车之间相对车速以及相对车速对应的相对车速权重系数，获取所述样本车辆的驾驶安全性指标；驾驶舒适性指标获取模块，用于根据所述第一纵向加速度决策、所述第一时刻的上一时刻对应的纵向加速度以及所述第一时刻的上一时刻与所述第一时刻之间的时间差，获取所述样本车辆的驾驶舒适性指标；经济性指标获取模块，用于根据预设历史时长内的样本车辆的车辆加速度矩阵、所述车辆加速度矩阵的逆矩阵以及经济性权重系数，获取所述车辆的经济性指标。

请参阅图6，请参阅图6，其示出了本申请实施例提供的一种油门灵敏度控制装置400的结构框图。该油门灵敏度控制装置400应用于电子设备100，该油门灵敏度控制装置400包括：驾驶数据获取模块410，用于获取车辆的驾驶数据，所述车辆的驾驶数据包含：车辆状态数据和/或驾驶员操作数据；油门灵敏度控制状态获取模块420，用于将所述驾驶数据输入油门灵敏度控制模型获得油门灵敏度控制状态，所述油门灵敏度控制模型基于上述任一实施例中的油门灵敏度控制模型的训练方法训练而成；油门动力输出度确定模块430，用于根据所述油门灵敏度控制状态和所述车辆的油门踏板深度，确定所述车辆的油门动力输出度。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参考图7，其示出了本申请实施例提供的一种电子设备的结构框图。该电子设备100可以交换机，也可以是计算机，或者是具有数据传输的控制单元。本申请中的电子设备100可以包括一个或多个如下部件：处理器110、存储器120、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digi气溶胶温度值al Signal Pro粒度浓度值essing，DSP)、现场可编程门阵列(Field－Programmable Ga气溶胶温度值e Array，FPGA)、可编程逻辑阵列(Programmable Logi粒度浓度值Array，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(粒度浓度值en气溶胶温度值ral Pro粒度浓度值essingUni气溶胶温度值，粒度浓度值PU)、图形处理器(Graphi粒度浓度值s Pro粒度浓度值essing Uni气溶胶温度值，GPU)和调制解调器等中的一种或几种的组合。其中，粒度浓度值PU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(Random A粒度浓度值粒度浓度值ess Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

本申请方案中还包括计算机可读存储介质，该计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质包括非易失性计算机可读介质(non-气溶胶温度值ransi气溶胶温度值ory粒度浓度值ompu气溶胶温度值er-readable s气溶胶温度值orage medium)。计算机可读存储介质具有执行上述方法中的任何方法步骤的程序代码的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种油门灵敏度控制模型的训练方法，其特征在于，所述方法包括：

获得多个采样数据，每个采样数据包括：样本车辆在第一时刻的驾驶数据，其中，驾驶数据包含：车辆状态数据和/或驾驶员操作数据；

构建初始化的强化学习模型，所述强化学习模型包含：初始策略网络、初始评价网络、目标策略网络、目标评价网络，对所述初始策略网络与所述目标策略网络赋予相同的参数，对所述目标策略网络与所述目标评价网络赋予相同的参数；

针对所述多个采样数据中的每个采样数据执行以下动作以获得多组训练数据：将样本车辆在第一时刻的驾驶数据输入所述初始策略网络，获得初始驾驶动作；执行所述初始驾驶动作，确定所述初始驾驶动作对应的奖励值和样本车辆在第一时刻的下一时刻的驾驶数据；其中，所述初始驾驶动作包含：油门踏板输入值和油门动力输出值，每组训练数据包含：初始驾驶数据、初始驾驶动作、所述初始驾驶动作对应的奖励值、目标驾驶数据，所述初始驾驶数据为样本车辆在第一时刻的驾驶数据，所述目标驾驶数据为样本车辆在第一时刻的下一时刻的驾驶数据；

通过所述多组训练数据对所述初始化的强化学习模型进行训练，以获得所述油门灵敏度控制模型。

2.如权利要求1所述的方法，其特征在于，所述通过所述多组训练数据对所述初始化的强化学习模型进行训练，包括：

从所述多组训练数据中获取预设数量的训练数据；

将所述预设数量的训练数据中的所述初始驾驶动作以及所述初始驾驶数据输入所述初始评价网络，确定初始状态动作价值；

将所述预设数量的训练数据中的所述目标驾驶数据输入所述目标策略网络，获取所述目标驾驶数据对应的目标驾驶动作；将所述目标驾驶数据以及所述目标驾驶动作输入目标评价网络，确定所述目标驾驶数据对应的目标状态动作价值；

根据所述奖励值、所述初始状态动作价值和所述目标状态动作价值对所述初始评价网络的参数进行更新，根据更新后的初始评价网络的参数对所述目标评价网络的网络参数进行更新；

根据所述初始状态动作价值对所述初始策略网络的参数进行更新，根据更新后的初始策略网络的参数对所述目标策略网络的参数进行更新，直至达到模型训练结束条件，从而获得所述油门灵敏度控制模型。

3.根据权利要求1所述的方法，其特征在于，所述执行所述初始驾驶动作，确定所述初始驾驶动作对应的奖励值，包括：

执行所述初始驾驶动作之后，确定样本车辆的驾驶习惯适应性指标、驾驶安全性指标、驾驶舒适性指标、经济性指标；

基于样本车辆的驾驶习惯适应性指标、驾驶安全性指标、驾驶舒适性指标、经济性指标确定所述奖励值。

4.根据权利要求3所述的方法，其特征在于，所述确定所述样本车辆的驾驶习惯适应性指标、驾驶安全性指标、驾驶舒适性指标、经济性指标，包括：

根据预设历史时长内的样本车辆的车辆加速度矩阵、所述车辆加速度矩阵的逆矩阵以及经济性权重系数，获取所述车辆的经济性指标。

5.根据权利要求1所述的方法，其特征在于，所述车辆状态数据包括以下至少一种数据：平均速度、最大速度、速度标准差、加速度、平均加速度、最大加速度、加速度标准差、平均减速度、最大减速度、减速度标准差、平均油门踏板开度、油门踏板开度标准差、平均制动踏板开度以及制动踏板开度标准差；

所述驾驶员操作数据包含以下至少一种数据：平均油门踏板开度、油门踏板开度标准差、平均制动踏板开度、制动踏板开度标准差。

6.一种油门灵敏度控制方法，其特征在于，所述方法包括：

获取车辆的驾驶数据，所述车辆的驾驶数据包含：车辆状态数据和/或驾驶员操作数据；

将所述驾驶数据输入油门灵敏度控制模型获得油门灵敏度控制状态，所述油门灵敏度控制模型基于权利要求1-5任一所述的油门灵敏度控制模型的训练方法训练而成；

根据所述油门灵敏度控制状态和所述车辆的油门踏板深度值，确定所述车辆的油门动力输出度值。

7.一种油门灵敏度控制模型的训练装置，其特征在于，所述装置包括：

采样数据获取模块，用于获得多个采样数据，每个采样数据包括：车辆在第一时刻的驾驶数据，其中，车辆的驾驶数据包含：车辆状态数据和/或驾驶员操作数据；

模型构建模块，用于构建初始化的强化学习模型，所述强化学习模型包含：初始策略网络、初始评价网络、目标策略网络、目标评价网络，对所述初始策略网络与所述目标策略网络赋予相同的参数，对所述目标策略网络与所述目标评价网络赋予相同的参数；

训练参数获取模块，用于针对所述多个采样数据中的每个采样数据执行以下动作以获得多组训练数据：将样本车辆在第一时刻的驾驶数据输入所述初始策略网络，获得初始驾驶动作；执行所述初始驾驶动作，确定所述初始驾驶动作对应的奖励值和样本车辆在第一时刻的下一时刻的驾驶数据；其中，所述初始驾驶动作包含：油门踏板输入值和油门动力输出值，每组训练数据包含：初始驾驶数据、初始驾驶动作、所述初始驾驶动作对应的奖励值、目标驾驶数据，所述初始驾驶数据为样本车辆在第一时刻的驾驶数据，所述目标驾驶数据为样本车辆在第一时刻的下一时刻的驾驶数据；

油门灵敏度控制模型训练模块，用于通过所述多组训练数据对所述初始化的强化学习模型进行训练，以获得所述油门灵敏度控制模型。

8.一种油门灵敏度控制装置，其特征在于，所述装置包括：

驾驶数据获取模块，用于获取车辆的驾驶数据，所述车辆的驾驶数据包含：车辆状态数据和/或驾驶员操作数据；

油门灵敏度控制状态获取模块，用于将所述驾驶数据输入油门灵敏度控制模型获得油门灵敏度控制状态，所述油门灵敏度控制模型基于权利要求1-5任一所述的油门灵敏度控制模型的训练方法训练而成；

油门动力输出度确定模块，用于根据所述油门灵敏度控制状态和所述车辆的油门踏板深度值，确定所述车辆的油门动力输出度值。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-6任一项所述的方法。

10.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-6任一项所述的方法。