CN113034210B

CN113034210B - 一种基于数据驱动场景下车辆行驶成本评价方法

Info

Publication number: CN113034210B
Application number: CN202110469430.8A
Authority: CN
Inventors: 唐小林; 张杰明; 汪锋; 陈增顺; 邓忠伟; 李佳承
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2022-02-01
Anticipated expiration: 2041-04-28
Also published as: CN113034210A

Abstract

本发明涉及一种基于数据驱动场景下车辆行驶成本评价方法，属于新能源汽车领域。该方法包括：获取特定区域内的行车历史数据并进行数据预处理，并进行工况片段划分；基于主成分分析对工况片段的多维特征参数进行降维；利用IABC‑Kmeans算法，搭建典型工况特征集，根据各聚类样本数量比例和类中样本与聚类中心参数相关性重组反映某个地区特定驾驶风格和驾驶习惯的合成工况，并与原始数据集进行统计学特征的对比验证；设计电池老化、燃油消耗和电量维持的统一量化方法，搭建融入专家经验的DDPG的多目标能量管理优化模型，使策略具有在保证最优性的前提下具有更高的训练效率。本发明可以为更精确的车辆行驶成本评价方法提供参考。

Description

一种基于数据驱动场景下车辆行驶成本评价方法

技术领域

本发明属于新能源汽车领域，涉及一种基于数据驱动场景下车辆行驶成本评价方法。

背景技术

车辆测试循环是描述车辆行驶状态的曲线，一般总时间在1500s左右，是车辆动态驾驶行为特征的集中体现，它可以为整车行驶成本，能耗/排放和限值标准的分析以及新车型的技术开发和评估提供基础的依据。世界各国均重视开发适合本国的典型行驶工况，目前，欧美日等汽车发达国家都相继制订了反映本国驾驶特征的测试工况，我国车型测试工况最初采用的国五的NEDC(新标欧洲测试循环)工况由于测试条件均比较单一，无法涵盖更广的速度区间，也将切换为更加贴切实际的WLTC(全球轻型汽车测试循环)工况。但由于各个地区驾驶风格和交通状况的不同，表现为尽管有相同的驾驶意图但行驶轨迹仍有较大的差距，且工况片段的特征参数之间存在着相互耦合的关系，单一的工况特征无法有效地反映和提取出数据集里面隐含的信息。而这些特征会直接影响到整车的燃油经济性，因此建立反映真实场景和地区行为特征的工况是十分有必要的。基于数据驱动的方法构建尽可能还原真实道路场景也是进行更为精细化的车辆行驶成本评价的前提和主要基准。

同时混合动力汽车具有能量源的多样化、动力系统的复杂化与综合控制复杂化的特点，在进行车辆行驶成本评价时如何在保证整车性能的前提下合理分配发动机和电机之间的能量在车辆行驶评价中显得尤为重要。混合动力系统强耦合和非线性的复杂性对算法的有效训练提出了巨大的挑战。目前对RL(Reinforcement Learning)算法在EMS(EnergyManagement Strategy)的研究还处于起步阶段，大多数算法都是通过迭代更新来学习最优的EMS解，这依赖于大量来自环境的真实样本来获得更好的性能，常常导致在探索的早期阶段采样效率低下。HEV控制领域积累了先进的工程经验，可以为智能体在探索过程中提供指导，使其能够更有效地探索状态-动作空间，加速收敛过程并减小算法的复杂度。另外，绝大多数能量管理策略的评价都是基于现行标准工况进行的，各个地区驾驶风格与习惯的不同使得其难以依据某个地区特定的驾驶习惯进行更为精确的车辆行驶成本评价，且工况片段参数众多，且参数间相互耦合、相互影响，如何结合实际道路场景，在尽量包含多的原始数据集信息的前提下，对工况片段的多参数进行降维处理和聚类分析，是工况构建的需要解决的关键问题。此外，现有的基于RL的控制策略片面地着眼于提高燃油经济性，而忽略了在车辆运行中电池老化的影响。电池的寿命与其工作状况密切相关，不合理的控制策略会显著增加电池更换成本，甚至加速电池不一致性，并有触发危险热失控的风险。由于电池老化而面临更高的维护或更换成本，因此，如何延长电池的使用寿命是能量管理策略设计中必须认真考虑的问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于数据驱动场景下车辆行驶成本评价方法，可以为特定区域内更精确的整车性能评估提供系统性的参考。在反映地域特征的整车测试工况构建方面，利用主成分分析对工况片段的多维特征进行降维处理，同时消除工况片段间的特征的相关性。利用IABC-Kmeans对降维后的主成分进行相似片段的聚类分析，搭建典型工况特征集。在基于深度强化学习的车辆行驶成本评价方面，提出电池老化、燃油消耗和电量维持的统一量化方法，搭建基于融入专家经验的DDPG的多目标能量管理优化框架，使策略具有在保证最优性的前提下具有更高的训练效率。

为达到上述目的，本发明提供如下技术方案：

一种基于数据驱动场景下车辆行驶成本评价方法，通过反映某个地区特定驾驶风格和驾驶习惯的合成工况重构和搭建基于融入专家经验的多目标深度强化学习能量管理框架，旨在为特定区域内更精确的整车性能评估提供系统性的参考。该方法具体包括以下步骤：

S1：获取特定区域内的行车历史数据并进行预处理，对预处理的速度信息进行工况片段的划分；

S2：基于主成分分析对工况片段的多维特征参数进行降维处理，同时消除工况片段间特征的相关性；

S3：采用IABC-Kmeans聚类算法对降维后的主成分进行相似片段的聚类分析，搭建典型工况特征集，根据各聚类样本数量比例和类中样本与聚类中心参数相关性重组反映某个地区特定驾驶风格和驾驶习惯的合成工况，并与原始数据集进行统计学特征的对比验证；

S4：设计电池老化、燃油消耗和电量维持的统一量化方法，搭建基于融入专家经验的DDPG的多目标能量管理优化模型，使能量管理策略在保证最优性的前提下具有更高的训练效率。

进一步，步骤S1中，为了使所制定合成工况在反映特定区域的驾驶风格的前提下满足车辆行驶成本评价基准的普适性，获取的特定区域应当包括：城市闹区、城市生活区、城市郊区和高速公路的不同道路交通场景；目标车辆为特定区域内搭载行车记录仪、车载通信单元TCU或OBD-Ⅱ等的混合动力汽车车型，从而能够在行驶过程中记录车辆位置，速度等状态信息，并通过与云端的交互可以获取一段时期该区域内混合动力汽车的交通状态流信息；其中，车辆状态信息完全由目标车辆根据驾驶员意图生成而来，没有人为设定的行驶或路线条件，它是该地区特定驾驶风格和驾驶习惯的集中体现。因此可以涵盖该地区混合动力汽车实际行驶过程的多种行驶条件和驾驶场景。

所采集的混合动力汽车状态信息包括：采集时间、GPS位置信息、瞬时燃油消耗和速度信息；为了便于后续车辆行驶代价EMS的评估，对采样数据进行1s的插值离散；原始数据集的可靠性和准确性对后期的工况构建的有效性起着至关重要的作用，但由于外界环境因素和车辆自身数据采集的误差，此外，所采集到的数据中，驾驶员的不当操作也可能会导致汽车在运行过程中速度轨迹产生脉冲噪声和高频噪声，它会影响到采集到的数据的典型代表性。因此有必要对原始的数据集进行筛选和预处理，对因高层覆盖和隧道等原因造成的空值进行线性插值处理，以保证后续工况构建的有效性与完整性；

数据拟合补充完成后，对所有混合动力汽车的速度轨迹进行拼接，同时采用中值滤波的方式消除车辆轨迹数据中的奇点，并对速度曲线进行平滑处理，邻域的数量为10；

车辆在行驶过程中由于路况的不同需要频繁起动、加速和减速，使得整个数据链频繁出现零值。为了便于后续的数据处理，定义车辆从一个怠速开始到下一个怠速开始，且怠速时间段在行驶时间段之前的运动过程作为一个数据单元或者工况片段，其可以细分为怠速阶段、加速阶段、匀速阶段和制动阶段四个不同的类别，整个行驶工况可以分成数个工况片段的组合；根据工况片段定义原则，在拼接好的经过预处理后的数据集中对行驶时长大于15s工况片段进行筛选，如果工况片段的行驶时长小于15s，则判定是由于车辆抖动或滑动引起的瞬时运动，无法代表该地区普适的驾驶场景，从而剔除这条工况片段。

进一步，步骤S2具体包括：为准确对每个运动学片段进行描述，选取包括平均车速、最大车速、速度标准差、最大加速度、最小加速度、平均正加速度、平均负加速度、正加速度标准差、负加速度标准差、加速度绝对值标准差、怠速时间比和行驶距离在内的12个特征参数；这些参数可以分为时间特征参数、速度特征参数和加速度特征参数；各参数之间的相关性由皮尔逊相关系数R定义：

其中，

和

分别是两个样本数据的平均值，n表示样本数据的维数，x_i和y_i表示样本数据的第i个个体；

所提取出来的不同特征参数之间存在一定的相关性，无法单一地用某些变量对关键原始数据进行较为全面的描述。为了能够尽可能地兼顾原始数据的更多信息，在保证聚类结果的可靠性的同时降低计算的复杂度，通过主成分分析，原来众多具有一定相关性的特征参数，通过变换维度的方式用新的线性无关综合变量(主成分)来反映所研究问题的大部分信息，从而代替原来的多维特征参数，这些主成分由12个归一化的特征参数通过线性组合得到，特征参数前的系数代表了其在主成分所占的比例大小。

建立样本观测矩阵，样本观测矩阵的每一行由所划分的工况片段的12个统计学特征参数组成；为了避免不同量纲的影响，对样本观测矩阵进行标准化处理，得到标准化矩阵和相应的相关系数矩阵：

其中，x_i,j表示第i个工况片段的第j个特征值，

S_j分别表示样本观测矩阵中第j列的均值和方差；r_i,j是系数矩阵R的元素，y_i,y_j分别是标准化矩阵Y的第i列和第j列的向量；Cov(·)表示协方差函数，Var表示方差函数；

通过对标准化矩阵Y进行坐标变换以获得相互正交的以下形式的主成分：

其中，a_n为变换矩阵A的行向量，f_n为第n个主成分；

主成分的贡献定义为该主成分的方差和所有主成分方差和的比值，它表示了主成分所包含原始数据信息的多少。每个主成分按其方差大小由大到小进行排列，通常取累计贡献率超过80％的成分来代替原始变量。

进一步，步骤S3具体包括：基于主成分分析得到每个工况片段在所选定的主成分的得分系数矩阵，进行相似片段的聚类分析；

传统Kmeans聚类(KMC)算法的质量对初始聚类中心的选择高度敏感。IABC-Kmeans使用最大-最小距离算法初始化人工蜂群(ABC)算法的蜂群，并搜索KMC的最佳初始聚类中心。该处理不仅克服了蜂群初始化的随机性，而且还降低了对后续KMC对初始聚类中心的敏感性，收敛速度和稳定性都有很大的提高。该算法的基本思想是将ABC获得的更新位置作为KMC的初始中心，并进行K均值聚类，然后以新的聚类中心更新蜂群，交替执行IABC和KMC，直到算法结束。KMC的聚类中心表示如下：

在IABC中，位置更新公式决定着蜂群能否快速准确地找到新的最优解。传统的ABC算法位置更新公式具有很强的搜索能力，但是在搜索邻域时具有迭代随机性，容易陷入局部最优解，且更新速度缓慢，探索能力欠缺。通过在传统的ABC算法位置更新公式上引入全局因子可以很好地解决这个问题

其中，V_i,j表示在x_i,j附近产生的一个新的位置，k,m∈{1,2,…,N},N表示食物源的个数(特征数目)，k,m,j都是通过随机公式产生的随机数，k≠m≠i,r_i,j∈{-1,1},

x_best,j代表食物丰富度最高的食物源。

在邻域搜索过程中除了向着r_i,j(x_m,j-x_k,j)矢量方向迭代外，同时进行迭代前后位置优劣的比较。在整个搜索过程中，除了获得历史最优的位置信息和当前的位置信息外，通过加入全局引导因子，使蜂群的搜索具有很强的方向性与目的性，影响因子

用来约束寻优的幅度，如果当前位置和最优位置差距较大，则加大搜索的步长，反之则缓慢地进行逼近。

IABC-Kmeans算法的具体步骤为：

S31：设置引领蜂、跟随蜂和侦察蜂的数量，最大迭代次数以及控制参数，聚类类别数为4，分别用来涵盖城市闹区、城市生活区、城市郊区和高速公路的不同道路交通场景；利用最大最小距离积法初始化蜂群，产生{Z1,Z2,…ZN}的蜂群；

S32：对初始蜂群进行一次KMC聚类划分，计算每个种群的适应度，按照适应度大小排序，将前一半作为引领蜂，后一半作为跟随蜂；适应度函数将引导群体进化的方向，直接决定了群体的进化行为、迭代的次数和解的质量，结合人工蜂群迭代搜索过程以及KMC算法思想构造的适应度函数为：

fitness_i＝CN_i/J_i,i＝1,2,…N

其中，CN_i表示第i类点的个数，

表示第i类的类内对象到中心点C_i的距离之和；

S33：引领蜂基于位置更新公式对其邻域进行搜索，得到新的位置；按照贪婪选择原则，如果新的位置的适应度大于原先位置的适应度，则用新的位置代替原位置；否则，保持原位置不变；当所有引领蜂完成邻域搜索后，基于轮盘赌原则，根据下式计算概率P_i选择引领蜂：

S34：原则上，P_i越大，表明引领蜂i的适应度值越大，被跟随蜂选中的概率也越大；当跟随蜂完成引领蜂选择后，利用位置更新公式进行邻域搜索，同样按照贪婪选择原则选择适应度高的位置；

S35：在完成所有搜索之后，将获得的最佳位置用作聚类中心，并且将数据集进行Kmeans迭代聚类；蜂群根据种群的划分以新的种群中心进行更新；如果引领蜂在最大迭代次数后没有变化，则将其更改为侦察蜂，并随机生成一个新位置来替换原始位置；如果当前迭代次数大于最大迭代次数，则迭代结束，算法完成；否则，执行步骤S32；

经过IABC-Kmeans聚类之后的结果可以分别涵盖城市闹区，城市生活区，城市郊区和高速公路的不同道路交通场景；在四个簇中挑选出代表性的工况块来代表每个簇，挑选的原则为将距离聚类中心最近的工况块作为各个簇的代表性工况块；

城市典型工况的时间为1500s左右，利用各簇总持续时间在整个数据集中所占的时间比例，即可确定各簇工况块在最终构建工况中所占的时间。

为了验证所构建的工况能否有效对原始数据信息进行反映，对构建后的城市典型工况和采集到的原始数据进行统计学对比分析和加速度联合概率密度分布图(SpeedAcceleration Probability Density,SPAD)分析。

进一步，步骤S4具体包括：训练环境包括：状态变量、控制变量、预设奖励、车辆模型和驾驶循环；智能体根据当前策略网络的输出在每个训练步中选择一个动作，并将元胞数组(s_i，a_i，r_i，s_i+1)存储在经验回放区中；然后在缓冲区中进行小批量随机采样，以固定的时间间隔通过随机梯度下降法来训练演员和评论家网络；在整个驾驶循环中重复训练过程，直到累积奖励收敛为止；

DDPG的目的是通过更新网络参数来最大化累积奖励，并最小化损失函数的期望；损失函数定义为Q值与神经网络的输出之间误差的平方，损失函数和策略梯度表示如下：

其中，Q(s_i,a_i|θ^Q)是状态s_i和动作a_i处的状态值函数，Q′(s_i+1,μ′(s_i+1|θ^μ′)|θ^Q′)是下一时刻的预期状态值函数，y_i是目标Q的参数θ^μ′的值，n是小批量取样的数量，r_i是即时奖励，γ是折扣率，θ^μ,θ^Q分别表示演员和评论家的在线网络参数，θ^μ′,θ^Q′分别表示演员和评论家的目标网络参数，

是控制策略μ的参数θ^μ的梯度，

是状态值函数对于动作a_i的梯度。

在线策略网络和在线价值网络使用权重τ在每一时间步软更新目标网络，以使训练过程更稳定；

θ^Q′←τθ^Q+(1-τ)θ^Q′

θ^μ′←τθ^μ+(1-τ)θ^μ′

为了获得更好的燃油经济性和更少的有害排放，发动机必须在低有效燃油消耗(BSFC)区域内运行。将发动机的最佳BSFC曲线组成的专家知识融合到基于DDPG的EMS中，可以进一步探索能源节约的性能潜力；

控制动作设为发动机的输出功率，根据发动机的最佳工作曲线，则可以相应确定发动机的转速和转矩；控制率将引导发动机沿着最佳BSFC曲线运行，而不是在整个发动机map图中进行随机探索。通过专家经验协助的方式有效地减少行动空间的维数，这使得整车控制器可以在确保燃油经济性的同时，在更小的动作探索空间中寻找最佳解决方案，从而减轻了计算负担。

进一步，步骤S4中，如前所诉，根据从原始数据集中提取的速度曲线，将IABC-Kmeans聚类算法用于主成分分析后特征提取，并对相似的工况片段进行拼接。选择反映每个类别的最具代表性的工况片段进行重组以构建综合测试驾驶循环，进行更准确的燃油经济性评估。然后，进一步地，将燃油消耗代价，电池容量损失代价和电量维持代价添加到累积奖励中，对演员和评论家网络参数进行迭代更新，以最大化累积奖励。当策略网络执行确定性输出动作时，添加OU噪声以寻找更多潜在的最佳策略。同时，作为专家经验，将发动机的最佳BSFC曲线融入到特定区域内的行驶成本评价，以加快DDPG算法的收敛过程，每个训练阶段的行驶成本评价问题可以表示为一个多目标，多约束的非线性优化问题；

行驶成本评价表述为：

(1)稳态燃油消耗和发动机启停总燃油消耗成本

发动机的稳态燃油消耗率可以映射为发动机转速和转矩的函数，此外，发动机启停会增加额外的燃油成本，其总燃油消耗成本为：

其中，c_fuel为燃油价格，

为燃油消耗率，t₀、t_f分别表示行程的起始和结束时间，α_st为发动机启动时额外消耗的燃油质量，ω_e,T_e分别为发动机的转速和转矩；

(2)电池老化成本

建立以流经电池安时通量为自变量，以电池环境温度为加速因子的电池容量半经验衰减模型：

其中，Q_loss,％为电池容量损失百分比，α、β为拟合系数，E_a为活化能，η为补偿系数，C_rate为充放电倍率，R_gas为气体摩尔常数，T_K为绝对温度，Ah为累计电荷，z为幂指因子；

为表征以内部电荷交换所导致的电池容量衰减，定义标称情况下电池寿命终止时流经电池的总电量Ah_nom和实际工况相对于标称情况下的严重性系数σ(τ)为：

其中，Q_cyc,EoL表示电池寿命终止时的电池容量损失百分比，SOC_nom，C_rate,nom，T_K,nom分别表示标称情况下电池SOC，充放电倍率和电池环境温度；Ah_cyc表示实际工况下流经电池的总电量，SOC，C_rate，T分别为电池荷电状态，实际工况下电池充放电倍率和电池环境温度，当电池容量衰减20％时，电池寿命终止，同时定义标称情况下SOC_nom＝0.35，C_rate,nom＝2.5C，T_K,nom＝298.15K；

以衰减程度定义电池的老化成本为：

其中，c_batt为电池更换成本，I_batt为电池电流；

EMS的目标是减少燃油消耗，同时将SOC保持在一定的最佳范围内波动，避免过充和过放现象的产生，因此需要在行驶成本目标函数中加入SOC的波动惩罚；为此，需要设计合理的控制变量，状态变量和预设奖励。控制变量选为发动机的节气门开度，也是DDPG算法中的“动作”，状态变量由车速，加速度，电池SOC和电池有效安时通量组成，可以表示为s＝[v,a,SOC,Ah_eff]。为解决行驶成本评价问题，定义累积奖励为：

其中，c_soc为转化系数，SOC_ref为参考SOC值，一般取0.6；第一项代表燃料消耗成本，第二项代表电池老化成本，而第三项可以解释为SOC维持惩罚；N是行驶周期的结束时间，I_batt(τ)是电池电流；

同时传动部件需要满足相应的物理约束：

其中，T_e,T_mg1,T_mg2分别是发动机，电机MG1和电机MG2的转矩，ω_e,ω_mg1,ω_mg2分别是发动机，电机MG1和电机MG2的转速。

进一步，步骤S4中，基于所构建的合成工况，利用动态规划算法计算极限最优行驶成本，比较验证融入专家经验的DDPG算法的有效性。

本发明的有益效果在于：

1)本发明采用的基于数据驱动的方法，以真实交通流信息为基础，通过工况片段的典型特性提取与聚类分析，根据实车采集数据建立真实反映不同驾驶风格和驾驶习惯的特定驾驶场景，可以为特定地区更为精确的燃油经济性评估提供参考。

2)本发明将深度确定性策略梯度(DDPG)算法与专家经验相结合，解决输入型功率分流构型多自由度多变量的控制问题，在保证算法有效性的同时减少了动作空间搜索的维度，同时避免了前期探索时的完全随机性，具有较高的训练效率。

3)本发明在提出的专家协助DDPG策略框架内，综合考虑了燃油消耗成本，电池老化成本和电量维持成本，对控制率的最优性进行了全面的评估，并与全局最优策略DP进行比较，验证了该策略的优越性。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明基于数据驱动场景下车辆行驶成本评价方法整体流程图；

图2为示例数据集速度信息；

图3为原始速度轨迹和中值滤波后速度轨迹对比图；

图4为经IABC-Kmeans聚类后反映城市闹区，城市生活区，城市郊区和高速公路的不同道路交通场景；

图5为距离每个聚类中心最近的20个典型代表性工况片段；

图6为反映地区驾驶特征的典型合成工况；

图7为基于专家经验协助下DDPG的能量管理控制整体结构；

图8为输入型功率分流构型；

图9为基于数据驱动场景下车辆行驶成本评价方法流程框图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图9，本发明优选了一种基于数据驱动场景下车辆行驶成本评价方法，参照图1，具体包括以下步骤：

S1：获取特定区域内的混合动力行车历史数据并进行预处理，对预处理的速度信息进行工况片段的划分：

在本发明实施例中，为了使所制定合成工况在反映特定区域的驾驶风格的前提下满足车辆行驶成本评价基准的普适性，所选定的特定区域应当包括城市闹区，城市生活区，城市郊区和高速公路的不同道路交通场景；目标车辆为特定区域内搭载行车记录仪，车载通信单元TCU，OBD-Ⅱ等的混合动力汽车车型，从而能够在行驶过程中记录车辆位置，速度等状态信息，并通过与云端的交互可以获取一段时期该区域内混合动力汽车的交通状态流信息。其中，车辆状态信息完全由目标车辆根据驾驶员意图生成而来，没有人为设定的行驶或路线条件，它是该地区特定驾驶风格和驾驶习惯的集中体现。因此可以涵盖该地区混合动力汽车实际行驶过程的多种行驶条件和驾驶场景。

所采集的混合动力汽车状态信息包括采集时间，GPS位置信息，瞬时燃油消耗和速度信息，为了便于后续车辆行驶代价EMS的评估，对采样数据进行1s的插值离散。原始数据集的可靠性和准确性对后期的工况构建的有效性起着至关重要的作用，但由于外界环境因素和车辆自身数据采集的误差，此外，所采集到的数据中，驾驶员的不当操作也可能会导致汽车在运行过程中速度轨迹产生脉冲噪声和高频噪声，它会影响到采集到的数据的典型代表性。因此有必要对原始的数据集进行筛选和预处理，对因高层覆盖和隧道等原因造成的空值进行线性插值处理，以保证后续工况构建的有效性与完整性。

数据拟合补充完成后，对所有混合动力汽车的速度轨迹进行拼接，同时采用中值滤波的方式消除车辆轨迹数据中的奇点，并对速度曲线进行平滑处理，邻域的数量为10。

为使本说明书更加清楚，完整，将结合具体数据作进一步说明。

示例数据集为美国密歇根州安娜堡市383辆汽车从2018年8月15日至2018年8月22日的车载OBD-II记录仪收集的燃料和能源数据，其中的速度信息显示在图2中，原始工况时间长度为220072s。对其中的某段车速异常数据利用中值滤波进行平滑处理后的对比结果如图3所示。可以看出去噪处理后的曲线变得更加平滑，并消除了“尖峰”数据的干扰，能够有效提高信噪比，保证了后续工况构建的准确性。

车辆在行驶过程中由于路况的不同需要频繁起动、加速和减速，使得整个数据链频繁出现零值。为了便于后续的数据处理，如图3所示，定义车辆从一个怠速开始到下一个怠速开始，且怠速时间段在行驶时间段之前的运动过程作为一个数据单元或者工况片段，其可以细分为怠速阶段，加速阶段，匀速阶段和制动阶段四个不同的类别，整个行驶工况可以分成数个工况片段的组合。根据工况片段定义原则，在拼接好的经过预处理后的数据集中对行驶时长大于15s工况片段进行筛选，如果工况片段的行驶时长小于15s，则判定是由于车辆抖动或滑动引起的瞬时运动，无法代表该地区普适的驾驶场景，从而剔除这条工况片段。

S2：基于主成分分析对工况片段的多维特征参数进行降维处理，同时消除工况片段间特征的相关性：

为准确对每个运动学片段进行描述，选取12个特征参数如表1所列。这些参数可以分为时间特征参数，速度特征参数和加速度特征参数。各参数之间的相关性由皮尔逊相关系数R定义，结果展示在表2中，可以看出运动学片段特征参数中平均车速和最大车速强相关，而和怠速时间比负相关。

其中，

和

分别是两个样本数据的平均值，n表示样本数据的维数，x_i和y_i表示样本数据的第i个个体。

表1工况片段特征参数

参数	描述	参数	描述
				v<sub>mean</sub>/(m·s<sup>-1</sup>)	平均车速	v<sub>max</sub>/(m·s<sup>-1</sup>)	最大车速
δ<sub>v</sub>/(m·s<sup>-1</sup>)	速度标准差	a<sub>max</sub>/(m·s<sup>-2</sup>)	最大加速度
				a<sub>min</sub>/(m·s<sup>-2</sup>)	最小加速度	a<sub>meanp</sub>/(m·s<sup>-2</sup>)	平均正加速度
a<sub>meann</sub>/(m·s<sup>-2</sup>)	平均负加速度	δ<sub>ap</sub>/(m·s<sup>-2</sup>)	正加速度标准差
				δ<sub>an</sub>/(m·s<sup>-2</sup>)	负加速度标准差	δ<sub>abs</sub>/(m·s<sup>-2</sup>)	加速度绝对值标准差
I	怠速时间比	s/m	行驶距离

表2工况片段特征参数之间的相关系数

R	v<sub>mean</sub>	v<sub>max</sub>	δ<sub>v</sub>	α<sub>max</sub>	a<sub>min</sub>	α<sub>meanp</sub>	a<sub>meann</sub>	δ<sub>ap</sub>	δ<sub>an</sub>	δ<sub>abs</sub>	I	s
													v<sub>mean</sub>	1	0.8970	0.7597	0.3983	-0.5199	0.3559	-0.04761	0.2643	0.3244	0.3250	-0.7537	0.6890
v<sub>max</sub>	0.8970	1	0.9176	0.5009	-0.6369	0.3890	-0.2374	0.3617	0.4774	0.4651	-0.5958	0.6333
													δ<sub>v</sub>	0.7597	0.917	1	0.4939	-0.6148	0.4075	-0.3377	0.4281	0.5487	0.5483	-0.4445	0.4187
a<sub>max</sub>	0.3983	0.5009	0.4939	1	-0.4307	0.4389	-0.2775	0.7917	0.3797	0.7399	-0.2924	0.2100
													a<sub>min</sub>	-0.5199	-0.6369	-0.6148	-0.4307	1	-0.3518	0.5033	-0.3675	-0.8660	-0.6306	0.3797	-0.346
a<sub>meanp</sub>	0.3559	0.3890	0.4075	0.4389	-0.3518	1	-0.4576	0.7920	0.3910	0.7511	-0.5306	-0.008
													a<sub>meann</sub>	-0.0476	-0.2374	-0.3377	-0.2775	0.5033	-0.4576	1	-0.4438	-0.7373	-0.6799	0.0144	0.1440
δ<sub>ap</sub>	0.2643	0.3617	0.4281	0.7917	-0.3675	0.7920	-0.4438	1	0.4230	0.9173	-0.3154	-0.0381
													δ<sub>an</sub>	0.3244	0.4774	0.5487	0.3797	-0.8660	0.3910	-0.7373	0.4230	1	0.7292	-0.2051	0.0728
δ<sub>abs</sub>	0.3250	0.4651	0.5483	0.7399	-0.6306	0.7511	-0.6799	0.9173	0.7292	1	-0.3219	-0.0052
													I	-0.7538	-0.5951	-0.4448	-0.2927	0.3797	-0.5309	0.0144	-0.3152	-0.2053	-0.3216	1	-0.4273
s	0.6890	0.6333	0.4187	0.2100	-0.3466	-0.0083	0.1440	-0.038	0.0728	-0.0052	-0.4274	1

建立样本观测矩阵，样本观测矩阵的每一行由所划分的工况片段的12个统计学特征参数组成。为了避免不同量纲的影响，对样本观测矩阵进行标准化处理，得到标准化矩阵和相应的相关系数矩阵：

其中，x_i,j表示第i个工况片段的第j个特征值，

S_j分别表示样本观测矩阵中第j列的均值和方差。其中r_i,j是系数矩阵R的元素，y_i,y_j分别是标准化矩阵Y的第i列和第j列的向量。

其中，a_n为变换矩阵A的行向量，f_n为第n个主成分，由f_n的12个列向量共同构成主成分得分矩阵S。

主成分的贡献定义为该主成分的方差和所有主成分方差和的比值，它表示了主成分所包含原始数据信息的多少。每个主成分按其方差大小由大到小进行排列，通常取累计贡献率超过80％的成分来代替原始变量。示例数据集经过主成分分析后的主成分累计贡献率如表3所示，可以看出前3个主成分方差大于1(保证提取的主成分特征值大于所有主成分特征值的平均数)，且累积贡献率为82.423％，因此前三个主成分可以很好地替代原先的12个特征参数用于后续的聚类分析。

表3不同主成分的累积贡献率

主成分	方差	贡献率(％)	累积贡献率(％)
				1	6.151	51.262	51.262
2	2.420	20.165	71.427
				3	1.319	10.996	82.423
4	0.772	6.435	88.858
				5	0.480	3.998	92.857
6	0.371	3.093	95.950
				7	0.234	1.951	97.901
8	0.088	0.734	98.634

S3：采用IABC-Kmeans聚类算法对降维后的主成分进行相似片段的聚类分析，搭建典型工况特征集，根据各聚类样本数量比例和类中样本与聚类中心参数相关性重组反映某个地区特定驾驶风格和驾驶习惯的合成工况，并与原始数据集进行统计学特征的对比验证：

利用主成分分析后的得分系数矩阵进行相似片段的聚类分析。传统Kmeans聚类(KMC)算法的质量对初始聚类中心的选择高度敏感。IABC-Kmeans使用最大-最小距离算法初始化人工蜂群(ABC)算法的蜂群，并搜索KMC的最佳初始聚类中心。该处理不仅克服了蜂群初始化的随机性，而且还降低了对后续KMC对初始聚类中心的敏感性，收敛速度和稳定性都有很大的提高。该算法的基本思想是将ABC获得的更新位置作为KMC的初始中心，并进行K均值聚类，然后以新的聚类中心更新蜂群，交替执行IABC和KMC，直到算法结束。KMC的聚类中心表示如下

其中，V_i,j表示在x_i,j附近产生的一个新的位置,x_i,j表示第i个工况片段的第j个特征值，k,m∈{1,2,…,N},N表示食物源的个数(特征数目)，k,m,j都是通过随机公式产生的随机数，k≠m≠i,r_i,j∈{-1,1},

x_best,j代表食物丰富度最高的食物源。

在邻域搜索过程中除了向着r_i,j(x_mj-x_kj)矢量方向迭代外，同时进行迭代前后位置优劣的比较。在整个搜索过程中，除了获得历史最优的位置信息和当前的位置信息外，通过加入全局引导因子，使蜂群的搜索具有很强的方向性与目的性，影响因子

IABC-Kmeans的具体步骤描述如下：

1)设置引领蜂、跟随蜂和侦察蜂的数量，最大迭代次数以及控制参数，聚类类别数为4，分别用来涵盖城市闹区，城市生活区，城市郊区，高速公路的不同道路交通场景；利用最大最小距离积法初始化蜂群，产生{Z1,Z2,…ZN}的蜂群。

2)对初始蜂群进行一次KMC聚类划分，计算每个种群的适应度，按照适应度大小排序，将前一半作为引领蜂，后一半作为跟随蜂。适应度函数将引导群体进化的方向，直接决定了群体的进化行为、迭代的次数和解的质量，结合人工蜂群迭代搜索过程以及KMC算法思想构造的适应度函数为

fitness_i＝CN_i/J_i,i＝1,2,…N

其中，CN_i表示第i类点的个数，

表示第i类的类内对象到中心点C_i的距离之和。

3)引领蜂基于位置更新公式对其邻域进行搜索，得到新的位置。按照贪婪选择原则，如果新的位置的适应度大于原先位置的适应度，则用新的位置代替原位置；否则，保持原位置不变。当所有引领蜂完成邻域搜索后，基于轮盘赌原则，根据下式计算概率P_i选择引领蜂：

4)原则上，P_i越大，表明引领蜂i的适应度值越大，被跟随蜂选中的概率也越大。当跟随蜂完成引领蜂选择后，利用位置更新公式进行邻域搜索，同样按照贪婪选择原则选择适应度高的位置。

5)在完成所有搜索之后，将获得的最佳位置用作聚类中心，并且将数据集进行Kmeans迭代聚类。蜂群根据种群的划分以新的种群中心进行更新。如果引领蜂在最大迭代次数后没有变化，则将其更改为侦察蜂，并随机生成一个新位置来替换原始位置。如果当前迭代次数大于最大迭代次数，则迭代结束，算法完成；否则，执行步骤2。

经过IABC-Kmeans聚类之后的结果展示在图4中，可以分别涵盖城市闹区，城市生活区，城市郊区，高速公路的不同道路交通场景。在四个簇中挑选出代表性的工况块来代表每个簇，挑选的原则为将距离聚类中心最近的工况块作为各个簇的代表性工况块，图5展示的是距离每个聚类中心最近的20个典型代表性工况片段。

城市典型工况的时间为1500s左右，利用各簇总持续时间在整个数据集中所占的时间比例，即可确定各簇工况块在最终构建工况中所占的时间，得到的反映Ann Arbor地区驾驶特征的典型工况展示在图6中。

为了验证所构建的工况能否有效对原始数据信息进行反映，对构建后的城市典型工况和采集到的原始数据进行统计学对比分析和加速度联合概率密度分布图(SpeedAcceleration Probability Density,SPAD)分析。表4给出了原始数据集和合成工况统计学特征的对比分析，可以看出几种重要的统计学特征相差都在10％以内，可以较好地对原始数据集信息进行反映。

表4原始数据集和合成工况统计学特征的对比分析

S4：提出电池老化、燃油消耗和电量维持的统一量化方法，搭建基于融入专家经验的DDPG的多目标能量管理优化框架，使策略具有在保证最优性的前提下具有更高的训练效率：

强化学习是机器学习方法的一个分支，它通过智能体与环境的交互来调整其策略，即执行动作并从环境中获取相应的反馈。控制器学习和更新网络参数的目的是通过反复训练来提高性能，并通过在每个时间步长采取最佳动作来最大化累积预期奖励。

其中，t是时间步长。γ表示折扣率，用于调整瞬时和未来奖励之间的重要性，以保证收敛性，r是瞬时奖励。

通常，随着状态空间和动作空间维数的增加，传统的RL算法趋于陷入“维数诅咒”问题，计算时间也会呈指数增长。此外控制动作在工程领域通常是连续的，也增加了控制策略的复杂性。DDPG(Deep Deterministic Policy Gradient)算法很好地解决了这个问题，该方法使用确定性策略梯度，即网络的输出是确定性动作而不是动作的发生概率。其核心改进如下：(1)采用卷积神经网络作为策略函数和价值函数的逼近方式；(2)通过引入经验回放来消除样本之间的随机性和依赖性，并减少价值函数估计时所产生的偏差；(3)策略函数和价值函数均采用双重神经网络架构。

图7显示了基于专家经验协助下DDPG的能量管理控制整体结构。DDPG由演员网络和评论家网络组成，演员网络和评论家网络分别包含一个在线网络和一个目标网络。评论家网络根据演员网络输出的动作进行评估，当前状态和相应的动作是评论家网络的输入，而输出是相应的Q值。演员网络根据评论家网络生成的梯度进行更新。评论家网络的参数更新方法是最小化损失函数值，而演员网络使用θ^μ来执行随机采样策略梯度。参数为θ^μ的策略网络用来表示确定性策略a＝μ(s|θ^μ)，输入为当前状态s，输出为确定性作用值a。参数为θ^Q的值网络用来表示值函数Q(s|θ^Q)，用于求解Bellman方程。策略网络用于更新动作输出，该输出动作对应于演员评论家算法中的演员。价值网络用于逼近状态作用的值函数并提供梯度信息，对应于演员评论家算法中的评论家。使用梯度上升的目的是提高累积奖励的期望，最终使算法沿着提高动作值Q(s,a；θ^Q)的方向更新策略网络的参数θ^μ。

训练环境包括状态变量，控制变量，预设奖励，车辆模型和驾驶循环。智能体根据当前策略网络的输出在每个训练步中选择一个动作，并将元胞数组(s_i，a_i，r_i，s_i+1)存储在经验回放区中。然后在缓冲区中进行小批量随机采样，以固定的时间间隔通过随机梯度下降法来训练演员和评论家网络。在整个驾驶循环中重复训练过程，直到累积奖励收敛为止。表5给出了DDPG算法实现过程的伪代码，表6给出了一些关键参数。

表5 DDPG算法流程

表6 DDPG超参数

参数	值
		演员网络学习率	0.001
评论家网络学习率	0.001
		奖励折扣系数	0.9
软更新系数	0.01
		经验回放池大小	10000
最小取样数	64
		初始探索率	1.5
输入变量维度	4
		输出变量维度	1

DDPG的目的是通过更新网络参数来最大化累积奖励，并最小化损失函数的期望。损失函数定义为Q值与神经网络的输出之间误差的平方，损失函数和策略梯度表示如下：

是控制策略μ的参数θ^μ的梯度，

是状态值函数对于动作a_i的梯度。

在线策略网络和在线价值网络使用权重τ在每一时间步软更新目标网络，以使训练过程更稳定。

θ^Q←τθ^Q+(1-τ)θ^Q′

θ^μ′←τθ^μ+(1-τ)θ^μ′

图8为所研究的输入型功率分流构型，为了获得更好的燃油经济性和更少的有害排放，发动机必须在低有效燃油消耗(BSFC)区域内运行。将发动机的最佳BSFC曲线组成的专家知识融合到基于DDPG的EMS中，可以进一步探索能源节约的性能潜力。

控制动作设为发动机的输出功率，根据发动机的最佳工作曲线，则可以相应确定发动机的转速和转矩。控制率将引导发动机沿着最佳BSFC曲线运行，而不是在整个发动机map图中进行随机探索。通过专家经验协助的方式有效地减少行动空间的维数，这使得整车控制器可以在确保燃油经济性的同时，在更小的动作探索空间中寻找最佳解决方案，从而减轻了计算负担。

图9显示了基于数据驱动场景下车辆行驶成本评价方法流程框图。根据从原始数据集中提取的速度曲线，将IABC-Kmeans聚类算法用于主成分分析后特征提取，并对相似的工况片段进行拼接。选择反映每个类别的最具代表性的工况片段进行重组以构建综合测试驾驶循环，进行更准确的燃油经济性评估。然后，将燃油消耗代价，电池容量损失代价和电量维持代价添加到累积奖励中，对演员和评论家网络参数进行迭代更新，以最大化累积奖励。当策略网络执行确定性输出动作时，添加OU噪声以寻找更多潜在的最佳策略。同时，作为专家经验，将发动机的最佳BSFC曲线融入到特定区域内的行驶成本评价，以加快DDPG算法的收敛过程，每个训练阶段的行驶成本评价问题可以表示为一个多目标，多约束的非线性优化问题。

行驶成本评价可以表述为：

(1)稳态燃油消耗和发动机启停总燃油消耗成本

发动机的稳态燃油消耗率可以映射为发动机转速和转矩的函数，此外，发动机启停会增加额外的燃油成本，其总燃油消耗成本为

其中，c_fuel为燃油价格，

(2)电池老化成本

以衰减程度定义电池的老化成本为：

其中，c_batt为电池更换成本，I_batt为电池电流。

EMS的目标是减少燃油消耗，同时将SOC保持在一定的最佳范围内波动，避免过充和过放现象的产生，因此需要在行驶成本目标函数中加入SOC的波动惩罚。为此，需要设计合理的控制变量，状态变量和预设奖励。控制变量选为发动机的节气门开度，也是DDPG算法中的“动作”，状态变量由车速，加速度，电池SOC和电池有效安时通量组成，可以表示为s＝[v,a,SOC,Ah_eff]。为解决行驶成本评价问题，定义累积奖励：

其中，c_soc为转化系数，SOC_ref为参考SOC值，一般取0.6；第一项代表燃料消耗成本，第二项代表电池老化成本，而第三项可以解释为SOC维持惩罚。N是行驶周期的结束时间，I_batt(τ)是电池电流。同时传动部件需要满足相应的物理约束：

其中T_e,T_mg1,T_mg2分别是发动机，电机MG1和电机MG2的转矩，ω_e,ω_mg1,ω_mg2分别是发动机，电机MG1和电机MG2的转速。

基于所构建的合成工况，利用动态规划算法计算极限最优行驶成本，比较验证融入专家经验的DDPG算法的有效性。

本发明的基于数据驱动场景下车辆行驶成本评价方法为车辆行驶评价提供了更多的自由度，可以为特定区域内更精确的车辆行驶成本评价方法提供参考。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于数据驱动场景下车辆行驶成本评价方法，其特征在于，该方法具体包括以下步骤：

步骤S3具体包括：基于主成分分析得到每个工况片段在所选定的主成分的得分系数矩阵，进行相似片段的聚类分析；

IABC-Kmeans使用最大-最小距离算法初始化人工蜂群算法的蜂群，并搜索KMC的最佳初始聚类中心；在传统的ABC算法位置更新公式上引入全局因子，即

其中，V_i,j表示在x_i,j附近产生的一个新的位置，x_i,j表示第i个工况片段的第j个特征值，k,m∈{1,2,…,N}，N表示食物源的个数，k,m,j都是通过随机公式产生的随机数，k≠m≠i,r_i,j∈{-1,1},

x_best,j代表食物丰富度最高的食物源；

IABC-Kmeans算法的具体步骤为：

fitness_i＝CN_i/J_i,i＝1,2,…N

其中，CN_i表示第i类点的个数，

表示第i类的类内对象到中心点C_i的距离之和；

S34：P_i越大，表明引领蜂i的适应度值越大，被跟随蜂选中的概率也越大；当跟随蜂完成引领蜂选择后，利用位置更新公式进行邻域搜索，同样按照贪婪选择原则选择适应度高的位置；

经过IABC-Kmeans聚类之后的结果分别涵盖城市闹区，城市生活区，城市郊区和高速公路的不同道路交通场景；在四个簇中挑选出代表性的工况块来代表每个簇，挑选的原则为将距离聚类中心最近的工况块作为各个簇的代表性工况块；

对构建后的城市典型工况和采集到的原始数据进行统计学对比分析和加速度联合概率密度分布图分析；

2.根据权利要求1所述的基于数据驱动场景下车辆行驶成本评价方法，其特征在于，步骤S1中，获取的特定区域包括：城市闹区、城市生活区、城市郊区和高速公路的不同道路交通场景；目标车辆为特定区域内搭载行车记录仪、车载通信单元TCU或OBD-Ⅱ，能够在行驶过程中记录车辆状态信息，并通过与云端的交互获取一段时期该区域内混合动力汽车的交通状态流信息；

混合动力汽车状态信息包括：采集时间、GPS位置信息、瞬时燃油消耗和速度信息；对采样数据进行1s的插值离散；对原始的数据集进行筛选和预处理，对空值进行线性插值处理；

数据拟合补充完成后，对所有混合动力汽车的速度轨迹进行拼接，同时采用中值滤波的方式消除车辆轨迹数据中的奇点，并对速度曲线进行平滑处理；

定义车辆从一个怠速开始到下一个怠速开始，且怠速时间段在行驶时间段之前的运动过程作为一个数据单元或者工况片段，其细分为怠速阶段、加速阶段、匀速阶段和制动阶段四个不同的类别，整个行驶工况分成数个工况片段的组合；根据工况片段定义原则，在拼接好的经过预处理后的数据集中对行驶时长大于15s工况片段进行筛选，如果工况片段的行驶时长小于15s，则判定是由于车辆抖动或滑动引起的瞬时运动，剔除这条工况片段。

3.根据权利要求1所述的基于数据驱动场景下车辆行驶成本评价方法，其特征在于，步骤S2具体包括：时间特征参数、速度特征参数和加速度特征参数；各参数之间的相关性由皮尔逊相关系数R定义：

其中，

和

建立样本观测矩阵，样本观测矩阵的每一行由所划分的工况片段的特征参数组成；对样本观测矩阵进行标准化处理，得到标准化矩阵和相应的相关系数矩阵：

其中，x_i,j表示第i个工况片段的第j个特征值，

其中，a_n为变换矩阵A的行向量，f_n为第n个主成分。

4.根据权利要求1所述的基于数据驱动场景下车辆行驶成本评价方法，其特征在于，步骤S4具体包括：训练环境包括：状态变量、控制变量、预设奖励、车辆模型和驾驶循环；智能体根据当前策略网络的输出在每个训练步中选择一个动作，并将元胞数组(s_i，a_i，r_i，s_i+1)存储在经验回放区中；然后在缓冲区中进行小批量随机采样，以固定的时间间隔通过随机梯度下降法来训练演员和评论家网络；在整个驾驶循环中重复训练过程，直到累积奖励收敛为止；

是控制策略μ的参数θ^μ的梯度，

是状态值函数对于动作a_i的梯度；

θ^Q′←τθ^Q+(1-τ)θ^Q′

θ^μ′←τθ^μ+(1-τ)θ^μ′

将发动机的最佳BSFC曲线组成的专家知识融合到基于DDPG的EMS中，探索能源节约的性能潜力；

控制动作设为发动机的输出功率，根据发动机的最佳工作曲线，相应确定发动机的转速和转矩；通过专家经验协助的方式减少行动空间的维数。

5.根据权利要求4所述的基于数据驱动场景下车辆行驶成本评价方法，其特征在于，步骤S4中，作为专家经验，将发动机的最佳BSFC曲线融入到特定区域内的行驶成本评价，以加快DDPG算法的收敛过程，每个训练阶段的行驶成本评价问题可以表示为一个多目标，多约束的非线性优化问题；控制动作设为发动机的输出功率，根据发动机的最佳工作曲线，则相应确定发动机的转速和转矩；控制率将引导发动机沿着最佳BSFC曲线运行，而不是在整个发动机map图中进行随机探索；通过专家经验协助的方式有效地减少行动空间的维数，这使得整车控制器在确保燃油经济性的同时，在更小的动作探索空间中寻找最佳解决方案，从而减轻计算负担；

行驶成本评价表述为：

(1)稳态燃油消耗和发动机启停总燃油消耗成本

总燃油消耗成本为：

其中，c_fuel为燃油价格，

(2)电池老化成本

其中，Q_cyc,EoL表示电池寿命终止时的电池容量损失百分比，SOC_nom，C_rate,nom，T_K,nom分别表示标称情况下电池SOC，充放电倍率和电池环境温度；Ah_cyc表示实际工况下流经电池的总电量，SOC，C_rate，T分别为电池荷电状态，实际工况下电池充放电倍率和电池环境温度；

以衰减程度定义电池的老化成本为：

其中，c_batt为电池更换成本，I_batt为电池电流；

为解决行驶成本评价问题，定义累积奖励为：

其中，c_soc为转化系数，SOC_ref为参考SOC值；第一项代表燃料消耗成本，第二项代表电池老化成本，第三项为SOC维持惩罚；I_batt(τ)是电池电流；

同时传动部件需要满足相应的物理约束：

6.根据权利要求5所述的基于数据驱动场景下车辆行驶成本评价方法，其特征在于，步骤S4中，基于所构建的合成工况，利用动态规划算法计算极限最优行驶成本，比较验证融入专家经验的DDPG算法的有效性。