CN113034210B - 一种基于数据驱动场景下车辆行驶成本评价方法 - Google Patents

一种基于数据驱动场景下车辆行驶成本评价方法 Download PDF

Info

Publication number
CN113034210B
CN113034210B CN202110469430.8A CN202110469430A CN113034210B CN 113034210 B CN113034210 B CN 113034210B CN 202110469430 A CN202110469430 A CN 202110469430A CN 113034210 B CN113034210 B CN 113034210B
Authority
CN
China
Prior art keywords
working condition
battery
vehicle
data
driving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110469430.8A
Other languages
English (en)
Other versions
CN113034210A (zh
Inventor
唐小林
张杰明
汪锋
陈增顺
邓忠伟
李佳承
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202110469430.8A priority Critical patent/CN113034210B/zh
Publication of CN113034210A publication Critical patent/CN113034210A/zh
Application granted granted Critical
Publication of CN113034210B publication Critical patent/CN113034210B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0206Price or cost determination based on market factors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Computation (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Educational Administration (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及一种基于数据驱动场景下车辆行驶成本评价方法,属于新能源汽车领域。该方法包括:获取特定区域内的行车历史数据并进行数据预处理,并进行工况片段划分;基于主成分分析对工况片段的多维特征参数进行降维;利用IABC‑Kmeans算法,搭建典型工况特征集,根据各聚类样本数量比例和类中样本与聚类中心参数相关性重组反映某个地区特定驾驶风格和驾驶习惯的合成工况,并与原始数据集进行统计学特征的对比验证;设计电池老化、燃油消耗和电量维持的统一量化方法,搭建融入专家经验的DDPG的多目标能量管理优化模型,使策略具有在保证最优性的前提下具有更高的训练效率。本发明可以为更精确的车辆行驶成本评价方法提供参考。

Description

一种基于数据驱动场景下车辆行驶成本评价方法
技术领域
本发明属于新能源汽车领域,涉及一种基于数据驱动场景下车辆行驶成本评价方法。
背景技术
车辆测试循环是描述车辆行驶状态的曲线,一般总时间在1500s左右,是车辆动态驾驶行为特征的集中体现,它可以为整车行驶成本,能耗/排放和限值标准的分析以及新车型的技术开发和评估提供基础的依据。世界各国均重视开发适合本国的典型行驶工况,目前,欧美日等汽车发达国家都相继制订了反映本国驾驶特征的测试工况,我国车型测试工况最初采用的国五的NEDC(新标欧洲测试循环)工况由于测试条件均比较单一,无法涵盖更广的速度区间,也将切换为更加贴切实际的WLTC(全球轻型汽车测试循环)工况。但由于各个地区驾驶风格和交通状况的不同,表现为尽管有相同的驾驶意图但行驶轨迹仍有较大的差距,且工况片段的特征参数之间存在着相互耦合的关系,单一的工况特征无法有效地反映和提取出数据集里面隐含的信息。而这些特征会直接影响到整车的燃油经济性,因此建立反映真实场景和地区行为特征的工况是十分有必要的。基于数据驱动的方法构建尽可能还原真实道路场景也是进行更为精细化的车辆行驶成本评价的前提和主要基准。
同时混合动力汽车具有能量源的多样化、动力系统的复杂化与综合控制复杂化的特点,在进行车辆行驶成本评价时如何在保证整车性能的前提下合理分配发动机和电机之间的能量在车辆行驶评价中显得尤为重要。混合动力系统强耦合和非线性的复杂性对算法的有效训练提出了巨大的挑战。目前对RL(Reinforcement Learning)算法在EMS(EnergyManagement Strategy)的研究还处于起步阶段,大多数算法都是通过迭代更新来学习最优的EMS解,这依赖于大量来自环境的真实样本来获得更好的性能,常常导致在探索的早期阶段采样效率低下。HEV控制领域积累了先进的工程经验,可以为智能体在探索过程中提供指导,使其能够更有效地探索状态-动作空间,加速收敛过程并减小算法的复杂度。另外,绝大多数能量管理策略的评价都是基于现行标准工况进行的,各个地区驾驶风格与习惯的不同使得其难以依据某个地区特定的驾驶习惯进行更为精确的车辆行驶成本评价,且工况片段参数众多,且参数间相互耦合、相互影响,如何结合实际道路场景,在尽量包含多的原始数据集信息的前提下,对工况片段的多参数进行降维处理和聚类分析,是工况构建的需要解决的关键问题。此外,现有的基于RL的控制策略片面地着眼于提高燃油经济性,而忽略了在车辆运行中电池老化的影响。电池的寿命与其工作状况密切相关,不合理的控制策略会显著增加电池更换成本,甚至加速电池不一致性,并有触发危险热失控的风险。由于电池老化而面临更高的维护或更换成本,因此,如何延长电池的使用寿命是能量管理策略设计中必须认真考虑的问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于数据驱动场景下车辆行驶成本评价方法,可以为特定区域内更精确的整车性能评估提供系统性的参考。在反映地域特征的整车测试工况构建方面,利用主成分分析对工况片段的多维特征进行降维处理,同时消除工况片段间的特征的相关性。利用IABC-Kmeans对降维后的主成分进行相似片段的聚类分析,搭建典型工况特征集。在基于深度强化学习的车辆行驶成本评价方面,提出电池老化、燃油消耗和电量维持的统一量化方法,搭建基于融入专家经验的DDPG的多目标能量管理优化框架,使策略具有在保证最优性的前提下具有更高的训练效率。
为达到上述目的,本发明提供如下技术方案:
一种基于数据驱动场景下车辆行驶成本评价方法,通过反映某个地区特定驾驶风格和驾驶习惯的合成工况重构和搭建基于融入专家经验的多目标深度强化学习能量管理框架,旨在为特定区域内更精确的整车性能评估提供系统性的参考。该方法具体包括以下步骤:
S1:获取特定区域内的行车历史数据并进行预处理,对预处理的速度信息进行工况片段的划分;
S2:基于主成分分析对工况片段的多维特征参数进行降维处理,同时消除工况片段间特征的相关性;
S3:采用IABC-Kmeans聚类算法对降维后的主成分进行相似片段的聚类分析,搭建典型工况特征集,根据各聚类样本数量比例和类中样本与聚类中心参数相关性重组反映某个地区特定驾驶风格和驾驶习惯的合成工况,并与原始数据集进行统计学特征的对比验证;
S4:设计电池老化、燃油消耗和电量维持的统一量化方法,搭建基于融入专家经验的DDPG的多目标能量管理优化模型,使能量管理策略在保证最优性的前提下具有更高的训练效率。
进一步,步骤S1中,为了使所制定合成工况在反映特定区域的驾驶风格的前提下满足车辆行驶成本评价基准的普适性,获取的特定区域应当包括:城市闹区、城市生活区、城市郊区和高速公路的不同道路交通场景;目标车辆为特定区域内搭载行车记录仪、车载通信单元TCU或OBD-Ⅱ等的混合动力汽车车型,从而能够在行驶过程中记录车辆位置,速度等状态信息,并通过与云端的交互可以获取一段时期该区域内混合动力汽车的交通状态流信息;其中,车辆状态信息完全由目标车辆根据驾驶员意图生成而来,没有人为设定的行驶或路线条件,它是该地区特定驾驶风格和驾驶习惯的集中体现。因此可以涵盖该地区混合动力汽车实际行驶过程的多种行驶条件和驾驶场景。
所采集的混合动力汽车状态信息包括:采集时间、GPS位置信息、瞬时燃油消耗和速度信息;为了便于后续车辆行驶代价EMS的评估,对采样数据进行1s的插值离散;原始数据集的可靠性和准确性对后期的工况构建的有效性起着至关重要的作用,但由于外界环境因素和车辆自身数据采集的误差,此外,所采集到的数据中,驾驶员的不当操作也可能会导致汽车在运行过程中速度轨迹产生脉冲噪声和高频噪声,它会影响到采集到的数据的典型代表性。因此有必要对原始的数据集进行筛选和预处理,对因高层覆盖和隧道等原因造成的空值进行线性插值处理,以保证后续工况构建的有效性与完整性;
数据拟合补充完成后,对所有混合动力汽车的速度轨迹进行拼接,同时采用中值滤波的方式消除车辆轨迹数据中的奇点,并对速度曲线进行平滑处理,邻域的数量为10;
车辆在行驶过程中由于路况的不同需要频繁起动、加速和减速,使得整个数据链频繁出现零值。为了便于后续的数据处理,定义车辆从一个怠速开始到下一个怠速开始,且怠速时间段在行驶时间段之前的运动过程作为一个数据单元或者工况片段,其可以细分为怠速阶段、加速阶段、匀速阶段和制动阶段四个不同的类别,整个行驶工况可以分成数个工况片段的组合;根据工况片段定义原则,在拼接好的经过预处理后的数据集中对行驶时长大于15s工况片段进行筛选,如果工况片段的行驶时长小于15s,则判定是由于车辆抖动或滑动引起的瞬时运动,无法代表该地区普适的驾驶场景,从而剔除这条工况片段。
进一步,步骤S2具体包括:为准确对每个运动学片段进行描述,选取包括平均车速、最大车速、速度标准差、最大加速度、最小加速度、平均正加速度、平均负加速度、正加速度标准差、负加速度标准差、加速度绝对值标准差、怠速时间比和行驶距离在内的12个特征参数;这些参数可以分为时间特征参数、速度特征参数和加速度特征参数;各参数之间的相关性由皮尔逊相关系数R定义:
Figure GDA0003409440330000031
其中,
Figure GDA0003409440330000032
Figure GDA0003409440330000033
分别是两个样本数据的平均值,n表示样本数据的维数,xi和yi表示样本数据的第i个个体;
所提取出来的不同特征参数之间存在一定的相关性,无法单一地用某些变量对关键原始数据进行较为全面的描述。为了能够尽可能地兼顾原始数据的更多信息,在保证聚类结果的可靠性的同时降低计算的复杂度,通过主成分分析,原来众多具有一定相关性的特征参数,通过变换维度的方式用新的线性无关综合变量(主成分)来反映所研究问题的大部分信息,从而代替原来的多维特征参数,这些主成分由12个归一化的特征参数通过线性组合得到,特征参数前的系数代表了其在主成分所占的比例大小。
建立样本观测矩阵,样本观测矩阵的每一行由所划分的工况片段的12个统计学特征参数组成;为了避免不同量纲的影响,对样本观测矩阵进行标准化处理,得到标准化矩阵和相应的相关系数矩阵:
Figure GDA0003409440330000041
Figure GDA0003409440330000042
其中,xi,j表示第i个工况片段的第j个特征值,
Figure GDA0003409440330000043
Sj分别表示样本观测矩阵中第j列的均值和方差;ri,j是系数矩阵R的元素,yi,yj分别是标准化矩阵Y的第i列和第j列的向量;Cov(·)表示协方差函数,Var表示方差函数;
通过对标准化矩阵Y进行坐标变换以获得相互正交的以下形式的主成分:
Figure GDA0003409440330000044
其中,an为变换矩阵A的行向量,fn为第n个主成分;
主成分的贡献定义为该主成分的方差和所有主成分方差和的比值,它表示了主成分所包含原始数据信息的多少。每个主成分按其方差大小由大到小进行排列,通常取累计贡献率超过80%的成分来代替原始变量。
进一步,步骤S3具体包括:基于主成分分析得到每个工况片段在所选定的主成分的得分系数矩阵,进行相似片段的聚类分析;
传统Kmeans聚类(KMC)算法的质量对初始聚类中心的选择高度敏感。IABC-Kmeans使用最大-最小距离算法初始化人工蜂群(ABC)算法的蜂群,并搜索KMC的最佳初始聚类中心。该处理不仅克服了蜂群初始化的随机性,而且还降低了对后续KMC对初始聚类中心的敏感性,收敛速度和稳定性都有很大的提高。该算法的基本思想是将ABC获得的更新位置作为KMC的初始中心,并进行K均值聚类,然后以新的聚类中心更新蜂群,交替执行IABC和KMC,直到算法结束。KMC的聚类中心表示如下:
Figure GDA0003409440330000051
在IABC中,位置更新公式决定着蜂群能否快速准确地找到新的最优解。传统的ABC算法位置更新公式具有很强的搜索能力,但是在搜索邻域时具有迭代随机性,容易陷入局部最优解,且更新速度缓慢,探索能力欠缺。通过在传统的ABC算法位置更新公式上引入全局因子可以很好地解决这个问题
Figure GDA0003409440330000052
其中,Vi,j表示在xi,j附近产生的一个新的位置,k,m∈{1,2,…,N},N表示食物源的个数(特征数目),k,m,j都是通过随机公式产生的随机数,k≠m≠i,ri,j∈{-1,1},
Figure GDA0003409440330000053
xbest,j代表食物丰富度最高的食物源。
在邻域搜索过程中除了向着ri,j(xm,j-xk,j)矢量方向迭代外,同时进行迭代前后位置优劣的比较。在整个搜索过程中,除了获得历史最优的位置信息和当前的位置信息外,通过加入全局引导因子,使蜂群的搜索具有很强的方向性与目的性,影响因子
Figure GDA0003409440330000054
用来约束寻优的幅度,如果当前位置和最优位置差距较大,则加大搜索的步长,反之则缓慢地进行逼近。
IABC-Kmeans算法的具体步骤为:
S31:设置引领蜂、跟随蜂和侦察蜂的数量,最大迭代次数以及控制参数,聚类类别数为4,分别用来涵盖城市闹区、城市生活区、城市郊区和高速公路的不同道路交通场景;利用最大最小距离积法初始化蜂群,产生{Z1,Z2,…ZN}的蜂群;
S32:对初始蜂群进行一次KMC聚类划分,计算每个种群的适应度,按照适应度大小排序,将前一半作为引领蜂,后一半作为跟随蜂;适应度函数将引导群体进化的方向,直接决定了群体的进化行为、迭代的次数和解的质量,结合人工蜂群迭代搜索过程以及KMC算法思想构造的适应度函数为:
fitnessi=CNi/Ji,i=1,2,…N
其中,CNi表示第i类点的个数,
Figure GDA0003409440330000055
表示第i类的类内对象到中心点Ci的距离之和;
S33:引领蜂基于位置更新公式对其邻域进行搜索,得到新的位置;按照贪婪选择原则,如果新的位置的适应度大于原先位置的适应度,则用新的位置代替原位置;否则,保持原位置不变;当所有引领蜂完成邻域搜索后,基于轮盘赌原则,根据下式计算概率Pi选择引领蜂:
Figure GDA0003409440330000061
S34:原则上,Pi越大,表明引领蜂i的适应度值越大,被跟随蜂选中的概率也越大;当跟随蜂完成引领蜂选择后,利用位置更新公式进行邻域搜索,同样按照贪婪选择原则选择适应度高的位置;
S35:在完成所有搜索之后,将获得的最佳位置用作聚类中心,并且将数据集进行Kmeans迭代聚类;蜂群根据种群的划分以新的种群中心进行更新;如果引领蜂在最大迭代次数后没有变化,则将其更改为侦察蜂,并随机生成一个新位置来替换原始位置;如果当前迭代次数大于最大迭代次数,则迭代结束,算法完成;否则,执行步骤S32;
经过IABC-Kmeans聚类之后的结果可以分别涵盖城市闹区,城市生活区,城市郊区和高速公路的不同道路交通场景;在四个簇中挑选出代表性的工况块来代表每个簇,挑选的原则为将距离聚类中心最近的工况块作为各个簇的代表性工况块;
城市典型工况的时间为1500s左右,利用各簇总持续时间在整个数据集中所占的时间比例,即可确定各簇工况块在最终构建工况中所占的时间。
为了验证所构建的工况能否有效对原始数据信息进行反映,对构建后的城市典型工况和采集到的原始数据进行统计学对比分析和加速度联合概率密度分布图(SpeedAcceleration Probability Density,SPAD)分析。
进一步,步骤S4具体包括:训练环境包括:状态变量、控制变量、预设奖励、车辆模型和驾驶循环;智能体根据当前策略网络的输出在每个训练步中选择一个动作,并将元胞数组(si,ai,ri,si+1)存储在经验回放区中;然后在缓冲区中进行小批量随机采样,以固定的时间间隔通过随机梯度下降法来训练演员和评论家网络;在整个驾驶循环中重复训练过程,直到累积奖励收敛为止;
DDPG的目的是通过更新网络参数来最大化累积奖励,并最小化损失函数的期望;损失函数定义为Q值与神经网络的输出之间误差的平方,损失函数和策略梯度表示如下:
Figure GDA0003409440330000062
其中,Q(si,aiQ)是状态si和动作ai处的状态值函数,Q′(si+1,μ′(si+1μ′)|θQ′)是下一时刻的预期状态值函数,yi是目标Q的参数θμ′的值,n是小批量取样的数量,ri是即时奖励,γ是折扣率,θμQ分别表示演员和评论家的在线网络参数,θμ′Q′分别表示演员和评论家的目标网络参数,
Figure GDA0003409440330000071
是控制策略μ的参数θμ的梯度,
Figure GDA0003409440330000072
是状态值函数对于动作ai的梯度。
在线策略网络和在线价值网络使用权重τ在每一时间步软更新目标网络,以使训练过程更稳定;
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
为了获得更好的燃油经济性和更少的有害排放,发动机必须在低有效燃油消耗(BSFC)区域内运行。将发动机的最佳BSFC曲线组成的专家知识融合到基于DDPG的EMS中,可以进一步探索能源节约的性能潜力;
控制动作设为发动机的输出功率,根据发动机的最佳工作曲线,则可以相应确定发动机的转速和转矩;控制率将引导发动机沿着最佳BSFC曲线运行,而不是在整个发动机map图中进行随机探索。通过专家经验协助的方式有效地减少行动空间的维数,这使得整车控制器可以在确保燃油经济性的同时,在更小的动作探索空间中寻找最佳解决方案,从而减轻了计算负担。
进一步,步骤S4中,如前所诉,根据从原始数据集中提取的速度曲线,将IABC-Kmeans聚类算法用于主成分分析后特征提取,并对相似的工况片段进行拼接。选择反映每个类别的最具代表性的工况片段进行重组以构建综合测试驾驶循环,进行更准确的燃油经济性评估。然后,进一步地,将燃油消耗代价,电池容量损失代价和电量维持代价添加到累积奖励中,对演员和评论家网络参数进行迭代更新,以最大化累积奖励。当策略网络执行确定性输出动作时,添加OU噪声以寻找更多潜在的最佳策略。同时,作为专家经验,将发动机的最佳BSFC曲线融入到特定区域内的行驶成本评价,以加快DDPG算法的收敛过程,每个训练阶段的行驶成本评价问题可以表示为一个多目标,多约束的非线性优化问题;
行驶成本评价表述为:
(1)稳态燃油消耗和发动机启停总燃油消耗成本
发动机的稳态燃油消耗率可以映射为发动机转速和转矩的函数,此外,发动机启停会增加额外的燃油成本,其总燃油消耗成本为:
Figure GDA0003409440330000073
其中,cfuel为燃油价格,
Figure GDA0003409440330000081
为燃油消耗率,t0、tf分别表示行程的起始和结束时间,αst为发动机启动时额外消耗的燃油质量,ωe,Te分别为发动机的转速和转矩;
(2)电池老化成本
建立以流经电池安时通量为自变量,以电池环境温度为加速因子的电池容量半经验衰减模型:
Figure GDA0003409440330000082
其中,Qloss,%为电池容量损失百分比,α、β为拟合系数,Ea为活化能,η为补偿系数,Crate为充放电倍率,Rgas为气体摩尔常数,TK为绝对温度,Ah为累计电荷,z为幂指因子;
为表征以内部电荷交换所导致的电池容量衰减,定义标称情况下电池寿命终止时流经电池的总电量Ahnom和实际工况相对于标称情况下的严重性系数σ(τ)为:
Figure GDA0003409440330000083
其中,Qcyc,EoL表示电池寿命终止时的电池容量损失百分比,SOCnom,Crate,nom,TK,nom分别表示标称情况下电池SOC,充放电倍率和电池环境温度;Ahcyc表示实际工况下流经电池的总电量,SOC,Crate,T分别为电池荷电状态,实际工况下电池充放电倍率和电池环境温度,当电池容量衰减20%时,电池寿命终止,同时定义标称情况下SOCnom=0.35,Crate,nom=2.5C,TK,nom=298.15K;
以衰减程度定义电池的老化成本为:
Figure GDA0003409440330000084
其中,cbatt为电池更换成本,Ibatt为电池电流;
EMS的目标是减少燃油消耗,同时将SOC保持在一定的最佳范围内波动,避免过充和过放现象的产生,因此需要在行驶成本目标函数中加入SOC的波动惩罚;为此,需要设计合理的控制变量,状态变量和预设奖励。控制变量选为发动机的节气门开度,也是DDPG算法中的“动作”,状态变量由车速,加速度,电池SOC和电池有效安时通量组成,可以表示为s=[v,a,SOC,Aheff]。为解决行驶成本评价问题,定义累积奖励为:
Figure GDA0003409440330000091
其中,csoc为转化系数,SOCref为参考SOC值,一般取0.6;第一项代表燃料消耗成本,第二项代表电池老化成本,而第三项可以解释为SOC维持惩罚;N是行驶周期的结束时间,Ibatt(τ)是电池电流;
同时传动部件需要满足相应的物理约束:
Figure GDA0003409440330000092
其中,Te,Tmg1,Tmg2分别是发动机,电机MG1和电机MG2的转矩,ωemg1mg2分别是发动机,电机MG1和电机MG2的转速。
进一步,步骤S4中,基于所构建的合成工况,利用动态规划算法计算极限最优行驶成本,比较验证融入专家经验的DDPG算法的有效性。
本发明的有益效果在于:
1)本发明采用的基于数据驱动的方法,以真实交通流信息为基础,通过工况片段的典型特性提取与聚类分析,根据实车采集数据建立真实反映不同驾驶风格和驾驶习惯的特定驾驶场景,可以为特定地区更为精确的燃油经济性评估提供参考。
2)本发明将深度确定性策略梯度(DDPG)算法与专家经验相结合,解决输入型功率分流构型多自由度多变量的控制问题,在保证算法有效性的同时减少了动作空间搜索的维度,同时避免了前期探索时的完全随机性,具有较高的训练效率。
3)本发明在提出的专家协助DDPG策略框架内,综合考虑了燃油消耗成本,电池老化成本和电量维持成本,对控制率的最优性进行了全面的评估,并与全局最优策略DP进行比较,验证了该策略的优越性。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明基于数据驱动场景下车辆行驶成本评价方法整体流程图;
图2为示例数据集速度信息;
图3为原始速度轨迹和中值滤波后速度轨迹对比图;
图4为经IABC-Kmeans聚类后反映城市闹区,城市生活区,城市郊区和高速公路的不同道路交通场景;
图5为距离每个聚类中心最近的20个典型代表性工况片段;
图6为反映地区驾驶特征的典型合成工况;
图7为基于专家经验协助下DDPG的能量管理控制整体结构;
图8为输入型功率分流构型;
图9为基于数据驱动场景下车辆行驶成本评价方法流程框图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图9,本发明优选了一种基于数据驱动场景下车辆行驶成本评价方法,参照图1,具体包括以下步骤:
S1:获取特定区域内的混合动力行车历史数据并进行预处理,对预处理的速度信息进行工况片段的划分:
在本发明实施例中,为了使所制定合成工况在反映特定区域的驾驶风格的前提下满足车辆行驶成本评价基准的普适性,所选定的特定区域应当包括城市闹区,城市生活区,城市郊区和高速公路的不同道路交通场景;目标车辆为特定区域内搭载行车记录仪,车载通信单元TCU,OBD-Ⅱ等的混合动力汽车车型,从而能够在行驶过程中记录车辆位置,速度等状态信息,并通过与云端的交互可以获取一段时期该区域内混合动力汽车的交通状态流信息。其中,车辆状态信息完全由目标车辆根据驾驶员意图生成而来,没有人为设定的行驶或路线条件,它是该地区特定驾驶风格和驾驶习惯的集中体现。因此可以涵盖该地区混合动力汽车实际行驶过程的多种行驶条件和驾驶场景。
所采集的混合动力汽车状态信息包括采集时间,GPS位置信息,瞬时燃油消耗和速度信息,为了便于后续车辆行驶代价EMS的评估,对采样数据进行1s的插值离散。原始数据集的可靠性和准确性对后期的工况构建的有效性起着至关重要的作用,但由于外界环境因素和车辆自身数据采集的误差,此外,所采集到的数据中,驾驶员的不当操作也可能会导致汽车在运行过程中速度轨迹产生脉冲噪声和高频噪声,它会影响到采集到的数据的典型代表性。因此有必要对原始的数据集进行筛选和预处理,对因高层覆盖和隧道等原因造成的空值进行线性插值处理,以保证后续工况构建的有效性与完整性。
数据拟合补充完成后,对所有混合动力汽车的速度轨迹进行拼接,同时采用中值滤波的方式消除车辆轨迹数据中的奇点,并对速度曲线进行平滑处理,邻域的数量为10。
为使本说明书更加清楚,完整,将结合具体数据作进一步说明。
示例数据集为美国密歇根州安娜堡市383辆汽车从2018年8月15日至2018年8月22日的车载OBD-II记录仪收集的燃料和能源数据,其中的速度信息显示在图2中,原始工况时间长度为220072s。对其中的某段车速异常数据利用中值滤波进行平滑处理后的对比结果如图3所示。可以看出去噪处理后的曲线变得更加平滑,并消除了“尖峰”数据的干扰,能够有效提高信噪比,保证了后续工况构建的准确性。
车辆在行驶过程中由于路况的不同需要频繁起动、加速和减速,使得整个数据链频繁出现零值。为了便于后续的数据处理,如图3所示,定义车辆从一个怠速开始到下一个怠速开始,且怠速时间段在行驶时间段之前的运动过程作为一个数据单元或者工况片段,其可以细分为怠速阶段,加速阶段,匀速阶段和制动阶段四个不同的类别,整个行驶工况可以分成数个工况片段的组合。根据工况片段定义原则,在拼接好的经过预处理后的数据集中对行驶时长大于15s工况片段进行筛选,如果工况片段的行驶时长小于15s,则判定是由于车辆抖动或滑动引起的瞬时运动,无法代表该地区普适的驾驶场景,从而剔除这条工况片段。
S2:基于主成分分析对工况片段的多维特征参数进行降维处理,同时消除工况片段间特征的相关性:
为准确对每个运动学片段进行描述,选取12个特征参数如表1所列。这些参数可以分为时间特征参数,速度特征参数和加速度特征参数。各参数之间的相关性由皮尔逊相关系数R定义,结果展示在表2中,可以看出运动学片段特征参数中平均车速和最大车速强相关,而和怠速时间比负相关。
Figure GDA0003409440330000121
其中,
Figure GDA0003409440330000123
Figure GDA0003409440330000122
分别是两个样本数据的平均值,n表示样本数据的维数,xi和yi表示样本数据的第i个个体。
表1工况片段特征参数
参数 描述 参数 描述
v<sub>mean</sub>/(m·s<sup>-1</sup>) 平均车速 v<sub>max</sub>/(m·s<sup>-1</sup>) 最大车速
δ<sub>v</sub>/(m·s<sup>-1</sup>) 速度标准差 a<sub>max</sub>/(m·s<sup>-2</sup>) 最大加速度
a<sub>min</sub>/(m·s<sup>-2</sup>) 最小加速度 a<sub>meanp</sub>/(m·s<sup>-2</sup>) 平均正加速度
a<sub>meann</sub>/(m·s<sup>-2</sup>) 平均负加速度 δ<sub>ap</sub>/(m·s<sup>-2</sup>) 正加速度标准差
δ<sub>an</sub>/(m·s<sup>-2</sup>) 负加速度标准差 δ<sub>abs</sub>/(m·s<sup>-2</sup>) 加速度绝对值标准差
I 怠速时间比 s/m 行驶距离
表2工况片段特征参数之间的相关系数
R v<sub>mean</sub> v<sub>max</sub> δ<sub>v</sub> α<sub>max</sub> a<sub>min</sub> α<sub>meanp</sub> a<sub>meann</sub> δ<sub>ap</sub> δ<sub>an</sub> δ<sub>abs</sub> I s
v<sub>mean</sub> 1 0.8970 0.7597 0.3983 -0.5199 0.3559 -0.04761 0.2643 0.3244 0.3250 -0.7537 0.6890
v<sub>max</sub> 0.8970 1 0.9176 0.5009 -0.6369 0.3890 -0.2374 0.3617 0.4774 0.4651 -0.5958 0.6333
δ<sub>v</sub> 0.7597 0.917 1 0.4939 -0.6148 0.4075 -0.3377 0.4281 0.5487 0.5483 -0.4445 0.4187
a<sub>max</sub> 0.3983 0.5009 0.4939 1 -0.4307 0.4389 -0.2775 0.7917 0.3797 0.7399 -0.2924 0.2100
a<sub>min</sub> -0.5199 -0.6369 -0.6148 -0.4307 1 -0.3518 0.5033 -0.3675 -0.8660 -0.6306 0.3797 -0.346
a<sub>meanp</sub> 0.3559 0.3890 0.4075 0.4389 -0.3518 1 -0.4576 0.7920 0.3910 0.7511 -0.5306 -0.008
a<sub>meann</sub> -0.0476 -0.2374 -0.3377 -0.2775 0.5033 -0.4576 1 -0.4438 -0.7373 -0.6799 0.0144 0.1440
δ<sub>ap</sub> 0.2643 0.3617 0.4281 0.7917 -0.3675 0.7920 -0.4438 1 0.4230 0.9173 -0.3154 -0.0381
δ<sub>an</sub> 0.3244 0.4774 0.5487 0.3797 -0.8660 0.3910 -0.7373 0.4230 1 0.7292 -0.2051 0.0728
δ<sub>abs</sub> 0.3250 0.4651 0.5483 0.7399 -0.6306 0.7511 -0.6799 0.9173 0.7292 1 -0.3219 -0.0052
I -0.7538 -0.5951 -0.4448 -0.2927 0.3797 -0.5309 0.0144 -0.3152 -0.2053 -0.3216 1 -0.4273
s 0.6890 0.6333 0.4187 0.2100 -0.3466 -0.0083 0.1440 -0.038 0.0728 -0.0052 -0.4274 1
所提取出来的不同特征参数之间存在一定的相关性,无法单一地用某些变量对关键原始数据进行较为全面的描述。为了能够尽可能地兼顾原始数据的更多信息,在保证聚类结果的可靠性的同时降低计算的复杂度,通过主成分分析,原来众多具有一定相关性的特征参数,通过变换维度的方式用新的线性无关综合变量(主成分)来反映所研究问题的大部分信息,从而代替原来的多维特征参数,这些主成分由12个归一化的特征参数通过线性组合得到,特征参数前的系数代表了其在主成分所占的比例大小。
建立样本观测矩阵,样本观测矩阵的每一行由所划分的工况片段的12个统计学特征参数组成。为了避免不同量纲的影响,对样本观测矩阵进行标准化处理,得到标准化矩阵和相应的相关系数矩阵:
Figure GDA0003409440330000131
Figure GDA0003409440330000132
其中,xi,j表示第i个工况片段的第j个特征值,
Figure GDA0003409440330000133
Sj分别表示样本观测矩阵中第j列的均值和方差。其中ri,j是系数矩阵R的元素,yi,yj分别是标准化矩阵Y的第i列和第j列的向量。
通过对标准化矩阵Y进行坐标变换以获得相互正交的以下形式的主成分:
Figure GDA0003409440330000134
其中,an为变换矩阵A的行向量,fn为第n个主成分,由fn的12个列向量共同构成主成分得分矩阵S。
主成分的贡献定义为该主成分的方差和所有主成分方差和的比值,它表示了主成分所包含原始数据信息的多少。每个主成分按其方差大小由大到小进行排列,通常取累计贡献率超过80%的成分来代替原始变量。示例数据集经过主成分分析后的主成分累计贡献率如表3所示,可以看出前3个主成分方差大于1(保证提取的主成分特征值大于所有主成分特征值的平均数),且累积贡献率为82.423%,因此前三个主成分可以很好地替代原先的12个特征参数用于后续的聚类分析。
表3不同主成分的累积贡献率
主成分 方差 贡献率(%) 累积贡献率(%)
1 6.151 51.262 51.262
2 2.420 20.165 71.427
3 1.319 10.996 82.423
4 0.772 6.435 88.858
5 0.480 3.998 92.857
6 0.371 3.093 95.950
7 0.234 1.951 97.901
8 0.088 0.734 98.634
S3:采用IABC-Kmeans聚类算法对降维后的主成分进行相似片段的聚类分析,搭建典型工况特征集,根据各聚类样本数量比例和类中样本与聚类中心参数相关性重组反映某个地区特定驾驶风格和驾驶习惯的合成工况,并与原始数据集进行统计学特征的对比验证:
利用主成分分析后的得分系数矩阵进行相似片段的聚类分析。传统Kmeans聚类(KMC)算法的质量对初始聚类中心的选择高度敏感。IABC-Kmeans使用最大-最小距离算法初始化人工蜂群(ABC)算法的蜂群,并搜索KMC的最佳初始聚类中心。该处理不仅克服了蜂群初始化的随机性,而且还降低了对后续KMC对初始聚类中心的敏感性,收敛速度和稳定性都有很大的提高。该算法的基本思想是将ABC获得的更新位置作为KMC的初始中心,并进行K均值聚类,然后以新的聚类中心更新蜂群,交替执行IABC和KMC,直到算法结束。KMC的聚类中心表示如下
Figure GDA0003409440330000141
在IABC中,位置更新公式决定着蜂群能否快速准确地找到新的最优解。传统的ABC算法位置更新公式具有很强的搜索能力,但是在搜索邻域时具有迭代随机性,容易陷入局部最优解,且更新速度缓慢,探索能力欠缺。通过在传统的ABC算法位置更新公式上引入全局因子可以很好地解决这个问题
Figure GDA0003409440330000142
其中,Vi,j表示在xi,j附近产生的一个新的位置,xi,j表示第i个工况片段的第j个特征值,k,m∈{1,2,…,N},N表示食物源的个数(特征数目),k,m,j都是通过随机公式产生的随机数,k≠m≠i,ri,j∈{-1,1},
Figure GDA0003409440330000143
xbest,j代表食物丰富度最高的食物源。
在邻域搜索过程中除了向着ri,j(xmj-xkj)矢量方向迭代外,同时进行迭代前后位置优劣的比较。在整个搜索过程中,除了获得历史最优的位置信息和当前的位置信息外,通过加入全局引导因子,使蜂群的搜索具有很强的方向性与目的性,影响因子
Figure GDA0003409440330000144
用来约束寻优的幅度,如果当前位置和最优位置差距较大,则加大搜索的步长,反之则缓慢地进行逼近。
IABC-Kmeans的具体步骤描述如下:
1)设置引领蜂、跟随蜂和侦察蜂的数量,最大迭代次数以及控制参数,聚类类别数为4,分别用来涵盖城市闹区,城市生活区,城市郊区,高速公路的不同道路交通场景;利用最大最小距离积法初始化蜂群,产生{Z1,Z2,…ZN}的蜂群。
2)对初始蜂群进行一次KMC聚类划分,计算每个种群的适应度,按照适应度大小排序,将前一半作为引领蜂,后一半作为跟随蜂。适应度函数将引导群体进化的方向,直接决定了群体的进化行为、迭代的次数和解的质量,结合人工蜂群迭代搜索过程以及KMC算法思想构造的适应度函数为
fitnessi=CNi/Ji,i=1,2,…N
其中,CNi表示第i类点的个数,
Figure GDA0003409440330000151
表示第i类的类内对象到中心点Ci的距离之和。
3)引领蜂基于位置更新公式对其邻域进行搜索,得到新的位置。按照贪婪选择原则,如果新的位置的适应度大于原先位置的适应度,则用新的位置代替原位置;否则,保持原位置不变。当所有引领蜂完成邻域搜索后,基于轮盘赌原则,根据下式计算概率Pi选择引领蜂:
Figure GDA0003409440330000152
4)原则上,Pi越大,表明引领蜂i的适应度值越大,被跟随蜂选中的概率也越大。当跟随蜂完成引领蜂选择后,利用位置更新公式进行邻域搜索,同样按照贪婪选择原则选择适应度高的位置。
5)在完成所有搜索之后,将获得的最佳位置用作聚类中心,并且将数据集进行Kmeans迭代聚类。蜂群根据种群的划分以新的种群中心进行更新。如果引领蜂在最大迭代次数后没有变化,则将其更改为侦察蜂,并随机生成一个新位置来替换原始位置。如果当前迭代次数大于最大迭代次数,则迭代结束,算法完成;否则,执行步骤2。
经过IABC-Kmeans聚类之后的结果展示在图4中,可以分别涵盖城市闹区,城市生活区,城市郊区,高速公路的不同道路交通场景。在四个簇中挑选出代表性的工况块来代表每个簇,挑选的原则为将距离聚类中心最近的工况块作为各个簇的代表性工况块,图5展示的是距离每个聚类中心最近的20个典型代表性工况片段。
城市典型工况的时间为1500s左右,利用各簇总持续时间在整个数据集中所占的时间比例,即可确定各簇工况块在最终构建工况中所占的时间,得到的反映Ann Arbor地区驾驶特征的典型工况展示在图6中。
为了验证所构建的工况能否有效对原始数据信息进行反映,对构建后的城市典型工况和采集到的原始数据进行统计学对比分析和加速度联合概率密度分布图(SpeedAcceleration Probability Density,SPAD)分析。表4给出了原始数据集和合成工况统计学特征的对比分析,可以看出几种重要的统计学特征相差都在10%以内,可以较好地对原始数据集信息进行反映。
表4原始数据集和合成工况统计学特征的对比分析
Figure GDA0003409440330000153
Figure GDA0003409440330000161
S4:提出电池老化、燃油消耗和电量维持的统一量化方法,搭建基于融入专家经验的DDPG的多目标能量管理优化框架,使策略具有在保证最优性的前提下具有更高的训练效率:
强化学习是机器学习方法的一个分支,它通过智能体与环境的交互来调整其策略,即执行动作并从环境中获取相应的反馈。控制器学习和更新网络参数的目的是通过反复训练来提高性能,并通过在每个时间步长采取最佳动作来最大化累积预期奖励。
Figure GDA0003409440330000162
其中,t是时间步长。γ表示折扣率,用于调整瞬时和未来奖励之间的重要性,以保证收敛性,r是瞬时奖励。
通常,随着状态空间和动作空间维数的增加,传统的RL算法趋于陷入“维数诅咒”问题,计算时间也会呈指数增长。此外控制动作在工程领域通常是连续的,也增加了控制策略的复杂性。DDPG(Deep Deterministic Policy Gradient)算法很好地解决了这个问题,该方法使用确定性策略梯度,即网络的输出是确定性动作而不是动作的发生概率。其核心改进如下:(1)采用卷积神经网络作为策略函数和价值函数的逼近方式;(2)通过引入经验回放来消除样本之间的随机性和依赖性,并减少价值函数估计时所产生的偏差;(3)策略函数和价值函数均采用双重神经网络架构。
图7显示了基于专家经验协助下DDPG的能量管理控制整体结构。DDPG由演员网络和评论家网络组成,演员网络和评论家网络分别包含一个在线网络和一个目标网络。评论家网络根据演员网络输出的动作进行评估,当前状态和相应的动作是评论家网络的输入,而输出是相应的Q值。演员网络根据评论家网络生成的梯度进行更新。评论家网络的参数更新方法是最小化损失函数值,而演员网络使用θμ来执行随机采样策略梯度。参数为θμ的策略网络用来表示确定性策略a=μ(s|θμ),输入为当前状态s,输出为确定性作用值a。参数为θQ的值网络用来表示值函数Q(s|θQ),用于求解Bellman方程。策略网络用于更新动作输出,该输出动作对应于演员评论家算法中的演员。价值网络用于逼近状态作用的值函数并提供梯度信息,对应于演员评论家算法中的评论家。使用梯度上升的目的是提高累积奖励的期望,最终使算法沿着提高动作值Q(s,a;θQ)的方向更新策略网络的参数θμ
训练环境包括状态变量,控制变量,预设奖励,车辆模型和驾驶循环。智能体根据当前策略网络的输出在每个训练步中选择一个动作,并将元胞数组(si,ai,ri,si+1)存储在经验回放区中。然后在缓冲区中进行小批量随机采样,以固定的时间间隔通过随机梯度下降法来训练演员和评论家网络。在整个驾驶循环中重复训练过程,直到累积奖励收敛为止。表5给出了DDPG算法实现过程的伪代码,表6给出了一些关键参数。
表5 DDPG算法流程
Figure GDA0003409440330000171
表6 DDPG超参数
参数
演员网络学习率 0.001
评论家网络学习率 0.001
奖励折扣系数 0.9
软更新系数 0.01
经验回放池大小 10000
最小取样数 64
初始探索率 1.5
输入变量维度 4
输出变量维度 1
DDPG的目的是通过更新网络参数来最大化累积奖励,并最小化损失函数的期望。损失函数定义为Q值与神经网络的输出之间误差的平方,损失函数和策略梯度表示如下:
Figure GDA0003409440330000181
其中,Q(si,aiQ)是状态si和动作ai处的状态值函数,Q′(si+1,μ′(si+1μ′)|θQ′)是下一时刻的预期状态值函数,yi是目标Q的参数θμ′的值,n是小批量取样的数量,ri是即时奖励,γ是折扣率,θμQ分别表示演员和评论家的在线网络参数,θμ′Q′分别表示演员和评论家的目标网络参数,
Figure GDA0003409440330000182
是控制策略μ的参数θμ的梯度,
Figure GDA0003409440330000183
是状态值函数对于动作ai的梯度。
在线策略网络和在线价值网络使用权重τ在每一时间步软更新目标网络,以使训练过程更稳定。
θQ←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
图8为所研究的输入型功率分流构型,为了获得更好的燃油经济性和更少的有害排放,发动机必须在低有效燃油消耗(BSFC)区域内运行。将发动机的最佳BSFC曲线组成的专家知识融合到基于DDPG的EMS中,可以进一步探索能源节约的性能潜力。
控制动作设为发动机的输出功率,根据发动机的最佳工作曲线,则可以相应确定发动机的转速和转矩。控制率将引导发动机沿着最佳BSFC曲线运行,而不是在整个发动机map图中进行随机探索。通过专家经验协助的方式有效地减少行动空间的维数,这使得整车控制器可以在确保燃油经济性的同时,在更小的动作探索空间中寻找最佳解决方案,从而减轻了计算负担。
图9显示了基于数据驱动场景下车辆行驶成本评价方法流程框图。根据从原始数据集中提取的速度曲线,将IABC-Kmeans聚类算法用于主成分分析后特征提取,并对相似的工况片段进行拼接。选择反映每个类别的最具代表性的工况片段进行重组以构建综合测试驾驶循环,进行更准确的燃油经济性评估。然后,将燃油消耗代价,电池容量损失代价和电量维持代价添加到累积奖励中,对演员和评论家网络参数进行迭代更新,以最大化累积奖励。当策略网络执行确定性输出动作时,添加OU噪声以寻找更多潜在的最佳策略。同时,作为专家经验,将发动机的最佳BSFC曲线融入到特定区域内的行驶成本评价,以加快DDPG算法的收敛过程,每个训练阶段的行驶成本评价问题可以表示为一个多目标,多约束的非线性优化问题。
行驶成本评价可以表述为:
(1)稳态燃油消耗和发动机启停总燃油消耗成本
发动机的稳态燃油消耗率可以映射为发动机转速和转矩的函数,此外,发动机启停会增加额外的燃油成本,其总燃油消耗成本为
Figure GDA0003409440330000191
其中,cfuel为燃油价格,
Figure GDA0003409440330000192
为燃油消耗率,t0、tf分别表示行程的起始和结束时间,αst为发动机启动时额外消耗的燃油质量,ωe,Te分别为发动机的转速和转矩;
(2)电池老化成本
建立以流经电池安时通量为自变量,以电池环境温度为加速因子的电池容量半经验衰减模型:
Figure GDA0003409440330000193
其中,Qloss,%为电池容量损失百分比,α、β为拟合系数,Ea为活化能,η为补偿系数,Crate为充放电倍率,Rgas为气体摩尔常数,TK为绝对温度,Ah为累计电荷,z为幂指因子;
为表征以内部电荷交换所导致的电池容量衰减,定义标称情况下电池寿命终止时流经电池的总电量Ahnom和实际工况相对于标称情况下的严重性系数σ(τ)为:
Figure GDA0003409440330000194
其中,Qcyc,EoL表示电池寿命终止时的电池容量损失百分比,SOCnom,Crate,nom,TK,nom分别表示标称情况下电池SOC,充放电倍率和电池环境温度;Ahcyc表示实际工况下流经电池的总电量,SOC,Crate,T分别为电池荷电状态,实际工况下电池充放电倍率和电池环境温度,当电池容量衰减20%时,电池寿命终止,同时定义标称情况下SOCnom=0.35,Crate,nom=2.5C,TK,nom=298.15K;
以衰减程度定义电池的老化成本为:
Figure GDA0003409440330000195
其中,cbatt为电池更换成本,Ibatt为电池电流。
EMS的目标是减少燃油消耗,同时将SOC保持在一定的最佳范围内波动,避免过充和过放现象的产生,因此需要在行驶成本目标函数中加入SOC的波动惩罚。为此,需要设计合理的控制变量,状态变量和预设奖励。控制变量选为发动机的节气门开度,也是DDPG算法中的“动作”,状态变量由车速,加速度,电池SOC和电池有效安时通量组成,可以表示为s=[v,a,SOC,Aheff]。为解决行驶成本评价问题,定义累积奖励:
Figure GDA0003409440330000201
其中,csoc为转化系数,SOCref为参考SOC值,一般取0.6;第一项代表燃料消耗成本,第二项代表电池老化成本,而第三项可以解释为SOC维持惩罚。N是行驶周期的结束时间,Ibatt(τ)是电池电流。同时传动部件需要满足相应的物理约束:
Figure GDA0003409440330000202
其中Te,Tmg1,Tmg2分别是发动机,电机MG1和电机MG2的转矩,ωemg1mg2分别是发动机,电机MG1和电机MG2的转速。
基于所构建的合成工况,利用动态规划算法计算极限最优行驶成本,比较验证融入专家经验的DDPG算法的有效性。
本发明的基于数据驱动场景下车辆行驶成本评价方法为车辆行驶评价提供了更多的自由度,可以为特定区域内更精确的车辆行驶成本评价方法提供参考。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于数据驱动场景下车辆行驶成本评价方法,其特征在于,该方法具体包括以下步骤:
S1:获取特定区域内的行车历史数据并进行预处理,对预处理的速度信息进行工况片段的划分;
S2:基于主成分分析对工况片段的多维特征参数进行降维处理,同时消除工况片段间特征的相关性;
S3:采用IABC-Kmeans聚类算法对降维后的主成分进行相似片段的聚类分析,搭建典型工况特征集,根据各聚类样本数量比例和类中样本与聚类中心参数相关性重组反映某个地区特定驾驶风格和驾驶习惯的合成工况,并与原始数据集进行统计学特征的对比验证;
步骤S3具体包括:基于主成分分析得到每个工况片段在所选定的主成分的得分系数矩阵,进行相似片段的聚类分析;
IABC-Kmeans使用最大-最小距离算法初始化人工蜂群算法的蜂群,并搜索KMC的最佳初始聚类中心;在传统的ABC算法位置更新公式上引入全局因子,即
Figure FDA0003409440320000011
其中,Vi,j表示在xi,j附近产生的一个新的位置,xi,j表示第i个工况片段的第j个特征值,k,m∈{1,2,…,N},N表示食物源的个数,k,m,j都是通过随机公式产生的随机数,k≠m≠i,ri,j∈{-1,1},
Figure FDA0003409440320000012
xbest,j代表食物丰富度最高的食物源;
IABC-Kmeans算法的具体步骤为:
S31:设置引领蜂、跟随蜂和侦察蜂的数量,最大迭代次数以及控制参数,聚类类别数为4,分别用来涵盖城市闹区、城市生活区、城市郊区和高速公路的不同道路交通场景;利用最大最小距离积法初始化蜂群,产生{Z1,Z2,…ZN}的蜂群;
S32:对初始蜂群进行一次KMC聚类划分,计算每个种群的适应度,按照适应度大小排序,将前一半作为引领蜂,后一半作为跟随蜂;适应度函数将引导群体进化的方向,直接决定了群体的进化行为、迭代的次数和解的质量,结合人工蜂群迭代搜索过程以及KMC算法思想构造的适应度函数为:
fitnessi=CNi/Ji,i=1,2,…N
其中,CNi表示第i类点的个数,
Figure FDA0003409440320000013
表示第i类的类内对象到中心点Ci的距离之和;
S33:引领蜂基于位置更新公式对其邻域进行搜索,得到新的位置;按照贪婪选择原则,如果新的位置的适应度大于原先位置的适应度,则用新的位置代替原位置;否则,保持原位置不变;当所有引领蜂完成邻域搜索后,基于轮盘赌原则,根据下式计算概率Pi选择引领蜂:
Figure FDA0003409440320000021
S34:Pi越大,表明引领蜂i的适应度值越大,被跟随蜂选中的概率也越大;当跟随蜂完成引领蜂选择后,利用位置更新公式进行邻域搜索,同样按照贪婪选择原则选择适应度高的位置;
S35:在完成所有搜索之后,将获得的最佳位置用作聚类中心,并且将数据集进行Kmeans迭代聚类;蜂群根据种群的划分以新的种群中心进行更新;如果引领蜂在最大迭代次数后没有变化,则将其更改为侦察蜂,并随机生成一个新位置来替换原始位置;如果当前迭代次数大于最大迭代次数,则迭代结束,算法完成;否则,执行步骤S32;
经过IABC-Kmeans聚类之后的结果分别涵盖城市闹区,城市生活区,城市郊区和高速公路的不同道路交通场景;在四个簇中挑选出代表性的工况块来代表每个簇,挑选的原则为将距离聚类中心最近的工况块作为各个簇的代表性工况块;
对构建后的城市典型工况和采集到的原始数据进行统计学对比分析和加速度联合概率密度分布图分析;
S4:设计电池老化、燃油消耗和电量维持的统一量化方法,搭建基于融入专家经验的DDPG的多目标能量管理优化模型,使能量管理策略在保证最优性的前提下具有更高的训练效率。
2.根据权利要求1所述的基于数据驱动场景下车辆行驶成本评价方法,其特征在于,步骤S1中,获取的特定区域包括:城市闹区、城市生活区、城市郊区和高速公路的不同道路交通场景;目标车辆为特定区域内搭载行车记录仪、车载通信单元TCU或OBD-Ⅱ,能够在行驶过程中记录车辆状态信息,并通过与云端的交互获取一段时期该区域内混合动力汽车的交通状态流信息;
混合动力汽车状态信息包括:采集时间、GPS位置信息、瞬时燃油消耗和速度信息;对采样数据进行1s的插值离散;对原始的数据集进行筛选和预处理,对空值进行线性插值处理;
数据拟合补充完成后,对所有混合动力汽车的速度轨迹进行拼接,同时采用中值滤波的方式消除车辆轨迹数据中的奇点,并对速度曲线进行平滑处理;
定义车辆从一个怠速开始到下一个怠速开始,且怠速时间段在行驶时间段之前的运动过程作为一个数据单元或者工况片段,其细分为怠速阶段、加速阶段、匀速阶段和制动阶段四个不同的类别,整个行驶工况分成数个工况片段的组合;根据工况片段定义原则,在拼接好的经过预处理后的数据集中对行驶时长大于15s工况片段进行筛选,如果工况片段的行驶时长小于15s,则判定是由于车辆抖动或滑动引起的瞬时运动,剔除这条工况片段。
3.根据权利要求1所述的基于数据驱动场景下车辆行驶成本评价方法,其特征在于,步骤S2具体包括:时间特征参数、速度特征参数和加速度特征参数;各参数之间的相关性由皮尔逊相关系数R定义:
Figure FDA0003409440320000031
其中,
Figure FDA0003409440320000032
Figure FDA0003409440320000033
分别是两个样本数据的平均值,n表示样本数据的维数,xi和yi表示样本数据的第i个个体;
建立样本观测矩阵,样本观测矩阵的每一行由所划分的工况片段的特征参数组成;对样本观测矩阵进行标准化处理,得到标准化矩阵和相应的相关系数矩阵:
Figure FDA0003409440320000034
Figure FDA0003409440320000035
其中,xi,j表示第i个工况片段的第j个特征值,
Figure FDA0003409440320000036
Sj分别表示样本观测矩阵中第j列的均值和方差;ri,j是系数矩阵R的元素,yi,yj分别是标准化矩阵Y的第i列和第j列的向量;Cov(·)表示协方差函数,Var表示方差函数;
通过对标准化矩阵Y进行坐标变换以获得相互正交的以下形式的主成分:
Figure FDA0003409440320000037
其中,an为变换矩阵A的行向量,fn为第n个主成分。
4.根据权利要求1所述的基于数据驱动场景下车辆行驶成本评价方法,其特征在于,步骤S4具体包括:训练环境包括:状态变量、控制变量、预设奖励、车辆模型和驾驶循环;智能体根据当前策略网络的输出在每个训练步中选择一个动作,并将元胞数组(si,ai,ri,si+1)存储在经验回放区中;然后在缓冲区中进行小批量随机采样,以固定的时间间隔通过随机梯度下降法来训练演员和评论家网络;在整个驾驶循环中重复训练过程,直到累积奖励收敛为止;
DDPG的目的是通过更新网络参数来最大化累积奖励,并最小化损失函数的期望;损失函数定义为Q值与神经网络的输出之间误差的平方,损失函数和策略梯度表示如下:
Figure FDA0003409440320000041
其中,Q(si,aiQ)是状态si和动作ai处的状态值函数,Q′(si+1,μ′(si+1μ′)|θQ′)是下一时刻的预期状态值函数,yi是目标Q的参数θμ′的值,n是小批量取样的数量,ri是即时奖励,γ是折扣率,θμQ分别表示演员和评论家的在线网络参数,θμ′Q′分别表示演员和评论家的目标网络参数,
Figure FDA0003409440320000042
是控制策略μ的参数θμ的梯度,
Figure FDA0003409440320000043
是状态值函数对于动作ai的梯度;
在线策略网络和在线价值网络使用权重τ在每一时间步软更新目标网络,以使训练过程更稳定;
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
将发动机的最佳BSFC曲线组成的专家知识融合到基于DDPG的EMS中,探索能源节约的性能潜力;
控制动作设为发动机的输出功率,根据发动机的最佳工作曲线,相应确定发动机的转速和转矩;通过专家经验协助的方式减少行动空间的维数。
5.根据权利要求4所述的基于数据驱动场景下车辆行驶成本评价方法,其特征在于,步骤S4中,作为专家经验,将发动机的最佳BSFC曲线融入到特定区域内的行驶成本评价,以加快DDPG算法的收敛过程,每个训练阶段的行驶成本评价问题可以表示为一个多目标,多约束的非线性优化问题;控制动作设为发动机的输出功率,根据发动机的最佳工作曲线,则相应确定发动机的转速和转矩;控制率将引导发动机沿着最佳BSFC曲线运行,而不是在整个发动机map图中进行随机探索;通过专家经验协助的方式有效地减少行动空间的维数,这使得整车控制器在确保燃油经济性的同时,在更小的动作探索空间中寻找最佳解决方案,从而减轻计算负担;
行驶成本评价表述为:
(1)稳态燃油消耗和发动机启停总燃油消耗成本
总燃油消耗成本为:
Figure FDA0003409440320000051
其中,cfuel为燃油价格,
Figure FDA0003409440320000052
为燃油消耗率,t0、tf分别表示行程的起始和结束时间,αst为发动机启动时额外消耗的燃油质量,ωe,Te分别为发动机的转速和转矩;
(2)电池老化成本
建立以流经电池安时通量为自变量,以电池环境温度为加速因子的电池容量半经验衰减模型:
Figure FDA0003409440320000053
其中,Qloss,%为电池容量损失百分比,α、β为拟合系数,Ea为活化能,η为补偿系数,Crate为充放电倍率,Rgas为气体摩尔常数,TK为绝对温度,Ah为累计电荷,z为幂指因子;
为表征以内部电荷交换所导致的电池容量衰减,定义标称情况下电池寿命终止时流经电池的总电量Ahnom和实际工况相对于标称情况下的严重性系数σ(τ)为:
Figure FDA0003409440320000054
其中,Qcyc,EoL表示电池寿命终止时的电池容量损失百分比,SOCnom,Crate,nom,TK,nom分别表示标称情况下电池SOC,充放电倍率和电池环境温度;Ahcyc表示实际工况下流经电池的总电量,SOC,Crate,T分别为电池荷电状态,实际工况下电池充放电倍率和电池环境温度;
以衰减程度定义电池的老化成本为:
Figure FDA0003409440320000055
其中,cbatt为电池更换成本,Ibatt为电池电流;
为解决行驶成本评价问题,定义累积奖励为:
Figure FDA0003409440320000061
其中,csoc为转化系数,SOCref为参考SOC值;第一项代表燃料消耗成本,第二项代表电池老化成本,第三项为SOC维持惩罚;Ibatt(τ)是电池电流;
同时传动部件需要满足相应的物理约束:
Figure FDA0003409440320000062
其中,Te,Tmg1,Tmg2分别是发动机,电机MG1和电机MG2的转矩,ωemg1mg2分别是发动机,电机MG1和电机MG2的转速。
6.根据权利要求5所述的基于数据驱动场景下车辆行驶成本评价方法,其特征在于,步骤S4中,基于所构建的合成工况,利用动态规划算法计算极限最优行驶成本,比较验证融入专家经验的DDPG算法的有效性。
CN202110469430.8A 2021-04-28 2021-04-28 一种基于数据驱动场景下车辆行驶成本评价方法 Active CN113034210B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110469430.8A CN113034210B (zh) 2021-04-28 2021-04-28 一种基于数据驱动场景下车辆行驶成本评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110469430.8A CN113034210B (zh) 2021-04-28 2021-04-28 一种基于数据驱动场景下车辆行驶成本评价方法

Publications (2)

Publication Number Publication Date
CN113034210A CN113034210A (zh) 2021-06-25
CN113034210B true CN113034210B (zh) 2022-02-01

Family

ID=76454833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110469430.8A Active CN113034210B (zh) 2021-04-28 2021-04-28 一种基于数据驱动场景下车辆行驶成本评价方法

Country Status (1)

Country Link
CN (1) CN113034210B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114544191B (zh) * 2021-12-28 2024-05-03 文远苏行(江苏)科技有限公司 自动驾驶测试场景量化评估方法及相关设备
CN114609998A (zh) * 2022-03-09 2022-06-10 武汉理工大学 一种车辆队列测试方法、电子设备及储存介质
CN114778140B (zh) * 2022-06-17 2022-08-23 中汽研汽车检验中心(天津)有限公司 车辆能耗台架测试方法和系统
CN115150787A (zh) * 2022-07-06 2022-10-04 四川大学 基于深度强化学习的能量管理策略包的部署系统及方法
CN116499772B (zh) * 2023-06-28 2023-10-03 天津所托瑞安汽车科技有限公司 车辆制动性能评估方法、装置、电子设备及存储介质
CN116957365B (zh) * 2023-09-20 2023-11-24 深圳市鸿效节能股份有限公司 水泵电机的维护效果评估方法及其系统
CN117184103B (zh) * 2023-11-08 2024-01-09 北京理工大学 一种驾驶风格识别方法、系统及设备
CN117708999B (zh) * 2024-02-06 2024-04-09 北京航空航天大学 一种面向场景的混动汽车能量管理策略评价方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111267831A (zh) * 2020-02-28 2020-06-12 南京航空航天大学 一种混合动力车辆智能变时域模型预测能量管理方法
CN112070109A (zh) * 2020-07-21 2020-12-11 广东工业大学 一种基于改进密度峰值聚类的马蹄窑能耗异常检测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170169140A1 (en) * 2015-12-11 2017-06-15 National Chung Shan Institute Of Science And Technology Simulation test system of cluster-based microgrid integrated with energy storage
CN106203856A (zh) * 2016-07-18 2016-12-07 交通运输部公路科学研究所 一种组合主成分分析和模糊c均值聚类的车辆行驶工况制定方法
CN107878445B (zh) * 2017-11-06 2019-01-18 吉林大学 一种考虑电池性能衰减的混合动力汽车能量优化管理方法
CN109193075B (zh) * 2018-09-28 2020-06-05 合肥工业大学 基于强化学习的纯电动汽车动力电池冷却系统控制方法
CN110866997A (zh) * 2019-11-12 2020-03-06 中国计量大学 一种新的电动汽车行驶工况构建方法
CN112677957B (zh) * 2021-01-07 2021-10-08 重庆大学 一种双模构型多目标条件下基于帕累托最优性的参数优化方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111267831A (zh) * 2020-02-28 2020-06-12 南京航空航天大学 一种混合动力车辆智能变时域模型预测能量管理方法
CN112070109A (zh) * 2020-07-21 2020-12-11 广东工业大学 一种基于改进密度峰值聚类的马蹄窑能耗异常检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Battery-Involved Energy Management for Hybrid Electric Bus Based on Expert-Assistance Deep Deterministic Policy Gradient Algorithm;Jingda Wu,etc;《IEEE Transactions on Vehicular Technology》;20200921;第69卷(第11期);第12786-12796页 *
基于改进人工蜂群算法的K均值聚类算法;喻金平 等;《计算机应用》;20140430(第4期);第1065-1069、1088页 *
混合动力电动汽车控制系统设计与能量管理策略研究;胡悦;《中国优秀博硕士学位论文全文数据库(博士)工程科技Ⅱ辑》;20180815(第8期);正文第1-86页 *

Also Published As

Publication number Publication date
CN113034210A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN113034210B (zh) 一种基于数据驱动场景下车辆行驶成本评价方法
CN110775065B (zh) 一种基于工况识别的混合动力汽车电池寿命预测方法
CN110991757B (zh) 一种混合动力电动汽车综合预测能量管理方法
Huang et al. Battery health-aware and naturalistic data-driven energy management for hybrid electric bus based on TD3 deep reinforcement learning algorithm
DE102019114590A1 (de) Kraftfahrzeuge mit elektroantrieb, systeme und steuerlogik für vorausschauende ladeplanung und antriebsstrangsteuerung
Xu et al. A scalable energy modeling framework for electric vehicles in regional transportation networks
CN112327168A (zh) 一种基于XGBoost的电动汽车电池消耗预测方法
CN112949931B (zh) 数据驱动和模型混合的充电站数据的预测方法和装置
Wu et al. SOC prediction method based on battery pack aging and consistency deviation of thermoelectric characteristics
Liu et al. Energy consumption analysis of a parallel PHEV with different configurations based on a typical driving cycle
CN114103924A (zh) 一种混合动力车辆能量管理控制方法及装置
Lin et al. Multi-objective optimized driving strategy of dual-motor EVs using NSGA-II as a case study and comparison of various intelligent algorithms
CN111191824A (zh) 一种动力电池容量衰减预测方法及系统
CN113222385A (zh) 一种电动汽车行驶工况构建与评价方法
CN113642768A (zh) 一种基于工况重构的车辆行驶能耗预测方法
Wang et al. Research on electric vehicle (EV) driving range prediction method based on PSO-LSSVM
CN117079459A (zh) 混合自动驾驶交通流流速密能图谱构建方法及系统
CN112036598A (zh) 一种基于多信息耦合的充电桩使用信息预测方法
Peng et al. Ecological driving framework of hybrid electric vehicle based on heterogeneous multi agent deep reinforcement learning
DE102019205521A1 (de) Verfahren zur Reduzierung von Abgasemissionen eines Antriebssystems eines Fahrzeugs mit Verbrennungsmotor
Chen et al. On the relationship between energy consumption and driving behavior of electric vehicles based on statistical features
Chen et al. A novel method of developing driving cycle for electric vehicles to evaluate the private driving habits
Tao et al. A novel method of SOC estimation for electric vehicle based on adaptive particle filter
Hasib et al. Driving range prediction of electric vehicles: A machine learning approach
CN113552803B (zh) 一种基于工况识别的能量管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant