CN113715629B - 基于改进符号回归和XGBoost算法的剩余续驶里程预测方法 - Google Patents

基于改进符号回归和XGBoost算法的剩余续驶里程预测方法 Download PDF

Info

Publication number
CN113715629B
CN113715629B CN202111009582.6A CN202111009582A CN113715629B CN 113715629 B CN113715629 B CN 113715629B CN 202111009582 A CN202111009582 A CN 202111009582A CN 113715629 B CN113715629 B CN 113715629B
Authority
CN
China
Prior art keywords
model
data
xgboost
driving range
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111009582.6A
Other languages
English (en)
Other versions
CN113715629A (zh
Inventor
田晟
甘志恒
吕清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202111009582.6A priority Critical patent/CN113715629B/zh
Publication of CN113715629A publication Critical patent/CN113715629A/zh
Application granted granted Critical
Publication of CN113715629B publication Critical patent/CN113715629B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60LPROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
    • B60L3/00Electric devices on electrically-propelled vehicles for safety purposes; Monitoring operating variables, e.g. speed, deceleration or energy consumption
    • B60L3/12Recording operating variables ; Monitoring of operating variables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/60Other road transportation technologies with climate change mitigation effect
    • Y02T10/70Energy storage systems for electromobility, e.g. batteries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Quality & Reliability (AREA)
  • Sustainable Energy (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Mechanical Engineering (AREA)
  • Tourism & Hospitality (AREA)
  • Transportation (AREA)
  • General Business, Economics & Management (AREA)
  • Power Engineering (AREA)
  • Game Theory and Decision Science (AREA)
  • Sustainable Development (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Tests Of Electric Status Of Batteries (AREA)
  • Electric Propulsion And Braking For Vehicles (AREA)

Abstract

本发明公开了一种基于改进符号回归和XGBoost算法的剩余续驶里程预测方法,包括以下步骤:采集纯电动汽车在行驶过程中的运行关键参数;对数据集进行数据预处理并构建剩余续驶里程字段作为标签字段;利用人工先验知识对动力电池组相关的数据特征进行组合构建新特征;基于改进符号回归算法自动生成与标签字段高度相关的新数据特征字段;整合新生成的数据特征字段,划分训练集、验证集和测试集;初始化XGBoost模型,使用训练集对模型进行训练,利用验证集调整模型超参数,保存最优参数模型;使用测试集评估模型预测剩余续驶里程效果。本发明方法采用改进符号回归算法生成与标签字段高度相关的新特征字段,扩充了数据集维度,优化数据集质量,结合XGBoost算法做出的剩余续驶里程预测结果准确度高。

Description

基于改进符号回归和XGBoost算法的剩余续驶里程预测方法
技术领域
本发明属于电动汽车技术领域,具体涉及一种基于改进符号回归和XGBoost算法的剩余续驶里程预测方法。
背景技术
目前动力电池技术尚未取得重大突破,纯电动车的续驶里程受到限制,充电时间较长、充电桩的密度低导致纯电动车驾驶人不可避免的出现“续航焦虑”,降低了人们对于纯电动车的接受度,不利于电动汽车的推广与普及。动力电池系统高度非线性,使得当前的车辆剩余续驶里程预测方案效果不佳,车厂不能准确的获取车辆的剩余续驶里程,在指定车辆能量管理策略时需保留一定的能量冗余量,导致续航能力指标下降。因此,准确的预测纯电动车的剩余续驶里程不仅能有效缓解驾驶人的“续航焦虑”并合理规划出行,还有助于汽车厂商开发更精细化的车辆能量管理策略,优化续航能力指标。
预测纯电动车剩余续驶里程大致可以分为基于模型预测和基于数据驱动预测。基于模型预测需要对电池模型、车辆能耗模型以及车辆工况等进行研究,通过计算动力电池组剩余能量与预估的纯电动车每公里能耗之比来预测车辆的剩余续驶里程,需要对电池模型、能耗模型等进行深入研究,所以达到一定预测精度所需时间与资源消耗过多;基于数据驱动预测是从车辆历史运行数据学习得到预测模型,得到的模型泛化能力强且精度较高,但可解释性稍有欠缺。目前研究大部分以人工先验知识为基础利用数据集中现有的特征字段与标签的映射关系进行建模,尚未考虑利用算法自动生成与标签高度相关的新字段扩充数据维度从而实现预测精度提升。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于改进户号回归和XGBoost算法的剩余续驶里程预测方法,该方法基于改进符号回归算法,在遗传程序设计思想指导下生成转换函数,自动生成与标签变量高度相关的新数据特征,并基于人工先验知识对动力电池组相关的数据特征进行组合构建新特征,用新特征与原有特征结合而成的新数据集实现数据维度扩充,传入XGBoost模型中对剩余续驶里程进行预测可以提高预测精度,降低预测误差。
为了达到上述目的,本发明采用以下技术方案:
本发明提供了一种基于改进符号回归和XGBoost算法的剩余续驶里程预测方法,包括下述步骤:
采集纯电动汽车在行驶过程中的运行关键参数,将所述运行关键参数作为初始特征字段得到数据集;
对所述数据集进行数据预处理;
构建剩余续驶里程字段作为标签字段;
利用人工先验知识对所述数据集中动力电池组相关的数据特征进行组合构建新特征;
基于改进符号回归算法自动生成与所述标签字段高度相关的新数据特征字段,以基本运算以及定义的boxcox变换运算构成初始程序种群,输入原始数据集,计算新特征与标签变量之间的斯皮尔曼Spearman相关系数作为适应度规则及迭代终止条件,开始程序迭代,得到最优特征转换函数,并以所述最优特征转换函数进行新特征生成,筛选出新数据特征集F;
将所述剩余续驶里程字段与所述新数据特征字段进行整合得到新数据集,将所述新数据集划分为训练集、验证集和测试集;
初始化XGBoost模型,设置模型超参数,进行参数调优以及正则项参数调优,使用所述训练集对模型进行训练,利用所述验证集验证模型的各项评价指标,若达标则保存为最优参数模型,并输出其预测剩余续驶里程的评价指标,若不达标则重新调节所述超参数再次训练;
基于所述最优参数模型,使用所述测试集评估最优参数模型并预测剩余续驶里程效果。
作为优选的技术方案,所述运行关键参数包括电池荷电状态SOC、速度speed、电池组最高温度值max_temp、电池组最低温度值min_temp、电池单体最大电压值max_cell_volt、电池单体最小电压值min_cell_volt、总电流t_current、总电压t_volt和累计行驶里程mileage。
作为优选的技术方案,所述对所述数据集进行数据预处理,包括异常值筛选和缺失值填充,所述缺失值填充包括部分数据记录缺失填充和整条数据记录缺失填充;
所述异常筛选具体为:
依据所述数据集的字段描述中规定值的有效范围,对所有字段进行筛选;
确定所有字段含义的逻辑关系;
根据3σ准则,判断异常值,若字段大致服从正态分布,则将在3σ范围即[μ–3σ,μ+3σ]以外的字段判为异常,其中μ为该字段的均值,σ为标准差;
所述部分数据记录缺失填充具体为:
取所述数据集内字段前后各M个采样点的值,各采样点的采样间隔为T,取2M个采样点的均值进行填充;对于采样点值按时间排序且存在大小关系的初始特征字段,在填充时加入验证规则,如果前后2M个采样点的均值不符合验证规则,则该缺失值使用距离最近的一个采样点值填充;
所述整条数据记录缺失填充具体为:
判断两条数据记录间是否存在整条数据缺失,若是,则计算两条缺失记录的间隔时间,再将间隔时间除以T,结果向上取整得到缺失记录的条数,随后按照所述数据记录缺失填充方法逐个填充每一条记录所有字段的缺失值。
作为优选的技术方案,所述构建剩余续驶里程字段具体为:
选择荷电状态SOC为80%到10%的片段区间,计算对应SOC为10%时对应的里程与各条车辆运行记录里程之间的差值,剩余续驶里程计算公式为:
r_mileagei=mileagei-mileagesoc=10%
式中,r_mileagei代表剩余续驶里程,mileagei为累计行驶里程,mileagesoc=10%代表SOC下降到10%时的里程数,i为第i条数据。
作为优选的技术方案,所述利用人工先验知识对所述数据集中动力电池组相关的数据特征进行组合构建新特征,包括以下特征:
对电池单体最高温度max_temp和单体最低温度min_temp求差,构造一组单体温差特征,得到方差更大的新数据特征:电池单体温差diff_temp,公式为:
diff_tempi=max_tempi-min_tempi
对单体最高电压max_cell_volt和单体最低电压min_cell_volt求差,构造一组单体压差特征,得到波动较大的新数据特征:电池单体压差diff_volt,公式为:
diff_volti=max_cell_volti-min_cell_volti
对电池组总电压t_volt和总电流t_current求积,构造一组总功率特征,得到反映车辆行驶过程中做功变化的新数据特征:总功率t_power,公式为:
t_poweri=t_volti×t_currenti
作为优选的技术方案,所述基于改进符号回归算法自动生成与标签字段高度相关的新数据特征字段,具体生成过程为:
(1)输入初始特征字段数据集D={(x(1),y(1)),...,(x(i),y(i)),...,(x(m),y(m))},其中x表示特征字段构成的向量组,y表示标签字段,i表示非首末条数据;设计一组实现简单函数功能的初始程序种群,所述简单函数包含数学基本运算以及定义的广义幂变换方法boxcox变换运算;
(2)设置新特征与标签变量之间的斯皮尔曼Spearman相关系数作为适应度规则以及迭代终止条件;
(3)上述(1)得到的各个程序通过交叉,变异,复制操作不断生成下一代的程序;
(4)依照上述(2)中适应性规则进行选择,保留每一代中最合适的程序,继续参与下一次的迭代;
(5)判断是否达到所述迭代终止条件,若不满足则返回(4),若满足则保留最后的程序;
(6)将原数据输入到所述保留最后的程序中,程序输出与标签高度相关的新数据特征F={x'(1),x'(2),...,x'(i),...,x'(n)},其中的x'(i)表示生成的新特征在第i条数据的值。
作为优选的技术方案,所述广义幂变换方法boxcox变换运算,计算公式为:
其中,y(λ)为变换后得到的新数据,y为原始的数据,λ为定义的变换参数。
作为优选的技术方案,将所述新数据集划分为训练集、验证集和测试集,其中所述训练集用于所述XGBoost模型普通参数求解过程,所述验证集用于所述XGBoost模型超参数调优,所述测试集用于客观评价所述XGBoost模型性能及检验预测效果,划分比例为训练集:验证集:测试集=6:1:1。
作为优选的技术方案,所述初始化XGBoost模型具体步骤为:
(1)设置模型超参数,为了确定模型使用的树的数量,将学习率设为高学习率,并对每一棵树进行参数调优以及正则项参数调优,逐步降低学习率,初步确定模型的理想参数,即按照“高学习率确定树的数量—单棵树调优—正则参数调优—低学习率确定理想参数”的顺序进行超参数调节;
(2)使用所述训练集对XGBoost模型进行训练,每轮训练完成后都会得到一个XGBoost_model模型,使用所述验证集验证所述XGBoost_model模型的各项评价指标,若指标达到预期中的相对绝对误差值小于2%,则保存该模型,并命名为最优参数模型pre_model,并输出所述pre_model在验证集上预测剩余续驶里程的相对绝对误差及其它评价指标,若不达预期,则返回步骤(1),重新调节超参数再次训练;
(3)输出所述pre_model在测试集上预测的剩余续驶里程及评价指标,建模结束。
作为优选的技术方案,所述评估最优参数模型并预测剩余续驶里程效果的指标具体为:
采用相对绝对误差RAE、均方根误差RMSE以及平均绝对误差MAE三个指标,从不同的维度评估不同的模型预测的车辆剩余续驶里程值与真实值的偏差情况,三个指标评估公式如下:
RAE=|h(xi)-yi|÷total,
其中,h(xi)指当给定输入为样本xi时,模型输出的预测剩余续驶里程值,yi表示样本xi相对应的真实剩余续驶里程,total为车辆标定的总续驶里程。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明利用改进符号回归算法自动生成与标签变量高度相关的新数据特征,由于数据的质量决定了模型预测结果精度的上限,通过优化数据集质量从而实现进一步提高预测结果精度。
2、本发明基于改进符号回归算法,不直接预测标签变量,而是生成一个表征数据集中特征字段与标签字段之间隐藏关系的转换函数,从原有的特征字段自动生成与标签字段高度相关的新数据特征,再利用XGBoost算法预测标签值,融合两种算法的优点,提高预测精度。
3、本发明方法采用XGBoost算法基于多维数据进行剩余续驶里程预测,XGBoost算法由多个相关联的基学习器共同决策,大多数分类与回归问题上表现顶尖,具有对输入要求不敏感和计算效率高等特点,结合该算法构造的预测模型做出的剩余续驶里程预测结果误差更低。
附图说明
图1为本发明实施例基于改进符号回归和XGBoost算法的剩余续驶里程预测方法的流程图;
图2为本发明实施例中改进符号回归算法生成新特征的流程图;
图3为本发明实施例中数据集划分结果图;
图4为本发明实施例中XGBoost模型的构建流程图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请中的实施例及附图,对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例
本实施例选用某型号纯电动汽车两个月实际行驶数据为例。
如图1所示,本实施例为一种基于改进符号回归和XGBoost算法的剩余续驶里程预测方法,包括以下步骤:
S1、通过电动车控制器局域网络(Controller Area Network,CAN)总线采集纯电动汽车在行驶过程中的运行关键参数,将电池荷电状态SOC、速度speed、电池组最高温度值max_temp、电池组最低温度值min_temp、电池单体最大电压值max_cell_volt、电池单体最小电压值min_cell_volt、总电流t_current、总电压t_volt和累计行驶里程mileage等参数指标数据作为初始特征字段,得到数据集;
S2、对数据集进行数据预处理,包括异常值筛选和缺失值填充;
S201、数据异常值筛选具体为:
(1)依据数据集的字段描述中规定值的有效范围,对所有字段进行筛选;
(2)确定所有字段含义的逻辑关系,如里程应随时间增加而增加等;
(3)根据3σ准则,判断异常值,若字段大致服从正态分布,则将在3σ范围即[μ–3σ,μ+3σ]以外的字段判为异常,其中μ为该字段的均值,σ为标准差;
S202、数据缺失是指由于在采集运行关键参数时造成的初始特征字段部分数据记录缺失或整条数据记录缺失,因此采用填充的方法来填充缺失值;
(1)部分数据记录缺失填充
取数据集内字段前后各3个采样点的值,各采样点的采样间隔为10s,取6个采样点的均值进行填充;对于采样点值按时间排序且存在大小关系的初始化特征字段,如字段SOC和mileage的取值,在填充时加入验证规则,如果前后6个采样点的均值不符合验证规则,则该缺失值使用距离最近的一个采样点值填充;
(2)整条数据记录缺失填充
车辆运行数据的采样间隔为10s,同时考虑到车辆两次启动时间间隔的存在,所以取180s为两次车辆启动的最小间隔时间,即两次数据采样时间超过180s的,认为中间车辆是未启动的,两次采样的记录是连续的。所以,整条数据采样记录缺失的认定条件为,按时间排序的连续两条车辆运行记录采样时间差大于10s但是小于180s。在判断两条数据记录间存在整条数据缺失后,首先计算两条缺失记录的间隔时间,间隔时间除以10s,结果向上取整得到缺失记录的条数,随后按照部分数据记录缺失填充方法逐个填充每一条记录所有字段的缺失值。
S3、构建剩余续驶里程标签字段,剩余续驶里程定义为纯电动车载当前荷电状态下,以某一特定工况行驶至车辆能量管理策略设定的截止SOC时,车辆所能行驶的最大距离,计算方法具体为:
理想中剩余续驶里程是SOC下降至0时对应的累计行驶里程与各条车辆运行记录的累计行驶里程间的差值,而实际行驶过程中的电池放电过程难以实现理想中的放电过程,因此选择荷电状态SOC为80%到10%的片段区间,计算对应SOC为10%时对应的里程与各条车辆运行记录里程之间的差值,剩余续驶里程计算公式为:
r_mileagei=mileagei-mileagesoc=10%
式中,r_mileagei代表剩余续驶里程,mileagei为累计行驶里程,mileagesoc=10%代表SOC下降到10%时的里程数,i为第i条数据。
S4、利用人工先验知识对数据集中动力电池组相关的数据特征进行组合构建新特征,包括以下特征:
(1)关注温度相关的数据特征,由于原数据特征中的两组温度特征电池单体最高温度max_temp和单体最低温度min_temp,两组数据的方差都较小,因此对电池单体最高温度max_temp和单体最低温度min_temp求差,构造一组单体温差特征,以得到方差更大的新数据特征:电池单体温差diff_temp,公式为:
diff_tempi=max_tempi-min_tempi
(2)由于电池组的各个单体之间会存在电压上的差异,单体电压与温度在放电过程中都在缓慢下降,大部分时间波动较小,而一组数据波动越大,其方差越大,所包含信息量也就越大,因此对单体最高电压max_cell_volt和单体最低电压min_cell_volt求差,构造一组单体压差特征,得到波动较大的新数据特征:单体压差diff_volt,用以放大电压字段蕴含的信息量,公式为:
diff_volti=max_cell_volti-min_cell_volti
(3)功率是描述物体做功快慢的物理量,为直观地体现车速无规律变化带来的电池组输出功率与总电流的变化规律,对电池组总电压t_volt和总电流t_current求积,构造一组总功率特征,得到反映车辆行驶过程中做功变化的新数据特征:总功率t_power,公式为
t_poweri=t_volti×t_currenti
S5、基于改进符号回归算法自动生成与标签字段高度相关的新数据特征字段,所述改进符号回归算法不直接预测标签变量,而是生成一个表征数据集中特征字段与标签字段之间隐藏关系的转换函数,从原有的特征字段自动生成与标签字段高度相关的新数据特征。如图2所示,具体过程为:
(1)输入原始数据集D={(x(1),y(1)),...,(x(i),y(i)),...,(x(m),y(m))},以“add”、“sub”、“mul”、“div”、“log”、“sqrt”、“abs”、“neg”、“inv”、“sin”、“cos”、“tan”、“max”、“min”等基本运算以及定义的boxcox变换运算构成初始程序种群,计算公式为:
其中,y(λ)为变换后得到的新数据,y为原始的数据,λ为定义的变换参数;;
(2)设置新特征与标签变量之间的斯皮尔曼Spearman相关系数作为适应度规则及迭代次数作为终止条件;
(3)开始程序的迭代,初始程序种群中的各个程序通过交叉、变异、复制等操作不断生成下一代的程序;
(4)依照适应性规则进行选择,保留每一代中最合适的程序,继续参与下一次的迭代;
(5)判断是否达到迭代终止条件,若不满足则继续参与迭代,若满足则保留最后的程序,迭代结束后得到一个最优的特征转换函数;
(6)将原数据集D输入保留最后的程序中,进行新特征生成,输出与标签高度相关的不共线的新数据特征集F={x'(1),x'(2),...,x'(i),...,x'(n)};
S6、将剩余续驶里程字段与新数据特征字段整合得到新数据集,原始数据特征字段含义及范例如下表所示:
保留原数据的8组特征,结合人工构建基于改进符号回归算法生成的新数据特征,得到一个由speed、t_volt、t_current、SOC、max_cell_volt、min_cell_volt、max_temp、min_temp、diff_temp、diff_volt、t_power和F={x'(1),x'(2),...,x'(i),...,x'(n)}与1个标签字段剩余续驶里程组成新的纯电动车运行数据集;
将新数据集划分为训练集、验证集和测试集,具体为:
筛选连续放电行驶片段组成数据集,本实施例经筛选得到8个连续放电行驶片段作为数据集,以此开展基于XGBoost模型的剩余续驶里程预测研究;如附图3所示,将该8个片段按时序从S0到S7进行排序编号,划分比例为训练集:验证集:测试集=6:1:1,其中S0到S5作为训练集,用于XGBoost模型普通参数求解过程,S6作为验证集用于XGBoost模型超参数调优,S7作为测试集,用于客观评价XGBoost模型性能及检验预测效果;
S7、初始化XGBoost模型,使用训练集对模型进行训练,利用验证集调整模型超参数,保存最优参数模型,如图4所示,具体为:
(1)设置模型超参数,为了确定模型使用的树的数量,将学习率设为高学习率,并对每一棵树进行参数调优以及正则项参数调优,逐步降低学习率,初步确定模型的理想参数,即按照“高学习率确定树的数量-单棵树调优-正则参数调优-低学习率确定理想参数”的顺序进行超参数调优;
(2)使用训练集开始XGBoost模型的训练,每轮训练完成后都会得到一个XGBoost_model模型,使用验证集验证XGBoost_model模型的各项评价指标,若指标达到预期,则保存该模型,并命名为最优参数模型pre_model,输出pre_model在验证集上预测剩余续驶里程的相对绝对误差(%)及其它评价指标,若不达预期,则返回步骤(1),重新调节超参数再次训练;
(3)输出所述pre_model在测试集上预测的剩余续驶里程及评价指标,建模结束;
S8、基于最优参数模型,使用测试集评估模型预测剩余续驶里程效果,具体为:
为评估对剩余续驶里程的预测效果,采用相对绝对误差(RAE,Relative AbsoluteError)、均方根误差(RMSE,Root Mean Square Error)以及平均绝对误差(MAE,MeanAbsolute Error)三个指标,从不同的维度评估不同的模型预测的车辆剩余续驶里程值与真实值的偏差情况,三个指标评估公式如下:
RAE=|h(xi)-yi|÷total,
式中,h(xi)指当给定输入为样本xi,模型输出的预测剩余续驶里程值;yi表示样本xi相对应的真实剩余续驶里程;total为车辆标定的总续驶里程。
还需要说明的是,在本说明书中,诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
上述具体实施方式仅仅对本发明的优选实施方式进行描述,而并非对本发明的保护范围进行限定,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.基于改进符号回归和XGBoost算法的剩余续驶里程预测方法,其特征在于,包括下述步骤:
采集纯电动汽车在行驶过程中的运行关键参数,将所述运行关键参数作为初始特征字段得到数据集;所述运行关键参数包括电池荷电状态SOC、速度speed、电池组最高温度值max_temp、电池组最低温度值min_temp、电池单体最大电压值max_cell_volt、电池单体最小电压值min_cell_volt、总电流t_current、总电压t_volt和累计行驶里程mileage;
对所述数据集进行数据预处理;
构建剩余续驶里程字段作为标签字段;
利用人工先验知识对所述数据集中动力电池组相关的数据特征进行组合构建新特征,包括以下特征:
对电池单体最高温度max_temp和单体最低温度min_temp求差,构造一组单体温差特征,得到方差更大的新数据特征:电池单体温差diff_temp,公式为:
diff_tempi=max_tempi-min_tempi
对单体最高电压max_cell_volt和单体最低电压min_cell_volt求差,构造一组单体压差特征,得到波动较大的新数据特征:电池单体压差diff_volt,公式为:
diff_volti=max_cell_volti-min_cell_volti
对电池组总电压t_volt和总电流t_current求积,构造一组总功率特征,得到反映车辆行驶过程中做功变化的新数据特征:总功率t_power,公式为:
t_poweri=t_volti×t_currenti
基于改进符号回归算法自动生成与所述标签字段高度相关的新数据特征字段,以基本运算以及定义的boxcox变换运算构成初始程序种群,输入原始数据集,计算新特征与标签变量之间的斯皮尔曼Spearman相关系数作为适应度规则及迭代终止条件,开始程序迭代,得到最优特征转换函数,并以所述最优特征转换函数进行新特征生成,筛选出新数据特征集F;基于改进符号回归算法自动生成与标签字段高度相关的新数据特征字段,具体生成过程为:
(1)输入初始特征字段数据集D={(x(1),y(1)),...,(x(i),y(i)),...,(x(m),y(m))},其中x表示特征字段构成的向量组,y表示标签字段,i表示非首末条数据;设计一组实现简单函数功能的初始程序种群,所述简单函数包含数学基本运算以及定义的广义幂变换方法boxcox变换运算;
(2)设置新特征与标签变量之间的斯皮尔曼Spearman相关系数作为适应度规则以及迭代终止条件;
(3)上述(1)得到的各个程序通过交叉,变异,复制操作不断生成下一代的程序;
(4)依照上述(2)中适应性规则进行选择,保留每一代中最合适的程序,继续参与下一次的迭代;
(5)判断是否达到所述迭代终止条件,若不满足则返回(4),若满足则保留最后的程序;
(6)将原数据输入到所述保留最后的程序中,程序输出与标签高度相关的新数据特征F={x'(1),x'(2),...,x'(i),...,x'(n)},其中的x'(i)表示生成的新特征在第i条数据的值;
将所述剩余续驶里程字段与所述新数据特征字段进行整合得到新数据集,将所述新数据集划分为训练集、验证集和测试集;
初始化XGBoost模型,设置模型超参数,进行参数调优以及正则项参数调优,使用所述训练集对模型进行训练,利用所述验证集验证模型的各项评价指标,若达标则保存为最优参数模型,并输出其预测剩余续驶里程的评价指标,若不达标则重新调节所述超参数再次训练;
基于所述最优参数模型,使用所述测试集评估最优参数模型并预测剩余续驶里程效果。
2.根据权利要求1所述基于改进符号回归和XGBoost算法的剩余续驶里程预测方法,其特征在于,所述对所述数据集进行数据预处理,包括异常值筛选和缺失值填充,所述缺失值填充包括部分数据记录缺失填充和整条数据记录缺失填充;
所述异常值筛选具体为:
依据所述数据集的字段描述中规定值的有效范围,对所有字段进行筛选;
确定所有字段含义的逻辑关系;
根据3σ准则,判断异常值,若字段大致服从正态分布,则将在3σ范围即[μ–3σ,μ+3σ]以外的字段判为异常,其中μ为该字段的均值,σ为标准差;
所述部分数据记录缺失填充具体为:
取所述数据集内字段前后各M个采样点的值,各采样点的采样间隔为T,取2M个采样点的均值进行填充;对于采样点值按时间排序且存在大小关系的初始特征字段,在填充时加入验证规则,如果前后2M个采样点的均值不符合验证规则,则该缺失值使用距离最近的一个采样点值填充;
所述整条数据记录缺失填充具体为:
判断两条数据记录间是否存在整条数据缺失,若是,则计算两条缺失记录的间隔时间,再将间隔时间除以T,结果向上取整得到缺失记录的条数,随后按照所述部分数据记录缺失填充方法逐个填充每一条记录所有字段的缺失值。
3.根据权利要求1所述基于改进符号回归和XGBoost算法的剩余续驶里程预测方法,其特征在于,所述构建剩余续驶里程字段具体为:
选择荷电状态SOC为80%到10%的片段区间,计算对应SOC为10%时对应的里程与各条车辆运行记录里程之间的差值,剩余续驶里程计算公式为:
r_mileagei=mileagei-mileagesoc=10%
式中,r_mileagei代表剩余续驶里程,mileagei为累计行驶里程,mileagesoc=10%代表SOC下降到10%时的里程数,i为第i条数据。
4.根据权利要求1所述基于改进符号回归和XGBoost算法的剩余续驶里程预测方法,其特征在于,所述广义幂变换方法boxcox变换运算,计算公式为:
其中,y(λ)为变换后得到的新数据,y为原始的数据,λ为定义的变换参数。
5.根据权利要求1所述基于改进符号回归和XGBoost算法的剩余续驶里程预测方法,其特征在于,将所述新数据集划分为训练集、验证集和测试集,其中所述训练集用于所述XGBoost模型普通参数求解过程,所述验证集用于所述XGBoost模型超参数调优,所述测试集用于客观评价所述XGBoost模型性能及检验预测效果,划分比例为训练集:验证集:测试集=6:1:1。
6.根据权利要求1所述基于改进符号回归和XGBoost算法的剩余续驶里程预测方法,其特征在于,所述初始化XGBoost模型具体步骤为:
(1)设置模型超参数,为了确定模型使用的树的数量,将学习率设为高学习率,并对每一棵树进行参数调优以及正则项参数调优,逐步降低学习率,初步确定模型的理想参数,即按照“高学习率确定树的数量—单棵树调优—正则参数调优—低学习率确定理想参数”的顺序进行超参数调节;
(2)使用所述训练集对XGBoost模型进行训练,每轮训练完成后都会得到一个XGBoost_model模型,使用所述验证集验证所述XGBoost_model模型的各项评价指标,若指标达到预期中的相对绝对误差值小于2%,则保存该模型,并命名为最优参数模型pre_model,并输出所述pre_model在验证集上预测剩余续驶里程的指标,若不达预期,则返回步骤(1),重新调节超参数再次训练;
(3)输出所述pre_model在测试集上预测的剩余续驶里程及评价指标,建模结束。
7.根据权利要求6所述基于改进符号回归和XGBoost算法的剩余续驶里程预测方法,其特征在于,所述评估最优参数模型并预测剩余续驶里程效果的指标具体为:
采用相对绝对误差RAE、均方根误差RMSE以及平均绝对误差MAE三个指标,从不同的维度评估不同的模型预测的车辆剩余续驶里程值与真实值的偏差情况,三个指标评估公式如下:
RAE=|h(xi)-yi|÷total,
其中,h(xi)指当给定输入为样本xi时,模型输出的预测剩余续驶里程值,yi表示样本xi相对应的真实剩余续驶里程,total为车辆标定的总续驶里程。
CN202111009582.6A 2021-08-31 2021-08-31 基于改进符号回归和XGBoost算法的剩余续驶里程预测方法 Active CN113715629B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111009582.6A CN113715629B (zh) 2021-08-31 2021-08-31 基于改进符号回归和XGBoost算法的剩余续驶里程预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111009582.6A CN113715629B (zh) 2021-08-31 2021-08-31 基于改进符号回归和XGBoost算法的剩余续驶里程预测方法

Publications (2)

Publication Number Publication Date
CN113715629A CN113715629A (zh) 2021-11-30
CN113715629B true CN113715629B (zh) 2023-07-18

Family

ID=78679419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111009582.6A Active CN113715629B (zh) 2021-08-31 2021-08-31 基于改进符号回归和XGBoost算法的剩余续驶里程预测方法

Country Status (1)

Country Link
CN (1) CN113715629B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114093420B (zh) * 2022-01-11 2022-05-27 山东建筑大学 一种基于XGBoost的DNA重组位点预测方法
CN115656840A (zh) * 2022-12-27 2023-01-31 武汉工程大学 电池充电剩余时间的预测方法、装置、系统以及存储介质
CN117092519A (zh) * 2023-08-21 2023-11-21 湖南行必达网联科技有限公司 一种基于XGBoost的电动重卡电池故障预警方法、装置及设备
CN118275886B (zh) * 2024-05-31 2024-08-27 中汽研(天津)汽车工程研究院有限公司 一种续驶里程优化潜力评价方法及装置、介质、设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460380A (zh) * 2020-03-30 2020-07-28 上海交通大学 一种基于高斯过程回归的多工况续驶里程预测方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460380A (zh) * 2020-03-30 2020-07-28 上海交通大学 一种基于高斯过程回归的多工况续驶里程预测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于多模型融合的电动汽车行驶里程预测;胡杰;翁灵隆;覃雄臻;杜玉峰;高长斌;;交通运输系统工程与信息(第05期);全文 *
基于改进PSO-RBF算法的纯电动汽车剩余里程实时预测;陈德海;任永昌;黄艳国;华铭;;汽车工程(第07期);全文 *

Also Published As

Publication number Publication date
CN113715629A (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
CN113715629B (zh) 基于改进符号回归和XGBoost算法的剩余续驶里程预测方法
CN113343633B (zh) 动力锂电池热失控故障分类及风险预测方法、系统
CN110091751B (zh) 基于深度学习的电动汽车续航里程预测方法、设备及介质
Caliwag et al. Hybrid VARMA and LSTM method for lithium-ion battery state-of-charge and output voltage forecasting in electric motorcycle applications
Lin et al. An ensemble learning velocity prediction-based energy management strategy for a plug-in hybrid electric vehicle considering driving pattern adaptive reference SOC
CN104578120B (zh) 分布式储能系统的优化配置方法
WO2023130659A1 (zh) 商用电动车辆能耗预测方法、装置和计算机设备
CN111191824B (zh) 一种动力电池容量衰减预测方法及系统
CN112131733A (zh) 计及电动汽车充电负荷影响的分布式电源规划方法
US20230305073A1 (en) Method and apparatus for providing a predicted aging state of a device battery based on a predicted usage pattern
CN112327168A (zh) 一种基于XGBoost的电动汽车电池消耗预测方法
CN105301508A (zh) 一种用于电动汽车续驶里程的径向基神经网络的预估方法
CN113435663A (zh) 一种考虑电动汽车充电负荷影响的cnn-lstm联合负荷预测方法
CN111695623B (zh) 基于模糊聚类的大规模电池储能系统成组建模方法、系统、设备及可读存储介质
CN111325402A (zh) 基于bp神经网络的电动汽车用户充电行为的预测方法
CN115271253A (zh) 一种水风光发电功率预测模型构建方法、装置及存储介质
CN111313449B (zh) 一种基于机器学习的集群电动汽车功率优化管理方法
CN112036598A (zh) 一种基于多信息耦合的充电桩使用信息预测方法
CN115586444A (zh) 一种基于vmd与bp神经网络的锂电池剩余寿命预测方法
Wen et al. Lithium battery health state assessment based on vehicle-to-grid (V2G) real-world data and natural gradient boosting model
Zhang et al. A novel energy management strategy design methodology of a PHEV based on data-driven approach and online signal analysis
CN114971090A (zh) 一种电供暖负荷预测方法、系统、设备和介质
CN114282704A (zh) 充电站充电负荷预测方法、装置、计算机设备和存储介质
CN117390867A (zh) 一种能耗评估方法、装置、电子设备以及介质
CN116500480A (zh) 一种基于特征迁移学习混合模型的智能电池健康监测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant