CN115571108A

CN115571108A - 一种节油控制方法

Info

Publication number: CN115571108A
Application number: CN202211200934.0A
Authority: CN
Inventors: 韩玲; 刘国鹏; 迟瑞丰; 方若愚; 朱长盛; 王乙任
Original assignee: Changchun University of Technology
Current assignee: Changchun University of Technology
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2023-01-06

Abstract

本发明公开了一种节油控制方法，其包括：步骤1，构建节油控制策略；步骤2，将自车获取到的汽车外部的视觉信息Camera与汽车的速度v、加速度acc、CVT变速器速比Ratio_CVT按融合为深度强化学习的状态；步骤3，根据状态s，设置奖励函数r(s,a)；步骤4，将状态s输入到神经网络，使用深度强化学习动作，对节气门开度A_throttle和CVT传动比变化量△Ratio_CVT进行控制，输出节油控制策略。本发明能够减少汽车的燃油消耗。

Description

一种节油控制方法

技术领域

本发明涉及一种汽车节能减排控制方法，特别是关于一种节油控制方法。

背景技术

在过去的几十年，随着经济的蓬勃发展和人民生活水平的提高，人们对日常出行的要求大大提高，这也就促进了汽车行业迅速发展。与此同时，生态环境恶化、化石燃料短缺等不良影响也随之而来。因此，汽车行业的快速发展是造成环境污染和能源短缺的首要原因。如今，人类高度重视环境和能源问题，以美国和欧盟为首的发达国家的监管机构都在制定更加严格的排放标准以推动汽车厂商升级现有技术，生产更加高效、节能的汽车。

世界各国对于汽车的节能减排性能提出了更高的要求，因此，推出更加先进的技术成为汽车制造厂商亟待解决的问题。目前电动汽车技术并不完善，因此，基于内燃机的汽车在未来仍将占有很大的市场份额。由于独特的传动结构，机械式无级变速器(Continuousvariable transmission，CVT)可以实现传动比的连续变化，因此，CVT可以保证发动机在最佳工作区域工作，从而大幅降低燃油消耗与污染排放。在此背景下，搭载CVT变速器的汽车因其更加灵活的调速性能在节能减排方面优势明显。目前，针对汽车加速、恒速和减速等不同工况，分析发动机、CVT变速器状态和油耗的关系，提出了搭载CVT汽车的节油优化策略。也有通过最优控制理论，优化汽车的加速、滑行周期降低燃油消耗。还有集成控制发动机转矩和CVT变速器传动比，通过计算瞬时燃油消耗最小的发动机工作点确定发动机目标转矩和目标传动比。然而，这些研究着重与优化发动机效率和传动效率，而忽略了车外信息对汽车油耗的影响，导致优化效果不佳。因此，为了达到最佳的优化效果，需要综合考虑发动机、变速器的最佳效率以及对其他汽车行为或者交通灯状态的预测信息。

发明内容

本发明的目的在于提供一种节油控制方法来克服或至少减轻现有技术的上述缺陷中的至少一个。

为实现上述目的，本发明提供一种节油控制方法，其包括：

步骤1，构建如下式描述的节油控制策略；

J_i＝ω₁L_d,i+ω₂L_f,i+ω₃L_s,i (1)

其中，J_i是第i步的瞬时奖励，L_di是第i步的行驶速度奖励，L_fi是第i步的燃油消耗量奖励，L_Ri是第i步的传动比变化奖励，ω₁、ω₂、ω₃均为对应各自奖励而设定的权重，如式(2)所示：

其中，Ratio_cvt是汽车的CVT变速器的传动比，Ratio_ref是汽车的CVT变速器参考传动比，fuel是汽车的燃油消耗量，v是汽车的行驶速度，abs是绝对值，ω₄、ω₅和ω₆均为对应各自汽车参数而设定的权重；

步骤2，将自车获取到的汽车外部的视觉信息Camera与汽车的速度v、加速度acc、CVT变速器速比Ratio_CVT按照下式(3)融合为深度强化学习的状态s；

s＝[Camera,v,acc,Ratio_CVT] (3)

步骤3，根据状态s，设置奖励函数r(s,a)；

r(s,a)＝b-J (4)

其中，b是调节r(s,a)范围的偏差，J是奖励，a是动作，包括节气门开度和CVT传动比变化量的控制动作；

步骤4，将状态s输入到神经网络，使用深度强化学习按照下式(5)提供的动作，对节气门开度A_throttle和CVT传动比变化量△Ratio_CVT进行控制，输出节油控制策略：

进一步地，设定在发生追尾和闯红灯时回合结束，将回合奖励J_e加入到是瞬时奖励J_i中，获得J＝J_i+J_e。

进一步地，视觉信息包括车载摄像头获取的前车行为以及交通灯状态的图像信息。

本发明由于采取以上技术方案，其具有以下优点：本发明采用车载摄像头收集实时视觉信息，然后将经过CNN(英文全称是“convolutional neural network”，中文全称是“卷积神经网络”)处理的实时视觉信息与汽车固有状态信息进行整合，并作为深度强化学习的状态输入，输出最优的节油控制动作，减少汽车的燃油消耗。

附图说明

图1为本发明实施例提供的基于SAC的DRL算法原理示意图。

图2为本发明实施例提供的城市循环中对汽车和交通灯的观测示意图，其中车载摄像机收集图像信息。

图3为本发明实施例提供的卷积神经网络，通过车载摄像头收集图像信息，通过卷积神经网络对图像进行处理。处理后与速度、加速度等其他信息，一起输入到深度强化学习的神经网络。

图4为本发明实施例提供的数据传递与动力系统结构图。

图5为本发明实施例提供的实时通信时间。

图6为本发明实施例提供的模型搭建平台示意图。

图7为本发明实施例提供的WLTC标准工况速度曲线示意图。

图8为本发明实施例提供的WLTC工况实验环境测试示意图。

图9为本发明实施例提供的损失、奖励示意图。

图10为本发明实施例提供的汽车行驶速度对比示意图。

图11为本发明实施例提供的CVT速比变化结果对比示意图。

图12为本发明实施例提供的单位时间燃油消耗对比示意图。

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

节油控制方法旨在保证汽车动力性的前提下，提高燃油经济性。

本实施例提供节油控制方法包括：

步骤1，首先，确定汽车的起点和终点，实现全局路径规划。其次，针对汽车的实时行驶策略进行优化，目的是在合理的时间范围内，尽可能的降低燃油消耗。在驾驶循环中，行驶速度直接决定整个驾驶循环所需的时间，故采用行驶速度奖励来替代驾驶循环所需的时间奖励。将这两个目标奖励与安全行驶目标奖励集合在一起，通过优化每个时间点的奖励来实现最优控制，如下式(1)所示；

J_i＝ω₁L_d,i+ω₂L_f,i+ω₃L_s,i (1)

其中，Ratio_cvt是汽车的CVT变速器的传动比，Ratio_ref是汽车的CVT变速器参考传动比，fuel是汽车的燃油消耗量，v是汽车的行驶速度，abs是绝对值，ω₄、ω₅和ω₆均为对应各自汽车参数而设定的权重。上述各个权重的数值要求实现对行驶速度v、燃油消耗量fuel和CVT变速器的传动比Ratio_cvt的优化。例如，要保证汽车的行驶速度v，如果只设置燃油消耗奖励，那么车则将选择停止，因为在停止时燃油消耗奖励最大。

步骤2，将自车获取到的汽车外部的视觉信息Camera与汽车的速度v、加速度acc、CVT变速器速比Ratio_CVT按照下式(3)融合为深度强化学习的状态s。其中，视觉信息Camera可以包括车载摄像头获取的前车行为以及交通灯状态的图像信息。

s＝[Camera,v,acc,Ratio_CVT] (3)

步骤3，根据状态s，在基于SAC的DRL框架中解决(1)中提出的优化问题，设置奖励函数r(s,a)；

r(s,a)＝b-J (4)

其中，J是奖励；a是动作，包括节气门开度和CVT传动比变化量的控制动作；b是调节r(s,a)范围的偏差，例如：如果J的范围是(0,10)，则偏差b的数值为-5，那么最终的奖励的范围则为(-5,5)，通过设置偏差可以使最后的奖励范围契合深度强化学习算法。

在一个实施例中，实验中可能会发生碰撞和闯红灯现象，因此，设定在发生追尾和闯红灯时回合结束，将回合奖励J_e加入到是瞬时奖励J_i中，获得J＝J_i+J_e。

根据上述实施例中定义的状态s、动作a和奖励函数r(s,a)，提出的SAC-DRL策略在图1给出，独立训练两个Q网络，以消除过估计，并提升训练速度。图2车载摄像机采集的外部信息经过图3所示结构的卷积神经网络处理，然后与汽车行使速度、加速度、CVT传动比一起输入全连接层。Q网络由卷积神经网络和全连接层构成，策略网络与Q网络具有相同的隐藏层结构，它输出表征分布的二维向量来确定动作。用Adam优化器更新网络，相关超参数在表1中给出。

步骤4，根据发动机稳态输出转矩模型、发动机燃油消耗率模型和发动机最佳燃油经济性曲线发现，通过控制节气门开度即可实现自由调节发动机的转速和输出功率，因此，确定发动机的节气门开度和CVT传动比变化量即可获得转速、转矩、功率等信息。因此，将状态s输入到神经网络，使用深度强化学习按照下式(5)提供的动作，动作a在允许范围内连续分布，对节气门开度A_throttle和CVT传动比变化量△Ratio_CVT进行连续控制，输出节油控制策略：

本实施例采用车载摄像头收集实时视觉信息，然后将经过CNN处理的实时视觉信息与汽车固有状态信息进行整合，并作为深度强化学习的状态输入，输出最优的节油控制动作，减少汽车的燃油消耗。深度强化学习算法可以但不限于使用SAC-DRL实现，SAC是一种基于最大熵强化学习框架的Actor-Critic深度强化学习算法，在SAC算法中，Actor的目标需要最大化奖励和最大化信息熵，它可以在完成最大化奖励任务的同时尽可能的保证动作的随机性。

在一个实施例中，通过仿真汽车在城市驾驶循环中跟车场景和交通灯场景下的燃油消耗情况，采用Simulink仿真软件对汽车内部动力系统进行仿真，速度v、加速度acc、燃油消耗量fuel和CVT变速器的传动比Ratio_cvt通过simulink仿真软件获得。采用Carla仿真软件对汽车外部视觉进行仿真。通过深度学习算法对汽车在以上两种场景下的行驶速度进行优化，从而达成节约燃油的目的。

Carla仿真软件是一个开源的自动驾驶模拟器，基于虚幻引擎UE4运行模拟，汽车的视觉信息就是基于该模拟器获取。

在Carla仿真软件与Simulink仿真软件的联合仿真中，simulink仿真软件与Carla仿真软件之间采用Python将Carla仿真软件与simulink仿真软件信息交互。如图8所示，使用Python语言编写主程序，通过调用Carla和Simulink内部的PythonAPI控制Carla和Simulink的启动停止，设置参数并读取仿真结果。

图5为Python主程序分别与Carla模拟器、Simulink和基于深度强化学习的节油控制策略交互所用的时间。

表2为联合仿真软件通讯的平均时间延迟，当汽车以120Km/h行驶时，延迟时间会造成汽车前进0.59m，对于节油控制策略的研究可以忽略，因此该联合仿真满足本实施例所提出的实验环境，如图6所示。

为了对提出的DRL模型进行评估，使用Carla模拟器模拟自车、周车以及交通灯信息。在Carla仿真软件中，自车的前挡风玻璃上安装车载摄像头，用于收集包含前车和交通灯状态的视觉信息，如图2所示。

建立基于Carla仿真软件的城市循环仿真，定义汽车的起止点，采用A*算法进行全局路径规划。使用Carla仿真软件和Simulink仿真软件搭建模型分别对外部计算机视觉系统和汽车内部动力系统进行仿真，从汽车动力系统获取汽车行驶速度并将其传入Carla仿真软件作为搭载车载摄像头的虚拟汽车的行驶速度。此时，自车搭载单目摄像头，实现实时采集视觉信息。

本发明实施例搭建了Carla-Simulink联合仿真模型来评估所提出的方法的性能。为了使所提出的优化算法更容易理解，图4中提供了数据传递与动力系统结构图，两种类型的观察结果包括从车载摄像机收集的道路交通信息、交通灯状态等外部视觉观察结果以及速度、加速度、CVT传动比等汽车自身的固有状态。在每个时间步，DRL算法接收环境的观测值，以此决定发动机和CVT变速器的输出。之后，汽车的燃油消耗(决策产生的结果)情况被发送回DRL。

如图4所示，本实施例提出的方法可能做的贡献主要包括以下几个方面。

(1)通过综合处理车载视觉传感器获取的实时交通信息，如道路交通信息和交通灯信息，提高搭载CVT变速器的汽车的燃油经济性，搭建了一种基于深度强化学习的Carla-Simulink联合仿真模型。

(2)基于SAC的连续深度强化学习，通过连续控制节气门开度和CVT传动比变化量分别产生连续的合理的发动机转矩和转速控制信号和CVT传动比信号。该策略与深度值网络(DQN)相比表现出加速收敛和增强优化的性能。

(3)通过Carla仿真软件建立具有实时视觉信息的包含跟车场景和交通灯场景的城市驾驶循环。与仅提供汽车速度信息的现有驾驶循环的不同之处在于，我们的驾驶循环提供了每个时间步的图像数据，能够用于未来带有图像模块的CVT汽车，具有较好的应用前景。

为评估上述基于SAC-DRL的节油控制方法的有效性，基于Pytorch实现了DRL模型，Pytorch是一个开源的深度学习平台。本实验所有的仿真都是在一台个人电脑上进行的，该电脑配有英特尔酷睿i7-11800HCPU(主频为2.3GHz)和GeForceRTX 3060图形处理器(GPU)用于辅助加速训练阶段。

在训练过程中，汽车首先按照不含视觉的标准WLTC速度轨迹行驶。WLTC速度曲线如图7所示，行驶23.14km耗费时间为1800s。

从图7中可以看出，汽车在WLTC工况下在实验环境中进行模拟行驶，此时采用基于MPC的节油控制策略，结果如图8所示，其速度变化曲线。

与标准WLTC工况速度曲线保持近似状态，仅在车速较高时出现较为明显的速度差。因此，证明提出的实验环境能够较好的模拟WLTC工况，可以用该实验环境对汽车的燃油消耗进行仿真对比。

采用损失函数和奖励来评估SAC-DRL策略的收敛过程，如图9所示，由于处于陌生环境，大约在100000步之前，智能体大规模的随机选择动作来熟悉环境，损失值较大。随着训练进行，损失值在300，000步后逐步下降，在大约600000步之后接近零，因此，可以被视为学习策略收敛。

通过使用奖励公式22作为奖励函数，期望智能体选择到达目的地同时尽可能的选择节省燃油的动作，并惩罚违反交通法规的行为。平均奖励值随训练的变化如图9所示，研究发现，当智能体学习环境反馈，努力调整目标使之接近最优目标时，在初始阶段的奖励是波动的。在190个周期之后奖励趋于稳定在一个较高水平，这表明，智能体已经成功的将所有目标提高到期望值。以上结果表明，SAC已经被很好的训练并且收敛了，可以执行后面的优化任务。

训练过程对于评估DRL的整体表现至关重要，表3中比较了所提出的SAC策略与经典的DQN的训练时间。得益于Actor-Critic架构和最大熵的应用使得策略更加随机，输出更多近似最优的动作，提高性能。从表3中观察到基于SAC策略的智能体达成训练目标的速度更快，SAC所需的训练周期远小于DQN，仅需要DQN训练时间的40％。这表明，基于SAC的DRL训练效率显著提高，大幅加快收敛速度。

为了评估DRL策略在跟车和交通灯场景下汽车节省燃油的性能，将提出的策略与不考虑对跟车场景和交通灯场景进行预测得MPC方法作对比，以进行简单的评估。

本发明通过车载摄像机拍摄照片并将其输入卷积神经网络，再将其输入深度神经网络中，目的是做出优化汽车燃油经济性的决策。因此，本发明将获得的计算机视觉信息作为变量。以基于MPC的不对视觉系统进行处理的方法为基准，以验证所提出的基于视觉的方法的有效性。

下面涉及的是如下三种方法：

(1)基于MPC的不包含计算机视觉的汽车节油控制方法。

(2)基于DQN的包含计算机视觉的汽车节油控制方法。

(3)基于SAC的包含计算机视觉的汽车节油控制方法。

实验中三种不同的算法模型中分别进行了行驶速度对比，CVT传动比对比，燃油消耗对比，结果如图10-12所示。三种算法使用相同的参数设置，以确保公平比较。

图10显示了在本发明所提出的城市驾驶循环中收集的速度轨迹数据。可以看出，基于DRL方法的汽车在进行跟车任务时，通过对前车行为的观察，使得自车可以比基于MPC的方法更好的保持经济行驶，通过对交通灯状态的观察，使得汽车可以更好的优化交通灯前的行驶速度。本发明使用卷积神经网络对包含红绿灯的图像进行识别及预测。此外，现有研究表明，自车的行驶状态很大程度上取决于前车行驶状态及其附近汽车的状态和交通灯的状态。因此，对实时交通信息进行数字化的处理及分析对优化汽车的燃油经济性是有益的。

基于深度强化学习的节油控制方法实现了针对发动机与CVT变速器的协同控制。在汽车纵向动力系统的控制中，CVT的传动比影响发动机的工作范围，实时优化CVT的传动比变化可以确保发动机工作在最佳工作区间。基于DRL的策略以基于MPC的换挡策略为参考，以提高训练效率。其中，基于DQN的传动比变化量离散为[-0.1，-0.05，0，0.05，0.1]，基于SAC的传动比变化量在[-0.1，0.1]中连续分布，旨在优化基于MPC的换挡策略。图11中分别展示了三种不同控制方式的CVT速比控制策略。总体而言，基于DRL的控制策略与基于MPC方法的控制策略分布特征相近。同时，由于DRL的奖励函数中包含燃油消耗等多种优化目标，基于DRL策略的CVT传动比既保持在合理范围内，也对基于MPC的换挡策略进行了优化。

基于DRL的控制策略的控制变量是节气门开度和CVT传动比变化量。从图12中可以看出，基于DRL策略的单位时间燃油消耗量明显低于MPC策略，因此，可以说DRL算法具有学习节气门开度变化和CVT换挡策略的能力。

三种控制策略的燃油消耗情况如表4所示。以MPC策略获得的结果为基准，基于DRL的策略中，DQN策略降低了4.46％的燃油消耗量，SAC策略降低了6.41％燃油消耗量。因此，引入计算机视觉系统的节油控制方法对节约燃油是有益的。两种DRL策略产生了1.95％的油耗差，这主要得益于SAC策略的动作控制是连续的，在最大熵的作用下，动作输出更加随机，控制效果更好。

本实施例以搭载CVT变速器的燃油汽车为研究对象，在城市驾驶循环中的跟车场景和交通灯场景下，提出了一种将深度强化学习与计算机视觉结合的节油控制方法，以优化汽车的燃油经济性。为验证该方法，搭建了Carla-Simulink联合仿真模型，在Carla中构建具有视觉信息的城市道路驾驶循环，在Simulink中构建汽车动力系统模型，仿真中输出每组动作的平均时间为17.55ms。

此外，对是否结合计算机视觉系统，以及不同的DRL算法进行对比研究，我们发现基于计算机视觉系统的SAC算法最适合汽车的节油控制。仿真结果表明，基于计算机视觉的SAC和DQN节油控制策略在同步控制发动机和CVT变速器的条件下，与基于MPC控制策略相比分别取得了4.46％和6.41％的耗油量差距。于此同时，基于SAC的控制策略训练速度更快，仅为基于DQN的控制策略训练时间的40％。

本实施例中，我们只考虑了从车载摄像机收集的实时图像数据。随着传感器和云上技术的进步，通过从其他类型的传感器，如全球定位系统、雷达、激光雷达等自车收集的信息，通过车对车、车对基础设施获得信息等来探索最优的节油控制方法是未来的发展方向。

最后需要指出的是：以上实施例仅用以说明本发明的技术方案，而非对其限制。本领域的普通技术人员应当理解：可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种节油控制方法，其特征在于，包括：

步骤1，构建如下式描述的节油控制策略；

J_i＝ω₁L_d,i+ω₂L_f,i+ω₃L_s,i (1)

s＝[Camera,v,acc,Ratio_CVT] (3)

步骤3，根据状态s，设置奖励函数r(s,a)；

r(s,a)＝b-J (4)

2.如权利要求1所述的节油控制方法，其特征在于，设定在发生追尾和闯红灯时回合结束，将回合奖励J_e加入到是瞬时奖励J_i中，获得J＝J_i+J_e。

3.如权利要求1或2所述的节油控制方法，其特征在于，视觉信息包括车载摄像头获取的前车行为以及交通灯状态的图像信息。