CN112158189A

CN112158189A - 基于机器视觉和深度学习的混合动力汽车能量管理方法

Info

Publication number: CN112158189A
Application number: CN202011060544.9A
Authority: CN
Inventors: 彭剑坤; 王勇; 南斯睿; 谭华春; 伍元凯; 丁璠
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-01

Abstract

本发明公开了一种基于机器视觉和深度学习的混合动力汽车能量管理方法，属于混合动力汽车能量管理领域，方法主要包括：基于卷积神经网络（CNN）的目标检测方法，从车载摄像机中提取可用的视觉信息，进一步建立基于摄像机和CNN的视觉处理模块；利用DRL算法，建立基于DRL的混合动力汽车能量管理方法；进一步利用深度确定性策略梯度（DDPG）算法，构建DDPG控制器；将视觉处模块和基于DRL的能量管理方法相结合，通过DDPG控制器，建立基于机器视觉和深度强化学习的混合动力汽车能量管理方法，实现在线实时控制车辆的功率分配。本发明所提出的方法能够共用自动驾驶汽车的视觉感知传感器，保证能量管理策略的实时性，进一步提高车辆的燃油经济性。

Description

基于机器视觉和深度学习的混合动力汽车能量管理方法

技术领域

本发明涉及一种机器视觉和深度学习技术,属于混合动力汽车能量管理技术领域。

背景技术

能源短缺、环境污染、气候变暖是全球汽车产业面临的共同挑战，因此先进的节能技术得到了越来越多的重视，其目的是最大限度地提高能源效率和减少排放。相比纯电动汽车，混合动力汽车(HEV)具有省油、易于开发和环保的特点，被认为是汽车制造商和消费者最实惠的选择。HEV是一种利用燃油发动机和电机混合驱动的新型节能环保型汽车,其具有多个能量源。因此，在车辆多电源运行时，对能量管理策略(EMS)进行合理的制定是必不可少的，可进一步调整和协调来自多个来源的输出功率，以满足不同驾驶条件下的功率要求，最大限度地提高动力传动系统的效率和降低燃油消耗。

现如今，在HEV上应用的EMS主要是利用现有的历史信息来预测未来的行驶状况，并将预测的情况输入到全局优化算法中。一方面，在有限的数据源下很难做出未来的预测。另一方面，对于全局优化算法来说，需要消耗大量的计算资源，这阻碍了它们在实时控制中的应用。近些年来，各种类型的车载传感器，如雷达传感器、摄像机和超声波传感器，已广泛应用于车辆中。相比其他传感器，相机具有低成本和捕捉信息丰富等优点。车载传感器扩展了现代车辆的信息来源，也有望提高混合动力汽车的燃油效率。现代汽车的机器视觉系统对驾驶环境提供了丰富的信息，这对于实现生态驾驶非常有益。同时，近年来深度强化学习方法的发展极大地促进了视觉处理技术的发展，包括目标检测、可驾驶路段、交通灯检测等。因此，随着汽车传感技术和智能化的发展，利用智能传感和控制算法在线实时调整多个来源的输出功率，可以有效提高能量管理策略的控制效果，提高汽车整车性能。

发明内容

为了解决上述本领域中存在的技术问题，本发明提供了一种基于机器视觉和深度学习的混合动力汽车能量管理方法。将检测到的视觉信息作为一个连续的深度学习模型的状态输入，通过DDPG控制器在线实时地调整电机与发动机的输出功率，提高对工况的适应性，使电机与发动机始终在高效率区间运作，降低燃油消耗量，提高燃油经济性。

为了实现上述目的，本发明采用了如下技术方案：

一种基于机器视觉和深度学习的混合动力汽车能量管理方法，包括以下步骤：

步骤1：建立基于卷积神经网络的目标检测方法，从车载摄像机中提取可用的视觉信息，进一步建立基于摄像机和卷积神经网络的视觉处理模块；

步骤2：利用深度强化学习算法，建立基于深度学习算法的混合动力汽车能量管理方法；

步骤3：利用深度确定性策略梯度算法，构建深度确定性策略梯度控制器；

步骤4：将视觉处理模块和基于深度学习的混合动力汽车能量管理方法相结合，通过深度确定性策略梯度控制器，建立基于机器视觉和深度学习的混合动力汽车能量管理方法，实现在线实时控制车辆的功率分配。

作为更进一步的优选方案，所述步骤1中，建立基于卷积神经网络的目标检测方法，包括：输入车载传感器检测的图像、YOLO网络结构和YOLO检测系统；YOLO网络结构包括YOLOv3，YOLOv3为含有53个卷积层的网络结构；其中，YOLO检测系统包括：车辆检测、红灯检测和绿灯检测。

作为更进一步的优选方案，所述步骤2中，基于深度学习算法的混合动力汽车能量管理方法可看作马尔可夫决策过程，具体包括以下步骤：

步骤A：定义深度学习中的状态、动作、奖励函数、最优动作-值函数以及最优控制策略；

步骤B：深度学习agent接收环境观测值，并根据当前控制策略对执行一个动作；

步骤C：环境对此动作做出响应，又进入一个新的状态，并将新的状态和此动作所带来的奖励返回深度强化学习agent；

步骤D：在新的状态中，agent又将继续执行动作，以此类推，深度学习agent与环境不断地交互，直到得到最优动作-值函数(Q值)以及最优控制策略。

作为更进一步的优选方案，所述步骤A中确定深度学习中的状态和动作，奖励函数、最优动作-值函数以及最优控制策略；具体包括：状态分别为视觉处理模块提供的视觉信息、当前时刻汽车的车速、当前时刻汽车加速度以及动力电池荷电状态SOC；动作为由连续变量组成的发动机和电机的输出功率；定义奖励函数，包含低油耗和SOC稳定性两部分，所述奖励函数reward的具体计算公式为：

上式中，R(s,a)为在状态s下选择行动a的奖励函数；R₁(s,a)为奖励函数reward1；R₂(s,a)为奖励函数reward 2；cost为发动机燃油消耗量；t∈[0.T]表示时间范围；γ为正权重因子；SOC(t)为t时刻下动力电池荷电状态；SOC_r为一个预先指定的常数，用于维持电荷；

最优动作-值函数的具体计算公式为：

Q^*(s,a)＝Q_π(s,a)＝maxE[R_t+1+λQ^*(s_t+1,a_t+1)s_t,a_t]

上式中，Q_π(s,a)是在策略π状态s下选择行动a的动作-值函数；s_t,a_t为时刻t下的状态，动作；s_t+1,a_t+1,R_t+1为时刻t+1下的状态，动作以及奖励函数；λ∈[0,1]为折扣因子；

最优控制策略π^*满足

具体计算公式为

作为更进一步的优选方案，所述步骤3中，深度确定性策略梯度控制器的构建包括以下步骤，

步骤A：定义深度确定性策略梯度中的行为策略behavior policy；

步骤B：建立策略的神经网络和基于价值的神经网络,完成对深度确定性策略梯度控制器的构建。

作为更进一步的优选方案，所述步骤A中的定义深度确定性策略梯度中的行为策略behavior policy，具体包括：根据当前策略和使用随机Ornstein-Uhlenbeck引入探索噪声OUAN生成的随机过程，从这个随机过程获得执行动作，OUAN过程可表示为：

dX_t′＝β(X_t′-μ)dt′+σdW_t′

上式中，W_t′是一个标准的Wiener过程；μ为平均噪声，包括两种情况，一方面，可以将μ设定为发动机的输出功率；另一方面，考虑到燃油经济性和电池SOC稳定性，也可以将μ设定为电池SOC；β为均值回归的程度；σ控制噪声的范围；dt′是噪声的时间步长。

作为更进一步的优选方案，所述步骤B中建立基于策略的神经网络和基于价值的神经网络，完成对DDPG控制器的构建，具体包括：确定性行为策略基于策略的神经网络包括估计神经网络和目标神经网络，二者内部结构一样，估计网络用来输出实时的动作,供Actor在目标网络中实行，而目标网络则是用来更新基于价值的神经网络；基于价值的神经网络也包括估计神经网络和目标神经网络，二者内部结构一样；在建立基于策略网络时，其神经网络的输入为状态观测值，即视觉处理模块提供的视觉信息以及当前时刻汽车的车速、当前时刻汽车加速度以及动力电池荷电状态SOC，输出为控制量；在建立基于价值网络时，其中输入有两个：一是状态观测值，二是控制量，输出为Q值。

作为更进一步的优选方案，所述步骤4中，基于机器视觉和深度学习的混合动力汽车能量管理方法包括以下步骤：

步骤A:离线训练；通过深度确定性策略梯度控制器对模型进行训练，学习控制策略即输入状态与动作参数之间的映射关系；

步骤B：将各个训练完成后的神经网络的参数读取出来，并将控制策略下载到整车控制器VCU中；

步骤C:在线学习；获取当前时刻有关车辆状态及交通状态的有关信息，共同作用于已训练完成的神经网络，通过DDPG控制器在线实时调节，完成对功率分配决策的更新。

作为更进一步的优选方案，所述步骤A中通过深度确定性策略梯度控制器对模型进行训练，学习输入状态与动作参数之间的映射关系，具体包括以下步骤：

Ⅰ：初始化actor\critic的regular神经网络参数θ^Q和θ^π,将regular的神经网络参数拷贝给对应的target网络参数：θ^Q′←θ^Q,θ^π′←θ^π；初始化经验池Memory batch空间R；

Ⅱ：初始化Ornstein-Uhlenbeck(OU)过程；

Ⅲ:actor根据behavior策略β选择一个动作a_t，下达给environment执行该a_t；

a_t＝π(s_t|θ^π)+N_t；

Ⅳ:environment执行该a_t,返回reward r_t和新的状态s_t+1；

Ⅴ：actor将这个状态转换过程(transition):(s_t,a_t,r_t,s_t+1)保存到经验池Memory batch空间R；

Ⅵ:从经验池Memory batch空间R中随机选取部分样本，用(s_j,a_j,r_j,s_j+1)表示，然后训练更新target神经网络，学习过程为：

y_j＝r_j+λQ′(s_j+1,π′(s_j+1|θ^π′)|θ^Q′)

上式中,y_j为标签；r_j为学习过程中的奖励；λ为折扣因子；θ^π′与θ^Q′为目标权重；

Ⅶ:定义Loss函数，用于网络更新，Loss函数为：

上式中，L表示损失函数，M为采样数据个数；

Ⅷ:计算策略网络的策略梯度：

上式中：

为损失函数Loss关于θ^Q的梯度；

Ⅸ:通过SGA/SGD算法更新θ^Qθ^π，然后再通过soft update算法更新target网络的参数,θ^Q′←τθ^Q+(1-τ)θ^Q′,θ^π←τθ^π+(1-τ)θ^π′；

Ⅹ：当训练步数完成后，DDPG模型训练完成。

本发明将机器视觉与深度学习相结合，来提高混合动力汽车的燃油经济性。该方法能够从视觉输入中自主学习最优控制策略。采用最新的基于卷积神经网络的目标检测方法，从车载摄像机中提取可用的视觉信息。将检测到的视觉信息作为一个连续的深度强化学习模型的状态输入，输出能量管理策略。仿真结果表明，在100公里的真实城市道路和高速公路行驶工况下(包含视觉信息)，基于深度强化学习的视觉信息系统比没有视觉信息的系统节省燃料4.3％-8.8％，达到全局最优动态规划的燃油经济性96.5％。

附图说明

图1是本发明实施例中提供的一种基于摄像机和CNN的视觉处理模块结构示意图；

图2是本发明实施例中提供的一种基于DRL的能量管理方法结构示意图；

图3是本发明实施例中提供的DDPG算法结构示意图；

图4是本发明实施例中提供的一种基于机器视觉和深度学习的混合动力汽车能量管理方法结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合说明书附图对本发明的实施方式做进一步地详细叙述。

一种基于机器视觉和深度学习的混合动力汽车能量管理策略，包括以下步骤：

步骤1：建立基于卷积神经网络(CNN)的目标检测方法，从车载摄像机中提取可用的视觉信息，进一步建立基于摄像机和CNN的视觉处理模块；

步骤2：利用深度学习(DRL)算法，建立基于DRL的混合动力汽车能量管理方法；

步骤3：利用深度确定性策略梯度(DDPG)算法，构建DDPG控制器；

步骤4：将视觉处理模块和基于DRL的混合动力汽车能量管理方法相结合，通过DDPG控制器，建立基于机器视觉和深度学习的混合动力汽车能量管理方法，实现在线实时控制车辆的功率分配。

图1是本发明实施例中提供的一种基于DRL的能量管理方法结构示意图，请参见图1，根据结构示意图，具体包括输入车载传感器检测的图像、You Only Look Once(YOLO)网络结构和You Only Look Once(YOLO)检测系统。YOLOv3为含有53个卷积层的网络结构。YOLO网络结构包括YOLOv3，YOLO检测系统包括：车辆检测、红灯检测和绿灯检测。

图2是本发明实施例中提供的基于DRL的能量管理方法结构示意图，请参见图2，按照流程示意图，完成对混合动力汽车基于DRL的能量管理方法的设计。

基于DRL的能量管理方法可看作马尔可夫决策过程(MDP)，具体包括以下步骤：

步骤A：定义DRL中的状态(state)、动作(action)以及奖励函数(reward)、最优动作-值函数以及最优控制策略；

步骤B：DRL agent接收环境观测值，并根据当前控制策略对执行一个动作；

步骤C：环境对此动作做出响应，又进入一个新的状态，并将新的状态和此动作所带来的奖励返回DRL agent；

步骤D：在新的状态中，agent又将继续执行动作。以此类推，DRL agent与环境不断地交互，直到得到最优动作-值函数(Q值)以及最优控制策略。

上述步骤A中确定DRL中的状态(state)和动作(action)，具体包括：状态(state)分别为视觉处理模块提供的视觉信息、当前时刻汽车的车速、当前时刻汽车加速度以及动力电池荷电状态SOC；动作(action)为由连续变量组成的发动机和电机的输出功率；定义奖励函数，包含低油耗和SOC稳定性两部分，所述奖励函数reward的具体计算公式为：

上述步骤A中所述最优动作-值函数的具体计算公式为：

Q^*(s,a)＝Q_π(s,a)＝maxE[R_t+1+λQ^*(s_t+1,a_t+1)s_t,a_t]

上述步骤A中所述最优控制策略π^*满足

具体计算公式为

图3是本发明实施例中提供的DDPG算法结构示意图，请参见图3。

在构建DDPG控制器时，具体包括以下步骤：

步骤A：定义DDPG中的行为策略behavior policy；

步骤B：建立策略的神经网络和基于价值的神经网络,完成对DDPG控制器的构建。

上述步骤A中所述行为策略behavior policy为一个根据当前策略和使用随机Ornstein-Uhlenbeck引入探索噪声N(OUAN)生成的随机过程，从这个随机过程获得执行动作。OUAN过程可表示为：

dX_t′＝β(X_t′-μ)dt′+σdW_t′

上述步骤B中建立基于策略的神经网络和基于价值的神经网络，完成对DDPG控制器的构建，具体包括：确定性行为策略基于策略的神经网络包括估计神经网络(Actorregular network)和目标神经网络(Actor target network)，二者内部结构一样，估计网络用来输出实时的动作,供Actor在目标网络中实行，而目标网络则是用来更新基于价值的神经网络；基于价值的神经网络也包括估计神经网络(Critic regular network)和目标神经网络(Critic target network)，二者内部结构一样。在建立基于策略的网络时，其神经网络的输入为状态观测值(state)，即车辆车载摄像头观测的图像以及当前时刻汽车的车速、当前时刻汽车加速度以及动力电池荷电状态SOC，输出为控制量(action)；在建立基于价值的网络时，其中输入有两个：一是状态观测值(state)，二是控制量(action)，输出为Q值。

图4是本发明实施例中提供的基于机器视觉和深度学习的混合动力汽车能量管理方法结构示意图，请参见图4。

建立基于机器视觉和深度学习的混合动力汽车能量管理方法，具体包括以下步骤：

步骤A:离线训练。通过DDPG控制器对模型进行训练，学习控制策略即输入状态(视觉处理模块提供的视觉信息、汽车的车速、加速度以及动力电池荷电状态SOC；)与动作参数(发动机和电机的输出功率)之间的映射关系。

步骤B：将各个训练完成后的神经网络的参数读取出来，并将控制策略下载到整车控制器VCU中。

步骤C:在线学习。获取当前时刻有关车辆状态及交通状态的有关信息，共同作用于已训练完成的神经网络，通过DDPG控制器在线实时调节，完成对功率分配决策的更新。

上述步骤A中通过DDPG控制器对模型进行训练，学习输入状态与动作参数之间的映射关系，具体包括以下步骤：

Ⅱ：初始化Ornstein-Uhlenbeck(OU)过程；

a_t＝π(s_t|θ^π)+N_t；

Ⅳ:environment执行该a_t,返回reward r_t和新的状态s_t+1；

y_j＝r_j+λQ′(s_j+1,π′(s_j+1|θ^π′)|θ^Q′)

Ⅶ:定义Loss函数，用于网络更新，Loss函数为：

上式中，L表示损失函数，M为采样数据个数；

Ⅷ:计算策略网络的策略梯度：

上式中：

为损失函数Loss关于θ^Q的梯度；

Ⅹ：当训练步数完成后，DDPG模型训练完成。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于机器视觉和深度学习的混合动力汽车能量管理方法，其特征在于，包括以下步骤：

步骤2：利用深度学习算法，建立基于深度学习算法的混合动力汽车能量管理方法；

2.根据权利要求1所述的一种基于机器视觉和深度学习的混合动力汽车能量管理方法，其特征在于：所述步骤1中，建立基于卷积神经网络的目标检测方法，包括：输入车载传感器检测的图像、YOLO网络结构和YOLO检测系统；YOLO网络结构包括YOLOv3，YOLOv3为含有53个卷积层的网络结构；其中，YOLO检测系统包括：车辆检测、红灯检测和绿灯检测。

3.根据权利要求1所述的一种基于机器视觉和深度学习的混合动力汽车能量管理方法，其特征在于：所述步骤2中，基于深度学习算法的混合动力汽车能量管理方法可看作马尔可夫决策过程，具体包括以下步骤：

步骤A：定义深度强化学习中的状态、动作、奖励函数、最优动作-值函数以及最优控制策略；

步骤B：深度强化学习agent接收环境观测值，并根据当前控制策略对执行一个动作；

步骤D：在新的状态中，agent又将继续执行动作，以此类推，深度强化学习agent与环境不断地交互，直到得到最优动作-值函数(Q值)以及最优控制策略。

4.根据权利要求3所述的一种基于机器视觉和深度学习的混合动力汽车能量管理方法，其特征在于：所述步骤A中确定深度强化学习中的状态和动作，奖励函数、最优动作-值函数以及最优控制策略；具体包括：状态分别为视觉处理模块提供的视觉信息、当前时刻汽车的车速、当前时刻汽车加速度以及动力电池荷电状态SOC；动作为由连续变量组成的发动机和电机的输出功率；定义奖励函数，包含低油耗和SOC稳定性两部分，所述奖励函数reward的具体计算公式为：

上式中，R(s,a)为在状态s下选择行动a的奖励函数；R₁(s,a)为奖励函数reward 1；R₂(s,a)为奖励函数reward 2；cost为发动机燃油消耗量；t∈[0.T]表示时间范围；γ为正权重因子；SOC(t)为t时刻下动力电池荷电状态；SOC_r为一个预先指定的常数，用于维持电荷；

最优动作-值函数的具体计算公式为：

Q^*(s,a)＝Q_π(s,a)＝max E[R_t+1+λQ^*(s_t+1,a_t+1)|s_t,a_t]

最优控制策略π^*满足

具体计算公式为

5.根据权利要求1所述的一种基于机器视觉和深度学习的混合动力汽车能量管理方法，其特征在于：所述步骤3中，深度确定性策略梯度控制器的构建包括以下步骤，

步骤A：定义深度确定性策略梯度中的行为策略behavior policy；

步骤B：建立基于策略的神经网络和基于价值的神经网络,完成对深度确定性策略梯度控制器的构建。

6.根据权利要求5所述的一种基于机器视觉和深度学习的混合动力汽车能量管理方法，其特征在于：所述步骤A中的定义深度确定性策略梯度中的行为策略behavior policy，具体包括：根据当前策略和使用随机Ornstein-Uhlenbeck引入探索噪声OUAN生成的随机过程，从这个随机过程获得执行动作，OUAN过程可表示为：

dX_t′＝β(X_t′-μ)dt′+σdW_t′

7.根据权利要求5所述的一种基于机器视觉和深度学习的混合动力汽车能量管理方法，其特征在于：所述步骤B中建立基于策略的神经网络和基于价值的神经网络，完成对DDPG控制器的构建，具体包括：确定性行为策略基于策略的神经网络包括估计神经网络和目标神经网络，二者内部结构一样，估计网络用来输出实时的动作,供Actor在目标网络中实行，而目标网络则是用来更新基于价值的神经网络；基于价值的神经网络也包括估计神经网络和目标神经网络，二者内部结构一样；在建立基于策略网络时，其神经网络的输入为状态观测值，即视觉处理模块提供的视觉信息以及当前时刻汽车的车速、当前时刻汽车加速度以及动力电池荷电状态SOC，输出为控制量；在建立基于价值网络时，其中输入有两个：一是状态观测值，二是控制量，输出为Q值。

8.根据权利要求1所述的一种基于机器视觉和深度学习的混合动力汽车能量管理方法，其特征在于：所述步骤4中，基于机器视觉和深度强化学习的混合动力汽车能量管理方法包括以下步骤：

9.根据权利要求8所述的一种基于机器视觉和深度强化学习的混合动力汽车能量管理方法，其特征在于：所述步骤A中通过深度确定性策略梯度控制器对模型进行训练，学习输入状态与动作参数之间的映射关系，具体包括以下步骤：

Ⅱ：初始化Ornstein-Uhlenbeck(OU)过程；

a_t＝π(s_t|θ^π)+N_t；

Ⅳ:environment执行该a_t,返回reward r_t和新的状态s_t+1；

Ⅴ：actor将这个状态转换过程(transition):(s_t,a_t,r_t,s_t+1)保存到经验池Memorybatch空间R；

y_j＝r_j+λQ′(s_j+1,π′(s_j+1|θ^π′)|θ^Q′)

Ⅶ:定义Loss函数，用于网络更新，Loss函数为：

上式中，L表示损失函数，M为采样数据个数；

Ⅷ:计算策略网络的策略梯度：

上式中：

为损失函数Loss关于θ^Q的梯度；

Ⅹ：当训练步数完成后，DDPG模型训练完成。