CN113682293A

CN113682293A - 智能网联混合动力汽车多系统动态协调控制系统及方法

Info

Publication number: CN113682293A
Application number: CN202111153172.9A
Authority: CN
Inventors: 郭景华; 王班; 王靖瑶; 肖宝平; 何智飞
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2021-11-23
Anticipated expiration: 2041-09-29
Also published as: CN113682293B

Abstract

智能网联混合动力汽车多系统动态协调控制系统及方法，涉及汽车智能安全与自动驾驶。系统包括数据模块、数据感知模块、与多系统动态协调控制系统。智能网联混合动力汽车通过车载传感器获得车辆状态信息，并将其发送给多系统动态协调控制模块；多系统动态协调控制模块根据获得的车辆状态信息，求解最优发动机功率与电机功率分配方案以提高车辆的燃油经济性；建立可准确表征智能网联混合动力汽车多过程耦合的车辆动力学模型，作为智能网联混合动力汽车多系统动态协调控制算法的执行机构，执行由多系统动态协调控制器输出的可执行控制信号，进行车辆状态更新。有效解决多目标对于车辆控制要求相矛盾等问题，可获得更好的计算结果，提高计算速度。

Description

智能网联混合动力汽车多系统动态协调控制系统及方法

技术领域

本发明涉及汽车智能安全与自动驾驶，特别是涉及一种智能网联混合动力汽车多系统动态协调控制系统及方法。

背景领域

节能、安全、舒适既是当前世界发展的主题也是当前汽车行业发展的主旨，智能网联混合动力汽车作为智能车辆与车联网相结合的产物，发动机和电机为车辆的动力源，行星联排式齿轮组为车辆的动力分配构件，通过行星盘齿轮之间的相互耦合，通过改变电机与发电机之间的转速就可以实现两个动力源动力的协调控制，合理分配动力系统能量，最大程度地发掘车辆的节能潜力。

智能网联混合动力汽车多系统动态协调控制的主要任务是：要求可以灵活地设计发动机、电机与发电机不同的功率分配方案，因为即使在同一需求功率要求下，不同的功率分配方案使得发动机与电机工作点处于不同的工作区，将导致发动机与电机的工作效率不同，进而影响整车效率；根据车辆所处工况，发动机、电机以及电池的特性参数选择最合适的功率分配方案来提高车辆的燃油经济性。考虑队列的稳定性与车辆的乘坐舒适性，各个动力部件动力输出的协调控制，以保证不同的工作模式切换过程中，动力输出的稳定性与连续性。文献[1](和刘健.基于动态规划单轴并联混合动力汽车能量管理策略[D].北京理工大学,2019.)利用动态规划进行单轴并联式混合动力汽车能量管理控制策略研究，为了解决DP算法无法达到实时性的要求，将DP算法控制结果成为训练样本，对神经网络进行训练以满足能量管理控制策略实时性的需求，虽利用神经网络可以无限逼近任意连续函数的能力，但不能充分发挥神经网络的潜力；文献[2](Zhou W,Zhang N,Zhai H.EnhancedBattery Power Constraint Handling in MPC-based HEV Energy Management:a Two-phase Dual-model Approach[J].IEEE Transactions on TransportationElectrification,2021,PP(99):1-1.)将电池电量特性区域与模型预测控制预测时域相结合，利用正向动态规划算法计算最优能量问题，虽可以达到求解最优解的目的，但是却不能兼顾算法的实时性需求。

发明内容

本发明的目的在于针对现有技术存在的上述问题，提供有效解决多目标对于车辆控制要求相矛盾等问题，利用模型预测控制算法不断优化加速度增量，从而获得最优期望加速度的一种智能网联混合动力汽车多系统动态协调控制系统。

本发明的另一目的在于提供可获得更好的计算结果，提高计算速度，充分发挥混合动力汽车节能潜力的一种智能网联混合动力汽车多系统动态协调控制方法。

所述智能网联混合动力汽车多系统动态协调控制系统，包括数据模块、数据感知模块、与多系统动态协调控制系统；多系统动态协调控制系统由模拟环境、奖励函数以及多系统动态协调控制模块组成，彼此之间依次连接；数据模块由经典驾驶循环工况数据以及实车采集数据组成，作为深度强化学习的训练集与测试集；数据感知模块利用车载传感器获得自车当前速度、加速度以及电池电量等信息，将获取的车辆状态信息发送给多系统动态协调控制系统；利用数据模块数据进行离线训练，即利用先验知识与经验数据进行模型预训练，获得一个较好的训练模型，然后利用建立的车辆模型，进行在线优化，利用深度强化学习的自学习能力以获得更好的训练结果，离线训练与在线优化相结合，充分利用车辆采集数据，降低控制器的计算负担，提高控制算法的计算速度，充分发挥智能网联混合动力汽车的节能潜力；经由离线训练获得较好训练结果的训练模型，根据数据感知模块获得的车辆信息，进行发动机、电机以及动力电池之间的能量输出协调控制，输出控制信号到模拟环境，以获得车辆实际可执行的控制信号作用到车辆，以实现智能网联混合动力汽车多系统动态协调控制。

所述基于深度强化学习的智能网联混合动力汽车多系统动态协调控制方法，包括以下步骤：

1)智能网联混合动力汽车通过车载传感器获得车辆状态信息，并将其发送给多系统动态协调控制模块；

2)多系统动态协调控制模块根据获得的车辆状态信息，求解最优发动机功率与电机功率分配方案以提高车辆的燃油经济性；

3)建立可准确表征智能网联混合动力汽车多过程耦合的车辆动力学模型，作为智能网联混合动力汽车多系统动态协调控制算法的执行机构，执行由多系统动态协调控制器输出的可执行控制信号，进行车辆状态更新。

在步骤1)中，所述车辆状态信息包括自车车速、加速度以及电池电量信息等。

在步骤2)中，所述求解最优发动机功率与电机功率分配方案以提高车辆的燃油经济性，首先根据发动机与电机动态特性，选择发动机为主要控制对象进行控制，将由发动机最优工作曲线和电池特性组成的专家知识嵌入到深度强化学习算法中，利用发动机最优工作点曲线，减少控制量，降低控制量维度，缩小算法搜索范围，降低计算负担，提高算法的计算速度；然后，分析车辆各个状态量对深度强化学习算法动作值的影响，阐明基于深度强化学习算法的下层多系统动态协调控制原理；最后，设计基于蚁群智能优化的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法的下层多系统动态协调控制器。

所述设计基于蚁群智能优化的深度确定性策略梯度(Deep DeterministicPolicy Gradient,DDPG)算法的下层多系统动态协调控制器的具体方法可为：

(1)设计多系统动态协调控制器的输入与输出变量；

(2)算法模拟环境设计：算法的模拟环境主要功能是将计算获得最优发动机与电机功率分配方案，奖励函数根据电池特性图确定的车辆充放电条件以及其他的判断条件，进行车辆动力系统工作模式判断，将指令转变为车辆动力学模型实际可控的指令，并将其发送给车辆各个动力部件，各个动力部件将其执行的结果反馈给下层多系统动态协调控制器，来计算奖励值，以指导网络模型的训练；

在步骤(2)中，所述奖励函数根据模拟环境传递获得的车辆状态信息计算奖励值，并将奖励值传递多系统动态协调控制器，用来指导训练模型进化，奖励函数是与电池电量变化、瞬时油耗有关的函数，具体如下所示：

奖励函数由两部分组成：第一部分表示当前时刻与初始时刻的电池电量差值，表示消耗电池电量；第二部分表示的是初始时刻到当前时刻的燃油消耗，

为车的燃油消耗率。α，β为常数因子，通过参数调整使得基于深度强化学习的多系统动态协调控制策略可以在燃油经济性、电池电量维持上保持一定的平衡。

(3)基于蚁群智能优化的DDPG算法根据输入的车辆速度、加速度提及电池电量信息，输出发动机功率，对智能网联混合动力汽车动力系统进行动力分配，将输出信号作用到模拟环境以获得奖励，指导算法进行下一步的训练。

在步骤3)中，所述车辆动力学模型包括发动机模型、电机模型、电池模型，动力分配机构模型以及制动模型。

本发明提出一种基于深度强化学习的智能网联混合动力汽车多系统动态协调控制策略，利用先验知识与经验数据进行模型预训练，获得一个较好的训练模型，自学习在线优化，不断优化以获得更好的计算结果，提高计算速度，充分发挥混合动力汽车节能潜力。上层控制器基于车辆安全性、舒适性和经济性的多目标优化问题，建立相应的目标函数，有效解决多目标对于车辆控制要求相矛盾的问题，利用模型预测控制算法不断优化加速度增量，从而获得最优期望加速度。下层控制器根据上层控制器求解的最优期望加速度以及当前车辆状态信息，求解最优发动机功率与电机功率分配方案以提高车辆的燃油经济性。根据发动机与电机动态特性，选择发动机为主要控制对象进行控制，将由发动机最优工作曲线和电池特性组成的专家知识嵌入到深度强化学习算法中，利用发动机最优工作点曲线，减少控制量，降低控制量维度，缩小算法搜索范围，降低计算负担，提高算法的计算速度。采用在离散空间表现良好的深度Q学习算法(Deep Q-Network,DQN)进行基于DQN算法的下层多系统动态协调控制器设计，以提高算法稳定性与收敛速度。

附图说明

图1为多系统动态协调控制框架。

图2为神经网络结构。

具体实施方式

以下实施例将结合附图对本发明作进一步的说明。

如图1所示，基于深度强化学习的智能网联混合动力汽车多系统动态协调控制系统包括数据模块、数据感知模块、与多系统动态协调控制系统；多系统动态协调控制系统由模拟环境、奖励函数以及多系统动态协调控制模块组成，彼此之间依次连接；数据模块由经典驾驶循环工况数据以及实车采集数据组成，作为深度强化学习的训练集与测试集；数据感知模块利用车载传感器获得自车当前速度、加速度以及电池电量等信息，将获取的车辆状态信息发送给多系统动态协调控制系统；利用数据模块数据进行离线训练，即利用先验知识与经验数据进行模型预训练，获得一个较好的训练模型，然后利用建立的车辆模型，进行在线优化，利用深度强化学习的自学习能力以获得更好的训练结果，离线训练与在线优化相结合，充分利用车辆采集数据，降低控制器的计算负担，提高控制算法的计算速度，充分发挥智能网联混合动力汽车的节能潜力；经由离线训练获得较好训练结果的训练模型，根据数据感知模块获得的车辆信息，进行发动机、电机以及动力电池之间的能量输出协调控制，输出控制信号到模拟环境，以获得车辆实际可执行的控制信号作用到车辆，以实现智能网联混合动力汽车多系统动态协调控制。

本发明实施的基于深度强化学习的智能网联混合动力汽车多系统动态协调控制方法，包括以下步骤：

A、数据模块

数据模块中包括经典驾驶循环工况数据、自然驾驶数据以及自车采集数据三部分，作为深度强化学习算法的训练集与测试集数据，对数据进行归一化处理后传递给多系统动态协调控制系统，进行深度强化学习的离线训练以获得的较好的训练模型。

B、数据感知模块

利用车辆车载传感器，获得智能网联混合动力汽车当前车速v(t)，加速度a(t)、电池电量SOC(t)，对数据进行数据归一化后，传递给多系统动态协调控制模块，进行深度强化学习的在线优化。具体公式如下所示：

C、多系统动态协调控制模块

首先，建立模拟环境，建立可以准确表征实际车辆在接收到多系统动态协调控制算法指令后执行不同动作指令后的模型，作为深度强化学习算法的模拟环境如图1，输入是整车需求功率和发动机期望功率，输出为车辆状态，具体流程：(1)根据发动机最优工作点曲线，求解当前发动机期望功率下对应的最高发动机效率所对应的发动机转速和发动机转矩；(2)利用电池特性曲线确定电池充放电条件；(3)当整车需求功率不大，电池电量处于低电阻区域，发动机关闭，仅电机进行驱动；电池电量过低，发动机沿最优工作区工作，剩余能量反转电机对电池进行充电；(4)当整车需求功率较大，发动机与电机联合驱动；(5)当车辆处于减速状态，电池电量充足，为避免电池过充，仅进行机械制动；若电池电量不足，启动再生制动模式，尽可能的使用电机制动，但当需求的制动转矩超过电机可提供的最大制动转矩，采用电机制动与机械制动联合制动。根据不同的工作模式，计算采用不同动作后的车辆状态，并将车辆状态传递给奖励函数，进行奖励值计算。

然后，奖励函数设计。奖励函数根据模拟环境传递获得的车辆状态信息计算奖励值，并将奖励值传递多系统动态协调控制器，用来指导训练模型进化。奖励函数是与电池电量变化、瞬时油耗有关的函数，具体如下所示：

奖励函数由两部分组成：第一部分表示当前时刻t与初始时刻t₀的电池电量差值，表示消耗电池电量；第二部分表示的是初始时刻到当前时刻的燃油消耗，

最后，对进行基于深度强化学习的多系统动态协调控制器进行设计，主要包括控制原理设计以及神经网络设计。

深度强化学习算法的智能体通过获得的车辆状态，计算各个动作对应的动作值，如果算法进行探索则从动作库中随机选择一个动作，如果算法不进行探索状态，则算法从各个动作对应的动作值中选择动作值最大的动作作用到模拟环境中去。

车辆电池荷电状态处于较低水平时，深度强化学习算法更倾向于选择大幅度增大发动机功率。但是当车辆电池荷电状态处于较高水平时，深度强化算法倾向于选择关闭发动机，而不是继续增大发动机功率，从而使得车辆的电池状态保持在低电阻工作区。

当车辆车速较低时，整车需求功率较低，且电池电量较低处于低电量区域时，如果发动机依旧按照整车需求功率进行运转，则发动机将处于低效率状态不满足车辆低油耗的需求，智能体倾向于选择较大动作值对应的动作，使得发动机工作在高效工作区，剩余的发动机能量驱动电机反转对车辆电池进行充电。

当加速度很小，车辆车速不变，智能体倾向与选择不改变发动机功率，以保持现有的车辆状态；而当加速度较大时，智能体倾向于选择大幅度增加发动机功率，为车辆加速提供足够的动力。

经验池采样具有随机性，同优先级会造成重复采样和部分数据未被采样，导致学习过程陷入局部最优解或学习效果不好，采用优先级回放的经验池采样策略，提高网络收敛速度和网络训练效果。优先回放(Prioritized Experience Replay)是将经验池中的每一个经验指定一个优先级，经验选择时倾向于选择优先级高的经验。假设经验池中某个经验j，优先级为p_j，那么该经验被选择的概率P_j如下所示：

DDPG算法的Actor网络与Critic网络结构如图2所示，其中Actor网络与Critic网络均有五层网络结构，输入层、输出层和三层隐藏层，Actor网络输入为数据归一化后的车辆速度、加速度以及电池电量信息，输出为所选动作对应的动作值，隐藏层1中包含有200个神经元，隐藏层2中包含有100个神经元，隐藏层3中包含有50个神经元；Critic网络输入为数据归一化后的车辆速度、加速度、电池电量以及动作，输出为Q值，隐藏层1中包含有200个神经元，隐藏层2中包含有100个神经元，隐藏层3中包含有50个神经元。

Critic网络的Q网络采用优先回放机制，从采样池中选取一批经验对，计算损失值，利用最小化损失函数对Q网络参数进行更新，最小化损失函数如下所示：

其中，y_j＝R_j+γQ′(S′,u′(S′|w^μ′)|w^Q′)，N为采样经验对个数，w^Q和w^Q′分别为Q网络参数与目标Q网络参数。

Actor网络的策略网络利用Q网络的策略梯度来更新策略网络参数，策略梯度表达式如下所示：

其中，w^μ和w^μ′分别为策略网络参数与目标策略网络参数。

融合蚁群智能优化算法与DDPG算法模型参数更新机制，将Actor在线网络权重更新的策略梯度下降函数(5)和Critic在线网络权重更新的均方误差损失函数(4)作为适应度函数，利用蚁群智能优化算法分别寻优每一时刻DDPG模型中Actor和Critic在线网络的权重参数。

为了使得算法具有较好的收敛性，DDPG算法采用ReLU函数作为神经网络的激活函数，同时为了将动作输出范围限制在一定范围内，常选择tanh函数作为网络输出层的激活函数。因此，Actor网络输入层与隐藏层激活函数为ReLU函数，输出层激活函数为tanh函数，输出层为全连接层；Critic网络输入层、隐藏层以及输出层的激活函数均为ReLU函数。

D、执行模块

建立可准确表征智能网联混合动力汽车多过程耦合的车辆动力学模型，其中包括发动机模型、电机模型、电池模型，动力分配机构模型以及制动模型，作为智能网联混合动力汽车多系统动态协调控制算法的执行机构，执行由多系统动态协调控制器输出的可执行控制信号，进行车辆状态更新。

以上内容是结合优选技术方案对本发明所做的进一步详细说明，不能认定发明的具体实施仅限于这些说明。对本发明所属技术领域的普通技术人员来说，在不脱离本发明的构思的前提下，还可以做出简单的推演及替换，都应当视为本发明的保护范围。

Claims

1.智能网联混合动力汽车多系统动态协调控制系统，其特征在于包括数据模块、数据感知模块与多系统动态协调控制系统；多系统动态协调控制系统由模拟环境、奖励函数以及多系统动态协调控制模块组成，彼此之间依次连接；数据模块由经典驾驶循环工况数据以及实车采集数据组成，用于作为深度强化学习的训练集与测试集；数据感知模块用于利用车载传感器获得自车当前速度、加速度以及电池电量信息，将获取的车辆状态信息发送给多系统动态协调控制系统；数据模块用于数据进行离线训练，即利用先验知识与经验数据进行模型预训练，获得一个较好的训练模型；训练模型用于根据数据感知模块获得的车辆信息，进行发动机、电机以及动力电池之间的能量输出协调控制，输出控制信号到模拟环境，以获得车辆实际可执行的控制信号作用到车辆，以实现智能网联混合动力汽车多系统动态协调控制。

2.基于深度强化学习的智能网联混合动力汽车多系统动态协调控制方法，其特征在于包括以下步骤：

3.如权利要求2所述基于深度强化学习的智能网联混合动力汽车多系统动态协调控制方法，其特征在于在步骤1)中，所述车辆状态信息包括自车车速、加速度以及电池电量信息。

4.如权利要求2所述基于深度强化学习的智能网联混合动力汽车多系统动态协调控制方法，其特征在于在步骤2)中，所述求解最优发动机功率与电机功率分配方案以提高车辆的燃油经济性，首先根据发动机与电机动态特性，选择发动机为主要控制对象进行控制，将由发动机最优工作曲线和电池特性组成的专家知识嵌入到深度强化学习算法中，利用发动机最优工作点曲线，减少控制量，降低控制量维度，缩小算法搜索范围，降低计算负担，提高算法的计算速度；然后，分析车辆各个状态量对深度强化学习算法动作值的影响，阐明基于深度强化学习算法的下层多系统动态协调控制原理；最后，设计基于蚁群智能优化的深度确定性策略梯度算法的下层多系统动态协调控制器。

5.如权利要求4所述基于深度强化学习的智能网联混合动力汽车多系统动态协调控制方法，其特征在于所述设计基于蚁群智能优化的深度确定性策略梯度算法的下层多系统动态协调控制器的具体方法为：

(1)设计多系统动态协调控制器的输入与输出变量；

(2)算法模拟环境设计：算法的模拟环境主要功能是将计算获得最优发动机与电机功率分配方案，根据电池特性图确定的车辆充放电条件以及其他的判断条件，进行车辆动力系统工作模式判断，将指令转变为车辆动力学模型实际可控的指令，并将其发送给车辆各个动力部件，各个动力部件将其执行的结果反馈给下层多系统动态协调控制器，奖励函数用于计算奖励值，以指导网络模型的训练；

6.如权利要求5所述基于深度强化学习的智能网联混合动力汽车多系统动态协调控制方法，其特征在于在步骤(2)中，所述奖励函数根据模拟环境传递获得的车辆状态信息计算奖励值，并将奖励值传递多系统动态协调控制器，用来指导训练模型进化，奖励函数是与电池电量变化、瞬时油耗有关的函数，具体如下所示：

为车的燃油消耗率；α，β为常数因子，通过参数调整使得基于深度强化学习的多系统动态协调控制策略可以在燃油经济性、电池电量维持上保持一定的平衡。

7.如权利要求2所述基于深度强化学习的智能网联混合动力汽车多系统动态协调控制方法，其特征在于在步骤3)中，所述车辆动力学模型包括发动机模型、电机模型、电池模型，动力分配机构模型以及制动模型。