CN110481536A

CN110481536A - 一种应用于混合动力汽车的控制方法及设备

Info

Publication number: CN110481536A
Application number: CN201910595326.6A
Authority: CN
Inventors: 郑春花; 杨铖兆
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2019-11-22
Anticipated expiration: 2039-07-03
Also published as: CN110481536B

Abstract

本发明适用于数据处理技术领域，提供了一种应用于混合动力汽车的控制方法及设备，包括：采集目标车辆在t时刻的运行状态参量；将运行状态参量导入到控制指令输出网络，生成用于控制目标车辆的控制指令，通过控制指令控制目标车辆运行；将运行状态参量以及控制指令导入到状态评分网络，计算控制指令对应的期望评分值；根据期望评分值以及控制指令计算t时刻的梯度值，并基于梯度值对控制指令输出网络进行调整；生成关于t+1时刻的控制指令，并返回执行将运行状态参量以及控制指令导入到状态评分网络，计算控制指令对应的期望评分值。本发明使得汽车能源管理具有更好的自适应性与全面性，提高了汽车控制的准确性，以及提高了控制指令的输出效率。

Description

一种应用于混合动力汽车的控制方法及设备

技术领域

本发明属于数据处理技术领域，尤其涉及一种应用于混合动力汽车的控制方法及设备。

背景技术

随着新能源技术的不断推广，汽车由汽油驱动、纯电力驱动等单能源驱动方式逐渐转变为多能源混合的驱动方式，兼顾了汽车续航以及节能环保两个方面，因而多能源的混合动力汽车也越来越受广大消费者的青睐。另一方面，自动驾驶技术也越趋成熟，通过装载于车辆的控制设备辅助用户驾驶，不仅能够提高车辆行驶安全，还能够有效地管理汽车能源，实现节能减排的目的。

然而，由于混合动力汽车在通过控制设备辅助用户驾驶的过程中，不仅要考虑车辆当前的环境状态、行驶速率等因素，还需要综合调整不同能源的输出比例，考虑因素过多，特别车辆运行控制对于控制指令的连续性要求较大，现有的控制技术难以实现在多因素的状态下连续输出控制指令，从而降低了控制准确性。

发明内容

有鉴于此，本发明实施例提供了一种应用于混合动力汽车的控制方法及设备，以解决现有的汽车控制技术，在对混合动力汽车进行控制管理时，无法考虑大量状态因素，并且对于连续输出控制指令的适应性较差，降低了汽车控制的准确性，而且控制指令的响应效率较低的问题。

本发明实施例的第一方面提供了一种应用于混合动力汽车的控制方法，包括：

采集目标车辆在t时刻的运行状态参量；

将所述运行状态参量导入到控制指令输出网络，生成用于控制所述目标车辆的控制指令，通过所述控制指令控制所述目标车辆运行；

将所述运行状态参量以及所述控制指令导入到状态评分网络，计算所述控制指令对应的期望评分值；所述期望评分值用于表示所述目标车辆基于所述控制指令控制时的节能等级；

根据所述期望评分值以及所述控制指令计算所述t时刻的梯度值，并基于所述梯度值对所述控制指令输出网络进行调整；

将所述目标车辆在t+1时刻的运行状态参量导入到调整后的所述控制指令输出网络，生成关于t+1时刻的控制指令，并返回执行将所述运行状态参量以及所述控制指令导入到状态评分网络，计算所述控制指令对应的期望评分值。

本发明实施例的第二方面提供了一种应用于混合动力汽车的控制设备，包括：

运行状态参量采集单元，用于采集目标车辆在t时刻的运行状态参量；

控制指令输出单元，用于将所述运行状态参量导入到控制指令输出网络，生成用于控制所述目标车辆的控制指令，通过所述控制指令控制所述目标车辆运行；

期望评分值计算单元，用于将所述运行状态参量以及所述控制指令导入到状态评分网络，计算所述控制指令对应的期望评分值；所述期望评分值用于表示所述目标车辆基于所述控制指令控制时的节能等级期望；

期望评分值反馈单元，用于根据所述期望评分值以及所述控制指令计算所述t时刻的梯度值，并基于所述梯度值对所述控制指令输出网络进行调整；

循环控制单元，用于将所述目标车辆在t+1时刻的运行状态参量导入到调整后的所述控制指令输出网络，生成关于t+1时刻的控制指令，并返回执行将所述运行状态参量以及所述控制指令导入到状态评分网络，计算所述控制指令对应的期望评分值。

本发明实施例的第三方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面的各个步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方面的各个步骤。

实施本发明实施例提供的一种应用于混合动力汽车的控制方法及设备具有以下有益效果：

本发明实施例通过采用深度确定性决策梯度网络来输出控制指令，首先价格采集得到的关于目标车辆的运行状态参量，并将运行状态参量导入到控制指令输出网络，输出当前时刻对应的控制指令，并通过控制指令对目标车辆进行控制，此时，设备还将控制指令以及运行状态参量导入到深度确定性决策梯度网络中的状态评分网络，确定该控制指令的期望评分值，用于衡量该控制指令的控制优劣程度，并基于该期望评分值反馈给控制指令输出网络，实现对控制指令输出网络进行动态调整，保证了各个控制指令在时序上的连续性，继而通过调整后的控制指令输出网络输出下一时刻的控制指令，实现了对混合动力车辆的连续控制。与现有的汽车控制技术相比，由于深度确定性决策网络设置有控制指令输出网络和状态评分网络两个深度神经网络，在控制指令输出网络生成每一个输出指令后，都可以通过状态评分网络对本次决策进行评价，能够及时调整网络中的学习参量，调整后续时序的指令输出，可以解决连续输出控制指令的问题，使得汽车能源管理具有更好的自适应性与全面性，提高了汽车控制的准确性，以及提高了控制指令的输出效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的一种应用于混合动力汽车的控制方法的实现流程图；

图2是本发明一实施例提供的一种深度确定性决策梯度网络的结构图；

图3是本发明第二实施例提供的一种应用于混合动力汽车的控制方法具体实现流程图；

图4是本发明第三实施例提供的一种应用于混合动力汽车的控制方法S304具体实现流程图；

图5是本发明第四实施例提供的一种应用于混合动力汽车的控制方法S303具体实现流程图；

图6是本发明第五实施例提供的一种应用于混合动力汽车的控制方法S102具体实现流程图；

图7是本发明一实施例提供的一种应用于混合动力汽车的控制设备的结构框图；

图8是本发明另一实施例提供的一种终端设备的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例通过采用深度确定性决策梯度网络来输出控制指令，首先价格采集得到的关于目标车辆的运行状态参量，并将运行状态参量导入到控制指令输出网络，输出当前时刻对应的控制指令，并通过控制指令对目标车辆进行控制，此时，设备还将控制指令以及运行状态参量导入到深度确定性决策梯度网络中的状态评分网络，确定该控制指令的期望评分值，用于衡量该控制指令的控制优劣程度，并基于该期望评分值反馈给控制指令输出网络，实现对控制指令输出网络进行动态调整，保证了各个控制指令在时序上的连续性，继而通过调整后的控制指令输出网络输出下一时刻的控制指令，实现了对混合动力车辆的连续控制，解决了现有的汽车控制技术，在对混合动力汽车进行控制管理时，无法考虑大量状态因素，并且对于连续输出控制指令的适应性较差，降低了汽车控制的准确性，而且控制指令的响应效率较低的问题。

在本发明实施例中，流程的执行主体为终端设备。该终端设备包括但不限于：服务器、计算机、智能手机以及平板电脑等能够执行应用于混合动力汽车的控制操作的设备。图1示出了本发明第一实施例提供的应用于混合动力汽车的控制方法的实现流程图，详述如下：

在S101中，采集目标车辆在t时刻的运行状态参量。

在本实施例中，终端设备具体为搭载在目标车辆上的控制设备，实时监测目标车辆的运行情况并输出相应的控制指令，以辅助用户控制汽车的运行。为了获取车辆的运行状态参量，终端设备可以配置有多个不同类型的传感器，例如角速度传感器、加速度传感器、陀螺仪等，通过上述传感器可以实时监测目标车辆的运行状态。可选地，终端设备可以与目标车辆的仪表部件的串口连接，通过串口直接读取仪表部件内各个表盘的读数，从而获取得到目标车辆的运行状态参量。

在本实施例中，目标车辆的运行状态参量包括但不限于：目标车辆运行的总需求功率Preq、蓄电池的剩余电量SOC、蓄电池的电池温度T、内置电机的工作效率η、制动能量的回收效率、实时路况状态、当前运行道路坡度等环境量。该运行状态参量不仅包括有目标车辆内环境的状态参量，即不同能源当前的输出情况以及剩余情况；还包括有目标车辆外环境的状态参量，例如实时路况信息、道路坡度、天气状况等。终端设备可以根据运行模式从采集得到的多个运行状态参量中选取至少一个运行状态参量作为目标状态参量，并基于目标状态参量输出对应的控制指令。举例性地，若目标车辆处于弱辅助模式，则终端设备可以只采集目标车辆内环境的能源参量，用于控制各个能源的输出比例；若目标车辆处于全自动运行模式，则终端设备可以采集目标车辆内环境以及外环境的运行状态参量，输出对应的控制指令。

可选地，在本实施例中，终端设备可以根据控制指令的控制有效时长，确定运行状态参量的采集周期。由于在控制指令的控制有效时长时，目标车辆会基于该控制指令运行一段时间，此时则无需采集目标车辆的运行状态，从而能够减少运行状态参量的获取次数，以及减少终端设备的数据处理压力。

在S102中，将所述运行状态参量导入到控制指令输出网络，生成用于控制所述目标车辆的控制指令，通过所述控制指令控制所述目标车辆运行。

在本实施例中，连续动作的控制方法，最初是采用策略梯度(Policy Gradient，PG)的方法，即通过一个概率分布函数π(s|θ^π)来表示最优策略，根据该概率分布函数进行动作采样，获取当前状态的最佳动作，不过这种方法是一种随机方法，因此有确定性策略梯度(Deterministic Policy Gradient，DPG)的方法来获得确定的连续动作控制，即每一步的控制指令直接通过函数μ获得确定的值，即a＝μ(s|θ^μ)。本发明采用DDPG的方法来进行连续输出控制指令。DDPG方法包含用于输出控制指令的权值参数为θ^μ的行动家(Actor)策略网络，即上述的控制指令输出网络，以及用于计算期望评分值的权值参数为θ^Q的评论者(Critic)动作值网络，即状态评分网络两个深度网络。

在本实施例中，该控制指令输出网络包括有输入层、隐含层以及输出层。其中，运行状态参量通过输入层输入至控制指令输出网络，隐含层中的激活函数可以采用ReLU函数，即ReLU＝max(0,x)，而输出层激活函数可以采用sigmoid函数，即sigmoid＝1/[1+exp(-x)]。在初始运行阶段，终端设备可以从训练数据库中提取多个训练样本对该控制指令输出网络进行训练学习，并基于该控制指令输出网络的损失函数的值，对控制指令输出网络中的学习参量，即θ^μ进行调整，直到控制指令输出网络收敛。优选地，为了避免网络在训练过程中出现过拟合或者梯度消失的情况，终端设备可以对控制指令输出网络的损失函数进行L1正则化处理，即将控制输出网络中各个层级的学习参量的绝对值添加到损失函数内，进行监督学习。

可选地，在本实施例中，终端设备可以识别运行状态参量的个数，并根据运行状态参量的个数调整控制指令输出网络的输入层节点数，从而保证了每个类型的运行状态参量在输入层中具有独立的节点，实现了运行状态参量与控制指令输出网络之间的匹配度。

在本实施例中，终端设备在输出了控制指令后，可以通过控制指令对目标车辆进行控制，执行控制指令中对应的操作。该操作可以为混合动力中各个动力源的输出比例，也可以为目标车辆的目标运行速度以及移动方向等，终端设备输出t时刻的控制指令后，可以获取目标车辆基于控制指令在t+1时刻的运行状态参量。

在S103中，将所述运行状态参量以及所述控制指令导入到状态评分网络，计算所述控制指令对应的期望评分值；所述期望评分值用于表示所述目标车辆基于所述控制指令控制时的节能等级。

在本实施例中，终端设备将t时刻采集得到的运行状态参量以及本次输出的控制指令导入到状态评分网络，可以通过状态评分网络计算得到t时刻的控制指令的期望评分值，通过期望评分值可以评估目标车辆基于控制指令时的节能等级，由于在输出控制指令的瞬间，此时目标车辆的运行状态依然保持在t时刻的运行状态参量，并未发生变化；而由于控制指令需要连续输出，因此需要在输出控制指令后较短时间内确定反馈情况，因此需要设置状态评分网络对本次输出指令进行评分，即上述的期望评分值，以便控制指令输出网络基于期望评分网络调整控制策略。

在本实施例中，该期望评分值，也可以称为奖励值，因此状态评分网络也可以称为激励函数。在DDPG的控制方法中，奖励函数可以直接影响深度网络参数的调整。混合动力汽车能量管理的目的主要在于节能，因此，一般选取发动机瞬时油耗作为奖励函数设计的主要指标，同时也要考虑电池SOC的保持能力，根据电池SOC的变化情况，调整奖励函数的设置。

在本实施例中，状态评分网络包含有N个隐藏层，其中，第一隐藏层以及最后一个隐藏层的激活函数可以采用tanh函数，即而第二隐藏层至倒数第二个隐藏层的激活函数可以采用ReLU函数，即ReLU＝max(0,x)，而输出层的激活函数可以采用任意线性函数，输出量为控制指令对(运行状态，控制指令)的Q值函数Q(s,a)，其中，s即为运行状态参量，而a为控制指令。

在S104中，根据所述期望评分值以及所述控制指令计算所述t时刻的梯度值，并基于所述梯度值对所述控制指令输出网络进行调整。

在本实施例中，在计算了控制指令对应的期望评分值后，可以计算该期望评分值与控制之间在t时刻对应的梯度值，并将该梯度值反馈给控制指令输出网络，控制指令输出网络可以基于该梯度值对学习参量进行调整。优选地，该控制指令输出网络包含有参数优化模块，将梯度值导入到该参数优化模块内可以输出在t+1时刻使用的学习参量，并将学习参量赋值到控制指令输出网络内。

在S105中，将所述目标车辆在t+1时刻的运行状态参量导入到调整后的所述控制指令输出网络，生成关于t+1时刻的控制指令，并返回执行将所述运行状态参量以及所述控制指令导入到状态评分网络，计算所述控制指令对应的期望评分值。

在本实施例中，终端设备对控制指令输出网络进行调整后，可以将下一时刻的运行状态参量导入到调整后的控制指令输出网络内，以输出下一时刻的控制指令，并继续计算下一时刻的控制指令的期望评分值，并循环对控制指令输出网络进行调整，循环上述多个步骤，实现了对目标车辆进行连续控制的目的。

智能化是未来汽车发展的另一个重要方向。深度强化学习是近年来人工智能领域的一个新的研究热点，将深度学习的分类与特征提取能力与强化学习的决策能力相结合，探索通过端对端的学习方式，实现从原始输入到输出的直接控制，自提出以来，在许多需要感知高维度原始输入数据和决策控制的任务中已取得了实质性的突破。深度强化学习理论以深度Q学习网络(Deep Q-learning network，DQN)算法最具代表性。目前，DQN算法在视频游戏、自动驾驶、计算机博弈、人机对话及其它不同领域得到推广与应用。2015年，深智公司利用阿塔瑞平台上的49款游戏对DQN算法进行了测试，发现通过DQN的训练，计算机能够在其中的29款游戏中取得超过人类职业玩家75％的得分；同年，马修等人在DQN的基础上提出了深度循环Q学习网络(Deep Recycle Q-learning network，DRQN)，改进后的网络可以记住人类更丰富的驾驶状态信息，使得学习的网络模型更加类人化。将深度强化学习应用于混合动力汽车的能量管理策略也不乏先例，早期有学者使用深度强化学习算法解决了汽车发动机与太阳能辅助电池之间的能量流问题，并通过调整学习参数找到较好的学习策略。还有学者提出了一种基于深度强化学习的无循环工况模型的混合动力汽车能量管理策略，对燃油经济性优化有显著效果。然而上述方式存在以下问题：

1)基于规则的能量管理策略非常依赖专家和工程师的经验，车辆整体能量管理控制效果偏差，难以保证优化效果。

2)基于优化方法的能量管理策略或是需要提前知道完整的行驶工况信息或是需要对未来的行驶工况建立比较精准的数学预估模型，计算量大，容易出现维数灾难问题，运行成本高。

3)基于学习的能量管理策略目前多是基于DQN的能量管理策略，其必须对控制动作进行离散化处理，面对连续输出量无法遍历所有动作进行控制选择，具有局限性，且实车应用困难。

针对上述问题，本发明提出了一种基于DDPG应用于混合动力汽车的控制方法。本发明的目的在于提供一种可以根据不同的行驶工况对控制策略参数进行自调整的能量管理策略，解决目前能量管理中维数过大、需要路况信息模型、依赖专家经验、无法处理连续输出量和实车应用困难等问题。

图2示出了本发明一实施例提供的一种深度确定性决策梯度DDPG网络的结构图，该DDPG网络包含有控制输出网络以及状态评分网络，上述两个网络的运行方式可以参见上述阐述方式，即目标车辆可以将在t时刻的运行状态参量s_t输送给控制指令输出网络，并通过控制指令输出网络输出基于运行状态参量的输出值μ(s_t)，优选地，该DDPG网络中还设置有噪声补偿模型，在控制指令输出网络的输出端出添加有补偿噪声，基于补偿噪声以及μ(s_t)得到t时刻的控制指令a_t。并且终端设备控制指令、t时刻以及t+1时刻的运行状态参量生成候选训练对象，导入到另一个状态评分网络，计算上述候选训练对象的节能等级，基于节能等级以及候选训练对象生成网络训练对象，将网络训练对象添加到训练对象数据库内。该训练对象数据库可以存储于云端服务器，在该情况下，则终端设备可以以太网与云端服务器进行通讯，例如在终端设备上配置有T-box进行无线信息传输。当然，该训练对象数据库也可以配置于终端设备内，则可以通过CAN总线与训练对象数据库通信。训练对象数据库以预设的更新周期从库内提取K个目标训练对象，并基于目标训练对象对控制指令输出网络以及状态评分网络内的学习参数进行更新。

优选地，在本实施例中，控制指令输出网络内包括有用于直接输出控制指令的主控制指令输出网络，以及用于提高整体网络稳定性的目标控制指令网络。由于在使用深度神经网络逼近状态控制指令的动作值函数时会出现不稳定甚至不收敛的问题，本发明采用目标值网络方式对深度神经网络进行处理，同时根据训练结果不断调整奖励机制，使得网络稳定、紧凑、训练效率高。利用深度神经网络对状态动作值函数进行拟合求解时，状态动作值函数的更新是采用梯度下降法来更新参数θ^μ，具体梯度下降法公式为：

其中，s为在所述t时刻的运行状态参量；a为在所述t时刻的控制指令；s'为在所述t+1时刻的运行状态参量；a'为在所述t+1时刻的控制指令；Q(s,a；θ)为所述状态评分网络的函数；θ为所述状态评分网络的第二学习参量；r为在所述t时刻的节能等级；为梯度函数；α为预设系数。利用深度神经网络拟合状态动作值函数时，计算TD目标的状态动作值函数所用网络(称为目标网络)的参数θ与梯度计算中要逼近的状态动作值函数所用网络(称为主网络)的参数相同，这样就容易导致数据间存在关联性，从而使得训练不稳定。为了解决此问题，本发明提出目标网络的参数与主网络的参数不相同；主网络的参数在每一时间步都更新，例如每秒更新一次，而目标网络的参数则是每隔固定的时间步复制主网络的参数，例如每5秒更新一次，即上述两个网络的更新周期不同。同样地，在状态评分网络也设置有主状态评分网络以及目标状态评分网络，具体实现方式可以参照控制指令输出网络的实现方式，在此不再赘述。

以上可以看出，本发明实施例提供的一种应用于混合动力汽车的控制方法通过采用深度确定性决策梯度网络来输出控制指令，首先价格采集得到的关于目标车辆的运行状态参量，并将运行状态参量导入到控制指令输出网络，输出当前时刻对应的控制指令，并通过控制指令对目标车辆进行控制，此时，设备还将控制指令以及运行状态参量导入到深度确定性决策梯度网络中的状态评分网络，确定该控制指令的期望评分值，用于衡量该控制指令的控制优劣程度，并基于该期望评分值反馈给控制指令输出网络，实现对控制指令输出网络进行动态调整，保证了各个控制指令在时序上的连续性，继而通过调整后的控制指令输出网络输出下一时刻的控制指令，实现了对混合动力车辆的连续控制。与现有的汽车控制技术相比，由于深度确定性决策网络设置有控制指令输出网络和状态评分网络两个深度神经网络，在控制指令输出网络生成每一个输出指令后，都可以通过状态评分网络对本次决策进行评价，能够及时调整网络中的学习参量，调整后续时序的指令输出，可以解决连续输出控制指令的问题，使得汽车能源管理具有更好的自适应性与全面性，提高了汽车控制的准确性，以及提高了控制指令的输出效率。

图3示出了本发明第二实施例提供的一种应用于混合动力汽车的控制方法的具体实现流程图。参见图3，相对于图1所述实施例，本实施例提供的一种应用于混合动力汽车的控制方法在所述将所述运行状态参量导入到控制指令输出网络，生成用于控制所述目标车辆的控制指令，通过所述控制指令控制所述目标车辆运行之后，还包括：S301～S304，具体详述如下：

进一步地，在所述将所述运行状态参量导入到控制指令输出网络，生成用于控制所述目标车辆的控制指令，通过所述控制指令控制所述目标车辆运行之后，还包括：

在S301中，采集所述目标车辆基于所述t时刻的控制指令运行下的节能等级。

在本实施例中，终端设备在生成了控制指令后，可以通过控制指令对目标车辆进行控制，并采集目标车辆基于控制指令下运行的状态参量，并基于状态参量计算得到节能等级，该节能等级与状态评分网络的期望评分值相比，S201的节能等级是基于目标车辆基于控制指令运行下的实际反馈的状态参量转换得到的节能等级；而状态评分网络的期望评分值只是基于控制指令作用于目标车辆后，预计的运行状态得到的预估节能等级。

在S302中，将所述t时刻的运行状态参量、所述节能等级、所述控制指令以及所述t+1时刻的运行状态参量，创建网络训练对象，并将所述模型训练对象添加到训练数据库内。

在本实施例中，终端设备将上述四个参量进行封装，生成网络训练对象，并将网络训练对象添加到训练数据库内。该训练数据库内可以用于存储目标车辆在各个历史时刻的运行状态参量。控制指令以及节能等级，并通过训练数据库对DDPG网络进行学习训练，当然，在DDPG网络的启动时期，该训练数据库可以基于经验创建多个期望训练对象，并基于期望训练对象对上述控制指令输出网络以及状态评分网络进行首次学习训练。

可选地，若该训练数据库为云端数据库，则云端数据库可以接收多个不同车辆反馈的网络训练对象，实现了大数据采集以及基于大数据学习的目的。优选地，该网络训练对象包含有目标车辆的车辆类型，从而训练数据库可以基于车辆类型对不同的网络训练对象进行分类，在需要对某一目标车辆的DDPG网络进行更新时，可以提取关于该目标车辆的车辆类型匹配的网络训练对象，对其DDPG网络进行训练学习，从而能够提高了训练的准确性。

在S303中，根据各个所述网络训练对象的学习效率，对各个所述网络训练对象进行排序，并选取前K个所述网络训练对象作为目标训练对象。

在本实施例中，经验回放机制的具体做法是在每个时刻存储智能体探索过的网络训练对象e_t(s_t,a_t,r_t,s_t+1)，形成用于回放采样的经验序列D(e₁,e₂...e_N)。训练时，每次从经验序列中随机提取小批量的经验样本，并使用随机梯度下降算法更新DDPG网络的网络参数。经验回放机制通过重复采样历史数据增加了数据的使用效率，同时减少了数据之间的相关性。不过由于经验回放时通常采用的是均匀分布采样，并不是高效利用数据的方式。因为智能体经历过的数据，对智能体的学习并非具有同等重要的意义。智能体在某些状态的学习效率比其他状态的学习效率更高，因此本发明对经验回放机制加以改进，采用优先回放的方法打破均匀采样，赋予学习效率更好的状态以更大的采样权重，这样可以使得经验池中保留一些较优的历史数据。

可选地，该学习效率与目标车辆所属用户的使用习惯相关，具体地，终端设备可以统计训练数据库内各个网络训练对象的出现次数，即统计在不同时刻采集的网络训练对象内各个元素的元素值相同的对象个数。若该网络训练对象的出现次数越多，则该操作行为属于用户的惯性操作行为，通过该类型的网络训练对象能够较好地模拟用户的操作习惯，对应的学习效率较高。

在S304中，通过K个所述目标训练对象更新所述控制指令输出网络以及所述状态评分网络。

在本实施例中，终端设备可以通过选取学习效率最高的K个网络训练对象作为目标训练对象，并通过目标训练对象重新对控制指令输出网络以及状态评分网络进行训练学习，对上述两个网络中的学习参数进行调整，实现定时DDPG网络的目的。优选地，若该训练数据库为云端服务器，在该情况下，云端服务器可以设置有参数更新周期，在到达参数更新周期时，则从训练数据库内提取K个目标训练对象，并通过K个目标训练对象输出上述两个类型网络的学习参数，并通过广播等方式同步发送给各个关联的终端设备，终端设备在接收到学习参数后，则调整本地的控制指令输出网络以及状态评分网络，实现了对学习参数的同步更新的目的。

在本发明实施例中，通过将采集得的运行状态参数进行封装，生成网络训练对象，并将多个网络训练对象存储于同一数据库内，构建了训练数据库，通过训练数据库内学习效率较高的多个目标训练对象对DDPG网络的学习参数进行调整，能够定时更新学习参数，提高了DDPG网络的准确性，实现了精准控制混合动力汽车的目的。

图4示出了本发明第三实施例提供的一种应用于混合动力汽车的控制方法S304的具体实现流程图。参见图4，相对于图3所述的实施例，本实施例提供的一种应用于混合动力汽车的控制方法S304包括：S401～S405，具体详述如下：

进一步地，所述通过K个所述目标训练对象更新所述控制指令输出网络以及所述状态评分网络，包括：

在S401中，将所述目标训练对象导入到所述状态评分网络的标签参量转换函数，计算目标训练对象的标签参量；其中，所述标签参量转换函数具体为：

y_i＝r_i+γQ'(s_i+1,μ'(s_i+1|θ^μ’)|θ^Q')

其中，y_i为第i个目标训练对象的所述标签参量；r_i为第i个所述目标训练对象的节能等级；s_i+1为所述第i个所述目标训练对象在所述t+1时刻的运行状态参量；Q'(s_i+1,μ'(s_i+1|θ^μ’)|θ^Q')为在所述t+1时刻所述状态评分网络的函数；γ为预设系数；μ'(s_i+1|θ^μ’)为所述t+1时刻所述控制指令输出网络的函数；θ^Q'为在所述t+1时刻所述状态评分网络的第二学习参量；θ^μ’为在所述t+1时刻所述控制指令输出网络的第一学习参量。

在本实施例中，终端设备分别将各个目标训练对象包含的参数导入到状态评分网络的标签参量转换函数内，计算目标训练对象的标签参量。其中，该标签参量也可以成为时序差分目标，若该时序差分目标的数值越大，则表示当前时刻的网络的更新量越大，从而对应的学习效率越高。

在S402中，将各个所述目标训练对象的所述标签参量导入到网络误差函数中，计算所述状态评分网络的网络损失量；所述网络误差函数具体为：

其中，L为所述网络损失量；Q(s_i,a_i)为在t时刻所述状态评分网络的函数；s_i为第i个所述目标训练对象在所述t时刻的运行状态参量；a_i为第i个所述目标训练对象的所述控制指令；θ^Q为在所述t时刻所述状态评分网络的第二学习参量。

在本实施例中，终端设备在计算了各个目标训练对象的标签参量后，可以将所有目标训练对象以及对应的标签参量依次导入到网络误差函数内，计算状态评分网络基于上述选取的K个目标训练对象的网络损失量。

在S403中，基于所述网络损失量通过梯度下降算法更新所述状态评分网络内的所述第二学习参量。

在本实施例中，终端设备可以基于上述计算得的网络损失量通过梯度下降算法对状态评分网络内的第二学习参量进行训练学习，其中，该梯度下降算法可以为：θ_t+1＝θ_t+α[maxy_i-Q(s,a；θ)]·L。其中，θ_t+1为调整后的第二学习参量，θ_t为调整前的第二学习参量；α为预设系数。

在S404中，将所有所述目标训练对象导入到所述控制指令输出网络的梯度转换函数，计算所述控制指令输出网络的网络梯度；所述函数梯度转换函数具体为：

其中，为所述网络梯度；为所述状态评分网络相对于所述控制指令的第一梯度值；为所述控制指令输出网络相对于所述第一学习参量的第二梯度值。

在本实施例中，终端设备通过所有目标训练对象导入到梯度转换函数，计算控制输出网络的网络梯度，需要说明的是，S401以及S404可以同步执行，即终端设备可以同时对上述两个神经网络的学习参数进行调整，上述两个调整过程是相互独立的。

在S405中，基于所述网络梯度通过梯度上升算法更新所述控制指令输出网络内的所述第一学习参量。

在本实施例中，终端设备可以基于该网络梯度对控制指令输出网络的第一学习参量进行调整，从而能够实现定时对第一学习参量进行更新的目的。

在本发明实施例中，通过目标训练对象计算得到状态评分网络的网络损失量，并基于网络损失量对状态评分网络的第二学习参量进行调整；同时通过目标训练对象计算控制指令输出网络的网络梯度，并基于网络梯度调整控制指令输出网络的第一学习参量，实现了定时更新学习参量的目的，提高了DDPG网络的稳定性。

图5示出了本发明第四实施例提供的一种应用于混合动力汽车的控制方法S303的具体实现流程图。参见图5，相对于图3所述实施例，本实施例提供的一种应用于混合动力汽车的控制方法S303包括：S501～S502，具体详述如下：

进一步地，所述根据各个所述网络训练对象的学习效率，对各个所述网络训练对象进行排序，并选取前K个所述网络训练对象作为目标训练对象，包括：

在S501中，分别将各个所述网络训练对象导入到时序差分偏差转换函数，计算各个所述网络训练对象的时序差分偏差值；所述时序差分偏差转换函数具体为：

Δ＝r+maxQ(s',a'；θ)-Q(s,a；θ)

其中，Δ为所述时序差分偏差值；s为在所述t时刻的运行状态参量；a为在所述t时刻的控制指令；s'为在所述t+1时刻的运行状态参量；a'为在所述t+1时刻的控制指令；Q(s,a；θ)为所述状态评分网络的函数；θ为所述状态评分网络的第二学习参量；r为在所述t时刻的节能等级。

在本实施例中，由于时分偏差值的数值越大，则表示当前时刻的网络的更新量越大，从而对应的学习效率越高。终端设备可以通过调整学习参数的数值，计算在t+1时刻的运行状态参量以及控制指令下的最大Q值。

在S502中，将所述时序差分偏差值识别为所述学习效率，并基于所述学习效率对各个所述网络训练对象进行排序。

在本实施例中，终端设备会将该时序差分偏差值识别为学习效率，如上所述，该偏差值的数值越大，对应的学习效率越高，因此可以基于该时序差分偏差值的数值大小，对网络训练对象进行排序。

在本发明实施例中，通过计算网络训练对象的时序差分偏差值，并将时序差分偏差值识别为该网络训练对象的学习效率，从而能够选取出对于网络的更新量较大的参数作为目标训练对象，从而提高了训练效率。

图6示出了本发明第五实施例提供的一种应用于混合动力汽车的控制方法S102的具体实现流程图。参见图6，相对于图1-5所述实施例，本实施例提供的一种应用于混合动力汽车的控制方法S102包括：S1021～S1022，具体详述如下：

进一步地，所述将所述运行状态参量导入到控制指令输出网络，生成用于控制所述目标车辆的控制指令，通过所述控制指令控制所述目标车辆运行，包括：

在S1021中，将所述运行状态参量输入至所述控制指令输出网络，得到所述控制指令输出网络的控制输出量。

在本实施例中，深度神经网络模型的训练是一个最优化问题，需要有巨量的训练数据样本，通过反向传播使用随机梯度下降的方法更新深度神经网络模型的参数。因此，为了实现本发明所提出的深度神经网络的训练，需要采集大量的训练数据样本。在生成样本数据的过程中，需要正确处理“探索”与“利用”之间的关系，充分进行探索才能学习到更加优化的策略。本发明采用在策略网络输出的动作加上一个随机噪声来保证深度神经网络的探索过程，因此终端设备在通过控制指令输出网络计算出关于t时刻的运行状态参量的控制输出量后，并非直接输出该控制输出量对应的控制指令，而是执行S1022的操作。

在S1022中，通过预设的随机噪声函数，确定t时刻的控制噪声，并根据所述控制输出量以及所述控制噪声生成所述控制指令。

在本实施例中，终端设备设置有随机噪声函数，通过随声噪声函数可以通过内置的随机算法输出在t时刻对应的控制噪声，并在控制输出量上叠加该控制噪声，并选取叠加后的值对应的控制指令作为t时刻的控制指令。

在本发明实施例中，通过在控制输出量中加入了控制噪声，从而能够正确处理“探索”与“利用”之间的关系，充分进行探索才能学习到更加优化的策略。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

图7示出了本发明一实施例提供的一种应用于混合动力汽车的控制设备的结构框图，该应用于混合动力汽车的控制设备包括的各单元用于执行图1对应的实施例中的各步骤。具体请参阅图1与图1所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。

参见图7，所述应用于混合动力汽车的控制设备包括：

运行状态参量采集单元71，用于采集目标车辆在t时刻的运行状态参量；

控制指令输出单元72，用于将所述运行状态参量导入到控制指令输出网络，生成用于控制所述目标车辆的控制指令，通过所述控制指令控制所述目标车辆运行；

期望评分值计算单元73，用于将所述运行状态参量以及所述控制指令导入到状态评分网络，计算所述控制指令对应的期望评分值；所述期望评分值用于表示所述目标车辆基于所述控制指令控制时的节能等级期望；

期望评分值反馈单元74，用于根据所述期望评分值以及所述控制指令计算所述t时刻的梯度值，并基于所述梯度值对所述控制指令输出网络进行调整；

循环控制单元75，用于将所述目标车辆在t+1时刻的运行状态参量导入到调整后的所述控制指令输出网络，生成关于t+1时刻的控制指令，并返回执行将所述运行状态参量以及所述控制指令导入到状态评分网络，计算所述控制指令对应的期望评分值。

可选地，所述应用于混合动力汽车的控制设备还包括：

节能等级采集单元，用于采集所述目标车辆基于所述t时刻的控制指令运行下的节能等级；

网络训练对象创建单元，用于将所述t时刻的运行状态参量、所述节能等级、所述控制指令以及所述t+1时刻的运行状态参量，创建网络训练对象，并将所述模型训练对象添加到训练数据库内；

目标训练对象选取单元，用于根据各个所述网络训练对象的学习效率，对各个所述网络训练对象进行排序，并选取前K个所述网络训练对象作为目标训练对象；

网络参量调整单元，用于通过K个所述目标训练对象更新所述控制指令输出网络以及所述状态评分网络。

可选地，所述网络参量调整单元包括：

标签参量计算单元，用于将所述目标训练对象导入到所述状态评分网络的标签参量转换函数，计算目标训练对象的标签参量；其中，所述标签参量转换函数具体为：

y_i＝r_i+γQ'(s_i+1,μ'(s_i+1|θ^μ’)|θ^Q')

其中，y_i为第i个目标训练对象的所述标签参量；r_i为第i个所述目标训练对象的节能等级；s_i+1为所述第i个所述目标训练对象在所述t+1时刻的运行状态参量；Q'(s_i+1,μ'(s_i+1|θ^μ’)|θ^Q')为在所述t+1时刻所述状态评分网络的函数；γ为预设系数；μ'(s_i+1|θ^μ’)为所述t+1时刻所述控制指令输出网络的函数；θ^Q'为在所述t+1时刻所述状态评分网络的第二学习参量；θ^μ’为在所述t+1时刻所述控制指令输出网络的第一学习参量；

网络损失量计算单元，用于将各个所述目标训练对象的所述标签参量导入到网络误差函数中，计算所述状态评分网络的网络损失量；所述网络误差函数具体为：

其中，L为所述网络损失量；Q(s_i,a_i)为在t时刻所述状态评分网络的函数；s_i为第i个所述目标训练对象在所述t时刻的运行状态参量；a_i为第i个所述目标训练对象的所述控制指令；θ^Q为在所述t时刻所述状态评分网络的第二学习参量；

第二学习参量调整单元，用于基于所述网络损失量通过梯度下降算法更新所述状态评分网络内的所述第二学习参量；

网络梯度计算单元，用于将所有所述目标训练对象导入到所述控制指令输出网络的梯度转换函数，计算所述控制指令输出网络的网络梯度；所述函数梯度转换函数具体为：

其中，为所述网络梯度；为所述状态评分网络相对于所述控制指令的第一梯度值；为所述控制指令输出网络相对于所述第一学习参量的第二梯度值；

第一学习参量调整单元，用于基于所述网络梯度通过梯度上升算法更新所述控制指令输出网络内的所述第一学习参量。

可选地，所述目标训练对象选取单元包括：

时序差分偏差值计算单元，用于分别将各个所述网络训练对象导入到时序差分偏差转换函数，计算各个所述网络训练对象的时序差分偏差值；所述时序差分偏差转换函数具体为：

Δ＝r+maxQ(s',a'；θ)-Q(s,a；θ)

其中，Δ为所述时序差分偏差值；s为在所述t时刻的运行状态参量；a为在所述t时刻的控制指令；s'为在所述t+1时刻的运行状态参量；a'为在所述t+1时刻的控制指令；Q(s,a；θ)为所述状态评分网络的函数；θ为所述状态评分网络的第二学习参量；r为在所述t时刻的节能等级；

时序差分偏差值排序单元，用于将所述时序差分偏差值识别为所述学习效率，并基于所述学习效率对各个所述网络训练对象进行排序。

可选地，所述控制指令输出单元72包括：

控制输出量计算单元，用于将所述运行状态参量输入至所述控制指令输出网络，得到所述控制指令输出网络的控制输出量；

控制噪声添加单元，用于通过预设的随机噪声函数，确定t时刻的控制噪声，并根据所述控制输出量以及所述控制噪声生成所述控制指令。

因此，本发明实施例提供的应用于混合动力汽车的控制设备中，由于深度确定性决策网络设置有控制指令输出网络和状态评分网络两个深度神经网络，在控制指令输出网络生成每一个输出指令后，都可以通过状态评分网络对本次决策进行评价，能够及时调整网络中的学习参量，调整后续时序的指令输出，可以解决连续输出控制指令的问题，使得汽车能源管理具有更好的自适应性与全面性，提高了汽车控制的准确性，以及提高了控制指令的输出效率。

图8是本发明另一实施例提供的一种终端设备的示意图。如图8所示，该实施例的终端设备8包括：处理器80、存储器81以及存储在所述存储器81中并可在所述处理器80上运行的计算机程序82，例如应用于混合动力汽车的控制程序。所述处理器80执行所述计算机程序82时实现上述各个应用于混合动力汽车的控制方法实施例中的步骤，例如图1所示的S101至S105。或者，所述处理器80执行所述计算机程序82时实现上述各装置实施例中各单元的功能，例如图7所示模块71至75功能。

示例性的，所述计算机程序82可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器81中，并由所述处理器80执行，以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序82在所述终端设备8中的执行过程。例如，所述计算机程序82可以被分割成运行状态参量采集单元、控制指令输出单元、期望评分值计算单元、期望评分值反馈单元以及循环控制单元，各单元具体功能如上所述。

所述终端设备8可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器80、存储器81。本领域技术人员可以理解，图8仅仅是终端设备8的示例，并不构成对终端设备8的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器80可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器81可以是所述终端设备8的内部存储单元，例如终端设备8的硬盘或内存。所述存储器81也可以是所述终端设备8的外部存储设备，例如所述终端设备8上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器81还可以既包括所述终端设备8的内部存储单元也包括外部存储设备。所述存储器81用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器81还可以用于暂时地存储已经输出或者将要输出的数据。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种应用于混合动力汽车的控制方法，其特征在于，包括：

采集目标车辆在t时刻的运行状态参量；

2.根据权利要求1所述的控制方法，其特征在于，在所述将所述运行状态参量导入到控制指令输出网络，生成用于控制所述目标车辆的控制指令，通过所述控制指令控制所述目标车辆运行之后，还包括：

采集所述目标车辆基于所述t时刻的控制指令运行下的节能等级；

将所述t时刻的运行状态参量、所述节能等级、所述控制指令以及所述t+1时刻的运行状态参量，创建网络训练对象，并将所述模型训练对象添加到训练数据库内；

根据各个所述网络训练对象的学习效率，对各个所述网络训练对象进行排序，并选取前K个所述网络训练对象作为目标训练对象；

通过K个所述目标训练对象更新所述控制指令输出网络以及所述状态评分网络。

3.根据权利要求2所述的控制方法，其特征在于，所述通过K个所述目标训练对象更新所述控制指令输出网络以及所述状态评分网络，包括：

将所述目标训练对象导入到所述状态评分网络的标签参量转换函数，计算目标训练对象的标签参量；其中，所述标签参量转换函数具体为：

y_i＝r_i+γQ'(s_i+1,μ'(s_i+1|θ^μ’)|θ^Q')

将各个所述目标训练对象的所述标签参量导入到网络误差函数中，计算所述状态评分网络的网络损失量；所述网络误差函数具体为：

基于所述网络损失量通过梯度下降算法更新所述状态评分网络内的所述第二学习参量；

将所有所述目标训练对象导入到所述控制指令输出网络的梯度转换函数，计算所述控制指令输出网络的网络梯度；所述函数梯度转换函数具体为：

基于所述网络梯度通过梯度上升算法更新所述控制指令输出网络内的所述第一学习参量。

4.根据权利要求2所述的控制方法，其特征在于，所述根据各个所述网络训练对象的学习效率，对各个所述网络训练对象进行排序，并选取前K个所述网络训练对象作为目标训练对象，包括：

分别将各个所述网络训练对象导入到时序差分偏差转换函数，计算各个所述网络训练对象的时序差分偏差值；所述时序差分偏差转换函数具体为：

Δ＝r+maxQ(s',a'；θ)-Q(s,a；θ)

将所述时序差分偏差值识别为所述学习效率，并基于所述学习效率对各个所述网络训练对象进行排序。

5.根据权利要求1-4任一项所述的控制方法，其特征在于，所述将所述运行状态参量导入到控制指令输出网络，生成用于控制所述目标车辆的控制指令，通过所述控制指令控制所述目标车辆运行，包括：

将所述运行状态参量输入至所述控制指令输出网络，得到所述控制指令输出网络的控制输出量；

通过预设的随机噪声函数，确定t时刻的控制噪声，并根据所述控制输出量以及所述控制噪声生成所述控制指令。

6.一种应用于混合动力汽车的控制设备，其特征在于，包括：

7.根据权利要求6所述的控制设备，其特征在于，还包括：

8.根据权利要求7所述的控制设备，其特征在于，所述网络参量调整单元包括：

y_i＝r_i+γQ'(s_i+1,μ'(s_i+1|θ^μ’)|θ^Q')

9.一种终端设备，其特征在于，所述终端设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时如权利要求1至5任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。