CN116729060A

CN116729060A - 一种基于ddpg的纯电动汽车乘员舱空调制冷控制方法

Info

Publication number: CN116729060A
Application number: CN202310591773.0A
Authority: CN
Inventors: 黄浩; 胡东海; 张海波; 包俊江; 邱承云; 程兆旭; 单建标; 张雄飞; 苏湘雯; 梅海龙
Original assignee: China Automotive Research Center Changzhou Co ltd
Current assignee: China Automotive Research Center Changzhou Co ltd
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2023-09-12

Abstract

本发明提供一种基于DDPG的纯电动汽车乘员舱空调制冷控制方法，包括基于DDPG算法的乘员舱空调制冷控制模块、强化学习训练环境以及乘客舱热流畅&热舒适性模块，强化学习训练环境包含汽车空调系统一维模型以及乘客舱热舒适性预测模型；乘客舱热流畅&热舒适性模块包含乘客舱三维模型和人体热舒适性模型；基于DDPG算法的乘员舱空调制冷控制模块包含动作网络、评价网络以及经验回收池。乘客舱热流畅&热舒适性模块采用深度学习的方式转化为强化学习训练环境中的乘客舱热舒适性预测模型，基于DDPG算法的乘员舱空调制冷控制模块与强化学习训练环境不断进行交互从而达到训练效果。

Description

一种基于DDPG的纯电动汽车乘员舱空调制冷控制方法

技术领域

本发明涉及汽车动态控制和人工智能技术领域，特别是涉及一种基于DDPG的纯电动汽车乘员舱空调制冷控制方法。

背景技术

随着科学技术的发展和人民生活水平的日益提高，汽车作为一种必不可少的交通工具正日益走进人们日常生活的方方面面。汽车空调作为影响汽车舒适性和安全性能的主要部件之一，可对汽车车厢内的空气温度进行调节以提高乘客的热舒适性，热舒适性是反映人体在密封空间的对环境热状态的主观感受，在汽车驾驶舱内，空调运行模式下，人体是否感觉到舒适影响乘员对空调系统及车内设计感知体验的评价，尤其是当乘员长时间在车内驾驶时，热舒适性同时影响人生理、心理感觉，从而影响到驾驶安全性，所以，在开发汽车空调系统时，乘客热舒适性是非常重要的研究方向。

传统的汽车空调的控制基本均为温度控制，即车内环境温度或蒸发器和表面温度达到目标值，这种控制方式在一定程度上忽略了人体热舒适性；传统的汽车空调控制方法如PID控制、模糊PID控制、基于PSO的模糊PID控制等偏为保守，不能自动地适应复杂多变的环境情况，为实现温度控制的精准并避免能耗过高，均需要汽车空调标定工程师对控制器进行标定，所以空调控制器的标定工作量巨大，且对工程师的经验要求极高。

专利号为CN201310246901.4发明一种纯电动汽车空调控制方法及其控制系统，该发明专利存在的不足有：对汽车采取的控制方法为基于温度的控制，仅判别空调运行时车内温度是否可以稳定在设置温度，不考虑风速、光照、湿度对舒适性的影响；专利号为CN201820616898.9发明一种纯电动汽车空调控制系统，这两项发明共同存在的不足有：该发明只考虑空调运行时实现使用需求，并未考虑能耗因素，不能在满足使用需求的同时降低耗电量使用以达到节能效果；专利号为CN202211160279.0发明一种纯电动汽车空调控制方法，该发明存在的不足有：对汽车采取的控制方法为目标蒸发器温度控制，该控制方法需要大量的实车试验对控制策略进行标定，工作量巨大且成本很高。

现有纯电动汽车空调制冷系统为恒温器型控制，缺乏对人体热舒适的适应性，以至人体的热舒适感不能达到最优，因此，亟需提供一种能够很好的适应于人体热舒适性的空调制冷控制方法。

发明内容

本发明所要解决的技术问题是：为了克服现有技术中的不足，本发明提供一种基于DDPG(Deep Deterministic Policy Gradient,深度确定性策略梯度算法)的纯电动汽车乘员舱空调制冷控制方法，采取强化学习的方式来实现控制系统的制定，属于汽车动态控制和人工智能领域。

本发明解决其技术问题所要采用的技术方案是：一种基于DDPG的纯电动汽车乘员舱空调制冷控制方法，其技术构思为：在仿真平台对基于DDPG的强化学习模型进行训练，利用建立的虚拟环境与模型进行交互，通过设定合理的动作空间、状态空间以及奖励函数等以达到期望的控制效果，训练完成的空调控制系统可根据太阳辐射强度、车内外温度和车速自动调节压缩机转速、鼓风机转速以及风门开度，实现提高乘员舱热舒适性和降低汽车空调系统能耗的双向优化。训练完成后将代码编译烧写进纯电动汽车空调控制器内，实现对实车空调系统控制的优化。

该控制方法具体包括以下步骤：

S1：构建乘客舱人体热舒适性预测模型

S1.1：在三维设计软件中构建乘客舱三维模型和人体热舒适性评价模型，乘客舱三维模型和人体热舒适性评价模型构成乘客舱热流场&热舒适性模块；

其中，乘客舱三维模型，即乘客舱3D仿真模型，是在整车数模中提取出带有空调系统的乘客舱，进行数模简化和面格划分后导入到三维仿真软件中的模型。在三维设计软件中检查整车3D数模完整性，并提取出乘客舱有关部件，对整车3D数模进行简化，对简化后的整车3D数模进行面网格划分，加入空调假人模型，生成体网格；在体网格中设置区域并进行命名；在体网格中创建物理模型，并设置物理模型和边界条件，并在假人模型上设置多个热舒适性监测点。

人体热舒适性评价模型，即乘客舱热舒适性评价模型，能够模拟人体在不同温度环境的热生理调节机理，通过输入乘客重要物理特性和乘客舱CFD仿真获得的热舒适性监测点附近的空气温度、气流速度、平均辐射温度及相对湿度，而计算得到乘客热舒适性评价值。热舒适性监测点为14个，分别为乘客的头、躯干、左前臂、左上臂、左手、右前臂、右上臂、右手、左大腿、左小腿、左脚、右大腿、右小腿和右脚。

关于乘客舱三维模型和人体热舒适性评价模型参见公布号为CN 114757116 A的发明申请中的乘客舱3D仿真模型以及乘客舱热舒适性评价模型的相关内容，此处不再赘述。

S1.2：根据深度学习神经网络训练的需求，设定乘客舱热流场&热舒适性模块的特征参数；

S1.3：通过乘客舱三维模型和人体热舒适性评价模型的联合仿真模拟，提取仿真结果中所述特征参数对应的数值，作为深度学习神经网络训练的数据集，对数据集进行预处理，并将数据集分为训练集和验证集；其中，训练集用于对模型进行训练，验证集用于对训练后模型的预测效果进行验证。

S1.4：神经网络训练，根据定义好的模型结构搭建深度学习网络，包括输入层、隐含层和输出层，初始化对应的权值和阈值，设定神经网络训练的超参数，包括优化器、学习率、迭代次数、时间步长和批次大小；利用训练集的数据对深度学习模型进行训练，采用反向传播算法更新权值和阈值；获得乘客舱人体热舒适性预测模型，并采用验证集对乘客舱人体热舒适性预测模型的预测效果进行评估。

S2：构建乘员舱空调制冷控制策略

S2.1：构建乘员舱空调制冷控制模块

根据汽车空调制冷系统定义强化学习模型，确定强化学习模型中MDP过程的状态s、动作a和奖励r，并根据强化学习模型确定乘员舱空调制冷控制模块。

S2.2：构建强化学习训练所需环境

强化学习训练所需环境是指为训练强化学习模型而建立的虚拟环境，包括汽车空调制冷系统一维模型和步骤S1获得的乘客舱人体热舒适性预测模型(乘客舱三维模型和热舒适性评价模型)，其中，汽车空调制冷系统一维模型用于根据车内温度、车外温度、太阳辐射强度、空气湿度、车速以及汽车空调制冷系统的控制指令，模拟汽车空调制冷系统中部件的运行，并输出蒸发器后空气速度和温度数据、车内温度数据以及空调系统的能耗数据；乘客舱人体热舒适性预测模型用于根据车内温度、车外温度、太阳辐射强度、空气湿度、蒸发器后空气速度及温度数据对人体热舒适性评价结果进行预测，并将人体热舒适性评价结果反馈至乘员舱热舒适性控制模块。

S2.3：对乘员舱空调制冷控制模块进行强化学习训练

在步骤S3的强化学习训练环境中，采用基于DDPG算法的强化学习控制结构网络对步骤S2中构建的乘员舱空调制冷控制模块进行训练，在训练过程中，采集样本数据，并根据样本数据对乘员舱空调制冷控制模块进行更新和优化，待乘员舱空调制冷控制模块达到收敛状态后，即为训练完成，此时，乘员舱空调制冷控制模块的控制策略，即为目标策略——汽车空调制冷系统的乘员舱空调制冷控制策略。

在仿真平台对强化学习模型进行训练，强化学习模型输入动作a到训练环境中，训练环境根据动作a给强化学习模型一个状态反馈，强化学习模型根据奖励策略判断状态变化的优劣，从而对动作a的效果进行评判；为收集更多的奖励，强化学习模型将不断地探索、记录并总结出每一步的最佳行为决策。经过充分训练后的强化学习模型将替代控制器，可在各种情况下准确输出最佳执行动作。强化学习与虚拟环境的每一次交互都需要进行一次仿真循环，其中，乘客舱三维模型热流场仿真运行时间成本极高，故采用一种深度学习模型预测的方式代替乘客舱三维模型和人体热舒适性模型。考虑到汽车空调制冷系统的复杂性、非线性和耦合性，在运行过程中会产生大量的高维非线性数据，因此在本发明中采用DDPG算法构建强化学习系统。

S3：控制策略的应用

将训练好的乘员舱空调制冷控制模块的控制策略转化为代码并烧写到汽车空调控制器内，作为实车的空调制冷控制系统对乘员舱热舒适性进行控制和调节。

进一步的，步骤S1.2中所述的特征参数包括车室外温度、太阳辐射强度、蒸发器后空气温度、蒸发器后气流速度、各个空调出风口的空气温度、各个空调出风口的气流速度、人体各个部位表面空气温度、人体各个部位表面气流速度、人体各个部位表面平均辐射温度、人体各个部位表面相对湿度、人体热舒适性评价结果。

进一步的，步骤S1.3中具体还包括以下步骤：

数据采集：利用乘客舱三维模型和人体热舒适性评价模型仿真收集车内温度、车外温度、太阳辐射强度、空气湿度、蒸发器后空气速度及温度等数据，以及乘客人体热舒适性评价结果的数据；

数据集进行预处理：对初始样本数据集去噪，消除异常值，插补缺失值；并选取min-max标准化方法进行归一化处理，具体公式如下：

式中，y是归一化之后的数据；x是原始数据；x_min是原始数据集中的最小值；x_max是原始数据集中的最大值；

数据集划分：将数据集以8:2的比例划分为训练集及验证集，训练集用于训练模型，验证集用于调整模型参数。

进一步的，步骤S1.4中神经网络训练具体包括以下步骤：

S1.4.1：搭建深度学习网络：根据定义好的模型结构搭建深度学习网络，包括输入层、隐含层和输出层，其中，输入层包括6个神经元，分别对应车内温度、车外温度、太阳辐射强度、空气湿度、蒸发器后空气速度及温度；隐含层包括4个神经元，采用ReLU激活函数，用于提取输入数据的特征；输出层包括1个神经元，输出乘客人体热舒适性评价结果；

S1.4.2：模型预处理：初始化输入层与隐含层之间的权值，隐含层与输出层之间的权值，以及隐含层的阈值和输出层的阈值；神经网络训练算法采用贝叶斯正则化(BayesianRegularization)算法，优化器采用Adam，学习率(Learning rate)设置为0.001，选代次数epochs为200，批次大小batch为32，输入时间步长timesteps为2；

S1.4.3：训练模型：利用训练集的数据对深度学习模型进行训练，采用反向传播算法更新权值和阈值，将输出误差，即期望输出与实际输出之差，按原通路反传计算，通过隐含层反向，直至输入层，在反传过程中将误差分摊给各层的各个单元，获得各层各单元的误差信号，并将其作为修正各单元权值的根据；这一计算过程使用梯度下降法完成，在不停地调整各层神经元的权值和阈值后，使误差信号减小到最低限度。

S1.4.4：模型评估：深度学习模型的评价方法为yearly-based和station-based验证方法，评价指标包括MSE、RMSE(Root Mean Squared Error)均方根误差、MAE(Meanabsolute Error)平均绝对误差、R-Squared决定系数，公式分别如下：

其中，为预测值，y_i为真实值，/>为平均值，m为样本个数；

当R²值越大、其他指标值越小时，模型的预测效果越好。

进一步的，步骤S1.4中在神经网络训练时，利用贝叶斯正则化训练神经网络的代价函数使训练误差最小化，其中，代价函数为：

式中，α₁和α₂是贝叶斯超参数，用于指定学习过程寻求的方向，即最小化误差或权重；n是训练样本的数量；Y_i为第i个实际值；Y_i′为神经网络的第i个预测值；m为神经网络中权重的个数，w_j为第j个权重。

进一步的，步骤S2.1中定义强化学习模型具体包括以下过程：

(1)定义MDP过程的状态s

获取汽车空调制冷系统状态信息，定义MDP(Markov Decision Processes，马尔可夫决策过程)过程的状态s为：s＝[s1,s2,s3,s4,s5,s6,s7]，其中，s1为车外环境温度，s2为太阳辐射强度，s3为车内温度，s4为车速，s5为空气湿度，s6为乘客热舒适性评价结果，s7为车内空调系统每分钟能耗，其中，s1,s2,s3,s4,s5为范围限定的随机输入，提供不同工况下的学习环境。

(2)定义MDP过程的动作a

根据汽车空调制冷系统的输出控制指令，定义MDP过程的动作a为：a＝[a1,a2,a3]，其中，a1为鼓风机转速，a2为压缩机转速，a3为风门开度。

(3)定义MDP过程的奖励r

根据汽车空调制冷系统的主要性能评价指标，定义MDP过程的奖励r为：r＝-E-λΔT，其中，E为乘客舱热负荷平衡时汽车空调制冷系统部件每分钟能耗总和，E取负值；λ为热舒适性惩罚函系数；ΔT为当前热舒适性评价结果与目标热舒适性评价结果的差值。

考虑到汽车空调制冷主要性能评价指标为两部分：①人体热舒适性评价λΔT：车内乘客热舒适性评价结果与热舒适性最佳值(0)的差值；②能耗E：乘客舱热负荷平衡时汽车空调制冷系统部件每分钟能耗总和。故将奖励部分设置为r＝-E-λΔT，由于要尽可能减小能耗，所以E取负值，同时为了保证汽车对车内热舒适性控制的稳定性和有效性，附加了车内乘客热舒适性评价结果与热舒适性最佳值(0)的差值相关的惩罚函数，λ为热舒适性惩罚函系数。

具体的，步骤S2.3中所述DDPG算法的强化学习控制结构网络包括动作网络和评价网络，所述动作网络包括当前策略网络和目标策略网络，所述评价网络包括当前Q值网络和目标Q值网络，其中，前策略网络的输入信息为状态s，输出信息为动作a；目标策略网络的输入输出同当前策略网络，定期复制当前策略网络参数；当前Q值网络的输入信息为状态s和动作a，输出信息为价值Q；目标Q值网络的输入输出同当前Q值网络，定期复制当前Q值网络参数。

具体的，步骤S2.3中的训练过程为：

(1)动作网络的更新

当前策略网络与强化学习训练环境进行交互，输入状态s到当前策略网络得到动作a，对强化学习训练环境施加动作a，强化学习训练环境会返回下一时刻的状态s’和奖励r；采集此时的样本数据(s,a,r,s’)放入经验回收池中，目标策略网络负责根据经验回收池中采样的下一状态s’选择最优下一动作a|s’，目标策略网络的网络结构与当前策略网路相同，目标策略网络的参数定期从当前策略网络参数中复制，其中，当前策略网络施加动作a到强化学习训练环境时需添加随机动作噪声以避免训练发生过大误差；

(2)评价网络的更新

当前Q值网络负责价值网络参数ω的迭代更新，把(s,a,r,s’)中的S和a输入到当前Q值网络中，计算当前Q值网络的价值Q(s,a,ω)，把(s,a,r,s’)中的s’输入到目标策略网络中，得到动作a’，并把s’和a’一起输入到目标Q值网络中，计算目标Q值为y_i＝r+YQ’(s’,a’,ω’)，其中，Y为折扣因子；目标Q值网络负责计算Q值的Q’(s’,a’,ω’)部分，网络结构与当前Q值网络相同，网络参数定期从当前Q值网络中复制，采用如下公式来计算当前Q值网络的损失函数Loss：

参数的含义：y_i为目标Q值；i为循环次数；a’为目标策略网络输出的动作；ω’为价值网络的参数；Q’为目标Q值网络计算得到的Q值。

其中，损失函数的作用就是描述模型的预测值与真实值之间的差距大小，指导模型在训练过程中朝着收敛的方向前进。

进一步的，当前策略网络施加动作a到强化学习训练环境时需添加随机动作噪声以避免训练发生过大误差。

现有纯电动汽车空调制冷系统为恒温器型控制，缺乏对人体热舒适的适应性，以至人体的热舒适感不能达到最优，本发明并提供了一种基于DDPG的纯电动汽车乘员舱空调制冷控制方法，本发明汽车空调制冷系统主要由膨胀阀、压缩机、鼓风机、蒸发器、前端冷却模块风扇、空调风门、太阳辐射传感器、车外温度传感器、车内温度传感器、车速传感器以及汽车空调控制器组成。本发明控制由训练后的基于DDPG的纯电动汽车乘员舱热舒适性控制代码烧写到汽车空调控制器中，控制器输入由太阳辐射传感器、车外温度传感器、车内温度传感器以及车速传感器采集到的数据，通过控制压缩机转速、鼓风机转速以及HVAC中的风门开度从而调节汽车空调制冷系统的工作状态，以在各种环境情况下都可使乘客获得良好的热舒适性。

本发明的有益效果是：

1.替代传统汽车空调控制系统以温度作为控制目标，创新性的以乘客的热舒适性作为控制目标，使在各种环境状况下都可达到乘客体感上的热舒适；

2.将汽车空调制冷系统的各个部件的能耗纳入考虑范围内，在达到乘客热舒适性需求的同时可以有效减少能源的消耗；

3.创新性的将强化学习方法应用到汽车空调制冷控制系统中，强化学习的泛化性能使得空调制冷系统能够动态自适应调节，以应对各种各样的复杂环境，也可有效减少工程师的工作量。

附图说明

下面结合附图和实施例对本发明作进一步说明。

图1为基于DDPG的纯电动汽车乘员舱空调制冷控制系统的示意图。

图2为基于DDPG的纯电动汽车乘员舱空调制冷控制方法的训练框架。

图3为基于DDPG的纯电动汽车乘员舱空调制冷控制方法的流程示意图。

图中：1-膨胀阀；2-前端冷却模块风扇；3-冷凝器及储液干燥器总成；4-压缩机；5-鼓风机；6-蒸发器；7-空调风门；8-HVAC；9-太阳辐射强度传感器；10-车外温度传感器；11-车内温度传感器；12-车速传感器；13-乘员舱空调制冷控制策略；14-汽车空调控制器；

15-汽车空调制冷系统一维模型；16-乘客舱热舒适性预测模型；17-乘客舱三维模型；18-人体热舒适性模型；19-当前策略网络；20-目标策略网络；21-当前Q值网络；22-目标Q值网络；23-经验回收池；24-动作噪声；25-动作网络；26-评价网络；27-强化学习训练环境；28-乘员舱空调制冷控制模块；29-乘客舱热流场&热舒适性模块。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成，方向和参照(例如，上、下、左、右等等)可以仅用于帮助对附图中的特征的描述。因此，并非在限制性意义上采用以下具体实施方式，并且仅仅由所附权利要求及其等同形式来限定所请求保护的主题的范围。

如图1所示，为基于DDPG的纯电动汽车乘员舱空调制冷控制系统的硬件结构，包括膨胀阀、前端冷却模块风扇、冷凝器及储液干燥器总成、压缩机、鼓风机、蒸发器、空调风门、太阳辐射强度传感器、车外温度传感器、车内温度传感器、车速传感器、汽车空调控制器，其中，鼓风机、蒸发器、空调风门等构成了HVAC(Heating,Ventilation and AirConditioning，供热通风与空气调节)，乘员舱空调制冷控制策略转化为代码烧写到汽车空调控制器中，太阳辐射强度传感器、车外温度传感器、车内温度传感器、车速传感器采集到的太阳强度、车外温度、车内温度、车速等数据输入至汽车空调控制器，汽车空调控制器根据上述数据运行控制策略，输出控制指令至压缩机、鼓风机、空调风门，控制压缩机转速、鼓风机转速以及HVAC中的风门开度从而调节汽车空调制冷系统的工作状态，以在各种环境情况下都可使乘客获得良好的热舒适性。

膨胀阀、前端冷却模块风扇、冷凝器及储液干燥器总成、压缩机、蒸发器等部件构成汽车空调前端冷却系统，用于给乘客舱内环境进行降温，压缩机将低压制冷剂压缩成高压气体，使其温度升高。冷凝器将高温高压的气体通过散热器冷却，使其变成高压液体。膨胀阀控制制冷剂的流量和压力，将高压液体制冷剂膨胀成低压液体，使其温度降低。蒸发器将低压低温的制冷剂通过风扇吹过，吸收车内热量，使其变成低温低压的气体。前端冷却模块风扇将车内空气通过冷凝器吹过，使其与制冷剂进行热交换。储液干燥器主要作用是过滤和干燥制冷剂，防止空气、水分和杂质进入空调系统。

如图2和图3所示，为本发明的一种基于DDPG的纯电动汽车乘员舱空调制冷控制方法，包括以下步骤：

S1：构建乘客舱人体热舒适性预测模型

S1.1：在三维设计软件中构建乘客舱三维模型和人体热舒适性评价模型，乘客舱三维模型和人体热舒适性评价模型构成乘客舱热流场&热舒适性模块。

人体热舒适性评价模型，即乘客舱热舒适性评价模型，能够模拟人体在不同温度环境的热生理调节机理，通过输入乘客重要物理特性和乘客舱CFD仿真获得的热舒适性监测点附近的空气温度、气流速度、平均辐射温度及相对湿度，而计算得到乘客热舒适性评价值。热舒适性监测点为14个，分别为乘客的头、躯干、左前臂、左上臂、左手、右前臂、右上臂、右手、左大腿、左小腿、左脚、右大腿、右小腿和右脚。通过输入各个部位表面的风速、温度、平均辐射温度和相对湿度，可得到人体热舒适性评价结果，人体热舒适性评价结果范围为[-3，3]，负数代表过冷，正数代表过热，评价值越接近于0代表舒适性越好。

S1.2：特征参数设定：在深度学习的神经网络训练中需手动标记一些重要的特征参数，可在有限的数据集下有效增加模型预测精度，根据深度学习神经网络训练的需求，设定乘客舱热流场&热舒适性模块的特征参数；特征参数包括车室外温度、太阳辐射强度、蒸发器后空气温度、蒸发器后气流速度、各个空调出风口的空气温度、各个空调出风口的气流速度、人体各个部位表面空气温度、人体各个部位表面气流速度、人体各个部位表面平均辐射温度、人体各个部位表面相对湿度、人体热舒适性评价结果。其中，人体各个部位指的是人体上定义的14个热舒适性监测点。

S1.3：数据集提取：通过乘客舱三维模型和人体热舒适性评价模型的联合仿真模拟，提取仿真结果中所述特征参数对应的数值，作为深度学习神经网络训练的数据集，对数据集进行预处理，并将数据集分为训练集和验证集；其中，

数据集划分：将数据集以8:2的比例划分为训练集及验证集，训练集用于训练模型，验证集用于调整模型参数，对训练后模型的预测效果进行验证，验证集不参与模型训练。

通过改变输入条件均会输出不同的人体热舒适性评价结果，在仿真过程中，车内温度会随着仿真运行而变化，车外温度、太阳辐射强度、蒸发器后空气温度和速度均可设置为变化曲线输入，输出的人体热舒适性和上述设定的特征参数也为变化的曲线，即单个仿真可提取多组数据集用于深度学习中神经网络的训练。

S1.4：神经网络训练，具体包括以下步骤，

S1.4.1：根据定义好的模型结构搭建深度学习网络，包括输入层、隐含层和输出层，初始化对应的权值和阈值，其中，输入层包括6个神经元，分别对应车内温度、车外温度、太阳辐射强度、空气湿度、蒸发器后空气速度及温度；隐含层包括4个神经元，采用ReLU激活函数，用于提取输入数据的特征；输出层包括1个神经元，输出乘客人体热舒适性评价结果；

S1.4.2：模型预处理：初始化输入层与隐含层之间的权值，隐含层与输出层之间的权值，以及隐含层的阈值和输出层的阈值；神经网络训练算法采用贝叶斯正则化(BayesianRegularization)算法，优化器采用Adam，学习率(Learning rate)设置为0.001，选代次数epochs为200，批次大小batch为32，输入时间步长timesteps为2；合理设定神经网络训练的超参数：优化器、学习率、迭代次数、时间步长、批次大小和神经元个数，以提高模型预测的精度和效果；

其中，为预测值，y_i为真实值，/>为平均值，m为样本个数；

当R²值越大、其他指标值越小时，模型的预测效果越好。

乘客舱人体热舒适性预测模型通过输入车内温度、车外温度、太阳辐射强度、空气湿度、蒸发器后空气速度及温度，可直接预测人体的热舒适性评价结果，训练时为避免数据过拟合，利用贝叶斯正则化训练神经网络的代价函数使训练误差最小化，其中，代价函数为：

S2：构建乘员舱空调制冷控制策略

S2.1：构建乘员舱空调制冷控制模块

根据汽车空调制冷系统定义强化学习模型，确定强化学习模型中MDP过程的状态s、动作a和奖励r，并根据强化学习模型确定乘员舱空调制冷控制模块，乘员舱空调制冷控制模块包括动作网络、评价网络以及经验回收池。

定义强化学习模型具体包括以下过程：

(1)定义MDP过程的状态s

获取汽车空调制冷系统状态信息，定义MDP(Markov Decision Processes，马尔可夫决策过程)过程的状态s为：s＝[s1,s2,s3,s4,s5,s6,s7]，其中，s1为车外环境温度，s2为太阳辐射强度，s3为车内温度，s4为车速，s5为空气湿度，s6为乘客热舒适性评价结果，s7为车内空调系统每分钟能耗，其中，s1,s2,s3,s4,s5为范围限定的随机输入，提供不同工况下的学习环境；

(2)定义MDP过程的动作a

根据汽车空调制冷系统的输出控制指令，定义MDP过程的动作a为：a＝[a1,a2,a3]，其中，a1为鼓风机转速，a2为压缩机转速，a3为风门开度；

(3)定义MDP过程的奖励r

考虑到汽车空调制冷主要性能评价指标为两部分：①人体热舒适性评价λΔT：车内乘客热舒适性评价结果与热舒适性最佳值(0)的差值；②能耗E：乘客舱热负荷平衡时汽车空调制冷系统部件每分钟能耗总和，主要包含压缩机能耗、鼓风机能耗和前端冷却模块风扇能耗。故将奖励部分设置为r＝-E-λΔT，由于要尽可能减小能耗，所以E取负值，同时为了保证汽车对车内热舒适性控制的稳定性和有效性，附加了车内乘客热舒适性评价结果与热舒适性最佳值(0)的差值相关的惩罚函数，λ为热舒适性惩罚函数系数。

本实施例中强化学习训练环境总输入为太阳辐射强度、车内外温度、车速以及强化学习执行动作a＝[a1,a2,a3]，输出为奖励r＝-E-λΔT和状态s＝[s1,s2,s3,s4,s5,s6,s7]，形成完整的强化学习训练循环。

S2.2：构建强化学习训练所需环境

强化学习训练所需环境包括汽车空调制冷系统一维模型和步骤S1获得的乘客舱人体热舒适性预测模型，其中，汽车空调制冷系统一维模型用于根据车内温度、车外温度、太阳辐射强度、空气湿度以及汽车空调制冷系统的控制指令，模拟汽车空调制冷系统中部件的运行，并输出蒸发器后空气速度和温度数据、车内温度数据以及空调系统的能耗数据；乘客舱人体热舒适性预测模型用于根据车内温度、车外温度、太阳辐射强度、空气湿度、蒸发器后空气速度及温度数据对人体热舒适性评价结果进行预测，并将人体热舒适性评价结果反馈至乘员舱热舒适性控制模块；其中，汽车空调制冷系统一维模型的构建参见CN114757116 A。

S2.3：对乘员舱空调制冷控制模块进行强化学习训练

其中，基于DDPG算法的强化学习控制结构网络包括动作网络和评价网络，所述动作网络包括当前策略网络和目标策略网络，所述评价网络包括当前Q值网络和目标Q值网络，其中，前策略网络的输入信息为状态s，输出信息为动作a；目标策略网络的输入输出同当前策略网络，定期复制当前策略网络参数；当前Q值网络的输入信息为状态s和动作a，输出信息为价值Q；目标Q值网络的输入输出同当前Q值网络，定期复制当前Q值网络参数。

步骤S2.3中的训练过程为：

(1)动作网络的更新

(2)评价网络的更新

对强化学习模型进行训练，强化学习与虚拟环境交互收集各项采样数据，并不断更新动作网络和评价网络，将经验数据存储到经验回收池中，待模型收敛即为训练完成后的基于舒适性的汽车空调制冷控制策略，可依据不同的车室内外温度、太阳辐射强度和行驶车速信息，直接输出合适的压缩机转速、鼓风机转速以及风门开度，实现乘客热舒适性和空调制冷系统能耗双向优化。

S3：控制策略的应用

本发明基于DDPG的纯电动汽车乘员舱空调制冷控制方法，其训练框架包含三部分，分别为：基于DDPG算法的乘员舱空调制冷控制模块、强化学习训练环境以及乘客舱热流畅&热舒适性模块。强化学习训练环境包含汽车空调系统一维模型以及乘客舱热舒适性预测模型；乘客舱热流畅&热舒适性模块包含乘客舱三维模型和人体热舒适性模型；基于DDPG算法的乘员舱空调制冷控制模块包含动作网络、评价网络以及经验回收池。其中乘客舱热流畅&热舒适性模块采用深度学习的方式转化为强化学习训练环境中的乘客舱热舒适性预测模型，基于DDPG算法的乘员舱空调制冷控制模块与强化学习训练环境不断进行交互从而达到训练效果。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关的工作人员完全可以在不偏离本发明的范围内，进行多样的变更以及修改。本项发明的技术范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种基于DDPG的纯电动汽车乘员舱空调制冷控制方法，其特征在于：包括以下步骤：

S1：构建乘客舱人体热舒适性预测模型

S1.3：通过乘客舱三维模型和人体热舒适性评价模型的联合仿真模拟，提取仿真结果中所述特征参数对应的数值，作为深度学习神经网络训练的数据集，对数据集进行预处理，并将数据集分为训练集和验证集；

S1.4：神经网络训练，根据定义好的模型结构搭建深度学习网络，包括输入层、隐含层和输出层，初始化对应的权值和阈值，设定神经网络训练的超参数，包括优化器、学习率、迭代次数、时间步长和批次大小；利用训练集的数据对深度学习模型进行训练，采用反向传播算法更新权值和阈值；获得乘客舱人体热舒适性预测模型，并采用验证集对乘客舱人体热舒适性预测模型的预测效果进行评估；

S2：构建乘员舱空调制冷控制策略

S2.1：构建乘员舱空调制冷控制模块

根据汽车空调制冷系统定义强化学习模型，确定强化学习模型中MDP过程的状态s、动作a和奖励r，并根据强化学习模型确定乘员舱空调制冷控制模块；

S2.2：构建强化学习训练所需环境

强化学习训练所需环境包括汽车空调制冷系统一维模型和步骤S1获得的乘客舱人体热舒适性预测模型，其中，汽车空调制冷系统一维模型用于根据车内温度、车外温度、太阳辐射强度、空气湿度、车速以及汽车空调制冷系统的控制指令，模拟汽车空调制冷系统中部件的运行，并输出蒸发器后空气速度和温度数据、车内温度数据以及空调系统的能耗数据；乘客舱人体热舒适性预测模型用于根据车内温度、车外温度、太阳辐射强度、空气湿度、蒸发器后空气速度及温度数据对人体热舒适性评价结果进行预测，并将人体热舒适性评价结果反馈至乘员舱热舒适性控制模块；

S2.3：对乘员舱空调制冷控制模块进行强化学习训练

在步骤S3的强化学习训练环境中，采用基于DDPG算法的强化学习控制结构网络对步骤S2中构建的乘员舱空调制冷控制模块进行训练，在训练过程中，采集样本数据，并根据样本数据对乘员舱空调制冷控制模块进行更新和优化，待乘员舱空调制冷控制模块达到收敛状态后，即为训练完成，此时，乘员舱空调制冷控制模块的控制策略，即为目标策略——汽车空调制冷系统的乘员舱空调制冷控制策略；

S3：控制策略的应用

2.如权利要求1所述的基于DDPG的纯电动汽车乘员舱空调制冷控制方法，其特征在于：步骤S1.2中所述的特征参数包括车室外温度、太阳辐射强度、蒸发器后空气温度、蒸发器后气流速度、各个空调出风口的空气温度、各个空调出风口的气流速度、人体各个部位表面空气温度、人体各个部位表面气流速度、人体各个部位表面平均辐射温度、人体各个部位表面相对湿度、人体热舒适性评价结果。

3.如权利要求1所述的基于DDPG的纯电动汽车乘员舱空调制冷控制方法，其特征在于：步骤S1.3中具体还包括以下步骤：

4.如权利要求1所述的基于DDPG的纯电动汽车乘员舱空调制冷控制方法，其特征在于：步骤S1.4中神经网络训练具体包括以下步骤：

S1.4.2：模型预处理：初始化输入层与隐含层之间的权值，隐含层与输出层之间的权值，以及隐含层的阈值和输出层的阈值；神经网络训练算法采用贝叶斯正则化算法，优化器采用Adam，学习率设置为0.001，选代次数epochs为200，批次大小batch为32，输入时间步长timesteps为2；

S1.4.3：训练模型：利用训练集的数据对深度学习模型进行训练，采用反向传播算法更新权值和阈值，将输出误差，即期望输出与实际输出之差，按原通路反传计算，通过隐含层反向，直至输入层，在反传过程中将误差分摊给各层的各个单元，获得各层各单元的误差信号，并将其作为修正各单元权值的根据；

S1.4.4：模型评估：深度学习模型的评价方法为yearly-based和station-based验证方法，评价指标包括MSE、RMSE均方根误差、MAE平均绝对误差、R-Squared决定系数，公式分别如下：

其中，为预测值，y_i为真实值，/>为平均值，m为样本个数；

当R²值越大、其他指标值越小时，模型的预测效果越好。

5.如权利要求4所述的基于DDPG的纯电动汽车乘员舱空调制冷控制方法，其特征在于：步骤S1.4中在神经网络训练时，利用贝叶斯正则化训练神经网络的代价函数使训练误差最小化，其中，代价函数为：

式中，α₁和α₂是贝叶斯超参数，用于指定学习过程寻求的方向，即最小化误差或权重；n是训练样本的数量；Y_i为第i个实际值；Y′_i为神经网络的第i个预测值；m为神经网络中权重的个数，w_j为第j个权重。

6.如权利要求1所述的基于DDPG的纯电动汽车乘员舱空调制冷控制方法，其特征在于：步骤S2.1中定义强化学习模型具体包括以下过程：

(1)定义MDP过程的状态s

获取汽车空调制冷系统状态信息，定义MDP过程的状态s为：s＝[s1,s2,s3,s4,s5,s6,s7]，其中，s1为车外环境温度，s2为太阳辐射强度，s3为车内温度，s4为车速，s5为空气湿度，s6为乘客热舒适性评价结果，s7为车内空调系统每分钟能耗，其中，s1,s2,s3,s4,s5为范围限定的随机输入，提供不同工况下的学习环境；

(2)定义MDP过程的动作a

(3)定义MDP过程的奖励r

7.如权利要求1所述的基于DDPG的纯电动汽车乘员舱空调制冷控制方法，其特征在于：步骤S2.3中所述DDPG算法的强化学习控制结构网络包括动作网络和评价网络，所述动作网络包括当前策略网络和目标策略网络，所述评价网络包括当前Q值网络和目标Q值网络，其中，前策略网络的输入信息为状态s，输出信息为动作a；目标策略网络的输入输出同当前策略网络，定期复制当前策略网络参数；当前Q值网络的输入信息为状态s和动作a，输出信息为价值Q；目标Q值网络的输入输出同当前Q值网络，定期复制当前Q值网络参数。

8.如权利要求7所述的基于DDPG的纯电动汽车乘员舱空调制冷控制方法，其特征在于：步骤S2.3中的训练过程为：

(1)动作网络的更新

当前策略网络与强化学习训练环境进行交互，输入状态s到当前策略网络得到动作a，对强化学习训练环境施加动作a，强化学习训练环境会返回下一时刻的状态s’和奖励r；采集此时的样本数据(s,a,r,s’)放入经验回收池中，目标策略网络负责根据经验回收池中采样的下一状态s’选择最优下一动作a|s’，目标策略网络的网络结构与当前策略网路相同，目标策略网络的参数定期从当前策略网络参数中复制；

(2)评价网络的更新

9.如权利要求7所述的基于DDPG的纯电动汽车乘员舱空调制冷控制方法，其特征在于：当前策略网络施加动作a到强化学习训练环境时需添加随机动作噪声以避免训练发生过大误差。