CN113272537B - 用于车辆马达的热控制 - Google Patents
用于车辆马达的热控制 Download PDFInfo
- Publication number
- CN113272537B CN113272537B CN202080008468.9A CN202080008468A CN113272537B CN 113272537 B CN113272537 B CN 113272537B CN 202080008468 A CN202080008468 A CN 202080008468A CN 113272537 B CN113272537 B CN 113272537B
- Authority
- CN
- China
- Prior art keywords
- motor
- thermal
- function
- action
- control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02P—CONTROL OR REGULATION OF ELECTRIC MOTORS, ELECTRIC GENERATORS OR DYNAMO-ELECTRIC CONVERTERS; CONTROLLING TRANSFORMERS, REACTORS OR CHOKE COILS
- H02P29/00—Arrangements for regulating or controlling electric motors, appropriate for both AC and DC motors
- H02P29/60—Controlling or determining the temperature of the motor or of the drive
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F01—MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
- F01P—COOLING OF MACHINES OR ENGINES IN GENERAL; COOLING OF INTERNAL-COMBUSTION ENGINES
- F01P7/00—Controlling of coolant flow
- F01P7/14—Controlling of coolant flow the coolant being liquid
- F01P7/16—Controlling of coolant flow the coolant being liquid by thermostatic control
- F01P7/164—Controlling of coolant flow the coolant being liquid by thermostatic control by varying pump speed
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60L—PROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
- B60L3/00—Electric devices on electrically-propelled vehicles for safety purposes; Monitoring operating variables, e.g. speed, deceleration or energy consumption
- B60L3/0023—Detecting, eliminating, remedying or compensating for drive train abnormalities, e.g. failures within the drive train
- B60L3/0061—Detecting, eliminating, remedying or compensating for drive train abnormalities, e.g. failures within the drive train relating to electrical machines
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F01—MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
- F01P—COOLING OF MACHINES OR ENGINES IN GENERAL; COOLING OF INTERNAL-COMBUSTION ENGINES
- F01P7/00—Controlling of coolant flow
- F01P7/02—Controlling of coolant flow the coolant being cooling-air
- F01P7/04—Controlling of coolant flow the coolant being cooling-air by varying pump speed, e.g. by changing pump-drive gear ratio
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F01—MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
- F01P—COOLING OF MACHINES OR ENGINES IN GENERAL; COOLING OF INTERNAL-COMBUSTION ENGINES
- F01P7/00—Controlling of coolant flow
- F01P7/02—Controlling of coolant flow the coolant being cooling-air
- F01P7/10—Controlling of coolant flow the coolant being cooling-air by throttling amount of air flowing through liquid-to-air heat exchangers
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F02—COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
- F02D—CONTROLLING COMBUSTION ENGINES
- F02D41/00—Electrical control of supply of combustible mixture or its constituents
- F02D41/24—Electrical control of supply of combustible mixture or its constituents characterised by the use of digital means
- F02D41/2406—Electrical control of supply of combustible mixture or its constituents characterised by the use of digital means using essentially read only memories
- F02D41/2425—Particular ways of programming the data
- F02D41/2429—Methods of calibrating or learning
- F02D41/2438—Active learning methods
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60L—PROPULSION OF ELECTRICALLY-PROPELLED VEHICLES; SUPPLYING ELECTRIC POWER FOR AUXILIARY EQUIPMENT OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRODYNAMIC BRAKE SYSTEMS FOR VEHICLES IN GENERAL; MAGNETIC SUSPENSION OR LEVITATION FOR VEHICLES; MONITORING OPERATING VARIABLES OF ELECTRICALLY-PROPELLED VEHICLES; ELECTRIC SAFETY DEVICES FOR ELECTRICALLY-PROPELLED VEHICLES
- B60L2240/00—Control parameters of input or output; Target parameters
- B60L2240/40—Drive Train control parameters
- B60L2240/42—Drive Train control parameters related to electric machines
- B60L2240/425—Temperature
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F01—MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
- F01P—COOLING OF MACHINES OR ENGINES IN GENERAL; COOLING OF INTERNAL-COMBUSTION ENGINES
- F01P7/00—Controlling of coolant flow
- F01P7/14—Controlling of coolant flow the coolant being liquid
- F01P2007/146—Controlling of coolant flow the coolant being liquid using valves
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F01—MACHINES OR ENGINES IN GENERAL; ENGINE PLANTS IN GENERAL; STEAM ENGINES
- F01P—COOLING OF MACHINES OR ENGINES IN GENERAL; COOLING OF INTERNAL-COMBUSTION ENGINES
- F01P2023/00—Signal processing; Details thereof
- F01P2023/08—Microprocessor; Microcomputer
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F02—COMBUSTION ENGINES; HOT-GAS OR COMBUSTION-PRODUCT ENGINE PLANTS
- F02D—CONTROLLING COMBUSTION ENGINES
- F02D41/00—Electrical control of supply of combustible mixture or its constituents
- F02D41/02—Circuit arrangements for generating control signals
- F02D41/14—Introducing closed-loop corrections
- F02D41/1401—Introducing closed-loop corrections characterised by the control or regulation method
- F02D41/1405—Neural network control
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mechanical Engineering (AREA)
- Evolutionary Computation (AREA)
- Chemical & Material Sciences (AREA)
- Combustion & Propulsion (AREA)
- General Engineering & Computer Science (AREA)
- Power Engineering (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Health & Medical Sciences (AREA)
- Sustainable Development (AREA)
- Sustainable Energy (AREA)
- Life Sciences & Earth Sciences (AREA)
- Transportation (AREA)
- Feedback Control In General (AREA)
- Control Of Electric Motors In General (AREA)
- Control Of Vehicle Engines Or Engines For Specific Uses (AREA)
Abstract
本发明提出了一种用于优化车辆马达的热控制的方法,该车辆包括马达冷却装置,该马达冷却装置包括至少一个致动器,该致动器适于通过冷却装置改变冷却马达的能力,该方法由适于控制所述至少一个致动器的计算机实现,该方法的特征在于,其包括强化学习算法的训练,其包括以下步骤的迭代实施:1)通过对包括马达和冷却装置的热系统的当前状态应用控制函数来确定用于控制至少一个致动器(50)的至少一个动作,并实施所述动作,2)在实施所述动作之后,确定热系统的经修改状态,3)通过实施马达的热力学奖励函数,基于热系统的经修改状态和所述动作计算奖励值,4)基于热系统的当前状态、热系统的经修改状态、动作和奖励来更新用于估计系统的热性能的函数,以及5)基于用于估计系统热性能的函数的更新来修改控制函数。
Description
技术领域
本发明涉及一种用于车辆马达的热控制方法,以及用于实现该方法的系统。本发明有利地应用于车辆电动马达的热控制。
背景技术
车辆马达的精确热控制在许多方面是有利的,因为它允许增加马达的寿命和性能。实际上,已知热会导致材料变形,这对材料的使用寿命是有害的。
例如,在电动马达的情况下,它们通过焦耳效应产生大量热量,但是电子元件对过高的温度敏感,并且具有工作温度极限。因此,暴露在不受控制的温度下会影响这些马达的寿命。
同样,当不需要马达热控制时,马达热控制的电能消耗会减小车辆的行驶里程。因此,重要的是能够优化马达的热控制,以便能够将马达保持在可接受的温度范围内,同时限制由该热控制引起的电能消耗,以便优化车辆的行驶里程。
因此,目前有两种方法被考虑用于车辆马达的热控制。它们在热系统中实施,该热系统包括马达、冷却系统和至少一个致动器,该致动器适于通过冷却装置改变冷却马达的能力。
基于规则的(rule-based)方法是使用最广泛的方法,且包括应用一组预限定的规则。因此,它们规定了取决于热系统的给定状态的控制动作。然而,这种方法太不精确,无法实现系统的最佳控制,因为系统的状态和规则对于所讨论的系统来说不够具体。此外,根据其性质,这些规则只考虑了非常少量的参数。
基于优化的第二种方法使用优化的理论模型,考虑了系统不同部分的热阻以及发生在马达和马达冷却装置之间的热交换。因此,它精确地考虑了系统的参数组。因此,该方法需要系统及其线性的完整理论知识。在复杂系统的情况下,这种方法在技术上和经济上都不可行。系统建模变得非常复杂,且设计成本太高。此外,需要进行大量调查才能在真实条件下验证理论模型,这将产生巨大成本。最后,由于这种方法涉及对包括马达及其冷却系统的特定热系统的热行为进行建模,因此它不能容易地应用于其他类型的马达和/或冷却系统。
发明内容
因此,本发明的目的是应对由上述两种方法提出的问题。
特别地,本发明的目的是提出一种用于车辆马达的热控制方法,该方法比现有技术更容易实施,并且允许马达冷却的优化控制。
为此,本发明涉及一种用于优化车辆马达的热控制的方法,该车辆包括马达冷却装置,该马达冷却装置包括至少一个致动器,该致动器适于通过冷却装置改变冷却马达的能力,
该方法由适于控制所述至少一个致动器的计算机实现,
该方法的特征在于,其包括强化学习算法的训练,其包括以下步骤的迭代实施:
1)通过对包括马达和冷却装置的热系统的当前状态应用控制函数来确定用于控制至少一个致动器的至少一个动作,并实施所述动作,
2)在实施所述动作之后,确定热系统的经修改状态,
3)通过实施马达的热力学奖励函数,基于热系统的经修改状态和所述动作来计算奖励值,
4)基于热系统的当前状态、热系统的经修改状态、动作和奖励来更新用于估计系统的热性能的函数,以及
5)基于用于估计系统的热性能的函数的更新来修改控制函数。
在一些实施例中,探索噪声(bruit d'exploration)被添加到控制动作的确定或者被添加到控制函数的参数。
根据一个实施例,马达的热力学奖励函数被配置成当基于当前状态由动作引起的热力学不可逆性的产生被最小化时,使奖励值最大化。
根据一个实施例,在动作之后的热系统的经修改状态包括至少一个参数,该参数识别所述动作之前的至少一个动作。
根据一个实施例,马达的热力学奖励函数被配置成当动作导致马达的温度超过预定阈值时对该动作进行惩罚。
根据一个实施例,马达的热力学奖励函数被配置成当实施动作而环境温度大于马达温度时对该动作进行惩罚。
根据一个实施例,热系统的状态由以下组中的至少一个参数限定:车辆周围的空气速度、马达在不久的将来的开启或关闭状态、马达的一个或多个温度、热系统的一个或多个熵值、以及在当前状态之前实施的一个或多个动作。
根据一个实施例,马达是电动马达。
根据一个实施例,用于估计热性能的函数呈以下形式:
[数学式5]
其中,γ是折旧因子,π是控制函数的一组参数,且n是针对用于估计热性能的函数的计算时所考虑的附加的时间步的数目。
根据一个实施例,折旧因子γ在0.8和1之间(含0.8和1在内)。
根据一个实施例,强化学习算法的训练的两个时间步之间的值是与值n相关联地确定的,且反之亦然。
本发明的另一个目的是一种包含编码指令的计算机程序产品,当其由计算机实现时,其用于实现上述方法。
本发明的另一个目的是一种用于车辆马达的热控制系统,该系统包括计算机,该计算机适于通过应用控制函数来实施用于控制至少一个致动器的至少一个动作,所述控制函数已经通过优化方法的实现而预先确定。
本发明的另一个目的是一种用于车辆马达的热控制系统,其包括适于实施上述方法的计算机。
因此,通过实现与奖励计算函数相结合的行动者-评价者(acteur-critique)架构(其中该架构允许优化热系统的热力学性能),本发明能够以低推理计算成本并且不需要实验结果的最佳方式对复杂系统进行热控制。更具体地,本发明基于例如由出版物《深度强化学习的连续控制》(《Continuous Control With Deep Reinforcement Learning》)(Lillicrap等人,2015)公开的自动强化学习方法,其更广为人知地被称为DDPG算法,该方法是对连续控制系统的被称为Q-学习的算法的改编,Q-学习被实施用于离散化系统。
因此,用于训练控制系统的自动强化学习方法将学会有效地控制热系统,而不需要依赖于实验数据。因此,本发明适用于不同复杂程度的热系统。
附图说明
本发明的其他特征、目的和优点将从以下描述中变得明显,该描述纯粹是说明性的而非限制性的,并且应该参考附图来阅读,其中:
图1示出了根据本发明一个实施例的车辆马达的热系统。
图2示出了根据本发明一个实施例的用于优化热控制的方法的主要步骤。
图3示出了根据本发明一个实施例的由计算机实施的行动者-评价者(acteur-critique)架构。
具体实施方式
参照图2,现在将描述根据本发明的一个实施例的用于优化车辆马达的热控制的方法。这种方法使得有可能管理车辆马达的冷却,从而既将车辆马达保持在可接受的温度范围内,又尽可能减少车辆冷却系统的电能消耗。
在这点上,优化方法在图1中示意性示出的车辆马达1的热系统上实施,该热系统包括马达10,例如但不限于电动马达,以及马达冷却装置30,该装置30包括至少一个致动器50,其适于改变冷却马达的能力。
在优选实施例中,马达可以是电动马达。由于电动马达不能承受对于它们所包含的各个电子元件的寿命和性能来说太突然的温度应力,并且由于它们在行驶里程方面施加了额外的限制,所以本发明可以特别有利地应用于这种类型的电动马达。
优化方法由也在图1中示出的计算机20实施,计算机20适于接收关于马达和冷却装置的状态的信息(该信息由嵌入在车辆中或车辆上的一个或多个传感器测量),并且适于通过应用控制每个致动器的控制动作ut来控制马达的冷却装置的一个或多个致动器。用于控制冷却装置的致动器的控制动作适合于改变冷却装置的冷却能力。
关于由传感器获取并由计算机20接收的信息,它们是将在下面更详细地描述的系统状态的一部分。
关于一个或多个控制动作,它们取决于冷却装置的部件,这些部件可以包括以下各者中的至少一个:逆变器、电池、泵、阀、百叶板(grille)、风扇、散热器、流管、冷却剂。实际上,冷却装置可以由允许冷却车辆马达的所有类型的元件单独地或组合地组成。由于根据本发明的车辆马达的热控制的优化并不特定于一个冷却系统,所以考虑冷却装置的所有组合。
例如,如果冷却装置是向马达输送冷却剂的泵,则泵的控制动作ut可以是改变泵的流速。
在另一个示例中,冷却装置是通向外部的阀,并且其控制动作ut包括以一定角度打开或关闭阀。
根据另一个实施例,控制动作还可以包括以预定速度启动风扇叶片,以冷却马达。
还可能的是控制动作包括将百叶板打开或关闭到多个可能位置中的一个位置,以便在散热器从马达排出热量时冷却散热器。
然而,本发明不排除在前面的示例中限定的控制动作被同时使用或以某一种或另一种方式组合地使用的可能性。因此,风扇、泵、阀、百叶板和散热器形成由本发明所覆盖的冷却装置的组成部分,并且不被认为是若干单独的冷却装置。
因此,计算机20可以为同一冷却装置的多个不同元件中的每一个确定控制动作ut。
为了实现优化方法,计算机20有利地具有行动者-评价者(acteur-critique)架构,其在出版物《Natural Acteur-critique》(Jan Peters, Sethu Vijayakumar和StefanSchaal, 2008)中有描述,计算机20的架构示意性地示出在图3中。更具体地,计算机有利地配置成实现DDPG型强化学习算法,该算法是基于上面引用的Lillicrap等人的出版物中描述的行动者-评价者(acteur-critique)架构的特定类型的算法。在下文中,所述出版物中使用的符号用于描述相同的对象或功能。
该架构包括表示行动者-评价者(acteur-critique)架构的行动者(acteur)的第一组块21。计算机20的该组块21接收热系统的状态st,并通过将控制函数π应用于状态st来确定要执行的至少一个控制动作ut。有利地,该组块由实现控制函数π的人工神经网络来实现。
热系统的状态有利地是包括若干参数的向量。根据一个实施例,系统的状态向量的参数包括由组块21针对状态st确定的控制动作之前的控制动作ut-1、ut-2、ut-3、…、ut-n。有利地,参数还包括以下参数中的全部或一些:车辆周围的空气速度、马达在不久的将来的(开启或关闭)状态、马达的一个或多个温度、系统在其当前状态和/或至少一个先前状态下的熵。如果马达的关闭是预测到的或可预测的,则马达在不久的将来的状态可以由马达关闭之前的时间来表示,并且否则可以通过马达在不久的将来的参数(t+1,t+2,…,t+n)来表示,这些参数例如但不限于马达的扭矩或其以转每分为单位的速度。因此,车辆可以包括例如一个或多个温度传感器、一个或多个空气速度传感器、或者一个或多个加速度计。实际上,它可以包括一组传感器,这些传感器可以取得各种导航数据,这些数据可用于确定热系统的状态。
此外,作为时间的函数的热系统的状态参数可以具有n阶的复杂度,换言之,它们可以具有针对时刻t之前的n个系统状态的值。因此,例如,具有2阶复杂度的热系统的状态向量可以如下:
其中,T对应于马达的一个或多个温度,
ut、ut-1、ut-2分别对应于在t、t-1和t-2实施的控制动作,
QBSG对应于在时刻t时热系统的热量和/或预测的在不久的将来的热量,
BSGtime对应于对马达在不久的将来的状态的预测,
Vair对应于在时刻t时车辆周围的空气速度和/或预测的在不久的将来的空气速度。
第二组块22评估控制动作ut对热系统的影响,并确定系统的新状态st+1以及与观察到的从给定状态st到经修改状态st+1的系统状态转变相关联的奖励值rt+1。为此,组块22从热系统中的各个传感器取得信息,并根据热系统的新状态评估分配给控制动作ut的奖励,如下文更详细描述的。第三组块23对应于行动者-评价者(acteur-critique)系统的评价者(critique)。评价者组块23实现并更新一个函数,该函数用于根据由组块22确定的奖励值来估计热系统的热性能,该函数对应于上述出版物中的Q函数,并且有利地由人工神经网络来实现。为此,评价者组块23包括四个输入,第一个输入是动作ut,第二个输入是系统的给定状态st,第三和第四个输入分别对应于奖励值rt+1和在动作ut执行后系统的新状态st+1。它们在图中被为Pt,t+1。它还包括在每个时刻t存储所有输入Pt,t+1的存储器。假定存储器不能无限制,随着计算机20的存储器通过先进先出(First in First Out(FIFO))方法变满,最老的Pt-n,t-n+1信息被删除。
下面更详细地描述用于估计系统热性能的Q函数的实现和更新。
在图3中,第四组块25用于显示系统的经修改状态st+1然后变成当前的系统的新状态st,时间步已经过去。
参考图2,由上述计算机实现的优化方法包括以下步骤的迭代实施。
在第一步骤110期间,计算机的组块21在子步骤111期间基于热系统的给定状态st,通过在其给定状态中应用控制函数来确定用于控制至少一个致动器50的至少一个控制动作ut,并且在子步骤113期间实施所述动作。
在第二步骤120期间,计算机的组块22确定在实施所述动作ut之后热系统的经修改状态。
在第三步骤130期间,组块22基于观察到的从状态st到经修改状态st+1的热系统的状态转变和所述动作ut来计算奖励值。这种计算是通过热力学奖励函数实现的。
有利地,马达的热力学奖励函数被配置成向其中车辆马达1的热系统优化其热性能的动作分配高奖励值。
在有利的实施例中,马达的热力学奖励函数被配置成当基于给定状态st由动作ut引起的热力学不可逆性的产生被最小化时,使奖励值最大化。换言之,马达的热力学奖励函数也被配置成使可用能(即有用的热力学能量)的损失最小化,这尤其允许使在马达部分上的电力输入最小化。
有利地,热力学奖励函数还被配置成当控制动作ut导致马达温度超过预定阈值时对奖励值进行惩罚。例如,如果为不损害马达的热性能而马达必须不超过70度的最大工作温度,则马达的热力学奖励函数被配置成如果动作导致超过该最大温度,则对与该动作相关联的奖励值进行惩罚。
有利地,热力学奖励函数还被配置成当实施控制动作ut而环境温度大于马达温度时对奖励值进行惩罚。
在一些实施例中,当实施相应的控制动作而马达关闭时,热力学奖励函数也可以对奖励值进行惩罚。
根据一个示例性实施例,允许计算奖励值的热力学奖励函数限定如下:
[数学式1]
其中,r对应于奖励,
dSirr对应于由系统转换产生的热力学不可逆性,
BSG时间对应于在马达关闭之前的时间,
Tsys对应于热系统的温度,
Tmax对应于马达在其热性能降低之前的最高温度,并且
Tamb对应于车辆周围的环境温度。
由系统转换产生的热力学不可逆性的确定当然取决于系统。作为非限制性示例,在通过与温度为Ta的空气自然对流将电动马达冷却到温度Tm的情况下,这些热力学不可逆性可以通过来计算,其中Qexch是传递的热量。如果通过使用配有泵的冷却回路来强制该冷却,则热力学不可逆性包括以压力损失形式表示泵送能量耗散的附加项:/>,其中Pin和Pout分别是泵的上游和下游压力,并且A是实验系数。
在第四步骤140期间,组块23将奖励值rt+1与所述动作ut和观察到的从给定状态st到经修改状态st+1的状态转变相关联,并将该关联Pt,t+1存储在存储器中。
在第五步骤150期间,组块23更新用于估计热性能的函数。为此,组块23首先估计系统在当前状态下的热性能,并且为此,它首先基于针对状态st实施的动作ut来实现在状态t下的Q函数,并且已知在其当前状态下由组块21实现的控制函数π。Q函数基于系统的当前状态st且已知函数π而计算可获得的未来奖励之和的期望值,并按包括在0和1之间的折旧因子γ折旧,下面将更详细地对其进行描述。该函数可以根据上述出版物的方程(1)计算,或者通过该相同出版物的方程(2)中引用的贝尔曼方程递归计算。
然后通过修改Q函数的参数(即实现该函数的神经网络的加权因子)来实现Q函数的更新,以便使用于估计系统热性能的该函数的精度最大化。有利地,通过使针对状态st、动作ut和控制函数π的当前状态计算的Q函数的实现与由下式限定的函数yt之间的差最小化来执行该更新:
[数学式2]
其中,函数μ由应用于状态st+1的控制函数π限定,即动作ut+1。表示Q函数的参数,即实现该函数的神经网络的加权因子矩阵,且γ是包括在0-1之间的折旧因子。因此,yt对应于时刻t+1的奖励rt+1加上基于状态st+1折旧的奖励之和的期望值。
有利地,该更新是通过自举(bootstrap)来实现的,这是通过随机获取存储在存储器中的N个转变Pi,i+1的子集,并且通过针对这些转变中的每一个计算yi,并且通过使由下式提供的二次误差L最小化:
[数学式3]
根据一个实施例变型,使用例如在出版物《分布式分布确定性策略梯度》(《Distributed Distributional Deterministic Policy Gradients》)(霍夫曼等人,2018)中描述的所谓的n步返回(n-step return)方法,以便在误差L中考虑在上述误差计算中使用的每个转变之后的n个转变。在这种情况下,函数yt变为:
[数学式4]
因此,用于估算热性能的函数的表达式可简化为:
[数学式5]
根据折旧因子γ的值,在计算新的Q函数时或多或少会考虑时刻t处的函数之后的奖励rt。
在一个实施例中,由组块23实现的神经网络的输出是对应于Q函数的结果的标量。有利地,在由Q函数产生的标量的输出之前向神经网络添加一层,使得可以估计Q的分布,实际上,其使得可以根据由出版物《分布式分布确定性策略梯度》(《DistributedDistributional Deterministic Policy Gradients》)(霍夫曼等人,2018)公开的分类方法来计算Q的期望。分类允许学习算法更快地收敛,并在系统的热控制中更有效。
在一个实施例中,折旧因子γ包括在 0.80和1 之间(含0.80和1在内)。 有利地,其包括在0.97和0.99之间(含0.97和0.99在内)。实际上,由于热系统具有大的惯性,通过在计算用于估计热性能的新函数时大量考虑随后的热性能,学习是更加有效的。
同样,仍然考虑热惯性,学习算法的两个时间步之间的间隙是显著的。例如,时间步可以在0.1和2秒之间(含0.1和2秒在内)。必须在不考虑系统热惯性的太小时间步和不允许学习算法收敛的太大时间步之间找到折衷。在所谓的n步返回方法中,返回步的数目n的确定有利地适合于允许学习算法的良好收敛。如果在太短的一段时间内有过多数量的值,学习算法可能不收敛。例如,可以取包括在3和10之间的n值(含3和10在内),以覆盖包括在1和6秒之间(含1和6秒在内)的总时间段(对应于n倍的时间步)。例如,时间步可以被选择为等于0.5秒,且n被选择为等于4。因此,时间步的值和n步返回(n-Step Return)的值n是相关的,以确保算法的收敛性。
最后,在步骤160期间,组块23基于用于估计热性能的函数来更新计算机的组块21的控制函数。该步骤通过J的梯度下降来实现,J是系统初始热性能的期望值,其取决于控制函数π的参数,并由下式限定:
[数学式6]
其中
[数学式7]
并且其中,E是环境。
J的梯度在上文引用的Lillicrap等人的出版物的方程(6)中被限定。根据J的梯度的表达式,梯度的这种下降允许控制函数的参数(在这种情况下是由组块21实现的神经网络的加权因子的矩阵)被更新,以便使预期的热性能最大化。
在一个实施例中,步骤110包括将探索噪声添加到由计算机20在子步骤111期间确定的控制动作ut或者直接添加到控制函数的参数的附加子步骤112。
与不包括该子步骤的步骤110相比,添加的探索噪声使得可以通过实施探索性的训练来获得热系统的改进效率,该探索性的训练允许其学习进一步优化热系统的可选动作。探索噪声的添加在图3中由计算机的组块24示出。在一个实施例中,探索噪声可以是高斯白噪声或由Ornstein Uhlenbeck过程产生的噪声。
在一个实施例中,一旦已经使用上述方法训练了控制函数,则控制函数可以存储在存储器中,且随后由与第一计算机分离的第二计算机直接实现,该第二计算机车载在车辆中。在这种情况下,第二计算机借助于已经训练的控制函数来确定取决于热系统状态的控制动作。然而,所述控制函数不能再被更新,因为计算机在其存储器中不包含训练方法。
在另一个实施例中,实现控制函数训练的计算机20可以是目标车辆中内置的计算机,并且随着该车辆的使用而继续更新控制函数。
因此,所提出的发明允许对车辆马达的热系统进行优化控制,而不考虑为了较低的推理计算成本以及同样为了较低的经济成本而对系统建模的复杂性。此外,本发明可以适用于大量的机动车辆热系统,这使得本发明具有灵活性。
Claims (13)
1.一种用于优化车辆马达的热控制的优化方法,所述车辆包括马达冷却装置(30),所述马达冷却装置包括至少一个致动器(50),所述致动器适于通过所述冷却装置(30)改变冷却马达(10)的能力,
所述方法由适于控制所述至少一个致动器(50)的计算机(20)实现,
所述方法的特征在于,其包括强化学习算法的训练,其包括以下步骤的迭代实施:
1)通过对包括所述马达(10)和所述冷却装置(30)的热系统的当前状态(st)应用控制函数来确定(111)用于控制至少一个致动器(50)的至少一个动作(ut),并实施(113)所述动作(ut),
2)在实施所述动作(ut)之后,确定(120)所述热系统的经修改状态(st+1),
3)通过实施马达的热力学奖励函数,基于所述热系统的所述当前状态(st)、所述经修改状态和所述动作(ut)来计算(130)奖励值,马达的热力学奖励函数被配置成当基于所述当前状态(st)由所述动作(ut)引起的热力学不可逆性的产生被最小化时,使奖励值最大化,
4)基于所述热系统的所述当前状态(st)、所述热系统的所述经修改状态(st+1)、所述动作(ut)和奖励值(rt+1)来更新(150)用于估计系统的热性能的函数,以及
5)基于所述用于估计系统的热性能的函数的更新来修改(160)所述控制函数。
2.根据权利要求1所述的热控制的优化方法,其中,在步骤1中,噪声被添加到控制动作(ut)或者所述控制函数的参数。
3.根据权利要求1述的热控制的优化方法,其中,在所述动作(ut)之后的所述热系统的经修改状态(st+1)包括识别所述动作(ut)之前的至少一个动作的至少一个参数。
4.根据权利要求1至3中任一项所述的热控制的优化方法,其中,所述马达的热力学奖励函数被配置成当所述动作(ut)导致所述马达的温度超过预定阈值时减少所述动作(ut)的奖励值。
5.根据权利要求1至3中任一项所述的热控制的优化方法,其中,所述马达的热力学奖励函数被配置成当实施所述动作(ut)而环境温度大于所述马达的温度时减少所述动作(ut)奖励值。
6.根据权利要求1至3中任一项所述的热控制的优化方法,其中,所述热系统的状态由以下组中的至少一个参数限定:车辆周围的空气速度、马达在不久的将来的开启或关闭状态、马达的一个或多个温度、热系统的一个或多个熵值、以及在当前状态之前实施的一个或多个动作。
7.根据权利要求1至3中任一项所述的热控制的优化方法,其特征在于,所述马达(10)是电动马达。
9.根据权利要求8所述的热控制的优化方法,其特征在于,所述折旧因子γ在0.8和1之间,含0.8和1在内。
10.根据权利要求9所述的热控制的优化方法,其特征在于,所述强化学习算法的训练的两个时间步之间的值是与值n相关联地确定的。
11.一种包含编码指令的计算机程序产品,当其由计算机(20)实现时,其用于实现根据权利要求1至10中任一项所述的方法。
12.一种用于车辆马达(10)的热控制系统,其包括计算机(20),所述计算机适于通过应用控制函数来实施用于控制至少一个致动器(50)的至少一个动作(ut),所述控制函数已经通过根据权利要求1至10中任一项所述的优化方法的实现而预先确定。
13.一种用于车辆马达的热控制系统,其包括适于实现根据权利要求1至10中任一项所述的方法的计算机(20)。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1900173 | 2019-01-09 | ||
FR1900173A FR3091557B1 (fr) | 2019-01-09 | 2019-01-09 | Contrôle thermique pour moteur de véhicule |
PCT/EP2020/050457 WO2020144292A1 (fr) | 2019-01-09 | 2020-01-09 | Contrôle thermique pour moteur de véhicule |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113272537A CN113272537A (zh) | 2021-08-17 |
CN113272537B true CN113272537B (zh) | 2023-06-06 |
Family
ID=67185183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080008468.9A Active CN113272537B (zh) | 2019-01-09 | 2020-01-09 | 用于车辆马达的热控制 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11936320B2 (zh) |
CN (1) | CN113272537B (zh) |
FR (1) | FR3091557B1 (zh) |
WO (1) | WO2020144292A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7308291B2 (ja) * | 2019-12-26 | 2023-07-13 | 日立Astemo株式会社 | 冷却制御装置、電動システム、及び冷却制御方法 |
WO2022192352A1 (en) * | 2021-03-09 | 2022-09-15 | Magna International Inc. | Multi-critic based enhanced vector control optimization with multi-q learning for motor control |
CN114268259B (zh) * | 2021-12-28 | 2023-06-30 | 郑州大学 | 用于永磁同步电机的多目标控制方法、控制器及控制系统 |
WO2024003600A1 (en) * | 2022-06-30 | 2024-01-04 | Volvo Truck Corporation | Method and system and computer program product of controlling vehicle fan speed to regulate coolant temperature |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5525881A (en) * | 1992-01-03 | 1996-06-11 | Valeo Systemes D'essuyage | Method and apparatus for the thermal control of an electric motor in a vehicle, and their application to a power assisted steering system |
DE19902923A1 (de) * | 1999-01-26 | 2000-08-03 | Daimler Chrysler Ag | Verfahren zur Funktionsüberwachung eines Kühlsystems einer Brennkraftmaschine |
WO2013150207A1 (fr) * | 2012-04-04 | 2013-10-10 | (1/4)Peugeot Citroen Automobiles Sa | Estimation de l'etat thermique d'un moteur |
EP2944786A1 (de) * | 2014-05-17 | 2015-11-18 | MAN Truck & Bus AG | Steuer- oder Regelverfahren für ein Kraftfahrzeug |
CN108297677A (zh) * | 2018-01-24 | 2018-07-20 | 国机智骏(北京)汽车科技有限公司 | 纯电动汽车及其冷却系统的控制方法和控制装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR940010453A (ko) | 1992-10-01 | 1994-05-26 | 가나이 쯔도무 | 전기 자동차의 냉각 시스템 및 이것에 이용되는 전기 모터 |
US20040069546A1 (en) * | 2002-10-15 | 2004-04-15 | Zheng Lou | Hybrid electrical vehicle powertrain thermal control |
-
2019
- 2019-01-09 FR FR1900173A patent/FR3091557B1/fr active Active
-
2020
- 2020-01-09 US US17/421,659 patent/US11936320B2/en active Active
- 2020-01-09 WO PCT/EP2020/050457 patent/WO2020144292A1/fr active Application Filing
- 2020-01-09 CN CN202080008468.9A patent/CN113272537B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5525881A (en) * | 1992-01-03 | 1996-06-11 | Valeo Systemes D'essuyage | Method and apparatus for the thermal control of an electric motor in a vehicle, and their application to a power assisted steering system |
DE19902923A1 (de) * | 1999-01-26 | 2000-08-03 | Daimler Chrysler Ag | Verfahren zur Funktionsüberwachung eines Kühlsystems einer Brennkraftmaschine |
WO2013150207A1 (fr) * | 2012-04-04 | 2013-10-10 | (1/4)Peugeot Citroen Automobiles Sa | Estimation de l'etat thermique d'un moteur |
EP2944786A1 (de) * | 2014-05-17 | 2015-11-18 | MAN Truck & Bus AG | Steuer- oder Regelverfahren für ein Kraftfahrzeug |
CN108297677A (zh) * | 2018-01-24 | 2018-07-20 | 国机智骏(北京)汽车科技有限公司 | 纯电动汽车及其冷却系统的控制方法和控制装置 |
Also Published As
Publication number | Publication date |
---|---|
US20220077810A1 (en) | 2022-03-10 |
US11936320B2 (en) | 2024-03-19 |
CN113272537A (zh) | 2021-08-17 |
WO2020144292A1 (fr) | 2020-07-16 |
FR3091557B1 (fr) | 2020-12-04 |
FR3091557A1 (fr) | 2020-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113272537B (zh) | 用于车辆马达的热控制 | |
Li et al. | Intelligent multi-zone residential HVAC control strategy based on deep reinforcement learning | |
CN111684160B (zh) | 用于优化风扇或风扇布置的效率和/或运行性能的方法 | |
KR20190140810A (ko) | 목표 온도를 기반으로 하는 빌딩의 열·공조 시스템에 대한 공급 전력 제어 방법 및 장치 | |
EP3835895A1 (en) | Multi-agent deep reinforcement learning for dynamically controlling electrical equipment in buildings | |
CN111684369B (zh) | 用于风扇或风扇总成的优化操作的方法 | |
US20190309979A1 (en) | Initialization of radial base function neural network nodes for reinforcement learning incremental control system | |
WO2009107698A1 (ja) | 空調システム及びビル空調設備の消費電力量予測装置 | |
CN111684162B (zh) | 用于确定风扇的操作状态的方法 | |
JP2013125544A (ja) | エネルギー消費を削減するようにシステムを制御する方法 | |
AU2019374158B2 (en) | Industrial process control coordination and implementation | |
Naug et al. | A relearning approach to reinforcement learning for control of smart buildings | |
CN110018722B (zh) | 用于热控制的机器学习装置、系统和方法 | |
CN113847715A (zh) | 基站的空调调控的方法以及装置、电子设备、介质 | |
JP7378497B2 (ja) | モデル共有システム、モデル管理装置、および空気調和装置の制御装置 | |
WO2022101989A1 (ja) | 空気調和装置、および空気調和装置の学習装置 | |
JP2020144713A (ja) | 方策改善方法、方策改善プログラム、および方策改善装置 | |
US11280514B1 (en) | System and method for thermal control based on invertible causation relationship | |
CN116838464A (zh) | 电控硅油风扇控制方法、装置、控制器及存储介质 | |
US10401044B2 (en) | Thermal management of buildings using intelligent and autonomous set-point adjustments | |
EP1405992B1 (en) | Control system for controlling a vehicle engine cooling system | |
KR102485329B1 (ko) | 공조 제어 시스템 | |
RU2779855C2 (ru) | Способ оптимизации коэффициента полезного действия и/или эксплуатационных характеристик вентилятора или системы вентиляторов | |
JP7278496B1 (ja) | 冷凍サイクル状態予測装置、冷凍サイクル制御装置、及び冷凍サイクル装置 | |
JP7457581B2 (ja) | 時間変量予測装置、時間変量予測方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |