FR3097265A1

FR3097265A1 - Procédé de contrôle thermique d’un moteur

Info

Publication number: FR3097265A1
Application number: FR1906231A
Authority: FR
Inventors: Michel Povlovitsch Seixas; Julien Metayer; Mariano Sans
Original assignee: Continental Automotive France SAS
Current assignee: Continental Automotive Technologies GmbH
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2020-12-18
Anticipated expiration: 2039-06-12
Also published as: WO2020249477A1; FR3097265B1

Abstract

L’invention concerne un procédé d’optimisation du contrôle thermique d’un moteur (10) de véhicule, ledit véhicule comprenant un dispositif de refroidissement (30) du moteur (10), ledit dispositif de refroidissement (30) comprenant au moins un actionneur (310) permettant de faire varier la capacité de refroidissement du moteur (10). Le procédé est mis en œuvre par un calculateur (20), adapté pour contrôler ledit au moins un actionneur (310) à l’aide d’une commande (u(t)), afin de réaliser le contrôle thermique du moteur (10). Le procédé comprend une première phase de fonctionnement, dite « d’exploration », une deuxième phase de fonctionnement, dite « phase d’apprentissage par imitation », et une troisième phase de fonctionnement, dite « autonome ». Figure pour l’abrégé : Fig. 1

Description

Procédé de contrôle thermique d’un moteur

L’invention concerne un procédé d’optimisation de contrôle thermique d’un moteur électrique de véhicule, un système pour la mise en œuvre de ce procédé ainsi qu’un véhicule comprenant un tel système.

L’invention vise notamment à optimiser le contrôle thermique d’un moteur électrique de véhicule afin d’en réduire la consommation.

Dans un véhicule automobile électrique ou hybride, il est connu de contrôler la température du moteur électrique afin d’augmenter à la fois la longévité et les performances dudit moteur. En effet, il est connu que la chaleur peut entraîner une déformation des matériaux et endommager les composants électroniques du moteur ou des équipements environnants du moteur, ce qui en réduit la durée de vie.

En outre, il est important de pouvoir optimiser le contrôle thermique du moteur afin de pouvoir le maintenir dans une plage de températures acceptables, tout en limitant la consommation d’énergie électrique induite par ce contrôle thermique afin d’optimiser l’autonomie du véhicule.

Ainsi, plusieurs approches sont considérées aujourd’hui pour effectuer le contrôle thermique d’un moteur électrique de véhicule. Elles sont mises en œuvre par un dispositif de refroidissement comprenant un actionneur adapté pour faire varier la capacité de refroidissement du moteur lorsque cet actionneur est commandé par ledit dispositif de refroidissement.

Dans une solution singulière connue et basée sur des réseaux de neurones, le dispositif de refroidissement comprend un module de surveillance et un module de commande. Le module de surveillance détermine l’état du moteur, du dispositif de refroidissement et des équipements environnants du moteur tandis que le module de commande détermine la commande à envoyer à l’actionneur en fonction des états déterminés par le module de surveillance.

Dans cette solution, le module de commande peut tester plusieurs commandes de l’actionneur établies à partir de combinaisons d’états afin de déterminer la commande permettant d’optimiser le fonctionnement du moteur dans une combinaison d’états donnée. Ces nombreuses itérations peuvent être coûteuses en temps, empêchant alors le fonctionnement optimal et rapide du dispositif de refroidissement, ce qui consomme notamment une quantité notable d’énergie, puisque le dispositif de refroidissement doit être alimenté pendant toute la durée des tests.

Il existe donc le besoin d’une solution fiable et optimisée pour remédier au moins en partie à ces inconvénients.

A cette fin, l’invention a tout d’abord pour objet un procédé d’optimisation du contrôle thermique d’un moteur de véhicule, ledit véhicule comprenant un dispositif de refroidissement du moteur, ledit dispositif de refroidissement comprenant au moins un actionneur permettant de faire varier la capacité de refroidissement du moteur , le procédé est mis en œuvre par un calculateur, adapté pour contrôler ledit au moins un actionneur à l’aide d’une commande, ledit calculateur comprenant et mettant en œuvre une fonction de commande principale et une fonction de commande experte prédéterminées et comprenant une mémoire dans laquelle sont enregistrées des transitions permettant de déterminer la commande à envoyer au dispositif de refroidissement en fonction de l’état courant, désignant l’état de fonctionnement, d’un système thermique comprenant le dispositif de refroidissement et le moteur afin de réaliser le contrôle thermique du moteur, ledit procédé étant remarquable en ce qu’il comprend l’entrainement d’un algorithme d’apprentissage comprenant la mise en œuvre itérative des phases suivantes :

une première phase de fonctionnement, dite « d’exploration », dans laquelle la fonction de commande experte contrôle le fonctionnement du système est exécutée par itération, chaque itération comportant une étape de:

- détermination d’au moins une commande dite « experte » de l’au moins un actionneur par application de la fonction de commande experte à l’état courant du système thermique et mise en œuvre de ladite fonction de commande experte,
- détermination d’un état modifié du système thermique après la mise en œuvre de ladite commande experte,
- calcul, par la mise en œuvre d’une fonction de récompense thermodynamique du moteur, d’une valeur de récompense thermique modifiée à partir de l’état modifié du système thermique, et de ladite commande experte,
- enregistrement dans la mémoire de l’ensemble, appelé « transition », comprenant l’état courant, la commande experte appliquée, également nommée « démonstration », l’état modifié et la récompense thermique modifiée, ledit état modifié devenant alors l’état courant de l’itération suivante,

une deuxième phase de fonctionnement, dite « d’apprentissage par imitation », dans laquelle le calculateur modifie la fonction de commande principale afin de minimiser la différence entre la commande experte et la commande principale, à partir des transitions enregistrées dans la première phase de fonctionnement, et dans laquelle la fonction de commande experte contrôle le fonctionnement du système,
une troisième phase de fonctionnement, dite « autonome », dans laquelle le calculateur exécute la fonction de commande principale modifiée lors de la deuxième phase de fonctionnement afin de contrôler le fonctionnement du système, et dans laquelle le calculateur détermine la commande principale et évalue s’il est pertinent que la fonction de commande principale imite la fonction de commande experte ou non.

Le procédé selon l’invention permet avantageusement de réaliser un apprentissage plus stable et fiable grâce notamment à la mise en œuvre de la phase d’exploration permettant de tester le système à partir de l’application d’une fonction de commande experte pertinente avant de mettre en œuvre la phase d’apprentissage. De plus, l’apprentissage est plus rapide. En effet, la phase d’apprentissage par itération permet à la fonction de commande principale d’acquérir rapidement l’expérience de la fonction de commande experte et ainsi d’éviter des expérimentations et des itérations inutiles. Ainsi, la fonction de commande principale converge plus rapidement et de façon stable vers son fonctionnement optimal, permettant de gérer et d’apprendre la complexité du système à contrôler.

De manière avantageuse, lors de la première phase de fonctionnement du procédé, un bruit dit « d’exploration » est ajouté à une commande experte, générée à partir de la fonction de commande experte et d’un état courant.

L’ajout d’un tel bruit d’exploration permet de modifier la commande experte et donc de modifier l’action réalisée par l’actionneur de manière à déterminer des transitions pour différentes commandes expertes.

De manière préférée, le bruit d’exploration est défini comme un signal ajouté à la commande experte et permettant de faire varier ladite commande experte.

Avantageusement, la troisième phase de fonctionnement du procédé comprend un premier mode de fonctionnement, dans lequel le système fonctionne sans utiliser les transitions enregistrées, uniquement selon une fonction d’estimation de la performance thermique du système et la fonction de commande principale générées à l’issue de la deuxième phase de fonctionnement.

Ainsi, les transitions enregistrées à l’issu de la première phase de fonctionnement pour l’exécution de la deuxième phase de fonctionnement ne sont jamais utilisées dans la troisième phase de fonctionnement.

De préférence, la troisième phase de fonctionnement du procédé comprend un deuxième mode de fonctionnement, dans lequel la fonction de commande principale agit sur le système selon la fonction de commande experte générée à l’issue de la première phase de fonctionnement pour l’ensemble des transitions enregistrées en mémoire.

De manière préférée, la troisième phase de fonctionnement du procédé comprend un troisième mode de fonctionnement, dans lequel, le calculateur détermine si la fonction de commande principale doit agir ou non selon la fonction de commande experte pour un état courant d’une transition enregistrée en mémoire, en fonction de l’estimation de la performance thermique du système, et est configuré pour mettre en œuvre une commande différente et davantage adaptée de la commande donnée par la fonction de commande experte le cas échéant.

L’invention concerne également un calculateur de contrôle thermique d’un moteur de véhicule, ledit véhicule comprenant un dispositif de refroidissement du moteur, ledit dispositif de refroidissement comprenant au moins un actionneur permettant de faire varier la capacité de refroidissement du moteur, ledit calculateur étant adapté pour contrôler ledit au moins un actionneur à l’aide d’une commande, comprenant et mettant en œuvre une fonction de commande principale et une fonction de commande experte, et comprenant une mémoire dans laquelle sont enregistrées des transitions permettant de déterminer la commande à envoyer au dispositif de refroidissement en fonction de l’état courant, désignant l’état de fonctionnement, d’un système thermique comprenant le dispositif de refroidissement et le moteur afin de réaliser le contrôle thermique du moteur, ledit calculateur étant remarquable en ce qu’il est configuré pour mettre en œuvre le procédé tel que présenté précédemment.

De préférence, le calculateur est configuré pour, lors de la première phase de fonctionnement, ajouter un bruit dit « d’exploration » à une commande experte générée à partir de la fonction de commande experte et d’un état courant.

De manière préférée, le bruit d’exploitation est défini comme un signal ajouté à la commande experte et permettant de faire varier ladite commande experte.

L’invention concerne aussi un véhicule, notamment automobile, comprenant un moteur, un dispositif de refroidissement, comprenant au moins un actionneur permettant de faire varier la capacité de refroidissement dudit moteur, et un calculateur tel que présenté ci-avant.

D’autres caractéristiques et avantages de l’invention apparaîtront encore à la lecture de la description qui va suivre. Celle-ci est purement illustrative et doit être lue en regard des dessins annexés sur lesquels :
: la figure 1 présente le système thermique d’un moteur de véhicule selon un mode de réalisation l’invention,
: la figure 2 représente la première phase de fonctionnement du procédé d’optimisation de contrôle thermique d’un moteur du véhicule selon l’invention,
: la figure 3 représente la deuxième phase de fonctionnement du procédé d’optimisation de contrôle thermique d’un moteur du véhicule selon l’invention,
: la figure 4 représente le deuxième mode de fonctionnement de la troisième phase de fonctionnement du procédé d’optimisation de contrôle thermique d’un moteur du véhicule selon l’invention,
: la figure 5 représente le troisième mode de fonctionnement de la troisième phase de fonctionnement du procédé d’optimisation de contrôle thermique d’un moteur du véhicule selon l’invention.

DISPOSITIF

Il va maintenant être décrit un véhicule automobile comprenant un dispositif de refroidissement selon l’invention. L’invention sera décrite dans le cas d’un véhicule automobile mais pourrait concerner tout type de véhicule comprenant un moteur électrique.

En référence à la figure 1, le véhicule comprend un système 5 thermique comportant un moteur 10 électrique, un calculateur 20, un dispositif de refroidissement 30 dudit moteur 10 et des équipements 40 environnants dudit moteur 10.

Le dispositif de refroidissement 30 comprend un actionneur 310, adapté pour faire varier une capacité de refroidissement du moteur 10. On notera que, dans une autre forme de réalisation, le dispositif de refroidissement 30 pourrait comprendre plusieurs actionneurs 310.

Le calculateur 20 est adapté pour recevoir des informations sur l’état du moteur 10, du dispositif de refroidissement 30 et des équipements 40 environnants. Ces informations peuvent par exemple être mesurées par un ou plusieurs capteurs du véhicule tels que par exemple un capteur de température, de vitesse ou d’humidité.

Les équipements 40 situés dans l’environnement du moteur 10 peuvent notamment être un ou plusieurs équipements 40 parmi les suivants : un onduleur, une batterie, une pompe, une vanne, une grille, un ventilateur, un radiateur, des tuyaux d’écoulements du liquide de refroidissement, etc.

Le calculateur 20 est également adapté pour contrôler l’actionneur 310 par l’application de commandes (notées u_tou ci-après u_t _(exp)) envoyées au dispositif de refroidissement 30 et agissant sur l’actionneur 310. En effet, les composantes de chaque commande u_t, u_t _(exp)dépendent du moteur 10 et des équipements 40 environnants.

Le dispositif de refroidissement 30 peut être composé de tous types de composants seuls ou combinés permettant de refroidir un moteur 10 de véhicule. En effet, l’optimisation du contrôle thermique d’un moteur 10 de véhicule n’étant pas propre à un type de dispositif de refroidissement 30, toutes les combinaisons de composants de refroidissement sont considérées.

Par exemple, si le dispositif de refroidissement 30 comprend une pompe qui fait transiter un liquide de refroidissement vers le moteur 10, la commande u_t, u_t _(exp)de la pompe peut être une modification du débit de la pompe. Un autre exemple est celui dans lequel le dispositif de refroidissement 30 comprend une vanne ouvrant sur l’extérieur et dont la commande u_t, u_t _(exp)consiste à ouvrir ou fermer la vanne d’un certain angle. Dans une autre forme de réalisation, le dispositif de refroidissement 30 comprend un ventilateur comprenant des pâles et la commande u_t, u_t _(exp)consiste à activer les pâles du ventilateur à une vitesse déterminée afin de refroidir le moteur 10. Il est également possible que le dispositif de refroidissement 30 comprenne une grille et un radiateur que la commande u_t, u_t _(exp)consiste à ouvrir ou fermer la grille, selon une position parmi une pluralité de positions possibles, pour refroidir le radiateur lorsque celui-ci évacue la chaleur du moteur 10.

L’invention n’exclut cependant pas le fait que les commandes u_t, u_t _(exp)définies dans les exemples précédents peuvent être utilisées simultanément ou combinées d’une manière ou d’une autre. Ainsi, la pompe, la vanne, le ventilateur, la grille et le radiateur font partie intégrante du dispositif de refroidissement 30 et ne sont pas considérées comme plusieurs dispositifs de refroidissement 30 distincts.

Le calculateur 20 peut donc déterminer une commande u_t, u_t _(exp)commune, concernant plusieurs éléments différents d’un même dispositif de refroidissement 30.

Le calculateur 20 présente une architecture du type apprentissage rapide.

En référence aux figures 4 et 5, cette architecture comprend un module de surveillance 22, un module de commande principale 21, un module de contrôle 23, un module de commande experte 24, représentant une fonction de commande experte π_expprédéterminée de l’architecture, et un module d’exploration N. A cette fin, le calculateur 20 comprend un processeur apte à mettre en œuvre un ensemble d’instructions permettant de réaliser ces fonctions.

Le module de surveillance 22 évalue l’impact instantané d’une commande u_t, u_t _(exp)sur le système 5. A cette fin, le module de surveillance 22 est configuré pour collecter les données générées par les capteurs afin de les transmettre au module de commande principale 21.

Le module de commande principale 21 représente l’acteur de l’architecture qui détermine et envoie une commande dite « principale » u_t. A cette fin, le module de commande 21 reçoit l’état courant s_tdu système 5, à partir des données générées par les différents capteurs et collectées par le module de surveillance 22, et détermine au moins une commande principale u_tà effectuer, par application d’une fonction de commande principale prédéterminée, désignée π, à l’état courant s_t. Ladite fonction de commande principale π définit donc la commande u_tenvoyée en fonction de l’état courant s_tdu système 5 et définit également une stratégie de contrôle principale. Avantageusement, ce module de commande principale 21 est mis en œuvre par un réseau de neurones artificiels implémentant la fonction de commande principale π.

Le module de surveillance 22 est configuré pour déterminer l’état modifié s_t+1, autrement dit le nouvel état du système 5. Le module de surveillance 22 est également configuré pour déterminer une valeur de récompense thermique modifiée r_t+1, par application d’une fonction de récompense thermodynamique. Ladite récompense thermique modifiée r_t+1est définie comme la quantité d’entropie interne créée au cours d’une transition d’état et diverses pénalités liées au non-respect des contraintes, lesdites contraintes pouvant par exemple être liées à un seuil de température maximum, à une variation temporelle maximale de la température… Une transition d’état comprend un premier ensemble de valeurs décrivant un état courant s_t initial du système 5, une commande u_t, u_t _(exp)appliquée, également nommée « démonstration », un deuxième ensemble de valeurs décrivant un état modifié s_t+1du système 5 et une récompense thermique modifiée r_t+1. Pour ce faire, le module de surveillance 22 récupère les informations concernant la commande u_tenvoyée par le module de commande principale 21 et détermine l’état modifié s_t+1 et la récompense thermique modifiée r_t+1notamment grâce aux équations de la thermodynamique.

Le module de contrôle 23, appelé « critique » dans l’architecture, est configuré pour implémenter et mettre à jour une fonction d’estimation de la performance thermique du système 5. Ladite fonction d’estimation de la performance thermique permet de calculer la somme attendue de toutes les récompenses thermiques modifiées r_t+1 obtenues pour une série d’applications successives de la fonction de commande principale π à partir d’un état courant s_t et d’une récompense thermique courante r_t, correspondant à la récompense thermique de l’état de fonctionnement actuel du système 5. Cette fonction de commande principale π est avantageusement mise en œuvre par un réseau de neurones artificiels. Ainsi, le module de contrôle 23 permet au dispositif de refroidissement 30 de fonctionner de façon optimale.

Le module de transition 25 représente le fait que l’état modifié s_t+1, respectivement la récompense thermique modifiée r_t+1, estimé après application d’une commande u_t, u_t _(exp)devient ensuite le nouvel état courant s_tdu système 5, respectivement la récompense thermique courante r_tdu système 5.

Le module de commande experte 24 est configuré pour recevoir l’état courant s_tdu système 5, et détermine au moins une commande dite « experte » u_t _(exp)à effectuer, par application d’une fonction de commande experte π_expà l’état courant s_t. La fonction de commande experte π_expcomprend et définit des stratégies de contrôle expertes prédéterminées permettant d’optimiser le fonctionnement du dispositif de refroidissement 30.

PROCEDE

En référence aux figures 2 à 5, il va maintenant être décrit le procédé d’optimisation de contrôle thermique d’un moteur 10 du véhicule selon un mode de réalisation. Ce procédé permet de contrôler le dispositif de refroidissement 30 du moteur 10 du véhicule de façon, d’une part, à maintenir le moteur 10 du véhicule dans une plage de températures acceptables, et d’autre part, de réduire autant que possible la consommation d’énergie électrique par le dispositif de refroidissement 30 du véhicule.

Ledit procédé comprend une première phase de fonctionnement PH1, dite d’exploration du comportement de la fonction de commande experte π_exp, une deuxième phase de fonctionnement PH2, dite phase d’apprentissage par imitation, et une troisième phase de fonctionnement PH3 dite autonome.

PREMIERE PHASE DE FONCTIONNEMENT

En référence à la figure 2, lors de la première phase de fonctionnement PH1, dite d’exploration, les stratégies de contrôle expertes prédéterminées du calculateur 20 sont simulées par itération. Cela permet au module de commande principale 21 et au module de contrôle 23 d’acquérir l’expérience et le comportement apportés par le module de commande experte 24.

Pour cela, la phase d’exploration PH1 comprend une étape de détermination d’au moins une commande experte u_t ₍ _exp ₎d’au moins un actionneur 310 à un état courant s_tdu système 5 thermique et mise en œuvre de ladite commande experte u_t ₍ _exp)par application de la fonction de commande experte π_exppermettant le contrôle du système 5 via l’actionneur 310.

Ainsi, les stratégies de contrôle expertes du module de commande experte 24 sont exécutées par application de la fonction de commande experte π_exp, notamment en ajoutant aléatoirement un bruit d’exploration variable, via le module d’exploration N, à la commande experte u_t _(exp), afin d’exécuter aussi dans le voisinage de la trajectoire de contrôle de la commande experte u_t _(exp). L’ajout du bruit d’exploration à la commande experte u_t _(exp)est également aléatoire de manière à exécuter parfois une commande experte u_t _(exp)non bruitée et parfois une commande experte u_t _(exp)bruitée. Par exemple, on peut ainsi obtenir, en moyenne, une action experte bruitée exécutée, définie comme une action du système 5 due à l’application d’une commande experte u_t(exp)bruitée, pour dix actions expertes exécutées, définies comme des actions du système 5 dues à l’application d’une commande experte u_t(exp)non bruitée. Le bruit d’exploration ajouté permet d’améliorer l’efficacité thermique du dispositif de refroidissement 30 et permet d’apprendre d’éventuelles actions optimisant davantage le fonctionnement du système 5 thermique.

La phase d’exploration PH1 comprend ensuite une étape de détermination d’un état modifié s_t+1du système 5 thermique après la mise en œuvre de ladite commande experte u_t ₍ _exp ₎. C’est notamment le module de surveillance 22 qui détermine l’état modifié s_t+1, autrement dit le nouvel état, du système 5 thermique.

La phase d’exploration PH1 comprend également une étape de calcul, par la mise en œuvre de la fonction de récompense thermodynamique, exécutée par le module de surveillance 22, d’une valeur de récompense thermique modifiée r_t+1à partir de l’état modifié s_t+1du système 5 thermique, et de ladite commande experte u_t ₍ _exp ₎. Lors de cette étape, le module de surveillance 22 détermine une valeur de récompense thermique modifiée r_t+1associée à la transition d’état du système 5 thermique observée de l’état courant s_tdonné vers l’état modifié s_t+1.

La phase d’exploration PH1 comprend ensuite une étape d’enregistrement dans une mémoire MEM de l’ensemble, appelé « transition », comprenant l’état courant s_t, la commande experte u_t ₍ _exp ₎appliquée, l’état modifié s_t+1et la récompense thermique modifiée r_t+1, ledit état modifié s_t+1devenant alors l’état courant s_tde l’itération suivante.

La mémoire MEM comprend une mémoire experte MEM1 et une mémoire dite « de répétition » (ou replay) MEM2. Dans la mémoire experte MEM1, sont enregistrées les transitions expertes sans ajout de bruit d’exploration, autrement dit, les transitions provenant d’une expérimentation directe de la fonction de commande experte π_exp. D’autre part, dans la mémoire de répétition MEM2, sont enregistrées les transitions comprenant un ajout de bruit d’exploration, permettant notamment la mise à jour de la fonction d’estimation de la performance thermique lors de la troisième phase de fonctionnement PH3, dite autonome, décrite dans les paragraphes suivants.

Ainsi, dans la mémoire MEM sont enregistrées à la fois des transitions d’état avec un ajout de bruit d’exploration et des transitions d’état sans ajout de bruit d’exploration.

DEUXIEME PHASE DE FONCTIONNEMENT

En référence à la figure 3, lors de la deuxième phase de fonctionnement PH2, les paramètres de la fonction de commande principale π du module de commande principale 21 sont modifiés de manière à minimiser la différence entre la commande principale u_tproposée et la commande experte u_t(exp)pour un même état courant s_t donné. Pour cela, le module de commande principale 21 utilise les transitions enregistrées dans la mémoire experte MEM1.

Afin de vérifier que la commande principale u_tconverge vers la commande experte u_t(exp), un comparateur est utilisé. Un signal L_BCpermet de définir la différence entre la commande principale u_t et la commande experte u_t(exp). La modification des paramètres de la fonction de commande principale π du module de commande principale 21 est exécutée de manière à minimiser cette différence sur l’ensemble de transitions stockées dans la mémoire experte MEM1. Autrement dit, les transitions stockées dans la mémoire experte MEM1 sont utilisées pour la modification et/ou la mise à jour de la fonction de commande principale π.

Par ailleurs, lors de cette deuxième phase de fonctionnement PH2, le module de contrôle 23 est entraîné pour estimer la performance thermique du système en suivant la fonction de commande experte π_expà partir d’un état courant s_tdonné. La mise-à-jour de la fonction d’estimation de la performance thermique est faite à partir des transitions enregistrées dans la mémoire experte MEM1 et dans la mémoire de répétition MEM2 notamment en appliquant la relation récursive dite « de Bellman par bootstrap », comme décrit dans la publication « Continous Control With Deep Reinforcement Learning » (Lillicrap and al, 2015).

Avantageusement, la deuxième phase de fonctionnement PH2 est terminée lorsque la différence définie entre une commande experte u_t(exp), exécutée par la fonction de commande experte π_exp _,stockée dans la mémoire experte MEM1, et une commande principale u_tproposée par le module de commande principale 21, pour un même état courant s_tdu système 5, a atteint une précision minimale.

Il est notamment possible d’utiliser une méthode connue par l’homme du métier : la MAE, « Mean Absolute Error » en langue anglaise.

Une fois la phase de fonctionnement autonome PH3 activée et le module de commande experte 24 débranché ou éteint, et donc lorsque la fonction de commande experte π_expest inactive, la deuxième phase de fonctionnement PH2 permet à la fonction de commande principale π de pouvoir contrôler de façon efficace le fonctionnement du système 5 thermique, via l’actionneur 310.

TROISIEME PHASE DE FONCTIONNEMENT

Lors de la troisième phase de fonctionnement PH3, le système est en mode autonome. Cette troisième phase de fonctionnement PH3 peut comprendre trois modes de fonctionnement permettant le contrôle du système 5 par la fonction de commande principale π via l’actionneur 310.

Dans un premier mode de fonctionnement, l’utilisation des commandes expertes u_t(exp)est inactive, puisque le module de commande experte 24 est inactif, le module de surveillance 22, le module de commande principale 21 et le module de contrôle 23 sont actifs. Il faut toutefois noter qu’à cet instant, le module de commande principale 21 et le module de contrôle 23 ont préalablement acquis l’expérience de la fonction de commande experte π_expdu module de commande experte 24 lors de la deuxième phase de fonctionnement PH2.

En référence à la figure 4, il est représenté un deuxième mode de fonctionnement de la phase de fonctionnement autonome PH3 dans laquelle le module de commande experte 24 est actif et, si le système 5 fonctionne selon un état courant s_tconnu par la fonction de commande experte π_expdu module de commande experte 24, alors le module de commande principale 21 fonctionne tel que la fonction de commande experte π_expdu module de commande experte 24 le préconise.

En référence à la figure 5, il est représenté un troisième mode de fonctionnement de la phase de fonctionnement autonome PH3 dans laquelle le module de commande experte 24 est actif. Selon ce troisième mode de fonctionnement, si le système 5 fonctionne selon un état courant s_tconnu par la fonction de commande experte π_exp, alors le module de contrôle 23 peut décider de ne pas faire fonctionner le module de commande principale 21 tel que la fonction de commande experte π_exple préconise, notamment lorsque le module de contrôle 23 considère que le fonctionnement proposé par la fonction de commande experte π_expn’est pas optimale.

Claims

Procédé d’optimisation du contrôle thermique d’un moteur (10) de véhicule, ledit véhicule comprenant un dispositif de refroidissement (30) du moteur (10), ledit dispositif de refroidissement (30) comprenant au moins un actionneur (310) permettant de faire varier la capacité de refroidissement du moteur (10), le procédé est mis en œuvre par un calculateur (20), adapté pour contrôler ledit au moins un actionneur (310) à l’aide d’une commande (u_t, u_t(exp)), ledit calculateur (20) comprenant et mettant en œuvre une fonction de commande principale (π) et une fonction de commande experte (π_exp) prédéterminées et comprenant une mémoire (MEM) dans laquelle sont enregistrées des transitions permettant de déterminer la commande (u_t,u_t(exp)) à envoyer au dispositif de refroidissement (30) en fonction de l’état courant (s_t), désignant l’état de fonctionnement, d’un système (5) thermique comprenant le dispositif de refroidissement (30) et le moteur (10) afin de réaliser le contrôle thermique du moteur (10), ledit procédé étant caractérisé en ce qu’il comprend l’entrainement d’un algorithme d’apprentissage comprenant la mise en œuvre itérative des phases suivantes :
une première phase de fonctionnement (PH1), dite « d’exploration », dans laquelle la fonction de commande experte (π_exp) contrôle le fonctionnement du système (5) et est exécutée par itération, chaque itération comportant une étape de:
- détermination d’au moins une commande dite « experte » (u_t(exp)) de l’au moins un actionneur (310) par application de la fonction de commande experte (π_exp) à l’état courant (s_t) du système (5) thermique et mise en œuvre de ladite fonction de commande experte (π_exp),
- détermination d’un état modifié (s_t+1) du système (5) thermique après la mise en œuvre de ladite commande experte (u_t(exp)),
- calcul, par la mise en œuvre d’une fonction de récompense thermodynamique du moteur (10), d’une valeur de récompense thermique modifiée (r_t+1) à partir de l’état modifié (s_t+1) du système (5) thermique, et de ladite commande experte (u_t(exp)),
- enregistrement dans la mémoire (MEM) de l’ensemble, appelé « transition », comprenant l’état courant (s_t), la commande experte (u_t(exp)) appliquée, également nommée « démonstration », l’état modifié (s_t+1) et la récompense thermique modifiée (r_t+1), ledit état modifié (s_t+1) devenant alors l’état courant (s_t) de l’itération suivante,
une deuxième phase de fonctionnement (PH2), dite « phase d’apprentissage par imitation », dans laquelle le calculateur (20) modifie la fonction de commande principale (π) afin de minimiser la différence entre la commande experte (u_t(exp)) et une commande dite « principale » (u_t), à partir des transitions enregistrées dans la première phase de fonctionnement (PH1), et dans laquelle la fonction de commande experte (π_exp) contrôle le fonctionnement du système (5),

une troisième phase de fonctionnement (PH3), dite « autonome », dans laquelle le calculateur (20) exécute la fonction de commande principale (π) modifiée lors de la deuxième phase de fonctionnement (PH2) afin de contrôler le fonctionnement du système (5), et dans laquelle le calculateur (20) détermine la commande principale (u_t) et évalue s’il est pertinent que la fonction de commande principale (π) imite la fonction de commande experte (π_exp) ou non.
Procédé selon la revendication 1, dans lequel lors de la première phase de fonctionnement (PH1), un bruit dit « d’exploration » est ajouté à une commande experte (u_t(exp)), générée à partir de la fonction de commande experte (π_exp) et d’un état courant (s_t).
Procédé selon la revendication précédente, dans lequel le bruit d’exploration est défini comme un signal ajouté à la commande experte (u_t(exp)) et permettant de faire varier ladite commande experte (u_t(exp)).
Procédé selon l’une quelconque des revendications précédentes, dans lequel la troisième phase de fonctionnement (PH3) comprend un premier mode de fonctionnement, dans lequel le système (5) fonctionne sans utiliser les transitions enregistrées, uniquement selon une fonction d’estimation de la performance thermique du système (5) et la fonction de commande principale (π) générées à l’issue de la deuxième phase de fonctionnement (PH2).
Procédé selon l’une quelconque des revendications précédentes, dans lequel la troisième phase de fonctionnement (PH3) comprend un deuxième mode de fonctionnement, dans lequel la fonction de commande principale (π) agit sur le système (5) selon la fonction de commande experte (π_exp) générée à l’issue de la première phase de fonctionnement (PH1) pour l’ensemble des transitions enregistrées en mémoire (MEM).
Procédé selon l’une quelconque des revendications précédentes, dans lequel la troisième phase de fonctionnement (PH3) comprend un troisième mode de fonctionnement, dans lequel, le calculateur (20) détermine si la fonction de commande principale (π) doit agir selon la fonction de commande experte (π_exp) pour un état courant (s_t) d’une transition enregistrée en mémoire (MEM), en fonction de l’estimation de la performance thermique du système (5).
Calculateur (20) de contrôle thermique d’un moteur (10) de véhicule, ledit véhicule comprenant un dispositif de refroidissement (30) du moteur (10), ledit dispositif de refroidissement (30) comprenant au moins un actionneur (310) permettant de faire varier la capacité de refroidissement du moteur (10), ledit calculateur (20) étant adapté pour contrôler ledit au moins un actionneur (310) à l’aide d’une commande (u_t, u_t(exp)), comprenant et mettant en œuvre une fonction de commande principale (π) et une fonction de commande experte (π_exp), et comprenant une mémoire (MEM) dans laquelle sont enregistrées des transitions permettant de déterminer la commande (u_t) à envoyer au dispositif de refroidissement (30) en fonction de l’état courant (s_t), désignant l’état de fonctionnement, d’un système (5) thermique comprenant le dispositif de refroidissement (30) et le moteur (10) afin de réaliser le contrôle thermique du moteur (10), ledit calculateur (20) étant caractérisé en ce qu’il est configuré pour mettre en œuvre le procédé selon l’une des revendications 1 à 6.
Calculateur (20) selon la revendication précédente, ledit calculateur (20) étant configuré pour, lors de la première phase de fonctionnement (PH1), ajouter un bruit dit « d’exploration » à une commande experte (u_t(exp)) générée à partir de la fonction de commande experte (π_exp) et d’un état courant (s_t).
Calculateur (20) selon la revendication précédente, dans lequel le bruit d’exploration est défini comme un signal ajouté à la commande experte (u_t(exp)) et permettant de faire varier ladite commande experte (u_t(exp)).
Véhicule, notamment automobile, comprenant un moteur (10), un dispositif de refroidissement (30), comprenant au moins un actionneur (310) permettant de faire varier la capacité de refroidissement dudit moteur (10), et un calculateur (20) selon l’une quelconque des revendications 7 à 9.