FR3142279A1

FR3142279A1 - Dispositif et procédé de détermination d'une valeur de recommandation d'un paramètre de régulation d'un dispositif d'infusion de fluide.

Info

Publication number: FR3142279A1
Application number: FR2212201A
Authority: FR
Inventors: Maxime Louis; Hector ROMERO-UGALDE
Original assignee: Diabeloop SA
Current assignee: Diabeloop SA
Priority date: 2022-11-23
Filing date: 2022-11-23
Publication date: 2024-05-24
Also published as: EP4376015A1; US20240165329A1

Abstract

Dispositif de régulation (30) pour déterminer une valeur de recommandation d'un paramètre de régulation d'un dispositif d'infusion de fluide (20). Le dispositif de régulation (30) comprend une unité de récupération (32) configurée pour récupérer des données d'utilisateur. Chaque donnée des données d'utilisateur est horodatée et les données d'utilisateur se rapportent à un utilisateur unique. Les données d'utilisateur comprennent au moins une pluralité de quantités d'un médicament infusé à l'utilisateur unique ; une pluralité de valeurs physiologiques de l'utilisateur unique ; et une pluralité de valeurs estimées. Le dispositif de régulation (30) comprend également une unité de recommandation (34). L'unité de recommandation (34) est configurée pour déterminer la valeur de recommandation en fonction au moins d'une donnée des données d'utilisateur et en appliquant un algorithme d'apprentissage par renforcement comprenant une pluralité de paramètres de renforcement initiaux. [ Fig. 1 ]

Description

Dispositif et procédé de détermination d'une valeur de recommandation d'un paramètre de régulation d'un dispositif d'infusion de fluide.

DOMAINE DE L'INVENTION

La présente invention a pour objet un dispositif et un procédé permettant de déterminer une valeur de recommandation d'un paramètre de régulation d'un dispositif d'infusion de fluide à l'aide d'un algorithme d'apprentissage par renforcement.

ARRIÈRE-PLAN DE L'INVENTION

Dans le domaine de la santé, et plus précisément dans le domaine du traitement du diabète, il est bien connu de déterminer une valeur de recommandation correspondant à une quantité d'insuline afin de maintenir le glucose sanguin, également appelé glycémie, dans une plage sûre, entre l'hypoglycémie et l'hyperglycémie, appelée euglycémie.

Récemment, des systèmes dits "en boucle fermée" ont été développés, tels que décrits dans le document US20120078067, dans lesquels, un processeur est programmé pour évaluer un taux volumique d'insuline à injecter, sur la base de données relatives à l'utilisateur et/ou de données temporelles, telles que des mesures passées et/ou présentes de la glycémie, et réguler l'injection d'insuline en fonction de cette évaluation. Le processeur peut également être programmé pour évaluer un volume d'insuline à injecter dans certaines circonstances particulières, en particulier lors des repas et/ou d'une activité physique. La quantité peut être injectée à l'utilisateur, sous réserve de l'approbation de celui-ci. De tels systèmes sont également appelés systèmes "semi-fermés" car le patient doit déclarer certaines de ces circonstances particulières.

Les données temporelles sont souvent utilisées pour prédire la glycémie future. Cette prédiction sert ensuite à calculer la quantité d'insuline à injecter afin de maintenir la glycémie dans une plage acceptable.

Une prédiction incorrecte du taux futur de glucose sanguin peut conduire à une quantité calculée non appropriée de l'insuline à injecter, entraînant une concentration de glucose sanguin à des intervalles inacceptables, durant lesquels le patient peut être en hypoglycémie et/ou en hyperglycémie.

Un inconvénient majeur de ce procédé est qu'il ne peut pas prendre en compte de manière précise tous les paramètres influençant le comportement général de la glycémie. Cela conduit à une détermination imprécise d'une valeur de recommandation.

L'invention vise donc à remédier au moins partiellement aux problèmes techniques présentés ci-dessus.

BREF RÉSUMÉ DE L'INVENTION

L'invention a donc pour objet un dispositif de régulation permettant de déterminer une valeur de recommandation d'un paramètre de régulation d'un dispositif d'infusion de fluide, le dispositif de régulation comprenant :

une unité de récupération, l'unité de récupération étant configurée pour récupérer des données d'utilisateur, chaque donnée des données d'utilisateur étant horodatée et les données d'utilisateur se rapportant à un utilisateur unique, les données d'utilisateur comprenant au moins :

une pluralité de quantités d'un médicament infusé à l'utilisateur unique ;

une pluralité de valeurs physiologiques de l'utilisateur unique ;

une pluralité de valeurs estimées ;

une unité de recommandation, l'unité de recommandation étant configurée pour déterminer la valeur de recommandation en fonction au moins d'une donnée des données d'utilisateur et en appliquant un algorithme d'apprentissage par renforcement comprenant une pluralité de paramètres de renforcement initiaux, l'algorithme d'apprentissage par renforcement étant entrainé en :

modifiant au moins un paramètre de renforcement initial afin d'obtenir au moins un paramètre de renforcement d’entrainement;

fournissant au moins, comme entrées dans un procédé de calcul de paramètres de l'algorithme d'apprentissage par renforcement, au moins une partie de la pluralité de quantités d'un médicament infusé à l'utilisateur unique, au moins une partie de la pluralité de valeurs physiologiques de l'utilisateur unique et au moins une partie de la pluralité de valeurs estimées ;

appliquant l'au moins un paramètre de renforcement d’entrainement et déterminant en sortie une valeur de recommandation ;

calculant un score de récompense, le score de récompense étant calculé en fonction au moins de l'impact de la valeur de recommandation sur la pluralité de valeurs physiologiques de l'utilisateur unique ; et

actualisant au moins un paramètre de renforcement initial de la pluralité de paramètres de renforcement initiaux en fonction du score de récompense.

Un tel dispositif de régulation, plus il est utilisé, permet de déterminer une valeur de recommandation de plus en plus précise.

Un tel dispositif de régulation est extrêmement souple d'emploi et adaptatif.

Une telle configuration permet d'obtenir un dispositif de régulation robuste ne nécessitant aucune autre connaissance préalable telle que la dose quotidienne totale, le débit basal moyen utilisé pour un patient unique diabétique par exemple.

Selon un mode de réalisation, le médicament infusé à l'utilisateur est de l'insuline.

Selon un mode de réalisation, la valeur de recommandation correspond à une valeur de recommandation d'insuline. La valeur de recommandation est injectée durant l’entrainement de l'algorithme d'apprentissage par renforcement. Selon un mode de réalisation spécifique, l'unité de recommandation est configurée pour ne pas recommander plus de soixante unités d'insuline par heure. L'unité de recommandation est également configurée pour ne pas recommander plus de trois unités d'insuline par heure la nuit. Une telle configuration permet d'obtenir une unité de recommandation d'une bonne précision car limiter la quantité d'insuline par heure à des valeurs spécifiques durant l’entrainement permet d'améliorer l’entrainement et la sécurité de l'utilisateur unique.

Selon la présente invention, les termes injecté ou injection doivent être compris comme une injection virtuelle dans le cas où l’entrainement de l'algorithme d'apprentissage par renforcement est réalisée à l'aide d'une simulation dans laquelle l'utilisateur unique est un utilisateur virtuel.

Selon un mode de réalisation, le dispositif de régulation comprend une unité de conversion, l'unité de conversion étant configurée pour convertir la valeur de recommandation d'insuline en un paramètre de régulation du dispositif d'infusion de fluide. Selon un mode de réalisation, le paramètre prend la forme d'un bolus et/ou d'un basal. Une telle configuration permet au dispositif d'infusion d'infuser la valeur de recommandation à l'utilisateur unique.

Selon un mode de réalisation, la pluralité de valeurs physiologiques de l'utilisateur unique sont des valeurs de glucose sanguin.

Selon un mode de réalisation, la pluralité de valeurs estimées consiste en valeurs de glucides actifs (COB). Un COB peut être estimé en fonction des valeurs de glucose sanguin et des apports en glucides tels que la taille des repas par exemple. Un COB représente les glucides ingérés par l'utilisateur unique dont l'impact ne peut pas encore être mesuré dans le glucose sanguin.

Selon un mode de réalisation, les données d'utilisateur comprennent vingt-quatre points de valeurs de glycémie, vingt-quatre points d'insuline infusée à l'utilisateur et vingt-quatre points de COB. Ces points représentent un ensemble d'entrées s. Chaque point est horodaté et séparé du ou des points les plus proches par sensiblement cinq minutes. 'Sensiblement cinq minutes' correspond au taux de mesure du glucose sanguin et peut donc changer en fonction du procédé de mesure. Selon la présente invention, 'sensiblement cinq minutes' signifie cinq minutes plus ou moins une minute.

Selon un mode de réalisation, l'unité de recommandation est configurée pour déterminer la valeur de recommandation en fonction d'au moins une quantité de médicament infusé à l'utilisateur unique de la pluralité de quantités de médicament infusé à l'utilisateur, d'au moins une valeur physiologique de la pluralité de valeurs physiologiques de l'utilisateur unique et d'au moins une valeur estimée de la pluralité de valeurs estimées de la pluralité de valeurs estimées.

Selon un mode de réalisation, l'application de l'au moins un paramètre de renforcement d’entrainement et la détermination en sortie d'une valeur de recommandation signifie que s'il existe un total de dix paramètres de renforcement initiaux et qu'un seul est modifié afin d'obtenir un paramètre de renforcement d’entrainement, neuf paramètres de renforcement initiaux et un paramètre de renforcement d’entrainement seront appliqués.

Selon un mode de réalisation, l’entrainement est itérative. Une telle configuration permet d'affiner le dispositif de régulation par le biais d'itérations.

Selon un mode de réalisation, chaque itération a une durée sensiblement égale à dix jours. Une telle configuration permet de prendre en compte l'impact à long terme de certains paramètres ou d'autres variables sans avoir besoin d'une période trop longue pour former l'algorithme d'apprentissage par renforcement. Elle est particulièrement efficace en cas d'utilisation du dispositif de régulation pour déterminer une valeur de recommandation d'insuline, car l'insuline et les glucides ont des impacts à long terme sur la glycémie. Selon la présente invention, 'sensiblement dix jours' signifie dix jours, plus ou moins un jour.

Selon un mode de réalisation, le procédé de calcul de paramètre peut être de n'importe quel type tel qu'un réseau neuronal profond - généralement appelé réseau de politique - ou un arbre de décision.

Selon un mode de réalisation, le procédé de calcul de paramètres est un réseau neuronal qui peut être un réseau neuronal profond utilisant en entrée l'état de l'utilisateur unique conentrainément aux données d'utilisateur et délivrant en sortie une valeur de recommandation telle qu'une valeur d'insuline.

Selon un mode de réalisation, le procédé de calcul de paramètres est un perceptron multicouche (MLP) comprenant une première couche, deux couches cachées et une dernière couche. Chaque couche cachée compte soixante-quatre neurones. La première couche et les deux couches cachées ont chacune une activation tanh. Une telle configuration permet de maintenir un bon équilibre entre l'expressivité et la généralisation du procédé de calcul de paramètres et donc d'obtenir un dispositif de régulation à la fois robuste et précis.

Il convient de noter que n'importe quel type de procédé de calcul de paramètres peut être utilisé, tel qu'un réseau neuronal récurrent (RNN), une unité récurrente à portes (GRU), une longue mémoire à court terme (LSTM), un réseau neuronal de convolution (CNN) ou un régulateur PID (proportionnel, intégral, dérivée).

Selon un mode de réalisation, l'algorithme d'apprentissage par renforcement est entrainé en fournissant, au moins comme entrées dans un procédé de calcul de paramètres de l'algorithme d'apprentissage par renforcement, au moins une partie de la pluralité de quantités d'un médicament infusé à l'utilisateur unique, au moins une partie de la pluralité de valeurs physiologiques de l'utilisateur unique, au moins une partie de la pluralité de valeurs estimées et une cible physiologique. La cible physiologique représente une valeur physiologique et correspond à une cible que le dispositif de régulation doit chercher à atteindre. L'unité de recommandation est également configurée pour déterminer la valeur de recommandation en fonction d'au moins une quantité de médicament infusé à l'utilisateur unique de la pluralité de quantités d'un médicament infusé à l'utilisateur unique, d'au moins une valeur physiologique de la pluralité de valeurs physiologiques de l'utilisateur unique, d'au moins une valeur estimée de la pluralité de valeurs estimées et de la cible physiologique. La cible physiologique change en fonction du comportement unique de l'utilisateur tel qu'un repas ou une activité physique. Une telle configuration permet au dispositif de régulation de prendre en compte le comportement de l'utilisateur unique même après l’entrainement de l'algorithme d'apprentissage par renforcement.

Selon un mode de réalisation spécifique, l'algorithme d'apprentissage par renforcement est entrainé en utilisant comme entrées dans un procédé de calcul de paramètres de l'algorithme d'apprentissage par renforcement :

plusieurs points de valeurs de glycémie correspondant à une pluralité de valeurs physiologiques de l'utilisateur unique ;

plusieurs points d'insuline infusée à l'utilisateur ;

plusieurs points de COB ;

une cible physiologique ; et

une plage acceptable ;

la cible physiologique et la plage acceptable pouvant varier dans le temps. Une telle configuration permet au dispositif de régulation d'appliquer un algorithme d'apprentissage par renforcement entrainé prenant en compte le comportement de l'utilisateur unique. L'unité de recommandation est configurée pour déterminer la valeur de recommandation en fonction de plusieurs points de valeurs de glycémie correspondant à une pluralité de valeurs physiologiques de l'utilisateur unique, plusieurs points d'insuline infusée à l'utilisateur, plusieurs points de COB, une cible physiologique et une plage acceptable.

Selon un mode de réalisation, la cible physiologique et la gamme acceptable varient en fonction du comportement de l'utilisateur unique.

Selon un mode de réalisation spécifique compatible avec les modes de réalisation présentés ci-dessus, les données d'utilisateur comprennent également au moins une annonce de repas. L'unité de recommandation est donc configurée pour déterminer la valeur de recommandation en fonction de :

plusieurs points d'insuline infusée à l'utilisateur ;

plusieurs points de COB ; et

au moins une annonce de repas ;

dans lequel l'algorithme d'apprentissage par renforcement est entrainé en fournissant au moins, comme entrées dans le procédé de calcul de paramètres, les mêmes données. Selon la présente invention, une annonce de repas représente une annonce d'un futur repas contenant une certaine quantité de glucides à une heure future. Une telle configuration permet d'obtenir un dispositif de régulation capable d'ajuster son comportement et d'améliorer sa gestion des repas. L'annonce de repas peut également comprendre une mesure de la teneur en matières grasses du repas et/ou du temps qui sépare l'utilisateur unique du repas.

Selon un mode de réalisation, l'unité de recommandation est configurée pour déterminer la valeur de recommandation en fonction au moins d'une donnée des données d'utilisateur et en appliquant une pluralité d'algorithmes d'apprentissage par renforcement. Chaque algorithme d'apprentissage par renforcement de la pluralité d'algorithmes d'apprentissage par renforcement est configuré pour utiliser au moins une donnée des données d'utilisateur comme entrée et délivrer en sortie une valeur de recommandation. Dans ce mode de réalisation, l'unité de recommandation fait la moyenne d'une pluralité de sorties issues de la pluralité d'algorithmes d'apprentissage par renforcement. Chacun des algorithmes d'apprentissage par renforcement est entrainé comme décrit ci-dessus, mais diffère des autres algorithmes d'apprentissage par renforcement au moins sur la base de l'un des suivants :

au moins un paramètre de renforcement initial ;

le comportement de l'utilisateur unique durant l’entrainement, comme un bruit de capteur, ou des habitudes prandiales par exemple ;

le procédé de calcul de paramètres ;

la durée d'une période d’entrainement ; et

n'importe quel autre paramètre.

Une telle configuration permet d'obtenir un dispositif de régulation qui détermine une valeur de recommandation d'une bonne précision.

Selon un mode de réalisation, l'algorithme d'apprentissage par renforcement est itératif. A chaque itération, l'unité de recommandation est testée pendant une durée prédéfinie. Une telle configuration permet d'augmenter la sécurité du dispositif de régulation.

Selon un mode de réalisation, l'actualisation d'au moins un paramètre de renforcement initial de la pluralité de paramètres de renforcement initiaux en fonction du score de récompense est réalisée de telle sorte que l'au moins un paramètre de renforcement initial actualisé de la pluralité de paramètres de renforcement initiaux ne diffère pas par plus d'un pourcentage prédéterminé de l'au moins un paramètre de renforcement initial de la pluralité de paramètres de renforcement initiaux. Une telle configuration permet d'augmenter considérablement la sécurité du dispositif de régulation car l'au moins un paramètre de renforcement initial de la pluralité de paramètres de renforcement initiaux est modifié pas à pas. Le pourcentage prédéterminé peut être d'un pour cent par exemple.

Selon un mode de réalisation, l'algorithme d'apprentissage par renforcement est entrainé à l'aide d'un environnement simulé et l'utilisateur unique utilisé lors de l’entrainement de l'algorithme d'apprentissage par renforcement est un utilisateur virtuel.

Une telle configuration permet d'accélérer le processus d’entrainement et de réduire le risque humain.

Selon un mode de réalisation, l'algorithme d'apprentissage par renforcement est entrainé à l'aide de plusieurs utilisateurs virtuels. Une telle configuration permet d'obtenir un dispositif de régulation robuste car l'algorithme d'apprentissage par renforcement a été entrainé dans diverses situations.

Selon un mode de réalisation dans lequel l’entrainement de l'algorithme d'apprentissage par renforcement est itératif, pour chaque itération, ledit algorithme d'apprentissage par renforcement est entrainé avec des conditions différentes afin d'obtenir différents scores de récompense correspondant au même au moins un paramètre de renforcement d’entrainement. L'algorithme d'apprentissage par renforcement est ensuite entrainé en utilisant au moins un paramètre de renforcement d’entrainement différent mais dans les mêmes conditions que précédemment afin de comparer l'au moins un paramètre de renforcement d’entrainement différent et d'obtenir ainsi un dispositif de régulation plus robuste et précis. Selon un mode de réalisation, l’entrainement de l'algorithme d'apprentissage par renforcement avec trois conditions différentes avec le même au moins un paramètre de renforcement d’entrainement permet d'obtenir un dispositif de régulation robuste et précis sans nécessiter une charge de calcul excessive pendant l’entrainement.

Selon un mode de réalisation spécifique dans lequel l'algorithme d'apprentissage par renforcement est entrainé en fournissant au moins comme entrées plusieurs points de valeurs de glycémie correspondant à une pluralité de valeurs physiologiques de l'utilisateur unique ;

plusieurs points d'insuline infusée à l'utilisateur ;

plusieurs points de COB ; et

au moins une annonce de repas ;

dans lequel l'algorithme d'apprentissage par renforcement est entrainé avec au moins une annonce bruitée. Une telle configuration permet d'obtenir un dispositif de régulation robuste, notamment en cas d'annonce de repas erronée une fois que l'algorithme d'apprentissage par renforcement est entrainé. L'au moins une annonce bruitée peut être de n'importe quel type tel que :

une annonce de repas alors que l'utilisateur virtuel n'ingère aucun repas ;

une annonce de repas comprenant de fausses informations telles qu'une quantité de glucides incorrecte ou une indication de lipides incorrecte ; ou

aucune annonce de repas alors que l'utilisateur ingère un repas par exemple.

Selon un mode de réalisation, l'utilisateur virtuel est basé sur l'utilisateur unique. Une telle configuration permet d'obtenir un dispositif de régulation très précis car l'algorithme d'apprentissage par renforcement est spécifiquement entrainé à l'aide d'un utilisateur virtuel basé sur l'utilisateur unique, tout en permettant d'accélérer le processus d’entrainement et de réduire le risque humain.

Selon un mode de réalisation, l'algorithme d'apprentissage par renforcement est entrainé en essayant différents ensembles d'au moins un paramètre de renforcement d’entrainement.

Selon la présente invention, un ensemble d'au moins un paramètre de renforcement d’entrainement est au moins un paramètre de renforcement initial modifié afin d'obtenir au moins un paramètre de renforcement d’entrainement. Par conséquent, différents ensembles sont différents en ce que chaque ensemble présente au moins un paramètre de renforcement d’entrainement différent des autres ensembles.

Selon un mode de réalisation dans lequel l'algorithme d'apprentissage par renforcement est entrainé à l'aide d'un environnement simulé, les caractéristiques dudit environnement simulé restent les mêmes pour chaque ensemble d'au moins un paramètre de renforcement. Une telle configuration permet de calculer un score de récompense basé uniquement sur ledit ensemble. Les caractéristiques de l'environnement simulé proviennent par exemple de l'utilisateur unique, de ses comportements et d'autres variables aléatoires par exemple.

Selon un mode de réalisation, l'actualisation est réalisée comme suit :

où :

représente la pluralité de paramètres de renforcement initiaux ;

e représente la différence entre la pluralité de paramètres de renforcement initiaux et au moins un paramètre de renforcement d’entrainement ;

les (e1, ..., ek) sont échantillonnés selon une distribution normale de variance σ ;

k représente le nombre d'ensembles d'au moins un paramètre de renforcement d’entrainement ;

s représente l'écart type de (F(Θ+e1), F(Θ-e1), ..., F(Θ+ek), F(Θ-ek)) ;

TopDir représente les meilleures directions, c'est-à-dire l'ek présentant les scores de récompense les plus élevés obtenus par les différents ensembles d'au moins un paramètre de renforcement d’entrainement ;

et ε représente un taux d'apprentissage.

Une telle configuration permet d'obtenir un dispositif de régulation d'une bonne robustesse et adaptabilité.

Selon un mode de réalisation, le taux d'apprentissage est fixe. Une telle configuration permet de contrôler l’entrainement avec précision.

Selon un mode de réalisation, le taux d'apprentissage diminue de façon exponentielle tout au long des itérations afin de "motiver" des changements plus forts dans les premières itérations et des changements plus petits dans les itérations ultérieures. Une telle configuration permet d'éviter de dépasser un optimum à chaque pas.

Selon un mode de réalisation, s = 30. Une telle configuration permet d'observer un meilleur comportement de convergence.

Selon un mode de réalisation, les données d'utilisateur sont normalisées.

Une telle configuration permet d'obtenir une convergence plus rapide et plus précise de l'algorithme d'apprentissage par renforcement pendant l’entrainement.

Selon un mode de réalisation, les données d'utilisateur sont modifiées pour comprendre un bruit.

Une telle configuration permet d'obtenir un dispositif de régulation d'une grande robustesse.

Selon un mode de réalisation, la pluralité de quantités d'un médicament infusé à l'utilisateur unique et la pluralité de valeurs physiologiques de l'utilisateur unique sont modifiées pour comprendre un bruit. Une telle configuration permet d'obtenir un dispositif de régulation d'une grande robustesse.

Selon un mode de réalisation, le bruit peut être de n'importe quel type tel qu'un bruit gaussien ou un bruit spécifique reproduisant le bruit d'un glucomètre en continu (CGM) par exemple. Une telle configuration permet d'obtenir un dispositif de régulation d'une grande robustesse notamment dans son application avec un utilisateur diabétique utilisant un CGM.

Selon un mode de réalisation, le score de récompense est calculé comme suit :

Si , alors

Si

Ou bien

Tous les K(n) d'une période de temps déterminée sont ensuite additionnés afin d'obtenir le score de récompense.

Où :

PHY(n) représente une valeur physiologique de la pluralité de valeurs physiologiques de l'utilisateur unique présentant un horodatage n ;

THRl représente une valeur seuil inférieure d'une plage ;

K(n) représente le score de récompense à un instant n ;

THRh représente une valeur seuil supérieure de la plage ; et

TAR représente une cible physiologique.

Une telle configuration permet de calculer le score de récompense pendant toute la période de temps déterminée sans décompte et d'améliorer la robustesse du dispositif de régulation en cas d'impact à long terme de certains paramètres ou d'autres variables. Elle est particulièrement efficace en cas d'utilisation du dispositif de régulation pour déterminer une valeur de recommandation d'insuline, car l'insuline et les glucides ont des impacts à long terme sur la glycémie.

Selon un mode de réalisation, la période de temps déterminée est une période de temps correspondant à une période durant laquelle l'algorithme d'apprentissage par renforcement est entrainé.

Selon un mode de réalisation dans lequel le dispositif de régulation est utilisé pour déterminer une valeur d'insuline :

PHY(n) représente le glucose sanguin de l'utilisateur unique à un horodatage n ;

THRl représente la valeur seuil d'hypoglycémie d'une plage de normoglycémie ; et

THRh représente la valeur seuil d'hyperglycémie de la gamme de normoglycémie.

Si , alors

Si

Ou bien

Tous les K(n) de la période de temps déterminée sont ensuite additionnés afin d'obtenir le score de récompense.

Où :

représente un paramètre accordable ; et

représente un paramètre accordable.

Une telle configuration permet d'optimiser davantage le calcul du score de récompense en affinant l'équilibre entre les différents régimes de glycémie par exemple.

Selon un mode de réalisation, le score de récompense est calculé en fonction de la variation du glucose sanguin. Une telle configuration permet d'augmenter le confort de l'utilisateur unique car le dispositif de régulation tend à réduire autant que possible la variation du glucose sanguin. Le score de récompense est également calculé en fonction des valeurs de recommandation, les valeurs de recommandation étant des quantités d'insuline, et plus la quantité d'insuline pendant une certaine période est élevée, plus le score de récompense est bas. Une telle configuration permet de lisser la quantité d'insuline dans le temps et de limiter la quantité totale des quantités d'insuline et donc de réduire la progression d'une résistance à l'insuline de l'utilisateur unique, en réduisant aussi les petits changements de glucose sanguin et améliore donc la santé de l'utilisateur unique.

Selon un mode de réalisation, le score de récompense est également calculé à l'aide de coefficients de pénalité tels qu'un coefficient de pénalité d'hypoglycémie, un coefficient de pénalité d'hyperglycémie ou un coefficient de pénalité cible0par exemple. Le score de récompense étant calculé comme suit :

Si

ou bien, si

ou bien

où :

représente le coefficient de pénalité cible ;

représente le coefficient de pénalité d'hypoglycémie ; et

représente le coefficient de pénalité d'hyperglycémie.

Une telle caractéristique permet de former plus précisément l'algorithme d'apprentissage par renforcement en modifiant les coefficients de pénalité en fonction de ce qui compte le plus pour l'utilisateur unique. On pourrait, par exemple, appliquer une sanction plus sévère pour l'hypoglycémie que pour l'hyperglycémie car l'hypoglycémie implique souvent un risque plus important pour l'utilisateur unique.

Selon un mode de réalisation, le score de récompense est réduit si PHY(n) se situe en dehors d'une plage acceptable.

Une telle configuration permet d'abaisser le score de récompense dans des cas spécifiques et donc d'améliorer l'actualisation de l'au moins un paramètre de renforcement initial de la pluralité de paramètres de renforcement.

Selon un mode de réalisation, si PHY(n) est en dehors de la plage acceptable, aucun des points ultérieurs n'est pris en compte. Une telle configuration permet dans certains cas de réduire fortement le score de récompense. En effet, si durant l’entrainement de l'algorithme d'apprentissage par renforcement, une simulation simule un utilisateur virtuel pendant une période de dix jours, et PHY(n) est en dehors de la plage acceptable une fois au cours de la première journée par exemple, aucun des points présentant un horodatage plus récent que le point où PHY(n) est en dehors de la plage acceptable ne sera pris en compte pour le calcul du score de récompense. Une telle configuration permet d'obtenir un dispositif de régulation qui détermine une valeur de recommandation présentant un très faible risque de placer PHY(n) en dehors d'une plage acceptable.

Selon un mode de réalisation dans lequel PHY(n) représente le glucose sanguin de l'utilisateur unique à un horodatage n, la plage acceptable pourrait être comprise entre une hypoglycémie et une hyperglycémie correspondant respectivement à 70 mg/dL et 180 mg/dL de glucose sanguin.

Selon un mode de réalisation, le score de récompense est réduit si PHY(n) est en dehors d'une plage acceptable et le score de récompense est plus fortement réduit si PHY(n) est en dessous d'une limite inférieure de la plage acceptable plutôt qu'au-dessus d'une limite supérieure de la plage acceptable.

Selon un mode de réalisation dans lequel PHY(n) représente le glucose sanguin de l'utilisateur unique à un horodatage n, la limite inférieure de la gamme représente un taux d'hypoglycémie et la limite supérieure de la plage représente un taux d'hyperglycémie. Une telle configuration permet d'obtenir un dispositif de régulation plus sûr car l'algorithme d'apprentissage par renforcement est entrainé pour éviter toute hypoglycémie de manière plus agressive qu'une hyperglycémie.

Selon un mode de réalisation, si PHY(n) est en dessous de la limite inférieure de la plage acceptable, aucun des points ultérieurs n'est pris en compte tandis que si PHY(n) est au-dessus de la limite supérieure de la plage acceptable, les points ultérieurs sont pris en compte mais abaissés d'un coefficient ayant une valeur inférieure à un. Une telle configuration permet dans certains cas de réduire fortement le score de récompense. En effet, si lors de l’entrainement de l'algorithme d'apprentissage par renforcement, une simulation simule un utilisateur virtuel pendant une période de dix jours, et PHY(n) est en dessous de la limite inférieure de la plage acceptable une fois au cours de la première journée par exemple, aucun des points présentant un horodatage plus récent que le point auquel PHY(n) est en dehors de la plage acceptable ne sera pris en compte pour le calcul du score de récompense. Une telle configuration permet d'obtenir un dispositif de régulation qui détermine une valeur de recommandation présentant un très faible risque de placer PHY(n) en dessous de la limite inférieure de la plage acceptable et un faible risque de placer PHY(n) au-dessus de la limite supérieure.

Selon un mode de réalisation, l'unité de recommandation est configurée pour déterminer la valeur de recommandation en fonction d'au moins une donnée des données d'utilisateur, ladite donnée présentant un horodatage correspondant à une période d'intérêt d'un certain type.

Une telle configuration ne permet l'utilisation du dispositif de régulation que pendant les périodes d'intérêt d'un certain type durant lesquelles le dispositif de régulation produit les meilleurs résultats.

Selon un mode de réalisation, l'unité de recommandation est configurée pour déterminer la valeur de recommandation en fonction d'au moins une donnée des données d'utilisateur, ladite donnée présentant un horodatage correspondant à une période d'intérêt d'un certain type et dans lequel l'algorithme d'apprentissage par renforcement est entrainé en fournissant au moins, comme entrées pour un procédé de calcul de paramètres de l'algorithme d'apprentissage par renforcement au moins une partie de la pluralité de quantités d'un médicament infusé à l'utilisateur unique présentant un horodatage correspondant à une période d'intérêt du certain type, au moins une partie de la pluralité de valeurs physiologiques de l'utilisateur unique présentant un horodatage correspondant à une période d'intérêt du certain type et au moins une partie de la pluralité de valeurs estimées présentant un horodatage correspondant à une période d'intérêt du certain type. Une telle configuration permet d'obtenir un dispositif de régulation capable de déterminer avec précision une valeur de recommandation basée sur au moins une donnée des données d'utilisateur présentant un horodatage correspondant à une période d'intérêt d'un certain type car l'algorithme d'apprentissage par renforcement a été entrainé à l'aide de données présentant un horodatage correspondant à une période d'intérêt du même certain type. Par conséquent, l'algorithme d'apprentissage par renforcement est spécifiquement entrainé pour une période d'intérêt du certain type.

Selon un mode de réalisation, plusieurs dispositifs de régulation peuvent être utilisés, chaque dispositif de régulation prenant en charge un certain type de période d'intérêt. Une telle configuration permet l'utilisation d'un certain type de dispositif de régulation pendant un certain type de période d'intérêt qui applique un algorithme d'apprentissage par renforcement spécifiquement entrainé en utilisant ce certain type de période d'intérêt.

Selon un mode de réalisation, les certains types de période d'intérêt sont au nombre de trois :

- un type de période prandiale, une période prandiale est une période qui commence au début d'un apport en glucides et se termine dans des conditions telles qu'un écart moyen entre une valeur estimée de la pluralité de valeurs estimées, telle que la glycémie future, et une valeur physiologique de la pluralité de valeurs physiologiques est dû uniquement à l'insuline et non à des apports en glucides ;

- un type de période de repos, une période de repos est une période pendant laquelle une valeur estimée de la pluralité de valeurs estimées telle que l'insuline active (IOB) est faible et une valeur physiologique de la pluralité de valeurs physiologiques telle qu'un glucose sanguin n'est influencée que par une insuline basale ; et

- un type de période de remplissage, une période de remplissage est une période qui n'est ni une période prandiale, ni une période de repos, ni une période physique correspondant à une période d'activité physique.

Selon un mode de réalisation, le dispositif de régulation comprend également une unité de sécurité, l'unité de sécurité étant configurée pour déterminer qu'un statut de l'utilisateur unique est à risque ou non, et le cas échéant, déterminer une valeur de recommandation basée au moins sur une donnée des données d'utilisateur.

Une telle configuration confère davantage de sécurité au dispositif de régulation car l'unité de recommandation est ignorée dans le cas où un statut de l'utilisateur unique viendrait à être compromis.

Selon un mode de réalisation, un statut de l'utilisateur unique peut être de n'importe quel type tel que le taux de glucose sanguin par exemple. Dans cet exemple, le taux de glucose sanguin peut être considéré à risque en dehors de la plage de 70 à 180 mg/dL ou lorsque cette valeur présente un risque élevé de descendre en dessous de 70 mg/dL dans l'heure suivante. Ce risque peut être déterminé en appliquant une régression linéaire sur les valeurs de glycémie passées.

Selon un mode de réalisation, l'unité de sécurité est également configurée pour estimer l'IOB et adapter la valeur de recommandation afin de limiter le risque d'hypoglycémie pour l'utilisateur unique.

L'invention a également pour objet un procédé de détermination d'une valeur de recommandation d'un paramètre de régulation d'un dispositif d'infusion de fluide, le procédé étant mis en œuvre par le dispositif de régulation tel que décrit ci-dessus et comprenant les étapes suivantes :

récupération de données d'utilisateur, chaque donnée des données d'utilisateur étant horodatée et les données d'utilisateur se rapportant à un utilisateur unique, les données d'utilisateur comprenant au moins :

une pluralité de quantités d'un médicament infusé à l'utilisateur unique ;

une pluralité de valeurs physiologiques de l'utilisateur unique ;

une pluralité de valeurs estimées ; et

détermination de la valeur de recommandation d'un paramètre de régulation du dispositif d'infusion de fluide en fonction au moins d'une donnée des données d'utilisateur et en appliquant un algorithme d'apprentissage par renforcement comprenant une pluralité de paramètres de renforcement initiaux.

Selon un mode de réalisation, le procédé comprend également une étape préliminaire d’entrainement de l'algorithme d'apprentissage par renforcement selon les modes de réalisation précédemment décrits. L'algorithme d'apprentissage par renforcement peut être entrainé à l'aide d'un dispositif de régulation ou de n'importe quel autre dispositif.

Selon un mode de réalisation, le procédé peut également comprendre toute étape précédemment décrite comme un mode de réalisation du dispositif de régulation étant donné que ledit procédé est mis en œuvre, au moins partiellement, par le dispositif de régulation.

Selon un mode de réalisation, l’entrainement de l'algorithme d'apprentissage par renforcement comprend les étapes suivantes :

récupération de données d'utilisateur ;

normalisation des données d'utilisateur ;

bruitage des données d'utilisateur de telle sorte que les données d'utilisateur comportent un bruit ;

modification d'au moins un paramètre de renforcement initial afin d'obtenir au moins un paramètre de renforcement d’entrainement ;

fourniture comme entrées dans un procédé de calcul de paramètres de l'algorithme d'apprentissage par renforcement, d'au moins une partie de la pluralité de quantités d'un médicament infusé à l'utilisateur unique, d'au moins une partie de la pluralité de valeurs physiologiques de l'utilisateur unique et d'au moins une partie de la pluralité de valeurs estimées ;

détermination en sortie d'une valeur de recommandation en appliquant l'au moins un paramètre de renforcement d’entrainement ;

calcul d'un score de récompense, le score de récompense étant calculé en fonction au moins de l'impact de la valeur de recommandation sur la pluralité de valeurs physiologiques de l'utilisateur unique ; et

actualisation d'au moins un paramètre de renforcement initial de la pluralité de paramètres de renforcement initiaux en fonction du score de récompense.

Dans lequel, les étapes de récupération de données d'utilisateur, normalisation des données utilisateur, bruitage des données d'utilisateur, fourniture comme entrées et détermination d'une valeur de recommandation sont répétées durant la période déterminée, et dans lequel les étapes de récupération de données d'utilisateur, normalisation des données d'utilisateur, bruitage des données d'utilisateur, fourniture comme entrées, détermination d'une valeur de recommandation, calcul d'un score de récompense et actualisation d'au moins un paramètre de renforcement initial sont répétées un nombre déterminé de fois. Une telle configuration permet de former un algorithme d'apprentissage par renforcement robuste et précis.

L'invention a également pour objet un produit de programme d'ordinateur comprenant des instructions qui, à l'exécution du programme par un ordinateur, amènent l'ordinateur à mettre en œuvre les étapes du procédé décrit ci-dessus.

Les divers aspects non incompatibles définis ci-dessus peuvent être combinés.

Les modes de réalisation de l'invention sont décrits ci-après en référence aux dessins, brièvement décrits ci-dessous :

présente une vue schématique d'un dispositif de régulation selon un mode de réalisation de l'invention ; et

présente les étapes d'un procédé de détermination de la valeur de recommandation d'un paramètre de régulation du dispositif d'infusion de fluide selon un mode de réalisation de l'invention.

DESCRIPTION DÉTAILLÉE DE L'INVENTION

Comme le montre la , la présente invention a pour objet un dispositif de régulation 30 permettant de déterminer une valeur de recommandation, correspondant à une valeur de recommandation d'insuline, d'un paramètre de régulation d'un dispositif d'infusion de fluide 20. Le dispositif de régulation 30 comprend une unité de récupération 32 configurée pour récupérer des données d'utilisateur, chaque donnée des données d'utilisateur étant horodatée et les données d'utilisateur se rapportant à un utilisateur unique et étant bruitées. Une telle configuration permet d'obtenir un dispositif de régulation 30 d'une grande robustesse. Le bruit peut être de n'importe quel type tel qu'un bruit gaussien ou un bruit spécifique reproduisant le bruit d'un glucomètre en continu (CGM) par exemple. Une telle configuration permet d'obtenir un dispositif de régulation 30 d'une grande robustesse notamment dans son application avec un utilisateur diabétique utilisant un CGM.

Les données d'utilisateur comprennent au moins :

une pluralité de quantités d'un médicament infusé à l'utilisateur unique, la quantité de médicament infusé correspondant à de l'insuline ;

une pluralité de valeurs physiologiques de l'utilisateur unique, les valeurs physiologiques de l'utilisateur unique correspondant à des valeurs de glucose sanguin ; et

une pluralité de valeurs estimées, les valeurs estimées correspondant à des valeurs glucides actifs (COB).

Un COB peut être estimé en fonction des valeurs de glucose sanguin et des apports en glucides tels que la taille des repas par exemple. Un COB représente les glucides ingérés par l'utilisateur unique dont l'impact ne peut pas encore être mesuré dans le glucose sanguin.

Le dispositif de régulation 30 comprend également une unité de recommandation 34 configurée pour déterminer la valeur de recommandation en fonction au moins d'une donnée des données d'utilisateur et en appliquant un algorithme d'apprentissage par renforcement comprenant une pluralité de paramètres de renforcement initiaux. Plus précisément, l'unité de recommandation 34 est configurée pour déterminer la valeur de recommandation en fonction d'au moins une quantité d'insuline infusée à l'utilisateur unique de la pluralité de quantités de médicament infusé à l'utilisateur, d'au moins une valeur de glucose sanguin de la pluralité de valeurs physiologiques de l'utilisateur unique et d'au moins un COB de la pluralité de valeurs estimées de la pluralité de valeurs estimées.

Le dispositif de régulation 30 comprend une unité de conversion 38 configurée pour convertir la valeur de recommandation d'insuline en un paramètre de régulation du dispositif d'infusion de fluide 20. Selon un mode de réalisation, le paramètre prend la forme d'un bolus et/ou d'un basal. Une telle configuration permet au dispositif d'infusion 20 d'infuser la valeur de recommandation à l'utilisateur unique.

L'algorithme d'apprentissage par renforcement est entrainé en :

modifiant au moins un paramètre de renforcement initial afin d'obtenir au moins un paramètre de renforcement d’entrainement ;

fournissant au moins, comme entrées dans un procédé de calcul de paramètres, de n'importe quel type, tel qu'un réseau neuronal profond également appelé réseau de politique ou arbre de décision, de l'algorithme d'apprentissage par renforcement, au moins une partie de la pluralité de quantités d'un médicament infusé à l'utilisateur unique, au moins une partie de la pluralité de valeurs physiologiques de l'utilisateur unique et au moins une partie de la pluralité de valeurs estimées ;

Selon un mode de réalisation, l'application d'au moins un paramètre de renforcement d’entrainement et la détermination en sortie d'une valeur de recommandation signifie que s'il existe un total de dix paramètres de renforcement initiaux et qu'un seul est modifié afin d'obtenir un paramètre de renforcement d’entrainement, neuf paramètres de renforcement initial et un paramètre de renforcement d’entrainement seront appliqués. Le procédé de calcul de paramètres est un perceptron multicouche (MLP) comprenant une première couche, deux couches cachées et une dernière couche. Chaque couche cachée compte soixante-quatre neurones. La première couche et les deux couches cachées ont chacune une activation tanh. Une telle configuration permet de maintenir un bon équilibre entre l'expressivité et la généralisation du procédé de calcul de paramètres et donc d'obtenir un dispositif de régulation 30 à la fois robuste et précis.

Un tel dispositif de régulation 30, plus il est utilisé, permet de déterminer une valeur de recommandation de plus en plus précise. Un tel dispositif de régulation 30 est également extrêmement souple d'emploi et adaptatif. Une telle configuration permet également d'obtenir un dispositif de régulation robuste 30 sans nécessiter d'autre connaissance préalable telle que la dose journalière totale, le débit basal moyen en usage pour un patient diabétique unique par exemple.

Selon un mode de réalisation spécifique, l'unité de recommandation 34 est configurée pour ne pas recommander plus de soixante unités d'insuline par heure. L'unité de recommandation 34 est également configurée pour ne pas recommander plus de trois unités d'insuline par heure la nuit. Une telle configuration permet d'obtenir une unité de recommandation 34 d'une bonne précision car limiter la quantité d'insuline par heure à des valeurs spécifiques pendant l’entrainement permet d'améliorer l’entrainement et la sécurité de l'utilisateur unique.

Selon un mode de réalisation, les données d'utilisateur comprennent vingt-quatre points de valeurs de glycémie, vingt-quatre points d'insuline infusée à l'utilisateur et vingt-quatre points de COB. Ces points représentent un ensemble d'entrées s. Chaque point est horodaté et séparé du ou des points les plus proches par sensiblement cinq minutes. 'Sensiblement cinq minutes' correspond au taux de mesure de glucose sanguin et peut donc changer en fonction du procédé de mesure. Selon la présente invention, 'sensiblement cinq minutes' signifie cinq minutes plus ou moins une minute.

Selon un mode de réalisation, l'algorithme d'apprentissage par renforcement est entrainé en fournissant, au moins comme entrées dans un procédé de calcul de paramètres de l'algorithme d'apprentissage par renforcement, au moins une partie de la pluralité de quantités d'un médicament infusé à l'utilisateur unique, au moins une partie de la pluralité de valeurs physiologiques de l'utilisateur unique, au moins une partie de la pluralité de valeurs estimées et une cible physiologique. La cible physiologique représente une valeur physiologique et correspond à une cible que le dispositif de régulation 30 doit chercher à atteindre. L'unité de recommandation 34 est également configurée pour déterminer la valeur de recommandation en fonction d'au moins une quantité de médicament infusé à l'utilisateur unique de la pluralité de quantités d'un médicament infusé à l'utilisateur unique, d'au moins une valeur physiologique de la pluralité de valeurs physiologiques de l'utilisateur unique, d'au moins une valeur estimée de la pluralité de valeurs estimées et de la cible physiologique. La cible physiologique change en fonction du comportement de l'utilisateur unique tel qu'un repas ou une activité physique. Une telle configuration permet au dispositif de régulation 30 de prendre en compte le comportement de l'utilisateur unique même après l’entrainement de l'algorithme d'apprentissage par renforcement.

Selon un mode de réalisation spécifique, l'algorithme d'apprentissage par renforcement est entrainé en fournissant comme entrées dans un procédé de calcul de paramètres de l'algorithme d'apprentissage par renforcement :

plusieurs points d'insuline infusée à l'utilisateur ;

plusieurs points de COB ;

une cible physiologique ; et

une plage acceptable ;

la cible physiologique et la plage acceptable pouvant varier dans le temps. Une telle configuration permet au dispositif de régulation 30 d'appliquer un algorithme d'apprentissage par renforcement entrainé qui tient compte du comportement de l'utilisateur unique. L'unité de recommandation 34 est configurée pour déterminer la valeur de recommandation en fonction de plusieurs points de valeurs de glycémie correspondant à une pluralité de valeurs physiologiques de l'utilisateur unique, plusieurs points d'insuline infusée à l'utilisateur, plusieurs points de COB, une cible physiologique et une plage acceptable. La cible physiologique et la plage acceptable varient en fonction du comportement de l'utilisateur unique.

La précision du dispositif de régulation 30 peut également être améliorée si les données d'utilisateur comprennent également au moins une annonce de repas. L'unité de recommandation 34 est donc configurée pour déterminer la valeur de recommandation en fonction de :

plusieurs points d'insuline infusée à l'utilisateur ;

plusieurs points de COB ; et

au moins une annonce de repas ;

l'algorithme d'apprentissage par renforcement étant entrainé en fournissant au moins comme entrées dans le procédé de calcul de paramètres, les mêmes données. Selon la présente invention, une annonce de repas représente une annonce d'un futur repas contentant une certaine quantité de glucides à une heure future. Une telle configuration permet d'obtenir un dispositif de régulation 30 capable d'ajuster son comportement et d'améliorer sa gestion des repas. L'annonce de repas peut également comprendre une mesure de la teneur en matières grasses du repas et/ou du temps qui sépare l'utilisateur unique du repas.

Une autre façon d'améliorer considérablement la précision du dispositif de régulation 30 est de configurer une unité de recommandation 34 pour déterminer la valeur de recommandation en fonction au moins d'une donnée des données d'utilisateur et en appliquant une pluralité d'algorithmes d'apprentissage par renforcement. Chaque algorithme d'apprentissage par renforcement de la pluralité d'algorithmes d'apprentissage par renforcement est configuré pour utiliser en entrée au moins une donnée des données d'utilisateur et délivrer en sortie une valeur de recommandation. Dans ce mode de réalisation, l'unité de recommandation 34 fait la moyenne d'une pluralité de sorties issus de la pluralité d'algorithmes d'apprentissage par renforcement. Chacun des algorithmes d'apprentissage par renforcement est entrainé comme décrit ci-dessus, mais diffère des autres algorithmes d'apprentissage par renforcement au moins en ce qui concerne :

au moins un paramètre de renforcement initial ;

le comportement de l'utilisateur unique pendant l’entrainement, comme un bruit de capteur, ou des habitudes prandiales par exemple ;

le procédé de calcul de paramètres ;

la durée d'une période d’entrainement ; et

n'importe quel autre paramètre.

Une telle configuration permet d'obtenir un dispositif de régulation 30 qui détermine une valeur de recommandation avec une bonne précision.

L'actualisation d'au moins un paramètre de renforcement initial de la pluralité de paramètres de renforcement initiaux en fonction du score de récompense est réalisée de telle sorte que l'au moins un paramètre de renforcement initial actualisé de la pluralité de paramètres de renforcement initiaux ne diffère pas par plus d'un pourcentage prédéterminé de l'au moins un paramètre de renforcement initial de la pluralité de paramètres de renforcement initiaux. Une telle configuration permet d'augmenter considérablement la sécurité du dispositif de régulation 30 car l'au moins un paramètre de renforcement initial de la pluralité de paramètres de renforcement initiaux est modifié pas à pas. Un pourcentage prédéterminé préféré est de un pour cent.

L'algorithme d'apprentissage par renforcement est entrainé à l'aide d'un environnement simulé et l'utilisateur unique utilisé lors de l’entrainement de l'algorithme d'apprentissage par renforcement est un utilisateur virtuel de préférence basé sur l'utilisateur unique ou un utilisateur réel. Une telle configuration permet d'accélérer le processus d’entrainement et de réduire le risque humain. Une telle configuration permet d'obtenir un dispositif de régulation très précis 30 car l'algorithme d'apprentissage par renforcement est spécifiquement entrainé à l'aide d'un utilisateur virtuel basé sur l'utilisateur unique, tout en permettant d'accélérer le processus d'entraînement et de réduire le risque humain.

L'algorithme d'apprentissage par renforcement est entrainé à l'aide de plusieurs utilisateurs virtuels. Une telle configuration permet d'obtenir un dispositif de régulation robuste 30 car l'algorithme d'apprentissage par renforcement a été entrainé dans diverses situations.

Selon un mode de réalisation, l’entrainement est itérative, et se déroule de la manière suivante :

Commencer avec un réseau de politique π_θaux paramètres initiaux θ

Pour i dans les itérations :

Echantillonner n vecteurs de bruit (e₁,...,e_n) de la même forme que θ le long d'une distribution normale N(0, σ)

Echantillonner m valeurs de départ aléatoires (s₁,...,_{s m}), lesdites valeurs de départ aléatoires définissant toute nature aléatoire de l'environnement

Pour un signe dans [-1, 1] : exécuter en parallèle

Pour chaque vecteur e_i : , permet d'évaluer les performances de ce bruit

Pour chaque valeur de départ aléatoire s_j: Créer un patient virtuel à partir de la valeur de départ aléatoire s_j

Exécuter la simulation à l'aide de la commande fournie par le réseau de politique avec les paramètres θ + signe* e_i, jusqu'à ce que le patient meure ou que le nombre maximum de pas soit atteint. A chaque pas de temps t, stocker la récompense r(i,j,t)

Calculer la récompense totale de l'épisode R(i,j) = Σ_tr(i,j,t)

Calculer la récompense moyenne pour le i-ème agent F(i, signe) = 1/m * Σ_jR(i,j)

Conserver uniquement les k premiers indices dans [1, 2, ..., n] triés par max(F(i, 1), F(i,-1))

Calculer s = std_h _{in top} _dir(F(h,1), F(h,-1)), en corrigeant l'actualisation par std des évaluations

Actualiser les paramètres principaux à l'aide de la formule: , permet d'approximer le pas de gradient

Θ = Θ + ε/(2kσs)Σ k_{k in top dir}(F(k,1) - F(k,-1))e_k

Délivrer en sortie : le réseau de politique final π_θ

Une telle configuration permet d'affiner le dispositif de régulation 30 par le biais d'itérations et augmente la sécurité du dispositif de régulation 30.

Selon un mode de réalisation, chaque itération a une durée sensiblement égale à dix jours. Une telle configuration permet de prendre en compte un impact à long terme de certains paramètres ou d'autres variables sans avoir besoin d'une période trop longue pour former l'algorithme d'apprentissage par renforcement. Elle est particulièrement efficace en cas d'utilisation du dispositif de régulation 30 pour déterminer une valeur de recommandation d'insuline, car l'insuline et les glucides ont des impacts à long terme sur la glycémie. Selon la présente invention, 'sensiblement dix jours' signifie dix jours, plus ou moins un jour.

Pour chaque itération, l'algorithme d'apprentissage par renforcement est entrainé avec des conditions différentes afin d'obtenir différents scores de récompense correspondant au même au moins un paramètre de renforcement d’entrainement. L'algorithme d'apprentissage par renforcement est ensuite entrainé en utilisant au moins un paramètre de renforcement d’entrainement différent mais dans les mêmes conditions que précédemment afin de comparer l'au moins un paramètre de renforcement d’entrainement différent et d'obtenir ainsi un dispositif de régulation 30 plus robuste et précis. L’entrainement de l'algorithme d'apprentissage par renforcement avec trois conditions différentes avec le même au moins un paramètre de renforcement d’entrainement permet d'obtenir un dispositif de régulation robuste et précis 30 sans nécessiter une charge de calcul excessive pendant l’entrainement.

plusieurs points d'insuline infusée à l'utilisateur ;

plusieurs points de COB ; et

au moins une annonce de repas ;

l'algorithme d'apprentissage par renforcement étant entrainé avec au moins une annonce bruitée. Une telle configuration permet d'obtenir un dispositif de régulation robuste 30, notamment en cas d'annonce de repas erronée une fois que l'algorithme d'apprentissage par renforcement est entrainé. L'au moins une annonce bruitée peut être de n'importe quel type tel que :

une annonce de repas alors que l'utilisateur virtuel n'ingère aucun repas ;

une annonce de repas comportant de fausses informations telles qu'une quantité de glucides erronée ou une indication de lipides erronée ; ou

aucune annonce de repas alors que l'utilisateur ingère un repas par exemple.

Selon un mode de réalisation spécifique, l'algorithme d'apprentissage par renforcement est entrainé en essayant différents ensembles d'au moins un paramètre de renforcement d’entrainement. Un ensemble d'au moins un paramètre de renforcement d’entrainement est au moins un paramètre de renforcement initial modifié afin d'obtenir au moins un paramètre de renforcement d’entrainement. Par conséquent, les différents ensembles sont différents en ce que chaque ensemble présente au moins un paramètre de renforcement d’entrainement différent des autres ensembles.

Pour calculer un score de récompense basé uniquement sur un ensemble, les caractéristiques de l'environnement simulé restent les mêmes pour chaque ensemble d'au moins un paramètre de renforcement. Les caractéristiques de l'environnement simulé proviennent par exemple de l'utilisateur unique, de ses comportements et d'autres variables aléatoires par exemple et peuvent également être appelées "valeur de départ".

l'actualisation de l'au moins un paramètre de renforcement initial est comme suit :

où :

représente la pluralité de paramètres de renforcement initiaux ;

s représente l'écart type de (F(Θ+e1), F(Θ-e1), ..., F(Θ+ek), F(Θ-ek)) ;

TopDir représente les meilleures directions, autrement dit l'ek avec les scores de récompense les plus élevés obtenus par les différents ensembles d'au moins un paramètre de renforcement d’entrainement ; et

représente un taux d'apprentissage ;

Une telle configuration permet d'obtenir un dispositif de régulation 30 d'une bonne robustesse et adaptabilité.

Le taux d'apprentissage peut soit être fixe pour contrôler l’entrainement avec précision, soit diminuer exponentiellement tout au long des itérations afin de "motiver" des changements plus forts dans les itérations initiales et des changements plus petits dans les itérations ultérieures. Une telle configuration permet d'éviter de dépasser un optimum à chaque pas.

Les données d'utilisateur sont normalisées, une telle configuration permet d'obtenir une convergence plus rapide et plus précise de l'algorithme d'apprentissage par renforcement pendant l’entrainement.

Le score de récompense est calculé comme suit :

Si , alors

Si

Ou bien

Tous les K(n) d'une période de temps déterminée sont ensuite additionnés afin d'obtenir le score de récompense. La période de temps déterminée est une période de temps correspondant à une période durant laquelle l'algorithme d'apprentissage par renforcement est entrainé. Cette période avait une durée de dix jours.

Où:

PHY(n) représente le glucose sanguin de l'utilisateur unique présentant un horodatage n ;

THRl représente la valeur seuil d'hypoglycémie d'une plage de normoglycémie ;

K(n) représente le score de récompense à un instant n ;

TAR représente une cible physiologique.

Une telle configuration permet de calculer le score de récompense pendant toute la période de temps déterminée sans décompte et d'améliorer la robustesse du dispositif de régulation 30 en cas d'impact à long terme de certains paramètres ou d'autres variables. Elle est particulièrement efficace en cas d'utilisation du dispositif de régulation 30 pour déterminer une valeur de recommandation d'insuline, car l'insuline et les glucides ont des impacts à long terme sur la glycémie.

Selon un mode de réalisation spécifique, le score de récompense est calculé comme suit :

Si , alors

Si

Ou bien

Où :

représente un paramètre accordable ; et

représente un paramètre accordable.

Le score de récompense peut également être calculé en fonction de la variation du glucose sanguin. Une telle configuration permet d'augmenter le confort de l'utilisateur unique car le dispositif de régulation 30 tend à réduire au maximum la variation du glucose sanguin. Le score de récompense est également calculé en fonction des valeurs de recommandation, les valeurs de recommandation étant des quantités d'insuline, et plus la quantité d'insuline pendant une certaine période est élevée, plus le score de récompense est bas. Une telle configuration permet de lisser la quantité d'insuline dans le temps et de limiter la quantité totale des quantités d'insuline et donc de réduire la progression d'une résistance à l'insuline de l'utilisateur unique, en réduisant aussi les petits changements de glucose sanguin et améliore donc la santé de l'utilisateur unique.

Le score de récompense peut également être calculé à l'aide de coefficients de pénalité tels qu'un coefficient de pénalité d'hypoglycémie, un coefficient de pénalité d'hyperglycémie ou un coefficient de pénalité cible0par exemple. Le score de récompense étant calculé comme suit :

Si

ou bien, si

ou bien

où :

représente le coefficient de pénalité cible ;

représente le coefficient de pénalité d'hypoglycémie ; et

représente le coefficient de pénalité d'hyperglycémie.

Un abaissement du score dans des cas spécifiques améliore également l'actualisation de l'au moins un paramètre de renforcement initial de la pluralité de paramètres de renforcement et améliore donc la sécurité du dispositif de régulation 30 lorsque le score de récompense est réduit si PHY(n) est en dehors d'une plage acceptable par exemple. Selon un mode de réalisation dans lequel PHY(n) représente le glucose sanguin de l'utilisateur unique à un horodatage n, la plage acceptable pourrait être comprise entre une hypoglycémie et une hyperglycémie correspondant respectivement à 70 mg/dL et 180 mg/dL de glucose sanguin.

Selon un mode de réalisation spécifique, si PHY(n) est en dehors de la plage acceptable, aucun des points ultérieurs n'est pris en compte. Une telle configuration permet dans certains cas de réduire fortement le score de récompense. En effet, si lors de l'algorithme d'apprentissage par renforcement d’entrainement, une simulation simule un utilisateur virtuel pendant une période de dix jours, et PHY(n) est en dehors de la plage acceptable une fois au cours de la première journée par exemple, aucun des points présentant un horodatage plus récent que le point auquel PHY(n) est en dehors de la plage acceptable ne sera pris en compte pour le calcul du score de récompense. Une telle configuration permet d'obtenir un dispositif de régulation 30 qui détermine une valeur de recommandation présentant un très faible risque de placer PHY(n) en dehors d'une plage acceptable.

Il est également intéressant d'avoir un score de récompense réduit si PHY(n) est en dehors d'une plage acceptable et de réduire encore davantage ledit score de récompense lorsque PHY(n) est en dessous d'une limite inférieure de la plage acceptable plutôt qu'au-dessus d'une limite supérieure de la plage acceptable, la limite supérieure correspondant à l'hyperglycémie et la limite inférieure correspondant à l'hypoglycémie. Une telle configuration permet d'augmenter la sécurité du dispositif de régulation 30 car l'hypoglycémie est souvent plus dangereuse que l'hyperglycémie. Autrement dit, selon un mode de réalisation dans lequel PHY(n) représente le glucose sanguin de l'utilisateur unique à un horodatage n, la limite inférieure de la gamme représente un taux d'hypoglycémie et la limite supérieure de la plage représente un taux d'hyperglycémie. Une telle configuration permet d'obtenir un dispositif de régulation plus sûr 30 car l'algorithme d'apprentissage par renforcement est entrainé pour éviter toute hypoglycémie de manière plus agressive qu'une hyperglycémie. Il est également possible d'améliorer la sécurité du dispositif de régulation 30 car si PHY(n) est en dessous de la limite inférieure de la plage acceptable, aucun des points ultérieurs n'est pris en compte alors que si PHY(n) est au-dessus de la limite supérieure de la plage acceptable, les points ultérieurs sont pris en compte mais abaissés d'un coefficient ayant une valeur inférieure à un. Une telle configuration permet dans certains cas de réduire fortement le score de récompense. En effet, si lors de l’entrainement de l'algorithme d'apprentissage par renforcement, une simulation simule un utilisateur virtuel pendant une période de dix jours, et PHY(n) est en dessous de la limite inférieure de la plage acceptable une fois au cours de la première journée par exemple, aucun des points présentant un horodatage plus récent que le point auquel PHY(n) est en dehors de la plage acceptable ne sera pris en compte pour le calcul du score de récompense. Une telle configuration permet d'obtenir un dispositif de régulation 30 qui détermine une valeur de recommandation présentant un très faible risque de placer PHY(n) en dessous de la limite inférieure de la plage acceptable et un faible risque de placer PHY(n) au-dessus de la limite supérieure.

L'unité de recommandation 34 est configurée pour déterminer la valeur de recommandation en fonction d'au moins une donnée des données d'utilisateur, ladite donnée présentant un horodatage correspondant à une période d'intérêt d'un certain type. Une telle configuration permet l'utilisation du dispositif de régulation 30 uniquement pendant les périodes d'intérêt d'un certain type dans lesquelles le dispositif de régulation 30 produit les meilleurs résultats. Plus précisément, l'unité de recommandation 34 est configurée pour déterminer la valeur de recommandation en fonction d'au moins une donnée des données d'utilisateur, ladite donnée présentant un horodatage correspondant à une période d'intérêt d'un certain type et l'algorithme d'apprentissage par renforcement étant entrainé en fournissant au moins, comme entrées dans un procédé de calcul de paramètres de l'algorithme d'apprentissage par renforcement, au moins une partie de la pluralité de quantités d'un médicament infusé à l'utilisateur unique présentant un horodatage correspondant à une période d'intérêt du certain type, au moins une partie de la pluralité de valeurs physiologiques de l'utilisateur unique présentant un horodatage correspondant à une période d'intérêt du certain type et au moins une partie de la pluralité de valeurs estimées présentant un horodatage correspondant à une période d'intérêt du certain type. Une telle configuration permet d'obtenir un dispositif de régulation 30 capable de déterminer avec précision une valeur de recommandation basée sur au moins une donnée des données d'utilisateur présentant un horodatage correspondant à une période d'intérêt d'un certain type étant donné que l'algorithme d'apprentissage par renforcement a été entrainé en utilisant des données présentant un horodatage correspondant à une période d'intérêt du même certain type. Par conséquent, l'algorithme d'apprentissage par renforcement est spécifiquement entrainé pour une période d'intérêt du certain type. Il est donc possible d'utiliser plusieurs dispositifs de régulation 30, chaque dispositif de régulation 30 prenant en charge un certain type de période d'intérêt. Une telle configuration permet l'utilisation d'un certain type de dispositif de régulation 30 durant un certain type de période d'intérêt qui applique un algorithme d'apprentissage par renforcement spécifiquement entrainé à l'aide de ce certain type de période d'intérêt.

Il existe trois types de périodes d'intérêt :

Le dispositif de régulation 30 comprend également une unité de sécurité 36, l'unité de sécurité 36 étant configurée pour déterminer qu'un statut de l'utilisateur unique est à risque ou non et, le cas échéant, déterminer une valeur de recommandation basée au moins sur une donnée des données d'utilisateur. Une telle configuration confère davantage de sécurité au dispositif de régulation 30 car l'unité de recommandation 34 est ignorée dans le cas où un statut de l'utilisateur unique viendrait à être compromis. Le statut de l'utilisateur unique correspond au taux de glucose sanguin de l'utilisateur unique. Le taux de glucose sanguin peut être considéré à risque en dehors de la plage de 70 à 180 mg/dL ou lorsque cette valeur présente un risque élevé de descendre en dessous de 70 mg/dL dans l'heure suivante. Ce risque peut être déterminé en appliquant une régression linéaire sur les valeurs de glycémie passées. L'unité de sécurité 36 est également configurée pour estimer l'IOB et adapter la valeur de recommandation afin de limiter le risque d'hypoglycémie pour l'utilisateur unique.

Comme le montre la , la présente invention a également pour objet un procédé de détermination d'une valeur de recommandation d'un paramètre de régulation d'un dispositif d'infusion de fluide 20, le procédé étant mis en œuvre par le dispositif de régulation 30 selon les caractéristiques décrites ci-dessus. Le procédé comprend les étapes suivantes :

récupération de données d'utilisateur 40, chaque donnée des données d'utilisateur étant horodatée et les données d'utilisateur se rapportant à un utilisateur unique, les données d'utilisateur comprenant au moins :

une pluralité de quantités d'un médicament infusé à l'utilisateur unique ;

une pluralité de valeurs physiologiques de l'utilisateur unique ;

une pluralité de valeurs estimées ; et

détermination de la valeur de recommandation d'un paramètre de régulation du dispositif d'infusion de fluide 20 en fonction au moins d'une donnée des données d'utilisateur et en appliquant un algorithme d'apprentissage par renforcement comprenant une pluralité de paramètres de renforcement initiaux.

Le procédé comprend également une étape préliminaire d’entrainement de l'algorithme d'apprentissage par renforcement selon les modes de réalisation décrits précédemment. L'algorithme d'apprentissage par renforcement peut être entrainé à l'aide d'un dispositif de régulation 30 ou de n'importe quel autre dispositif. Le procédé peut également comprendre toute étape précédemment décrite comme un mode de réalisation du dispositif de régulation 30 étant donné que ledit procédé est mis en œuvre, au moins partiellement, par le dispositif de régulation 30.

L’entrainement de l'algorithme d'apprentissage par renforcement comprend les étapes suivantes :

récupération de données d'utilisateur 40 ;

normalisation des données d'utilisateur 42 ;

bruitage des données d'utilisateur 44 de telle sorte que les données d'utilisateur comportent un bruit ;

modification d'au moins un paramètre de renforcement initial 46 afin d'obtenir au moins un paramètre de renforcement d’entrainement ;

fourniture comme entrées 48 dans un procédé de calcul de paramètres de l'algorithme d'apprentissage par renforcement, d'au moins une partie de la pluralité de quantités d'un médicament infusé à l'utilisateur unique, d'au moins une partie de la pluralité de valeurs physiologiques de l'utilisateur unique et d'au moins une partie de la pluralité de valeurs estimées ;

détermination en sortie d'une valeur de recommandation 50 en appliquant l'au moins un paramètre de renforcement d’entrainement ;

calcul d'un score de récompense 52, le score de récompense étant calculé en fonction au moins de l'impact de la valeur de recommandation sur la pluralité de valeurs physiologiques de l'utilisateur unique ; et

actualisation d'au moins un paramètre de renforcement initial 54 de la pluralité de paramètres de renforcement initiaux en fonction du score de récompense.

Dans lequel, les étapes de récupération de données d'utilisateur 40, normalisation des données d'utilisateur 42, bruitage des données d'utilisateur 44, utilisation comme entrées 48 et détermination d'une valeur de recommandation 50 sont répétées pendant la période déterminée, et les étapes de récupération de données d'utilisateur 40, normalisation des données d'utilisateur 42, bruitage des données d'utilisateur 44, fourniture comme entrées 48, détermination d'une valeur de recommandation 50, calcul d'un score de récompense 52 et actualisation d'au moins un paramètre de renforcement initial 54 sont répétées un nombre déterminé de fois. Une telle configuration permet de former un algorithme d'apprentissage par renforcement robuste et précis.

La présente invention a également pour objet un produit de programme d'ordinateur comprenant des instructions qui, à l'exécution du programme par un ordinateur, amènent l'ordinateur à mettre en œuvre les étapes du procédé décrit ci-dessus.

Bien que des exemples de modes de réalisation de l'invention aient été décrits, l'homme de métier comprendra que diverses modifications, omissions et/ou additions peuvent être effectuées, et que des équivalents peuvent être substitués à des éléments de celle-ci sans s'écarter de l'esprit et de l'étendue de l'invention. En outre, de nombreuses modifications peuvent être apportées pour adapter une situation ou des informations particulières aux enseignements de l'invention sans s'écarter de l'étendue de celle-ci. Par conséquent, l'invention ne doit pas être comprise comme étant limitée aux modes de réalisation particuliers divulgués pour sa mise en œuvre, mais comme incluant tous modes de réalisation couverts par l'étendue des revendications annexées. De plus, sauf indication contraire, toute utilisation des termes premier, deuxième, etc. ne dénote aucun ordre ou importance, mais les termes premier, deuxième, etc. sont utilisés plutôt pour distinguer un élément d'un autre.

Claims

Dispositif de régulation (30) pour déterminer une valeur de recommandation d'un paramètre de régulation d'un dispositif d'infusion de fluide (20), le dispositif de régulation (30) comprenant :
une unité de récupération (32), l'unité de récupération (32) étant configurée pour récupérer des données d'utilisateur, chaque donnée des données d'utilisateur étant horodatée et les données d'utilisateur se rapportant à un utilisateur unique, les données d'utilisateur comprenant au moins :
une pluralité de quantités d'un médicament infusé à l'utilisateur unique ;
une pluralité de valeurs physiologiques de l'utilisateur unique ;
une pluralité de valeurs estimées ;
une unité de recommandation (34), l'unité de recommandation (34) étant configurée pour déterminer la valeur de recommandation en fonction au moins d'une donnée des données d'utilisateur et en appliquant un algorithme d'apprentissage par renforcement comprenant une pluralité de paramètres de renforcement initiaux, l'algorithme d'apprentissage par renforcement étant entrainé en :
modifiant au moins un paramètre de renforcement initial afin d'obtenir au moins un paramètre de renforcement d’entrainement;
fournissant au moins, comme entrées dans un procédé de calcul de paramètres de l'algorithme d'apprentissage par renforcement, au moins une partie de la pluralité de quantités d'un médicament infusé à l'utilisateur unique, au moins une partie de la pluralité de valeurs physiologiques de l'utilisateur unique et au moins une partie de la pluralité de valeurs estimées ;
appliquant l'au moins un paramètre de renforcement d’entrainement et déterminant en sortie une valeur de recommandation ;
calculant un score de récompense, le score de récompense étant calculé en fonction au moins de l'impact de la valeur de recommandation sur la pluralité de valeurs physiologiques de l'utilisateur unique ; et
actualisant au moins un paramètre de renforcement initial de la pluralité de paramètres de renforcement initiaux en fonction du score de récompense.
Dispositif de régulation (30) selon la revendication 1, dans lequel l'algorithme d'apprentissage par renforcement est entrainé à l'aide d'un environnement simulé et l'utilisateur unique utilisé lors de l’entrainement à l'algorithme d'apprentissage par renforcement est un utilisateur virtuel.
Dispositif de régulation (30) selon la revendication 2, dans lequel l'utilisateur virtuel est basé sur l'utilisateur unique.
Dispositif de régulation (30) selon l'une quelconque des revendications 1 à 3, dans lequel l'algorithme d'apprentissage par renforcement est entrainé en essayant différents ensembles d'au moins un paramètre de renforcement d’entrainement.
Dispositif de régulation (30) selon la revendication 4, dans lequel l'actualisation est réalisée comme suit :

où:
représente la pluralité de paramètres de renforcement initiaux ;
e représente la différence entre la pluralité de paramètres de renforcement initiaux et au moins un paramètre de renforcement d’entrainement;
les (e₁, ..., e_k) sont échantillonnés selon une distribution normale de variance σ ;
k représente le nombre d'ensembles d'au moins un paramètre de renforcement d’entrainement;
s représente l'écart type de (F(Θ+e1), F(Θ-e1), ..., F(Θ+ek), F(Θ-ek)) ;
TopDir représente les meilleures directions, c'est-à-dire l'e_kavec les scores de récompense les plus élevés obtenus par les différents ensembles d'au moins un paramètre de renforcement d’entrainement ;
et représente un taux d'apprentissage.
Dispositif de régulation (30) selon l'une quelconque des revendications 1 à 5, dans lequel les données d'utilisateur sont normalisées.
Dispositif de régulation (30) selon l'une quelconque des revendications 1 à 6, dans lequel les données d'utilisateur sont modifiées pour comprendre un bruit.
Dispositif de régulation (30) selon l'une quelconque des revendications 1 à 7, dans lequel le score de récompense est calculé comme suit :
Si , alors
Si
Ou bien
Tous les K(n) d'une période de temps déterminée sont ensuite additionnés afin d'obtenir le score de récompense.
Où :
PHY(n) représente une valeur physiologique de la pluralité de valeurs physiologiques de l'utilisateur unique présentant un horodatage n ;
THRl représente une valeur seuil inférieure d'une plage ;
K(n) représente le score de récompense à un instant n ;
THRh représente une valeur seuil supérieure de la plage ; et
TAR représente une cible physiologique.
Dispositif de régulation (30) selon la revendication 8, dans lequel le score de récompense est réduit si PHY(n) est en dehors d'une plage acceptable.
Dispositif de régulation (30) selon la revendication 9, dans lequel le score de récompense est réduit si PHY(n) est en dehors d'une plage acceptable et dans lequel le score de récompense est plus fortement réduit si PHY(n) est en dessous d'une limite inférieure de la plage acceptable plutôt qu'au-dessus d'une limite supérieure de la plage acceptable.
Dispositif de régulation (30) selon l'une quelconque des revendications 1 à 10, dans lequel l'unité de recommandation (34) est configurée pour déterminer la valeur de recommandation en fonction d'au moins une donnée des données d'utilisateur, ladite donnée présentant un horodatage correspondant à une période d'intérêt d'un certain type.
Dispositif de régulation (30) selon l'une quelconque des revendications 1 à 11, dans lequel le dispositif de régulation comprend également une unité de sécurité (36), l'unité de sécurité (36) étant configurée pour déterminer qu'un statut de l'utilisateur unique est à risque ou non, et le cas échéant, déterminer une valeur de recommandation basée au moins sur une donnée d'utilisateur.
Procédé de détermination d'une valeur de recommandation d'un paramètre de régulation d'un dispositif d'infusion de fluide (20), le procédé étant mis en œuvre par un dispositif de régulation (30) selon l'une quelconque des revendications 1 à 12 et comprenant les étapes suivantes :
récupération de données d'utilisateur (40), chaque donnée des données d'utilisateur étant horodatée et les données d'utilisateur se rapportant à un utilisateur unique, les données d'utilisateur comprenant au moins :
une pluralité de quantités d'un médicament infusé à l'utilisateur unique ;
une pluralité de valeurs physiologiques de l'utilisateur unique ;
une pluralité de valeurs estimées ; et
détermination de la valeur de recommandation d'un paramètre de régulation du dispositif d'infusion de fluide (20) en fonction au moins d'une donnée des données d'utilisateur et en appliquant un algorithme d'apprentissage par renforcement comprenant une pluralité de paramètres de renforcement initiaux.
Produit de programme d'ordinateur comprenant des instructions qui, à l'exécution du programme par un ordinateur, amènent l'ordinateur à mettre en œuvre les étapes du procédé selon la revendication 13.