EP3625731A1

EP3625731A1 - Architecture de récompense hybride pour apprentissage par renforcement

Info

Publication number: EP3625731A1
Application number: EP18723249.1A
Authority: EP
Inventors: Harm Hendrik Van Seijen; Seyed Mehdi FATEMI BOOSHEHRI; Romain Michel Henri Laroche; Joshua Samuel Romoff
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2017-05-18
Filing date: 2018-04-21
Publication date: 2020-03-25
Also published as: WO2018212918A1

Abstract

Des aspects de la présente invention concernent des techniques d'apprentissage machine, comportant la décomposition de problèmes d'apprentissage par renforcement mono-agent en problèmes plus simples pris en charge par des agents multiples. Les actions proposées par les agents multiples sont ensuite agrégées à l'aide d'un agrégateur, lequel sélectionne une action à engager vis-à-vis d'un environnement. Des aspects de la présente invention concernent également un modèle de récompense hybride.