CN111027705A - 基于随机微分方程的连续性强化学习模型构造系统及方法 - Google Patents

基于随机微分方程的连续性强化学习模型构造系统及方法 Download PDF

Info

Publication number
CN111027705A
CN111027705A CN201911113880.2A CN201911113880A CN111027705A CN 111027705 A CN111027705 A CN 111027705A CN 201911113880 A CN201911113880 A CN 201911113880A CN 111027705 A CN111027705 A CN 111027705A
Authority
CN
China
Prior art keywords
module
function
construction
action
environment state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911113880.2A
Other languages
English (en)
Inventor
贾文川
程丽梅
陈添豪
马书根
袁建军
孙翊
蒲华燕
鲍晟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Transpacific Technology Development Ltd
University of Shanghai for Science and Technology
Original Assignee
Beijing Transpacific Technology Development Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Transpacific Technology Development Ltd filed Critical Beijing Transpacific Technology Development Ltd
Priority to CN201911113880.2A priority Critical patent/CN111027705A/zh
Publication of CN111027705A publication Critical patent/CN111027705A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • G06F17/13Differential equations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Operations Research (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于随机微分方程的连续性强化学习模型构造系统及方法,包括动作微分构造模块、环境状态微分构造模块、基础模型存在性检验模块、基础模型构造模块、值估计器构造模块、环境状态估计器构造模块和动作策略生成器构造模块;值估计器构造模块包含值估计器优化函数构造模块、Q函数更新模块和未来奖励估计模块;环境状态估计器构造模块包含环境状态估计器优化函数构造模块、环境状态估计器优化器附加目标函数构造模块、未来环境状态预测模块和环境状态参数计算模块。应用本发明所构造得到的强化学习模型,能够实现对动作增量的计算,保证动作的连续性,并能够适用于连续物理系统的实际控制。

Description

基于随机微分方程的连续性强化学习模型构造系统及方法
技术领域
本发明属于强化学习技术领域,更具体的说是涉及一种基于随机微分方程的连续性强化学习模型构造系统及方法。
背景技术
强化学习是一种基于环境交互的机器学习方法,是通过与环境交互而进行以目标为导向的学习方法,学习者是从其行为的后果中进行学习的。强化学习使得智能体能够在与环境的交互过程中通过值函数来判断当前的环境状态,并做出相应的动作来获得更好的奖励。目前的强化学习方法主要针对离散状态环境中的模型及应用。
尽管现有的经典连续性强化学习方法如DDPG、PPO、A3C等,已初步应用于机械臂动作控制等连续性系统,但是普遍存在不足,例如DDPG在引入噪声后能够保证其控制的动作是连续性的,但是无法控制方差;而高斯策略下的A3C,尽管可以控制方差,却在特定的场合无法满足动作的连续性条件。
因此,本发明提供了一种基于随机微分方程的连续性强化学习模型构造系统及方法,用于构造连续性的强化学习模型。
发明内容
有鉴于此,本发明提供了一种基于随机微分方程的连续性强化学习模型构造系统及方法,能够构造出一种在任意时间间隔满足连续性条件,并且在连续性动作环境中能够运用的强化学习模型与方法,并能够更好的适应环境。
本发明提出的一种基于随机微分方程的连续性强化学习模型构造系统,主要包含如下模块:动作微分构造模块,环境状态微分构造模块,基础模型存在性检验模块,基础模型构造模块,值估计器构造模块,环境状态估计器构造模块和动作策略生成器构造模块。
动作微分构造模块用于构造动作的微分形式;环境状态微分构造模块用于构造环境状态的微分形式;基础模型构造模块包括F函数构造子模块、G函数构造子模块,动作环境组合微分构造子模块,用于构造F函数
Figure BDA0002273522170000021
G函数
Figure BDA0002273522170000022
以及生成用于强化学习的基础模型dYt;基础模型存在性检验模块用于检验所构造基础模型的唯一性和存在性;值估计器构造模块包括值估计器优化函数构造模块,Q函数更新模块和未来奖励估计模块,用于构造值估计器的优化函数JQ(θ),更新Q函数并计算输出未来奖励估计值;环境状态估计器构造模块包括环境状态估计器优化函数构造模块,环境状态估计器优化器附加目标函数构造模块,未来环境状态预测模块和环境状态参数计算模块,用于环境状态估计器优化器目标函数JEp)的构造,环境状态估计器优化器附加目标函数J′Ep)的构造以及未来环境状态值s′k的预测和θp计算;动作策略生成器构造模块包括动作增量计算模块,下一步动作计算模块,下一步环境动作状态构造模块,动作策略生成器优化器目标函数构造模块和θv计算模块,用于动作策略生成器优化函数的构造,当前动作增量Δak计算,下一步动作值ak+1计算以及下一步环境动作状态的生成。
本发明提出的一种基于随机微分方程的连续性强化学习模型的构造方法,该方法的构造过程包括以下步骤:
步骤S1,将环境动作状态Yt=(st,at)输入至动作微分构造模块和环境状态微分构造模块,环境状态微分构造模块构造环境状态微分项并输出,动作微分构造模块构造动作微分项并输出。
步骤S2,将步骤S1中输出的环境状态微分项以及动作微分项输入至基础模型构造模块,基础模型构造模块构造得到F函数
Figure BDA0002273522170000031
G函数
Figure BDA0002273522170000032
和基础模型dYt并输出;
步骤S3,将步骤S2中输出的F函数
Figure BDA0002273522170000033
G函数
Figure BDA0002273522170000034
基础模型dYt以及折扣率γ输入至值估计器构造模块,值估计器优化函数构造模块生成值估计器优化函数JQ(θ),并通过未来奖励值估计模块计算得到未来奖励估计值,Q函数更新模块根据生成的值估计器优化函数JQ(θ)对Q函数进行更新;
步骤S4,将环境动作状态Yk=(sk,ak)和步骤S1输出的环境状态微分项输入至环境状态估计器构造模块,环境状态估计器优化函数构造模块构造出环境状态估计器优化函数JEp),环境状态估计器附加优化函数构造模块构造出附加优化函数J′Ep);环境状态参数计算模块根据构造出的环境状态估计器优化函数JEp)和环境状态估计器附加优化函数J′Ep)计算得到环境参数θp并输出;未来环境状态预测模块根据构造出的环境状态估计器优化函数JEp)和环境状态估计器附加优化函数J′Ep)预测未来环境状态估计值;
步骤S5,将环境动作状态Yk=(sk,ak),步骤S2中输出的F函数
Figure BDA0002273522170000035
G函数
Figure BDA0002273522170000036
和基础模型dYt输入至动作策略生成器构造模块,动作策略生成器构造模块中的动作增量计算模块依据输入的环境动作状态Yk=(sk,ak)计算得到动作增量Δak,下一步动作模块依据动作增量计算模块计算得到的动作增量和当前动作ak计算得到下一步动作ak+1,动作策略动作生成器构造模块中的策略生成器优化函数构造模块依据输入的F函数
Figure BDA0002273522170000037
G函数
Figure BDA0002273522170000038
和基础模型dYt构造得到动作策略生成器的优化函数J′Av),并输入至动作参数计算模块计算得到动作参数θv
本发明的一种基于随机微分方程的强化学习模型构造系统中的基础模型存在性检验模块,其检验条件具体形式如下:
(i)
Figure BDA0002273522170000041
(ii)
Figure BDA0002273522170000042
该检验模块的检验方法:判断F函数
Figure BDA0002273522170000043
G函数
Figure BDA0002273522170000044
是否同时满足上述检验条件;若满足条件,则由基础模型构造模块生成的基础模型唯一存在;若不满足则基础模型构造模块生成的基础模型不是唯一存在的。
本发明的值估计器优化函数构造模块包括随机微分方程特征算子构造子模块、二阶椭圆随机偏微分算子构造子模块、值估器优化函数构造子模块,Q函数约束子模块和Q函数存在性验证模块。值估计器优化函数构造模块的工作方法包括以下步骤:
步骤a1,F函数构造子模块构造的F函数
Figure BDA0002273522170000045
G函数构造子模块构造的G函数
Figure BDA0002273522170000046
输入至随机微分方程特征算子构造子模块,随机微分方程特征算子构造子模块构造得到随机微分方程特征算子AY并输出;
步骤a2,将步骤a1中的随机微分方程特征算子AY输入至二阶椭圆随机偏微分算子构造子模块,二阶椭圆随机偏微分算子构造子模块生成二阶椭圆随机偏微分算子LY并输出;
步骤a3,将折扣率γ输入至Q函数约束子模块,同时根据Q函数存在性验证模块,共同输出存在的Q函数;
步骤a4,将步骤a2得到的二阶椭圆随机偏微分算子LY和步骤a3中得到的Q函数同时输入至值估计器优化函数构造子模块生成值估计器优化函数JQ(θ)。
本发明的环境状态估计器优化函数构造模块包括u函数构造子模块,θp估计函数构造模块和环境状态估计器优化函数构造子模块;本发明的环境状态估计器附加优化函数构造模块包括环境状态估计器附加优化函数构造子模块,附加优化函数简化模块和环境状态估计器附加优化函数输出模块。
环境状态估计器优化函数的构造包括以下步骤:
步骤b1,将环境动作状态Yt和基础模型输入至u函数构造子模块,u函数构造子模块构造出u函数;
步骤b2,将步骤b1中的u函数输入至θp估计函数构造模块,θp估计函数构造模块生成θp估计函数;
步骤b3,将步骤b2中生成的θp估计函数输入至环境状态估计器优化函数构造子模块,环境状态估计器优化函数构造子模块构造出环境状态估计器优化函数并输出。
环境状态估计器附加优化函数的构造包括以下步骤:
步骤c1,将环境动作状态Yt和基础模型输入至环境状态估计器附加优化函数构造模块,环境状态估计器附加优化函数构造模块生成环境状态估计器附加优化函数;
步骤c2,对步骤c1生成的环境状态估计器附加优化函数,判断其是否达到忽略方差项的条件,若达到则进入附加函数简化模块对环境状态估计器附加优化函数进行简化并输出,若未达到则直接输出。
动作策略生成器优化函数构造模块包括随机微分方程特征算子构造子模块,动作策略生成器优化函数构造子模块,动作策略生成器优化函数简化子模块和动作策略生成器优化函数输出子模块。
动作策略生成器优化函数的构造包括以下步骤:
步骤d1,将基础模型构造模块输出的F函数
Figure BDA0002273522170000051
G函数
Figure BDA0002273522170000052
和环境动作状态Yk输入至随机微分方程特征算子构造子模块构造随机微分方程特征算子AY并输出;
步骤d2,将步骤d1构造得到的随机微分方程特征算子AY输入至动作策略生成器优化函数构造子模块生成动作策略生成器优化函数J′Av)并输出;
步骤d3,判断动作策略生成器优化函数J′Av)是否达到忽略相关性小项条件,若达到则输入至动作策略生成器优化函数简化子模块进行简化计算后输出,若未达到则直接输出动作策略生成器优化函数J′Av)。
综上所述,本发明提出一种基于随机微分方程的连续性强化学习模型构造系统及方法,以动作和环境状态的微分形式作为其强化学习模型构建的起点,引入随机微分项,能够构造出处理连续性问题和控制方差的强化学习方法模型,并且构造出的强化学习方法还能够避免经典强化学习中一些弊端的出现。
本发明的有益效果在于:
1、本发明中值估计器构造模块及其工作方法所构造得到的优化函数,能够完成基于随机微分方程的Q函数网络的参数更新以及Q函数的更新,更新得到的Q函数能满足DDPG、A3C等经典强化学习方法中的Q函数约束条件。
2、本发明中环境状态估计器构造模块及其工作方法,基于过去某一时刻的动作微分和环境状态微分所构造的环境状态估计器优化函数和附加优化函数,实现了对未来环境状态的合理估计,相比较于由当前环境状态直接生成动作的方式,提升了动作的连续性;其中所包含的环境状态参数估计函数库,能够提供多种参数估计函数,以实现在不同具体环境类型中的应用。
3、本发明中动作策略生成器构造模块实现了对动作增量的计算,保证了动作的连续性,适用于连续物理系统的实际控制;其简化模块能够在某些条件下进一步简化优化函数,以减小计算量,提升系统的计算效率与反应能力。
4、本发明中的各模块均面向微分形式的动作和环境状态进行设计,既能够分别独立完成各子函数与子模型的构造,也能够共同构成完整的基于微分方程的强化学习方法构建。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明连续性强化学习模型构造系统的整体结构示意图;
图2是本发明基础模型构造过程的示意图;
图3是本发明值估计器构造模块的示意图;
图4是本发明环境状态估计器构造模块的示意图;
图5是本发明动作策略生成器构造模块的示意图;
图6是本发明的一种应用实例图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种基于随机微分方程的连续性强化学习模型构造系统及方法,能够构造出一种在连续性动作环境中能够运用的强化学习模型与方法,并能够更好的适应环境。
参阅图1,本发明提供了一种基于随机微分方程的连续性强化学习模型构造系统,包括动作微分构造模块1,环境状态微分构造模块2,基础模型存在性检验模块3,基础模型构造模块4,值估计器构造模块5,环境状态估计器构造模块6和动作策略生成器构造模块7。
动作微分构造模块1用于构造动作的微分形式;
环境状态微分构造模块2用于构造环境状态的微分形式;
图2是基础模型构造过程的示意图,示出了强化学习方法的基础模型构造过程,该过程包含了动作微分构造模块1、环境状态微分构造模块2、基础模型构造模块4和基础模型存在性检验模块3。
基础模型构造模块4包含F函数构造子模块41、G函数构造子模块42,动作环境组合微分构造子模块43,分别用于构造F函数
Figure BDA0002273522170000081
G函数
Figure BDA0002273522170000082
以及生成用于强化学习的基础模型dYt
基础模型存在性检验模块3用于检验所构造基础模型的唯一性和存在性;
图3是值估计器构造模块的示意图,示出了值估计器的构造过程,值估计器构造模块5包含值估计器优化函数构造模块51,Q函数更新模块52和未来奖励估计模块53,用于构造值估计器的优化函数JQ(θ),更新Q函数并计算输出未来奖励估计值。
值估计器优化函数构造模块51包括随机微分方程特征算子构造子模块511,二阶椭圆随机偏微分算子构造子模块512,值估器优化函数构造子模块513,Q函数约束子模块514和Q函数存在性验证模块515。
值估计器优化函数构造模块51的工作方法包括以下步骤:
步骤a1,将F函数构造子模块构造41的F函数
Figure BDA0002273522170000083
与G函数构造子模块42构造的G函数
Figure BDA0002273522170000084
输入至随机微分方程特征算子构造子模块511,随机微分方程特征算子构造子模块511构造得到随机微分方程特征算子AY并输出;步骤a2,将步骤a1中的随机微分方程特征算子AY输入至二阶椭圆随机偏微分算子构造子模块512,二阶椭圆随机偏微分算子构造子模块512生成二阶椭圆随机偏微分算子LY并输出;步骤a3,将折扣率γ输入至Q函数约束子模块514,并与Q函数存在性验证模块515共同得到及输出存在的Q函数;步骤a4,将步骤a2得到的二阶椭圆随机偏微分算子LY和步骤a3中得到的Q函数同时输入至值估计器优化函数构造子模块513生成值估计器优化函数JQ(θ)。
随机微分方程特征算子构造子模块(511),其具体构造方法为:
Figure BDA0002273522170000091
二阶椭圆随机偏微分算子构造子模块(512),其具体构造方法为:
Figure BDA0002273522170000092
值估器优化函数构造子模块(513),其具体构造方法为:
JQ(θ)=(LYQθ(s,a)+Ey[r])2
图4是环境状态估计器构造模块的示意图,示出了环境状态估计器的构造过程,环境状态估计器构造模块6包含环境状态估计器优化函数构造模块61,环境状态估计器优化器附加目标函数构造模块62,未来环境状态预测模块63和环境状态参数计算模块64,用于环境状态估计器优化器目标函数JEp)的构造,环境状态估计器优化器附加目标函数J′Ep)的构造以及未来环境状态值s′k的预测和θp计算。
环境状态估计器优化函数构造模块61包括u函数构造子模块611,θp估计函数构造模块612和环境状态估计器优化函数构造子模块613;环境状态估计器附加优化函数构造模块62,包括环境状态估计器附加优化函数构造子模块621,附加优化函数简化模块622和环境状态估计器附加优化函数输出模块623。
环境状态估计器优化函数构造模块61的工作方法包括以下步骤:
步骤b1,将环境动作状态Yt和基础模型dYt输入至u函数构造子模块611,u函数构造子模块611构造出u函数;步骤b2,将步骤b1输出的u函数输入至θp估计函数构造模块612,θp估计函数构造模块612生成θp估计函数;步骤b3,将步骤b2中生成的θp估计函数输入至环境状态估计器优化函数构造子模块613,环境状态估计器优化函数构造子模块613构造出环境状态估计器优化函数并输出。在图6所示的实例中考虑到各种情况,θp估计函数是从θp估计函数库中选取基于对数似然估计的θp估计函数。
环境状态估计器附加优化函数构造模块62,其工作方法包括以下步骤:
步骤c1,将环境动作状态Yt和基础模型输入至环境状态估计器附加优化函数构造模块621,环境状态估计器附加优化函数构造模块621生成环境状态估计器附加优化函数;步骤c2,对步骤c1生成的环境状态估计器附加优化函数,判断其是否达到忽略方差项的条件,若达到则进入附加函数简化模块622对环境状态估计器附加优化函数进行简化并输出,若未达到则直接输出。在图6所示的实例中,为了计算和表达方便,忽略附加优化函数中的方差项来简化优化函数。
图5是动作策略生成器构造模块的示意图,示出了动作策略生成器构造模块7的组成和动作策略生成器构造过程,动作策略生成器构造模块7包含动作增量计算模块71,下一步动作计算模块72,下一步环境动作状态构造模块73,动作策略生成器优化器目标函数构造模块74和动作参数计算模块75,用于动作策略生成器优化函数的构造,当前动作增量Δak计算,下一步动作值ak+1计算以及下一步环境动作状态Yk+1的生成。
动作策略生成器优化函数构造模块74包括随机微分方程特征算子构造子模块741,动作策略生成器优化函数构造子模块742,动作策略生成器优化函数简化子模块743和动作策略生成器优化函数输出子模块744。
动作策略生成器优化函数构造模块74的工作方法包括以下步骤:
步骤d1,将基础模型构造模块4输出的F函数
Figure BDA0002273522170000111
G函数
Figure BDA0002273522170000112
和环境动作状态Yk输入至随机微分方程特征算子构造子模块741构造随机微分方程特征算子AY并输出;步骤d2,将步骤d1构造得到的随机微分方程特征算子AY输入至动作策略生成器优化函数构造子模块742生成动作策略生成器优化函数J′Av)并输出;步骤d3,判断动作策略生成器优化函数J′Av)是否达到忽略相关性小项条件,若达到则输入至动作策略生成器优化函数简化子模块743进行简化计算后输出,若未达到则直接输出动作策略生成器优化函数J′Av)。在图6所示的实例中,考虑到参数θp对动作策略生成器的优化函数构造的影响小且相关性小,忽略只与θp相关项,简化动作策略生成器优化函数。
随机微分方程特征算子构造子模块(741)的构造方法为:
Figure BDA0002273522170000113
动作策略生成器优化函数构造子模块(742),其具体构造方法为:
Figure BDA0002273522170000114
动作策略生成器优化函数简化子模块(743),其简化计算方法为:
Figure BDA0002273522170000115
本发明提出的一种基于随机微分方程的连续性强化学习模型的构造方法,包括以下步骤:
步骤S1,将环境动作状态Yt=(st,at)输入至动作微分构造模块1和环境状态微分构造模块2,环境状态微分构造模块2构造环境状态微分项并输出,动作微分构造模块1构造动作微分项并输出。
步骤S2,将步骤S1中输出的环境状态微分项以及动作微分项输入至基础模型构造模块3,基础模型构造模块4构造得到F函数
Figure BDA0002273522170000121
G函数
Figure BDA0002273522170000122
和基础模型dYt并输出。
步骤S3,将步骤S2中输出的F函数
Figure BDA0002273522170000123
G函数
Figure BDA0002273522170000124
基础模型dYt以及折扣率γ输入至值估计器构造模块5,值估计器优化函数构造模块51生成值估计器优化函数JQ(θ),并通过未来奖励值估计模块53计算得到未来奖励估计值,Q函数更新模块52根据生成的值估计器优化函数JQ(θ)对Q函数进行更新。
步骤S4,将环境动作状态Yk=(sk,ak)和步骤S1输出的环境状态微分项输入至环境状态估计器构造模块6,环境状态估计器优化函数构造模块61构造出环境状态估计器优化函数JEp),环境状态估计器附加优化函数构造模块62构造出附加优化函数J′Ep);环境状态参数计算模块64根据构造出的环境状态估计器优化函数JEp)和环境状态估计器附加优化函数J′Ep)计算得到环境参数θp并输出;未来环境状态预测模块63根据构造出的环境状态估计器优化函数JEp)和环境状态估计器附加优化函数J′Ep)预测未来环境状态估计值。
步骤S5,将环境动作状态Yk=(sk,ak),步骤S2中输出的F函数
Figure BDA0002273522170000125
G函数
Figure BDA0002273522170000126
和基础模型dYt输入至动作策略生成器构造模块7,动作策略生成器构造模块中的动作增量计算模块71依据输入的环境动作状态Yk=(sk,ak)计算得到动作增量Δak,下一步动作模块72依据动作增量计算模块71计算得到的动作增量和当前动作ak计算得到下一步动作ak+1,动作策略动作生成器构造模块7中的策略生成器优化函数构造模块74依据输入的F函数
Figure BDA0002273522170000131
G函数
Figure BDA0002273522170000132
和基础模型dYt构造得到动作策略生成器的优化函数J′Av),并输入至动作参数计算模块计算得到θv
本发明提出一种基于随机微分方程的连续性强化学习模型构造系统及方法,以动作和环境状态的微分形式作为其强化学习模型构建的起点,引入随机微分项,能够构造出处理连续性问题和控制方差的强化学习方法模型,并且构造出的强化学习方法还能够避免经典强化学习中一些弊端的出现。
图6是本发明构造出一个基于随机微分方程的连续性强化学习的实例图,图中所示为本发明构造出的强化学习方法在OpenAI的gym中的经典控制模型车杆游戏中的应用情景。由图6可知,该车杆游戏中,小车上有根杆子,小车需要左右移动来保持杆子竖直,具体而言,该系统的控制须满足下列两个条件:
1、杆子倾斜的角度θ不能大于15°;
2、小车的位置x需要保持在一定范围内。
其中,该实例中的动作ak包括“左移ak=0”、“右移ak=0”两种;环境状态sk为四维向量:x(小车在轨道上的位置)、θ(杆子与竖直方向的夹角)、
Figure BDA0002273522170000133
(小车速度)和
Figure BDA0002273522170000134
(角度变化率),奖励值是在完成左移或者右移小车的动作之后,外部环境会返回一个“+1”的奖励值,当奖励值达到预设的合格分数之后,游戏结束。
对于实施例公开的结构而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于随机微分方程的连续性强化学习模型构造系统,其特征在于,包括动作微分构造模块(1),环境状态微分构造模块(2),基础模型存在性检验模块(3),基础模型构造模块(4),值估计器构造模块(5),环境状态估计器构造模块(6)和动作策略生成器构造模块(7);
所述动作微分构造模块(1)用于构造动作的微分形式;
所述环境状态微分构造模块(2)用于构造环境状态的微分形式;
所述基础模型构造模块(4)包含F函数构造子模块(41)、G函数构造子模块(42),动作环境组合微分构造子模块(43),分别用于构造F函数
Figure FDA0002273522160000011
G函数
Figure FDA0002273522160000012
以及生成用于强化学习的基础模型dYt
所述基础模型存在性检验模块(3)用于检验所构造基础模型的唯一性和存在性;
所述值估计器构造模块(5)包含值估计器优化函数构造模块(51),Q函数更新模块(52)和未来奖励估计模块(53),用于构造值估计器的优化函数JQ(θ),更新Q函数并计算输出未来奖励估计值;
所述环境状态估计器构造模块(6)包含环境状态估计器优化函数构造模块(61),环境状态估计器优化器附加目标函数构造模块(62),未来环境状态预测模块(63)和环境状态参数计算模块(64),用于环境状态估计器优化器目标函数JEp)的构造,环境状态估计器优化器附加目标函数J′Ep)的构造以及未来环境状态值s′k的预测和θp计算;
所述动作策略生成器构造模块(7)包含动作增量计算模块(71),下一步动作计算模块(72),下一步环境动作状态构造模块(73),动作策略生成器优化器目标函数构造模块(74)和动作参数计算模块(75),用于动作策略生成器优化函数的构造,当前动作增量Δak计算,下一步动作值ak+1计算以及下一步环境动作状态Yk+1的生成。
2.根据权利要求1所述的一种基于随机微分方程的连续性强化学习模型构造系统,其特征在于,所述基础模型存在性检验模块(3),其具体检验条件如下:
(i)
Figure FDA0002273522160000021
(ii)
Figure FDA0002273522160000022
判断F函数
Figure FDA0002273522160000023
G函数
Figure FDA0002273522160000024
是否同时满足上述检验条件;若满足条件,则基础模型构造模块(4)生成的基础模型唯一存在;若不满足,则基础模型构造模块(4)生成的基础模型不是唯一存在的。
3.根据权利要求1所述的一种基于随机微分方程的连续性强化学习模型构造系统,其特征在于,所述值估计器优化函数构造模块(51),包括随机微分方程特征算子构造子模块(511),二阶椭圆随机偏微分算子构造子模块(512),值估器优化函数构造子模块(513),Q函数约束子模块(514)和Q函数存在性验证模块(515);
所述值估计器优化函数构造模块(51)的工作方法包括以下步骤:
步骤a1,将所述F函数构造子模块构造(41)的F函数
Figure FDA0002273522160000025
与所述G函数构造子模块(42)构造的G函数
Figure FDA0002273522160000026
输入至随机微分方程特征算子构造子模块(511),随机微分方程特征算子构造子模块(511)构造得到随机微分方程特征算子AY并输出;
步骤a2,将步骤a1中的随机微分方程特征算子AY输入至二阶椭圆随机偏微分算子构造子模块(512),二阶椭圆随机偏微分算子构造子模块(512)生成二阶椭圆随机偏微分算子LY并输出;
步骤a3,将折扣率γ输入至Q函数约束子模块(514),并与Q函数存在性验证模块(515)共同得到及输出存在的Q函数;
步骤a4,将步骤a2得到的二阶椭圆随机偏微分算子LY和步骤a3中得到的Q函数同时输入至值估计器优化函数构造子模块(513)生成值估计器优化函数JQ(θ)。
4.根据权利要求3所述的一种基于随机微分方程的连续性强化学习模型构造系统,其特征在于,所述随机微分方程特征算子构造子模块(511),其具体构造方法为:
Figure FDA0002273522160000031
所述二阶椭圆随机偏微分算子构造子模块(512),其具体构造方法为:
所述值估器优化函数构造子模块(513),其具体构造方法为:
JQ(θ)=(LYQθ(s,a)+Ey[r])2
5.根据权利要求1所述的一种基于随机微分方程的连续性强化学习模型构造系统,其特征在于,所述环境状态估计器优化函数构造模块(61)包括u函数构造子模块(611),θp估计函数构造模块(612)和环境状态估计器优化函数构造子模块(613);所述环境状态估计器附加优化函数构造模块(62),包括环境状态估计器附加优化函数构造子模块(621),附加优化函数简化模块(622)和环境状态估计器附加优化函数输出模块(623);
所述环境状态估计器优化函数构造模块(61)的工作方法包括以下步骤:
步骤b1,将环境动作状态Yt和基础模型dYt输入至u函数构造子模块(611),u函数构造子模块(611)构造出u函数;
步骤b2,将步骤b1输出的u函数输入至θp估计函数构造模块(612),θp估计函数构造模块(612)生成θp估计函数;
步骤b3,将步骤b2中生成的θp估计函数输入至环境状态估计器优化函数构造子模块(613),环境状态估计器优化函数构造子模块(613)构造出环境状态估计器优化函数并输出。
6.根据权利要求5所述的一种基于随机微分方程的连续性强化学习模型构造系统,其特征在于,所述环境状态估计器附加优化函数构造模块(62),其工作方法包括以下步骤:
步骤c1,将环境动作状态Yt和基础模型输入至环境状态估计器附加优化函数构造模块(621),环境状态估计器附加优化函数构造模块(621)生成环境状态估计器附加优化函数;
步骤c2,对步骤c1生成的环境状态估计器附加优化函数,判断其是否达到忽略方差项的条件,若达到则进入附加函数简化模块(622)对环境状态估计器附加优化函数进行简化并输出,若未达到则直接输出。
7.根据权利要求5或6所述的一种基于随机微分方程的连续性强化学习模型构造系统,其特征在于,所述u函数构造子模块(611)的具体构造方法为:
Figure FDA0002273522160000041
所述环境状态估计器优化函数构造子模块(613),其具体构造方法为:
Figure FDA0002273522160000042
所述环境状态估计器附加优化函数构造子模块(621),其具体构造方法为:
Figure FDA0002273522160000043
所述附加优化函数简化模块(622),其具体简化方法为:
Figure FDA0002273522160000051
8.根据权利要求1所述的一种基于随机微分方程的连续性强化学习模型构造系统,其特征在于,所述动作策略生成器优化函数构造模块(74),包括随机微分方程特征算子构造子模块(741),动作策略生成器优化函数构造子模块(742),动作策略生成器优化函数简化子模块(743)和动作策略生成器优化函数输出子模块(744);
所述动作策略生成器优化函数构造模块(74)的工作方法包括以下步骤:
步骤d1,将基础模型构造模块(4)输出的F函数
Figure FDA0002273522160000052
G函数
Figure FDA0002273522160000053
和环境动作状态Yk输入至随机微分方程特征算子构造子模块(741)构造随机微分方程特征算子AY并输出;
步骤d2,将步骤d1构造得到的随机微分方程特征算子AY输入至动作策略生成器优化函数构造子模块(742)生成动作策略生成器优化函数J′Av)并输出;
步骤d3,判断动作策略生成器优化函数J′Av)是否达到忽略相关性小项条件,若达到则输入至动作策略生成器优化函数简化子模块(743)进行简化计算后输出,若未达到则直接输出动作策略生成器优化函数J′Av)。
9.权利要求8所述的一种基于随机微分方程的连续性强化学习模型构造系统,其特征在于,所述随机微分方程特征算子构造子模块(741)的构造方法为:
Figure FDA0002273522160000054
所述动作策略生成器优化函数构造子模块(742),其具体构造方法为:
Figure FDA0002273522160000055
所述动作策略生成器优化函数简化子模块(743),其简化计算方法为:
Figure FDA0002273522160000061
10.一种基于随机微分方程的连续性强化学习模型的构造方法,其特征在于,包括以下步骤:
步骤S1,将环境动作状态Yt=(st,at)输入至动作微分构造模块(1)和环境状态微分构造模块(2),环境状态微分构造模块(2)构造环境状态微分项并输出,动作微分构造模块(1)构造动作微分项并输出;
步骤S2,将步骤S1中输出的环境状态微分项以及动作微分项输入至基础模型构造模块(4),基础模型构造模块(4)构造得到F函数
Figure FDA0002273522160000062
G函数
Figure FDA0002273522160000063
和基础模型dYt并输出;
步骤S3,将步骤S2中输出的F函数
Figure FDA0002273522160000064
G函数
Figure FDA0002273522160000065
基础模型dYt以及折扣率γ输入至值估计器构造模块(5),值估计器优化函数构造模块(51)生成值估计器优化函数JQ(θ),并通过未来奖励值估计模块(53)计算得到未来奖励估计值,Q函数更新模块(52)根据生成的值估计器优化函数JQ(θ)对Q函数进行更新;
步骤S4,将环境动作状态Yk=(sk,ak)和步骤S1输出的环境状态微分项输入至环境状态估计器构造模块(6),环境状态估计器优化函数构造模块(61)构造出环境状态估计器优化函数JEp),环境状态估计器附加优化函数构造模块(62)构造出附加优化函数J′Ep);环境状态参数计算模块(64)根据构造出的环境状态估计器优化函数JEp)和环境状态估计器附加优化函数J′Ep)计算得到环境参数θp并输出;未来环境状态预测模块(63)根据构造出的环境状态估计器优化函数JEp)和环境状态估计器附加优化函数J′Ep)预测未来环境状态估计值;
步骤S5,将环境动作状态Yk=(sk,ak),步骤S2中输出的F函数
Figure FDA0002273522160000071
G函数
Figure FDA0002273522160000072
和基础模型dYt输入至动作策略生成器构造模块(7),动作策略生成器构造模块中的动作增量计算模块(71)依据输入的环境动作状态Yk=(sk,ak)计算得到动作增量Δak,下一步动作模块(72)依据动作增量计算模块(71)计算得到的动作增量和当前动作ak计算得到下一步动作ak+1,动作策略动作生成器构造模块(7)中的策略生成器优化函数构造模块(74)依据输入的F函数
Figure FDA0002273522160000073
G函数
Figure FDA0002273522160000074
和基础模型dYt构造得到动作策略生成器的优化函数J′Av),并输入至动作参数计算模块计算得到θv
CN201911113880.2A 2019-11-14 2019-11-14 基于随机微分方程的连续性强化学习模型构造系统及方法 Pending CN111027705A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911113880.2A CN111027705A (zh) 2019-11-14 2019-11-14 基于随机微分方程的连续性强化学习模型构造系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911113880.2A CN111027705A (zh) 2019-11-14 2019-11-14 基于随机微分方程的连续性强化学习模型构造系统及方法

Publications (1)

Publication Number Publication Date
CN111027705A true CN111027705A (zh) 2020-04-17

Family

ID=70200335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911113880.2A Pending CN111027705A (zh) 2019-11-14 2019-11-14 基于随机微分方程的连续性强化学习模型构造系统及方法

Country Status (1)

Country Link
CN (1) CN111027705A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119844A (zh) * 2019-05-08 2019-08-13 中国科学院自动化研究所 引入情绪调控机制的机器人运动决策方法、系统、装置
US20190286979A1 (en) * 2018-03-14 2019-09-19 Electronic Arts Inc. Reinforcement Learning for Concurrent Actions

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190286979A1 (en) * 2018-03-14 2019-09-19 Electronic Arts Inc. Reinforcement Learning for Concurrent Actions
CN110119844A (zh) * 2019-05-08 2019-08-13 中国科学院自动化研究所 引入情绪调控机制的机器人运动决策方法、系统、装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈添豪等: "Incremental Reinforcement Learning — a New Continuous Reinforcement Learning Frame Based on Stochastic Differential Equation methods", ARXIV, pages 1 - 13 *

Similar Documents

Publication Publication Date Title
US20220363259A1 (en) Method for generating lane changing decision-making model, method for lane changing decision-making of unmanned vehicle and electronic device
JP6926203B2 (ja) 補助タスクを伴う強化学習
US20210158162A1 (en) Training reinforcement learning agents to learn farsighted behaviors by predicting in latent space
Grande et al. Sample efficient reinforcement learning with gaussian processes
Antonelo et al. Physics-informed neural nets for control of dynamical systems
CN109726813A (zh) 任务的强化和模仿学习
US10281897B2 (en) Model predictive control with uncertainties
US20220326664A1 (en) Improved machine learning for technical systems
US20220366246A1 (en) Controlling agents using causally correct environment models
CN114139637B (zh) 多智能体信息融合方法、装置、电子设备及可读存储介质
CN111433689B (zh) 用于目标系统的控制系统的生成
WO2020254400A1 (en) Robust reinforcement learning for continuous control with model misspecification
CN113419424B (zh) 减少过估计的模型化强化学习机器人控制方法及系统
JP7058202B2 (ja) 情報処理方法及び情報処理システム
WO2021225923A1 (en) Generating robot trajectories using neural networks
Ribeiro A tutorial on reinforcement learning techniques
CN114397817A (zh) 网络训练、机器人控制方法及装置、设备及存储介质
CN114219066A (zh) 基于瓦瑟斯坦距离的无监督强化学习方法及装置
Silver Gradient temporal difference networks
CN111027705A (zh) 基于随机微分方程的连续性强化学习模型构造系统及方法
CN114861318A (zh) 自动驾驶控制参数模型的训练方法、参数获取方法和装置
Ellinas et al. Correctness Verification of Neural Networks Approximating Differential Equations
CN113219842A (zh) 基于自适应动态规划的机械臂最优跟踪控制方法、系统、处理设备、存储介质
JP2021143882A (ja) 自動操縦ロボットを制御する操作推論学習モデルの学習システム及び学習方法
CN110502721B (zh) 一种基于随机微分方程的连续性强化学习系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200417

RJ01 Rejection of invention patent application after publication