CN111612162B - 一种强化学习方法、装置、电子设备及存储介质 - Google Patents

一种强化学习方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111612162B
CN111612162B CN202010490880.0A CN202010490880A CN111612162B CN 111612162 B CN111612162 B CN 111612162B CN 202010490880 A CN202010490880 A CN 202010490880A CN 111612162 B CN111612162 B CN 111612162B
Authority
CN
China
Prior art keywords
rule
action
utility value
state
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010490880.0A
Other languages
English (en)
Other versions
CN111612162A (zh
Inventor
刘东红
李晟泽
徐新海
刘逊韵
张峰
张帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Defense Technology Innovation Institute PLA Academy of Military Science
Original Assignee
National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Defense Technology Innovation Institute PLA Academy of Military Science filed Critical National Defense Technology Innovation Institute PLA Academy of Military Science
Priority to CN202010490880.0A priority Critical patent/CN111612162B/zh
Publication of CN111612162A publication Critical patent/CN111612162A/zh
Application granted granted Critical
Publication of CN111612162B publication Critical patent/CN111612162B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明实施例提供一种强化学习方法、装置、电子设备及存储介质,所述方法包括:确定智能体在执行完当前执行动作后的观测状态,作为下一观测状态;基于预先设定的观测状态与规则状态的映射关系,确定下一观测状态对应的下一规则状态;基于预先设定的智能体执行策略和下一规则状态,确定智能体的下一执行动作,并基于下一规则状态和下一执行动作确定下一行动效用值;基于下一行动效用值,更新智能体的当前行动效用值,直至满足预先设定的交互终止条件。本发明实施例提供的强化学习方法、装置、电子设备及存储介质,行动效用值的计算量大幅减少,缩减了计算维度,提升了强化学习效率。

Description

一种强化学习方法、装置、电子设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种强化学习方法、装置、电子设备及存储介质。
背景技术
强化学习主要研究数量不等的智能体根据自身及外界信息进行决策和行动。智能体通过与外界环境的交互,来感知周边环境,并通过执行某一动作或指令,获取环境对该动作的效用的评价,从而调整自身策略。随着问题的复杂,如多智能体、延迟回报、稀疏回报等,强化学习的训练过程往往较为耗时,且很难获得较为理想的行动策略。
现有的强化学习方法是基于深度神经网络对效用值进行拟合,而该方法使用较为方便,在解决具体问题时不需要较强的背景知识,但该方法显著缺点是可解释性较差,需要的样本数量较大,计算量较大,学习效率较低。
发明内容
本发明实施例提供一种强化学习方法、装置、电子设备及存储介质,用以解决现有的强化学习方法计算量较大及学习效率较低的技术问题。
第一方面,本发明实施例提供一种强化学习方法,包括:
确定智能体在执行完当前执行动作后的观测状态,作为下一观测状态;
基于预先设定的观测状态与规则状态的映射关系,确定所述下一观测状态对应的下一规则状态;
基于预先设定的智能体执行策略和所述下一规则状态,确定所述智能体的下一执行动作,并基于所述下一规则状态和所述下一执行动作确定下一行动效用值;
基于所述下一行动效用值,更新所述智能体的当前行动效用值,直至满足预先设定的交互终止条件。
可选地,所述基于所述下一行动效用值,更新所述智能体当前行动效用值,直至满足预先设定的交互终止条件,之后还包括:
当满足所述交互终止条件时,若更新前后的当前行动效用值不满足预先设定的收敛条件,则初始化强化学习环境,并确定初始化环境下智能体的当前观测状态;
基于所述观测状态与规则状态的映射关系,确定所述当前观测状态对应的当前规则状态;
基于所述智能体执行策略和所述当前规则状态,确定所述智能体当前执行动作,并基于所述当前规则状态和所述当前执行动作确定当前行动效用值。
可选地,所述基于所述下一规则状态和所述下一执行动作确定下一行动效用值,具体包括:
基于所述下一规则状态中的任一规则特征和所述下一执行动作,确定所述任一规则特征的效用值;
基于所述下一规则状态中每一规则特征的效用值,确定所述下一行动效用值。
可选地,所述下一规则状态包括一个主要规则特征和若干个细节规则特征;
不同的规则状态共享所述细节规则特征的效能值。
可选地,所述基于所述下一规则状态中每一规则特征的效用值,确定所述下一行动效用值,具体包括:
Figure BDA0002520929780000021
式中,
Figure BDA0002520929780000022
为所述下一规则状态,
Figure BDA0002520929780000023
为所述下一行动效用值,
Figure BDA0002520929780000024
为所述下一规则状态中的主要规则特征
Figure BDA0002520929780000025
的效用值,
Figure BDA0002520929780000026
为所述下一规则状态中的第k个细节规则特征
Figure BDA0002520929780000027
的效用值,at+1为所述下一执行动作。
可选地,所述基于所述下一行动效用值,更新所述智能体的当前行动效用值,具体包括:
基于所述下一行动效用值和所述当前行动效用值,以及迹函数,更新所述智能体的当前行动效用值。
可选地,所述基于所述下一行动效用值和所述当前行动效用值,以及迹函数,更新所述智能体的当前行动效用值,具体包括:
Figure BDA0002520929780000031
式中,
Figure BDA0002520929780000032
为更新后的当前行动效用值,
Figure BDA0002520929780000033
为所述当前行动效用值,rt+1为下一即时回报值,
Figure BDA0002520929780000034
为所述下一行动效用值,α为学习率,γ为衰减系数,
Figure BDA0002520929780000035
为所述迹函数,
Figure BDA0002520929780000036
为所述当前规则状态,
Figure BDA0002520929780000037
为所述下一规则状态,at为所述当前执行动作,at+1为所述下一执行动作。
第二方面,本发明实施例提供一种强化学习装置,包括:
下一观测状态确定模块,用于确定智能体在执行完当前执行动作后的观测状态,作为下一观测状态;
下一规则状态确定模块,用于基于预先设定的观测状态与规则状态的映射关系,确定所述下一观测状态对应的下一规则状态;
下一行动效用值确定模块,用于基于预先设定的智能体执行策略和所述下一规则状态,确定所述智能体的下一执行动作,并基于所述下一规则状态和所述下一执行动作确定下一行动效用值;
当前行动效用值更新模块,基于所述下一行动效用值,更新所述智能体的当前行动效用值,直至满足预先设定的交互终止条件。
第三方面,本发明实施例提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的强化学习方法。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述的强化学习方法。
本发明实施例提供的强化学习方法、装置、电子设备及存储介质,通过基于预先设定的观测状态与规则状态的映射关系,将观测状态映射为规则状态,并基于规则状态特征确定当前行动效用值,行动效用值的计算量大幅减少。由于每一规则状态包含若干个观测状态,每一规则状态所对应的效用值表征的观测状态数量大幅提升,缩减了计算维度,提升了强化学习效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的强化学习方法的流程示意图;
图2为本发明实施例提供的强化学习基本原理示意图;
图3为本发明另一实施例提供的强化学习方法的流程示意图;
图4为本发明实施例提供的强化学习装置的结构示意图;
图5为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的强化学习方法的流程示意图,如图1所示,本发明实施例提供的强化学习方法包括:
步骤110,确定智能体在执行完当前执行动作后的观测状态,作为下一观测状态;
步骤120,基于预先设定的观测状态与规则状态的映射关系,确定下一观测状态对应的下一规则状态;
步骤130,基于预先设定的智能体执行策略和下一规则状态,确定智能体的下一执行动作,并基于下一规则状态和下一执行动作确定下一行动效用值;
步骤140,基于下一行动效用值,更新智能体的当前行动效用值,直至满足预先设定的交互终止条件。
具体地,强化学习是一种智能体与进行环境交互通过学习策略以达成回报最大化的机器学习方法,图2为本发明实施例提供的强化学习基本原理示意图,如图2所示,智能体通过策略π:s→a与环境进行交互,其中,s和a分别为状态和动作。在时刻t时,智能体获取自身及周边环境状态st,此时智能体执行某一动作at,而环境给出该动作的实际效用或当前时刻的即时回报值rt。通过不断与环境进行上述交互过程,智能体不断改善策略π,以实现预期回报值Rt最大。
在此基础上,定义效用值Q(s,a)为时刻t,智能体获得状态信息st后,根据策略π执行动作at所产生的预期回报值,即:
Figure BDA0002520929780000051
对于时刻t的预期回报值Rt,由于受到未来状态的影响,其具体计算公式如下:
Figure BDA0002520929780000052
式中,T为终止时刻,γ为衰减系数,rt′为未来时刻t′的即时回报值。
在执行步骤110之前,预先设定上述强化学习环境的规则,本发明实施例以及后续实施例均以自动驾驶场景进行说明,在汽车自动驾驶场景中,行驶规则可以为:
Rule1:if(v>100km/h)then(brake)
规则Rule1为如果车速大于100km/h,则执行刹车动作。
行驶规则也可以为:
Rule2:if(v<40km/h)then(speed up)
规则Rule2为如果车速小于40km/h,则执行加速动作。
其中,if为规则判定条件,then为该规则的推荐执行动作。根据上述定义,将每条规则以二元组形式进行规范化表示,则有Rule=(sr,ar),其中sr为该条规则对应的规则状态,ar为该条规则所推荐的动作。
需要说明的是,本发明实施例以及后续实施例中,r作为变量时(例如rt)表示即时回报值,r作为上标时(例如sr)表示对应的规则。
基于上述规则,建立观测状态与规则状态的映射关系,其中,观测状态为智能体感知自身和环境获取的状态,规则状态为规则判定条件对应的状态。例如规则状态可以为
Figure BDA0002520929780000066
对于观测状态s1:v=120km/h,s2:v=115km/h,s3:v=38km/h,s4:v=25km/h,则存在以下映射关系:s1
Figure BDA0002520929780000062
s3
Figure BDA0002520929780000063
基于上述强化学习环境,智能体获取环境的当前观测状态st,并根据预先设定的智能体执行策略,确定当前执行动作at并执行,智能体执行当前执行动作之后,环境随之发生变化,将智能体在执行完当前执行动作后的观测状态,作为下一观测状态st+1
在得到下一观测状态之后,基于预先设定的观测状态与规则状态的映射关系,确定下一观测状态对应的下一规则状态
Figure BDA0002520929780000064
基于预先设定的智能体执行策略和下一规则状态,确定智能体的下一执行动作at+1,并基于下一规则状态和下一执行动作确定下一行动效用值
Figure BDA0002520929780000065
由于规则状态数远小于观测状态数,经过观测状态与规则状态之间的映射,行动效用值的计算量大幅减少。每一规则状态包含若干个观测状态,每一规则状态所对应的效用值表征的观测状态数量大幅提升,缩减了计算维度,提升了强化学习效率。
在得到下一行动效用值之后,基于下一行动效用值更新当前行动效用值,更新后的当前行动效用值包含了智能体执行当前执行动作之后的未来回报值信息,智能体依据更新后的当前行动效用值执行动作,能够实现未来预期回报最大化。重复上述步骤,直至满足预先设定的交互终止条件。其中,预先设定的交互终止条件可以为时刻t已到达终止时刻。
本发明实施例提供的强化学习方法,通过基于预先设定的观测状态与规则状态的映射关系,将观测状态映射为规则状态,并基于规则状态特征确定当前行动效用值,行动效用值的计算量大幅减少。由于每一规则状态包含若干个观测状态,每一规则状态所对应的效用值表征的观测状态数量大幅提升,缩减了计算维度,提升了强化学习效率。
基于上述实施例,该强化学习方法中,步骤140之后还包括:
当满足交互终止条件时,若更新前后的当前行动效用值不满足预先设定的收敛条件,则初始化强化学习环境,并确定初始化环境下智能体的当前观测状态;
基于观测状态与规则状态的映射关系,确定当前观测状态对应的当前规则状态;
基于智能体执行策略和当前规则状态,确定智能体当前执行动作,并基于当前规则状态和当前执行动作确定当前行动效用值。
具体地,当满足交互终止条件时,终止对当前行动效用值的更新并输出更新后的当前行动效用值,随后判断更新前后的当前行动效用值是否满足预先设定的收敛条件,若满足预先设定的收敛条件,则输出当前行动效用值;若不满足预先设定的收敛条件,则初始化强化学习环境并继续对当前行动效用值进行更新。其中,预先设定的收敛条件为更新前后的当前行动效用值之差小于预设阈值。
初始化强化学习环境包括初始化每一规则对应的效用值,具体公式如下:
Figure BDA0002520929780000071
式中,Q0(sr,ar)为规则(sr,ar)的初始效用值,
Figure BDA0002520929780000072
为正态函数,μ,σ为该正态函数的形状控制参数。
在对强化学习环境进行初始化之后,确定初始化环境下智能体的当前观测状态,基于观测状态与规则状态的映射关系,确定当前观测状态对应的当前规则状态。基于智能体执行策略和当前规则状态,确定智能体当前执行动作,并基于当前规则状态和当前执行动作确定当前行动效用值。上述步骤的具体执行过程可参考上一实施例,此处不再赘述。
图3为本发明实施例提供的强化学习方法的流程示意图,如图3所示,该强化学习方法中包含两个嵌套的循环结构,内层循环的终止条件为预先设定的交互终止条件,外层循环的终止条件为预先设定的收敛条件。
在此基础上,假设外层循环的预定循环次数为P,在当前外层循环次数为p时,智能体执行策略可以为:
Figure BDA0002520929780000081
其中,random_sample为随机采样函数,argmax为索引最大值函数,
Figure BDA0002520929780000082
为所有可执行动作构成的集合。
基于上述任一实施例,该强化学习方法中,步骤130具体包括:
基于下一规则状态中的任一规则特征和下一执行动作,确定任一规则特征的效用值;
基于下一规则状态中每一规则特征的效用值,确定下一行动效用值。
具体地,下一规则状态可以包含多个规则特征,下一规则状态中任一规则特征的效用值是基于任一规则特征和下一执行动作确定的,下一规则状态的效用值可以为下一规则状态包含的每一规则特征的效用值之和。在汽车自动驾驶场景中,不同规则特征用于从不同维度说明车辆的行驶情况,例如,汽车车速、行驶方向、行驶路况等。
基于上述任一实施例,该强化学习方法中,下一规则状态包括一个主要规则特征和若干个细节规则特征;不同的规则状态共享细节规则特征的效能值。
具体地,下一规则状态包括一个主要规则特征和若干个细节规则特征,在汽车自动驾驶场景中,主要规则特征用于表征规则状态的显著特性,例如汽车车速,若干个细节规则特征用于表征规则状态的典型细节,例如行驶路况,包括前方出现行人,前方红灯等。
不同的规则状态的主要规则特征是不同的,不同的规则状态可以共享细节规则特征的效能值,即在执行动作相同时,同一细节规则特征对应的效能值在不同规则状态中是相同的。假设细节规则特征为:前方出现行人,规则状态
Figure BDA0002520929780000083
和规则状态
Figure BDA0002520929780000084
均包含该细节规则特征,规则状态
Figure BDA0002520929780000085
为一个主要规则特征
Figure BDA0002520929780000091
和一个细节规则特征
Figure BDA0002520929780000092
前方出现行人,规则状态
Figure BDA0002520929780000093
为一个主要规则特征
Figure BDA0002520929780000094
v<40km/h和一个细节规则特征
Figure BDA0002520929780000095
前方出现行人,对于相同的执行动作
Figure BDA0002520929780000096
(如调整方向),则细节规则特征
Figure BDA0002520929780000097
和细节规则特征
Figure BDA0002520929780000098
所对应的效能值
Figure BDA0002520929780000099
Figure BDA00025209297800000910
在规则状态
Figure BDA00025209297800000911
Figure BDA00025209297800000912
中是相同的。
通过将下一规则状态划分为一个主要规则特征和若干个细节规则特征,既可以利用主要规则特征表征不同规则状态的显著差异,又可以利用细节规则特征表征不同规则状态的细微差异。由于不同的规则状态共享细节规则特征的效能值,进而可以对主要规则特征和细节规则特征进行组合,以构建多种不同的规则,提升了规则构建的灵活性,同时不会增加规则状态的效能值的计算量,进一步提升了强化学习的效率。
本发明实施例提供的强化学习方法,通过将下一规则状态划分为一个主要规则特征和若干个细节规则特征,不同的规则状态共享细节规则特征的效能值,提升了规则构建的灵活性,进一步提升了强化学习的效率。
基于上述任一实施例,该强化学习方法中,基于下一规则状态中每一规则特征的效用值,确定下一行动效用值,具体包括:
Figure BDA00025209297800000913
式中,
Figure BDA00025209297800000914
为下一规则状态,
Figure BDA00025209297800000915
为下一行动效用值,
Figure BDA00025209297800000916
为下一规则状态中的主要规则特征
Figure BDA00025209297800000917
的效用值,
Figure BDA00025209297800000918
为下一规则状态中的第k个细节规则特征
Figure BDA00025209297800000919
的效用值,at+1为下一执行动作。
基于上述任一实施例,该强化学习方法中,步骤140具体包括:
基于下一行动效用值和当前行动效用值,以及迹函数,更新智能体的当前行动效用值。
具体地,由于智能体当前行动效用值的更新是基于预期回报值最大化,但是并不是每一状态均存在预期回报值,有时只有终止状态才存在预期回报值,例如围棋比赛中,只有比赛结束才存在预期回报值,中间过程中每一步棋并不存在预期回报值,因此,强化学习方法在实际应用中可能出现稀疏回报或延迟回报的问题。为解决上述问题,本发明实施例提供的强化学习方法引入迹函数对当前行动效用值进行更新,即基于下一行动效用值和当前行动效用值,以及迹函数,更新智能体的当前行动效用值。
基于上述任一实施例,该强化学习方法中,步骤140具体包括:
Figure BDA0002520929780000101
式中,
Figure BDA0002520929780000102
为更新后的当前行动效用值,
Figure BDA0002520929780000103
为当前行动效用值,rt+1为下一即时回报值,
Figure BDA0002520929780000104
为下一行动效用值,α为学习率,γ为衰减系数,
Figure BDA0002520929780000105
为迹函数,
Figure BDA0002520929780000106
为当前规则状态,
Figure BDA0002520929780000107
为下一规则状态,at为当前执行动作,at+1为下一执行动作。
其中,迹函数
Figure BDA0002520929780000108
的具体公式如下:
Figure BDA0002520929780000109
式中,E(st,at)为时刻t的迹函数,E(st-1,at-1)时刻t-1的迹函数,λ为迹函数的折减系数。
本发明实施例提供的强化学习方法,通过引入迹函数对当前行动效用值进行更新,在处理可能出现延迟回报或稀疏回报的强化学习问题中将具有更好的学习能力。
基于上述任一实施例,本发明实施例以汽车自动驾驶场景为例对本发明实施例提供的强化学习方法进行说明。在该场景中,智能体可以为自动驾驶汽车,智能体获取当前观测状态为st:v=38km/h,将当前观测状态映射为当前规则状态
Figure BDA00025209297800001010
v<40km/h,依据预先设定的智能体执行策略,获取当前执行动作at:speed up,并基于当前规则状态
Figure BDA00025209297800001011
和当前执行动作at,确定当前行动效用值
Figure BDA00025209297800001012
将智能体执行当前执行动作之后的观测状态,作为下一观测状态st+1:v=65km/h,将下一观测状态映射为下一规则状态
Figure BDA00025209297800001013
60km/h≤v<100km/h,依据预先设定的智能体执行策略,获取下一执行动作at+1:keep(匀速前进),并基于下一规则状态
Figure BDA00025209297800001014
和下一执行动作at+1,确定下一行动效用值
Figure BDA00025209297800001015
并基于下一行动效用值
Figure BDA00025209297800001016
更新当前行动效用值
Figure BDA00025209297800001017
重复上述步骤,直至时刻t为终止时刻T。
当时刻t已达到终止时刻T,判断更新前后的当前行动效用值是否满足预先设定的收敛条件,若满足,则输出更新后的当前行动效用值,若不满足,则初始化强化学习环境并继续对当前行动效用值进行更新。
基于上述任一实施例,图4为本发明实施例提供的强化学习装置的结构示意图,如图4所示,本发明实施例提供的强化学习装置包括:
下一观测状态确定模块410,用于确定智能体在执行完当前执行动作后的观测状态,作为下一观测状态;
下一规则状态确定模块420,用于基于预先设定的观测状态与规则状态的映射关系,确定所述下一观测状态对应的下一规则状态;
下一行动效用值确定模块430,用于基于预先设定的智能体执行策略和所述下一规则状态,确定所述智能体的下一执行动作,并基于所述下一规则状态和所述下一执行动作确定下一行动效用值;
当前行动效用值更新模块440,基于所述下一行动效用值,更新所述智能体的当前行动效用值,直至满足预先设定的交互终止条件。
本发明实施例提供的强化学习装置,通过基于预先设定的观测状态与规则状态的映射关系,将观测状态映射为规则状态,并基于规则状态特征确定当前行动效用值,行动效用值的计算量大幅减少。由于每一规则状态包含若干个观测状态,每一规则所对应的效用值表征的观测状态数量大幅提升,缩减了计算维度,提升了强化学习效率。
基于上述任一实施例,该强化学习装置还包括:
条件判断模块,用于当满足所述交互终止条件时,若更新前后的当前行动效用值不满足预先设定的收敛条件,则初始化强化学习环境,并确定初始化环境下智能体的当前观测状态;
当前规则状态确定模块,用于基于所述观测状态与规则状态的映射关系,确定所述当前观测状态对应的当前规则状态;
当前行动效用值确定模块,用于基于所述智能体执行策略和所述当前规则状态,确定所述智能体当前执行动作,并基于所述当前规则状态和所述当前执行动作确定当前行动效用值。
基于上述任一实施例,所述下一行动效用值确定模块具体包括:
规则特征效用值确定子模块,用于基于所述下一规则状态中的任一规则特征和所述下一执行动作,确定所述任一规则特征的效用值;
下一行动效用值确定子模块,用于基于所述下一规则状态中每一规则特征的效用值,确定所述下一行动效用值。
基于上述任一实施例,该强化学习装置中,所述下一规则状态包括一个主要规则特征和若干个细节规则特征;
不同的规则状态共享所述细节规则特征的效能值。
本发明实施例提供的强化学习装置,通过将下一规则状态划分为一个主要规则特征和若干个细节规则特征,不同的规则状态共享细节规则特征的效能值,提升了规则构建的灵活性,进一步提升了强化学习的效率。
基于上述任一实施例,所述下一行动效用值确定子模块具体用于基于以下公式确定下一行动效用值:
Figure BDA0002520929780000121
式中,
Figure BDA0002520929780000122
为所述下一规则状态,
Figure BDA0002520929780000123
为所述下一行动效用值,
Figure BDA0002520929780000124
为所述下一规则状态中的主要规则特征
Figure BDA0002520929780000125
的效用值,
Figure BDA0002520929780000126
为所述下一规则状态中的第k个细节规则特征
Figure BDA0002520929780000127
的效用值,at+1为所述下一执行动作。
基于上述任一实施例,所述当前行动效用值更新模块,具体用于:
基于所述下一行动效用值和所述当前行动效用值,以及迹函数,更新所述智能体的当前行动效用值。
基于上述任一实施例,所述当前行动效用值更新模块具体用于基于以下公式更新智能体的当前行动效用值:
Figure BDA0002520929780000128
式中,
Figure BDA0002520929780000129
为更新后的当前行动效用值,
Figure BDA00025209297800001210
为所述当前行动效用值,rt+1为下一即时回报值,
Figure BDA00025209297800001211
为所述下一行动效用值,α为学习率,γ为衰减系数,
Figure BDA00025209297800001212
为所述迹函数,
Figure BDA00025209297800001213
为所述当前规则状态,
Figure BDA00025209297800001214
为所述下一规则状态,at为所述当前执行动作,at+1为所述下一执行动作。
本发明实施例提供的强化学习装置,通过引入迹函数对当前行动效用值进行更新,在处理可能出现延迟回报或稀疏回报的强化学习问题中将具有更好的学习能力。
图5为本发明实施例提供的电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令,以执行如下方法:确定智能体在执行完当前执行动作后的观测状态,作为下一观测状态;基于预先设定的观测状态与规则状态的映射关系,确定下一观测状态对应的下一规则状态;基于预先设定的智能体执行策略和下一规则状态,确定智能体的下一执行动作,并基于下一规则状态和下一执行动作确定下一行动效用值;基于下一行动效用值,更新智能体的当前行动效用值,直至满足预先设定的交互终止条件。
此外,上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:确定智能体在执行完当前执行动作后的观测状态,作为下一观测状态;基于预先设定的观测状态与规则状态的映射关系,确定下一观测状态对应的下一规则状态;基于预先设定的智能体执行策略和下一规则状态,确定智能体的下一执行动作,并基于下一规则状态和下一执行动作确定下一行动效用值;基于下一行动效用值,更新智能体的当前行动效用值,直至满足预先设定的交互终止条件。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种强化学习方法,其特征在于,包括:
确定智能体在执行完当前执行动作后的观测状态,作为下一观测状态;
基于预先设定的观测状态与规则状态的映射关系,确定所述下一观测状态对应的下一规则状态;
基于预先设定的智能体执行策略和所述下一规则状态,确定所述智能体的下一执行动作,并基于所述下一规则状态和所述下一执行动作确定下一行动效用值;
基于所述下一行动效用值,更新所述智能体的当前行动效用值,直至满足预先设定的交互终止条件;
其中,所述观测状态为智能体感知自身和环境获取的状态;
所述基于所述下一行动效用值,更新所述智能体当前行动效用值,直至满足预先设定的交互终止条件,之后还包括:
当满足所述交互终止条件时,若更新前后的当前行动效用值不满足预先设定的收敛条件,则初始化强化学习环境,并确定初始化环境下智能体的当前观测状态;
基于所述观测状态与规则状态的映射关系,确定所述当前观测状态对应的当前规则状态;
基于所述智能体执行策略和所述当前规则状态,确定所述智能体当前执行动作,并基于所述当前规则状态和所述当前执行动作确定当前行动效用值;
所述基于所述下一规则状态和所述下一执行动作确定下一行动效用值,具体包括:
基于所述下一规则状态中的任一规则特征和所述下一执行动作,确定所述任一规则特征的效用值;
基于所述下一规则状态中每一规则特征的效用值,确定所述下一行动效用值;
所述下一规则状态包括一个主要规则特征和若干个细节规则特征;
不同的规则状态共享所述细节规则特征的效能值;
所述基于所述下一规则状态中每一规则特征的效用值,确定所述下一行动效用值,具体包括:
Figure FDA0003159883320000021
式中,
Figure FDA0003159883320000022
为所述下一规则状态,
Figure FDA0003159883320000023
为所述下一行动效用值,
Figure FDA0003159883320000024
为所述下一规则状态中的主要规则特征
Figure FDA0003159883320000025
的效用值,
Figure FDA0003159883320000026
为所述下一规则状态中的第k个细节规则特征
Figure FDA0003159883320000027
的效用值,at+1为所述下一执行动作。
2.根据权利要求1所述的强化学习方法,其特征在于,所述基于所述下一行动效用值,更新所述智能体的当前行动效用值,具体包括:
基于所述下一行动效用值和所述当前行动效用值,以及迹函数,更新所述智能体的当前行动效用值。
3.根据权利要求2所述的强化学习方法,其特征在于,所述基于所述下一行动效用值和所述当前行动效用值,以及迹函数,更新所述智能体的当前行动效用值,具体包括:
Figure FDA0003159883320000028
式中,
Figure FDA0003159883320000029
为更新后的当前行动效用值,
Figure FDA00031598833200000210
为所述当前行动效用值,rt+1为下一即时回报值,
Figure FDA00031598833200000211
为所述下一行动效用值,α为学习率,γ为衰减系数,
Figure FDA00031598833200000212
为所述迹函数,
Figure FDA00031598833200000213
为所述当前规则状态,
Figure FDA00031598833200000214
为所述下一规则状态,at为所述当前执行动作,at+1为所述下一执行动作。
4.一种强化学习装置,其特征在于,包括:
下一观测状态确定模块,用于确定智能体在执行完当前执行动作后的观测状态,作为下一观测状态;
下一规则状态确定模块,用于基于预先设定的观测状态与规则状态的映射关系,确定所述下一观测状态对应的下一规则状态;
下一行动效用值确定模块,用于基于预先设定的智能体执行策略和所述下一规则状态,确定所述智能体的下一执行动作,并基于所述下一规则状态和所述下一执行动作确定下一行动效用值;
当前行动效用值更新模块,基于所述下一行动效用值,更新所述智能体的当前行动效用值,直至满足预先设定的交互终止条件;
其中,所述观测状态为智能体感知自身和环境获取的状态;
条件判断模块,用于当满足所述交互终止条件时,若更新前后的当前行动效用值不满足预先设定的收敛条件,则初始化强化学习环境,并确定初始化环境下智能体的当前观测状态;
当前规则状态确定模块,用于基于所述观测状态与规则状态的映射关系,确定所述当前观测状态对应的当前规则状态;
当前行动效用值确定模块,用于基于所述智能体执行策略和所述当前规则状态,确定所述智能体当前执行动作,并基于所述当前规则状态和所述当前执行动作确定当前行动效用值;
所述下一行动效用值确定模块具体包括:
规则特征效用值确定子模块,用于基于所述下一规则状态中的任一规则特征和所述下一执行动作,确定所述任一规则特征的效用值;
下一行动效用值确定子模块,用于基于所述下一规则状态中每一规则特征的效用值,确定所述下一行动效用值;
所述下一规则状态包括一个主要规则特征和若干个细节规则特征;
不同的规则状态共享所述细节规则特征的效能值;
所述下一行动效用值确定子模块具体用于基于以下公式确定下一行动效用值:
Figure FDA0003159883320000031
式中,
Figure FDA0003159883320000032
为所述下一规则状态,
Figure FDA0003159883320000033
为所述下一行动效用值,
Figure FDA0003159883320000034
为所述下一规则状态中的主要规则特征
Figure FDA0003159883320000035
的效用值,
Figure FDA0003159883320000036
为所述下一规则状态中的第k个细节规则特征
Figure FDA0003159883320000037
的效用值,at+1为所述下一执行动作。
5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至3任一项所述的强化学习方法的步骤。
6.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至3任一项所述的强化学习方法的步骤。
CN202010490880.0A 2020-06-02 2020-06-02 一种强化学习方法、装置、电子设备及存储介质 Active CN111612162B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010490880.0A CN111612162B (zh) 2020-06-02 2020-06-02 一种强化学习方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010490880.0A CN111612162B (zh) 2020-06-02 2020-06-02 一种强化学习方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111612162A CN111612162A (zh) 2020-09-01
CN111612162B true CN111612162B (zh) 2021-08-27

Family

ID=72197329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010490880.0A Active CN111612162B (zh) 2020-06-02 2020-06-02 一种强化学习方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111612162B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117236459A (zh) * 2022-06-02 2023-12-15 华为技术有限公司 一种多智能体强化学习方法及相关装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609599A (zh) * 2012-04-11 2012-07-25 天津市市政工程设计研究院 基于多智能体仿真的地下道路线形及横向净距设计方法
CN110430547A (zh) * 2019-07-24 2019-11-08 河海大学常州校区 UASNs中基于Q-learning的多AUV协作数据收集算法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9764468B2 (en) * 2013-03-15 2017-09-19 Brain Corporation Adaptive predictor apparatus and methods
US10343279B2 (en) * 2015-07-10 2019-07-09 Board Of Trustees Of Michigan State University Navigational control of robotic systems and other computer-implemented processes using developmental network with turing machine learning
CN106372366A (zh) * 2016-09-30 2017-02-01 三峡大学 一种基于狼爬山算法的智能发电控制方法
US20180124183A1 (en) * 2016-11-03 2018-05-03 Futurewei Technologies, Inc. Method and Apparatus for Stateful Control of Forwarding Elements
US10739776B2 (en) * 2017-10-12 2020-08-11 Honda Motor Co., Ltd. Autonomous vehicle policy generation
CN108791290B (zh) * 2018-08-20 2020-10-20 中国人民解放军国防科技大学 基于在线增量式dhp的双车协同自适应巡航控制方法
CN109408911A (zh) * 2018-10-08 2019-03-01 重庆邮电大学 一种在cpss下基于acp理论的群体演化方法
CN109492256B (zh) * 2018-10-15 2022-10-25 华南理工大学 一种动态系统状态概率映射矩阵多向搜索方法
CN109655066B (zh) * 2019-01-25 2022-05-17 南京邮电大学 一种基于Q(λ)算法的无人机路径规划方法
CN109655068A (zh) * 2019-01-31 2019-04-19 山东师范大学 基于建筑物中突发火灾事件的路径重规划方法及装置、系统
CN109885774B (zh) * 2019-02-28 2022-02-08 北京达佳互联信息技术有限公司 个性化内容的推荐方法、装置及设备
CN110262511B (zh) * 2019-07-12 2022-08-09 同济人工智能研究院(苏州)有限公司 基于深度强化学习的双足机器人自适应性行走控制方法
CN110991545B (zh) * 2019-12-10 2021-02-02 中国人民解放军军事科学院国防科技创新研究院 一种面向多智能体对抗的强化学习训练优化方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609599A (zh) * 2012-04-11 2012-07-25 天津市市政工程设计研究院 基于多智能体仿真的地下道路线形及横向净距设计方法
CN110430547A (zh) * 2019-07-24 2019-11-08 河海大学常州校区 UASNs中基于Q-learning的多AUV协作数据收集算法

Also Published As

Publication number Publication date
CN111612162A (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
WO2021155706A1 (zh) 利用不平衡正负样本对业务预测模型训练的方法及装置
CN108710109B (zh) 一种车载雷达频段分配方法及系统
CN114596553B (zh) 模型训练方法、轨迹预测方法、装置及自动驾驶车辆
US11700302B2 (en) Using reinforcement learning to scale queue-based services
CN111079533B (zh) 无人车驾驶决策方法、无人车驾驶决策装置及无人车
CN112162861B (zh) 线程分配方法、装置、计算机设备及存储介质
CN113085842B (zh) 车辆控制方法、装置及车辆
US20230376748A1 (en) Method for self-adaptive service function chain mapping based on deep reinforcement learning
CN111416774A (zh) 网络拥塞控制方法、装置、计算机设备及存储介质
CN111612162B (zh) 一种强化学习方法、装置、电子设备及存储介质
WO2022252457A1 (zh) 一种自动驾驶控制方法、装置、设备及可读存储介质
CN114842307B (zh) 掩码图像模型训练方法、掩码图像内容预测方法和设备
US20220318412A1 (en) Privacy-aware pruning in machine learning
CN111723931B (zh) 一种多智能体对抗动作预测方法及装置
CN114261400A (zh) 一种自动驾驶决策方法、装置、设备和存储介质
CN113239472B (zh) 一种基于强化学习的导弹制导方法和装置
CN112819157B (zh) 神经网络训练的方法及装置、智能行驶控制的方法及装置
CN113625753A (zh) 一种由专家规则引导神经网络学习无人机机动飞行的方法
CN114137967B (zh) 基于多网络联合学习的驾驶行为决策方法
CN113219968B (zh) 自动驾驶控制方法及装置
CN116710974A (zh) 在合成数据系统和应用程序中使用域对抗学习的域适应
CN113721655A (zh) 一种控制周期自适应的强化学习无人机稳定飞行控制方法
CN110807480A (zh) 一种卷积神经网络中的卷积核存储方法及装置
CN114792133B (zh) 基于多智能体协作系统的深度强化学习方法和装置
US20220398480A1 (en) Equilibrium models acceleration via jacobians stabilization systems and methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant