CN110969248B - 基于rbf-a2c的强化学习方法及系统 - Google Patents

基于rbf-a2c的强化学习方法及系统 Download PDF

Info

Publication number
CN110969248B
CN110969248B CN201811140436.5A CN201811140436A CN110969248B CN 110969248 B CN110969248 B CN 110969248B CN 201811140436 A CN201811140436 A CN 201811140436A CN 110969248 B CN110969248 B CN 110969248B
Authority
CN
China
Prior art keywords
rbf
function
calculating
psi
optimized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811140436.5A
Other languages
English (en)
Other versions
CN110969248A (zh
Inventor
王婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Petroleum and Chemical Corp
Sinopec Geophysical Research Institute
Original Assignee
China Petroleum and Chemical Corp
Sinopec Geophysical Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Petroleum and Chemical Corp, Sinopec Geophysical Research Institute filed Critical China Petroleum and Chemical Corp
Priority to CN201811140436.5A priority Critical patent/CN110969248B/zh
Publication of CN110969248A publication Critical patent/CN110969248A/zh
Application granted granted Critical
Publication of CN110969248B publication Critical patent/CN110969248B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Feedback Control In General (AREA)

Abstract

公开了一种基于RBF‑A2C的强化学习方法及系统。该方法包括:步骤1:根据当前的状态数据ψ(s)与步长优化RBF参数α,获得动作a;步骤2:执行动作a,获得环境反馈r和下一刻的状态数据ψ(s)′;步骤3:判断ψ(s)′是否达到预定目标,若是,则算法结束,若否,则转到步骤4;步骤4:根据ψ(s)、r和ψ(s)′,计算Q函数值;步骤5:根据ψ(s)与Q函数值,计算优势函数A;步骤6:计算激活函数与损失函数,计算损失函数的偏导数,进而计算优化步长优化RBF参数;步骤7:利用优化步长优化RBF参数替换步长优化RBF参数α,重复步骤1‑7。本发明通过RBF神经网络算法,解决传统算法收敛速度慢、收敛精度差的问题,避免大样本学习收敛困难和容易陷入局部极值的问题。

Description

基于RBF-A2C的强化学习方法及系统
技术领域
本发明涉及机器学习领域,更具体地,涉及一种基于RBF-A2C的强化学习方法及系统。
背景技术
伴随人工智能如火如荼的发展,强化学习在工业领域、游戏领域、路径规划方面的运用越来越广泛,是解决随机性或者动态不确定性系统最优解的首选算法。简单的、传统的强化学习算法难以解决新出现的、具有更高要求的问题。在具有离散空间的强化学习问题中,传统强化学习算面临法收敛速度慢、收敛精度差的问题,而现在流行的强化学习需要大量的学习样本,并且网络层次太深,运算时间过长。同时,强化学习有基于价值、基于策略和两者结合的(行动者-评论家)三种架构。基于价值的算法在很多领域得到运用,但是它很难应用到随机型策略或者具有连续动作空间的问题中,值函数的微小变化会引起策略的大变更,从而训练无法收敛。如果引入函数近似,算法泛化能力提高了,但也引入了偏差,收敛性也不好保证。而基于策略的算法是把策略参数化进行学习,相比于基于价值的算法,具有更强的收敛能力,也适合高维连续动作空间和随机型策略问题,但是缺点是梯度估计方差较大,收敛得到的可能并非最优解,同时由于梯度估计不依赖过去的估计,则对旧信息利用率低。
因此,有必要开发一种基于RBF-A2C的强化学习方法及系统。
公开于本发明背景技术部分的信息仅仅旨在加深对本发明的一般背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
发明内容
本发明提出了一种基于RBF-A2C的强化学习方法及系统,其能够通过RBF神经网络算法,解决传统算法收敛速度慢、收敛精度差的问题,避免大样本学习收敛困难和容易陷入局部极值的问题。
根据本发明的一方面,提出了一种基于RBF-A2C的强化学习方法。所述方法可以包括:步骤1:根据当前的状态数据ψ(s)与步长优化RBF参数α,根据动作选择策略公式获得动作a;步骤2:执行所述动作a,获得环境反馈r和下一刻的状态数据ψ(s)′;步骤3:判断ψ(s)′是否达到预定目标,若是,则算法结束,若否,则转到步骤4;步骤4:根据当前的状态数据ψ(s)、环境反馈r和下一刻的状态数据ψ(s)′,计算Q函数值;步骤5:根据当前的状态数据ψ(s)与Q函数值,计算优势函数A;步骤6:计算激活函数与损失函数,计算所述损失函数的偏导数,进而计算优化步长优化RBF参数;步骤7:利用所述优化步长优化RBF参数替换所述步长优化RBF参数α,重复步骤1-7。
优选地,所述动作选择策略公式为:
Figure BDA0001815678990000021
其中,y为Q函数值,b*为常量偏差。
优选地,所述Q函数值为:
Figure BDA0001815678990000022
优选地,所述优势函数A为:
Figure BDA0001815678990000023
其中,card(A)为动作的数量,a'为动作集合中的动作。
优选地,所述激活函数为:
Figure BDA0001815678990000031
优选地,所述损失函数为:
Figure BDA0001815678990000032
优选地,所述损失函数的偏导数为:
Figure BDA0001815678990000033
优选地,所述优化步长优化RBF参数为:
αi←αi-βδ(ψ(s)i,y)A(ψ(s)i,y)   (7)。
根据本发明的另一方面,提出了一种基于RBF-A2C的强化学习系统,其特征在于,该系统包括:存储器,存储有计算机可执行指令;处理器,所述处理器运行所述存储器中的计算机可执行指令,执行以下步骤:步骤1:根据当前的状态数据ψ(s)与步长优化RBF参数α,根据动作选择策略公式获得动作a;步骤2:执行所述动作a,获得环境反馈r和下一刻的状态数据ψ(s)′;步骤3:判断ψ(s)′是否达到预定目标,若是,则算法结束,若否,则转到步骤4;步骤4:根据当前的状态数据ψ(s)、环境反馈r和下一刻的状态数据ψ(s)′,计算Q函数值;步骤5:根据当前的状态数据ψ(s)与Q函数值,计算优势函数A;步骤6:计算激活函数与损失函数,计算所述损失函数的偏导数,进而计算优化步长优化RBF参数;步骤7:利用所述优化步长优化RBF参数替换所述步长优化RBF参数α,重复步骤1-7。
优选地,所述动作选择策略公式为:
Figure BDA0001815678990000034
其中,y为Q函数值,b*为常量偏差。
优选地,所述Q函数值为:
Figure BDA0001815678990000041
优选地,所述优势函数A为:
Figure BDA0001815678990000042
其中,card(A)为动作的数量,a'为动作集合中的动作。
优选地,所述激活函数为:
Figure BDA0001815678990000043
优选地,所述损失函数为:
Figure BDA0001815678990000044
优选地,所述损失函数的偏导数为:
Figure BDA0001815678990000045
优选地,所述优化步长优化RBF参数为:
αi←αi-βδ(ψ(s)i,y)A(ψ(s)i,y)   (7)。
本发明的方法和装置具有其它的特性和优点,这些特性和优点从并入本文中的附图和随后的具体实施方式中将是显而易见的,或者将在并入本文中的附图和随后的具体实施方式中进行详细陈述,这些附图和具体实施方式共同用于解释本发明的特定原理。
附图说明
通过结合附图对本发明示例性实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显,其中,在本发明示例性实施例中,相同的参考标号通常代表相同部件。
图1示出了根据本发明的基于RBF-A2C的强化学习方法的步骤的流程图。
具体实施方式
下面将参照附图更详细地描述本发明。虽然附图中显示了本发明的优选实施例,然而应该理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本发明更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。
图1示出了根据本发明的基于RBF-A2C的强化学习方法的步骤的流程图。
在该实施例中,根据本发明的基于RBF-A2C的强化学习方法可以包括:步骤1:根据当前的状态数据ψ(s)与步长优化RBF参数α,根据动作选择策略公式获得动作a;步骤2:执行动作a,获得环境反馈r和下一刻的状态数据ψ(s)′;步骤3:判断ψ(s)′是否达到预定目标,若是,则算法结束,若否,则转到步骤4;步骤4:根据当前的状态数据ψ(s)、环境反馈r和下一刻的状态数据ψ(s)′,计算Q函数值;步骤5:根据当前的状态数据ψ(s)与Q函数值,计算优势函数A;步骤6:计算激活函数与损失函数,计算损失函数的偏导数,进而计算优化步长优化RBF参数;步骤7:利用优化步长优化RBF参数替换步长优化RBF参数α,重复步骤1-7。
在一个示例中,动作选择策略公式为:
Figure BDA0001815678990000051
其中,y为Q函数值,b*为常量偏差。
在一个示例中,Q函数值为:
Figure BDA0001815678990000061
在一个示例中,优势函数A为:
Figure BDA0001815678990000062
其中,card(A)为动作的数量,a'为动作集合中的动作。
在一个示例中,激活函数为:
Figure BDA0001815678990000063
在一个示例中,损失函数为:
Figure BDA0001815678990000064
在一个示例中,损失函数的偏导数为:
Figure BDA0001815678990000065
在一个示例中,优化步长优化RBF参数为:
αi←αi-βδ(ψ(s)i,y)A(ψ(s)i,y)   (7)。
具体地,根据本发明的基于RBF-A2C的强化学习方法可以包括:
步骤1:初始化参数,预处理环境状态,通过将监测到的环境状态转为矩阵,变成系统可用状态,即从s转变为状态数据ψ(s),根据当前的状态数据ψ(s)与步长优化RBF参数α,根据动作选择策略公式获得动作a,采用ε-greedy策略,也就是依据ε的值确定动作,根据ε的动态变化决定当前的动作选择是探索还是最大化值函数,该策略在初期时鼓励探索可以防止动作陷入局部最优,造成过度拟合,动作选择策略公式为公式(1)。
步骤2:执行动作a,获得环境反馈r和下一刻的状态数据ψ(s)′。
步骤3:判断ψ(s)′是否达到预定目标,若是,则算法结束,若否,则转到步骤4。
步骤4:根据当前的状态数据ψ(s)、环境反馈r和下一刻的状态数据ψ(s)′,通过公式(2)计算Q函数值。
步骤5:根据当前的状态数据ψ(s)与Q函数值,通过公式(3)计算优势函数A,优势函数代表当前采取的动作比采取其他动作的平均值要好多少。
步骤6:根据高斯核函数,通过公式(4)计算激活函数,通过公式(5)计算损失函数,进而通过公式(6)计算损失函数的偏导数,由于环境是动态变化的,很难找到RBF神经网络的最优解,所以在RBF-A2C算法中,使用梯度下降法来优化网络的参数,通过公式(7)计算优化步长优化RBF参数。
步骤7:利用优化步长优化RBF参数替换步长优化RBF参数α,重复步骤1-7。
本方法通过RBF神经网络算法,解决传统算法收敛速度慢、收敛精度差的问题,避免大样本学习收敛困难和容易陷入局部极值的问题。
应用示例
为便于理解本发明实施例的方案及其效果,以下给出一个具体应用示例。本领域技术人员应理解,该示例仅为了便于理解本发明,其任何具体细节并非意在以任何方式限制本发明。
为了验证算法的有效性,选取具有离散状态空间的的随机漫步实验。随机漫步是一个经典的用来检验证明强化学习算法在离散空间下是否具有良好的泛化性能和学习能力的仿真平台,该平台不接受学习之外的任何导师经验,只通过自身观察状态空间的变化,获取信息。在学习实验过程中,初始状态是某个中间状态,智能体在有限的步骤内找到路径达到目标状态,同时奖赏值需要最大化。环境设置如下:当智能体到达最左侧位置,他得到的反馈值为-10。当智能体达到最右边的状态,一个情节就结束智能体获得+10反馈,其他位置,反馈值为0。
该算法在离散状态空间状态数目不同的情况下,相比较于其他算法都表现出收敛快的特性,而且在算法收敛后每一次成功的尝试所需要的步数也较少。在状态数目为15的情况下,RBF-A2C需要3次尝试达到算法收敛,而Q,Sarsa,A2C,DQN分别需要6、8、6、16尝试,如表1所示。
表1
状态数目 Q Sarsa A2C RBF-A2C DQN
7 5 5 3 3 7
11 4 5 6 3 8
15 6 8 6 3 16
取算法收敛后的10次尝试,记录每次成功尝试的步数,取平均值,RBF-A2C需要7.6步,Q,Sarsa,A2C,DQN算法分别需要8.4、7.8、8、58.2步,如表2所示。
表2
状态数目 Q Sarsa A2C RBF-A2C DQN
7 3.4 3.2 3.4 3.8 14.4
11 5.2 5.6 5.6 5.3 30.1
15 8.4 7.8 8 7.6 58.2
综上所述,本发明通过RBF神经网络算法,解决传统算法收敛速度慢、收敛精度差的问题,避免大样本学习收敛困难和容易陷入局部极值的问题。
本领域技术人员应理解,上面对本发明的实施例的描述的目的仅为了示例性地说明本发明的实施例的有益效果,并不意在将本发明的实施例限制于所给出的任何示例。
根据本发明的实施例,提供了一种基于RBF-A2C的强化学习系统,其特征在于,该系统包括:存储器,存储有计算机可执行指令;处理器,所述处理器运行所述存储器中的计算机可执行指令,执行以下步骤:步骤1:根据当前的状态数据ψ(s)与步长优化RBF参数α,根据动作选择策略公式获得动作a;步骤2:执行动作a,获得环境反馈r和下一刻的状态数据ψ(s)′;步骤3:判断ψ(s)′是否达到预定目标,若是,则算法结束,若否,则转到步骤4;步骤4:根据当前的状态数据ψ(s)、环境反馈r和下一刻的状态数据ψ(s)′,计算Q函数值;步骤5:根据当前的状态数据ψ(s)与Q函数值,计算优势函数A;步骤6:计算激活函数与损失函数,计算损失函数的偏导数,进而计算优化步长优化RBF参数;步骤7:利用优化步长优化RBF参数替换步长优化RBF参数α,重复步骤1-7。
在一个示例中,动作选择策略公式为:
Figure BDA0001815678990000091
其中,y为Q函数值,b*为常量偏差。
在一个示例中,Q函数值为:
Figure BDA0001815678990000092
在一个示例中,优势函数A为:
Figure BDA0001815678990000093
其中,card(A)为动作的数量,a'为动作集合中的动作。
在一个示例中,激活函数为:
Figure BDA0001815678990000094
在一个示例中,损失函数为:
Figure BDA0001815678990000095
在一个示例中,损失函数的偏导数为:
Figure BDA0001815678990000101
在一个示例中,优化步长优化RBF参数为:
αi←αi-βδ(ψ(s)i,y)A(ψ(s)i,y)   (7)。
本系统通过RBF神经网络算法,解决传统算法收敛速度慢、收敛精度差的问题,避免大样本学习收敛困难和容易陷入局部极值的问题。
本领域技术人员应理解,上面对本发明的实施例的描述的目的仅为了示例性地说明本发明的实施例的有益效果,并不意在将本发明的实施例限制于所给出的任何示例。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。

Claims (2)

1.一种基于RBF-A2C的强化学习方法,其特征在于,包括:
步骤1:根据当前的状态数据ψ(s)与步长优化RBF参数α,根据动作选择策略公式获得动作h;
步骤2:执行所述动作h,获得环境反馈r和下一刻的状态数据ψ(s)′;
步骤3:判断ψ(s)′是否达到预定目标,若是,则算法结束,若否,则转到步骤4;
步骤4:根据当前的状态数据ψ(s)、环境反馈r和下一刻的状态数据ψ(s)′,计算Q函数值;
步骤5:根据当前的状态数据ψ(s)与Q函数值,计算优势函数A;
步骤6:计算激活函数与损失函数,计算所述损失函数的偏导数,进而计算优化步长优化RBF参数;
步骤7:利用所述优化步长优化RBF参数替换所述步长优化RBF参数α,重复步骤1-7;
其中,所述动作选择策略公式为:
Figure FDA0003999419720000011
其中,y为Q函数值,b*为常量偏差;
其中,所述Q函数值为:
Figure FDA0003999419720000012
其中,所述优势函数A为:
Figure FDA0003999419720000013
其中,card(A)为动作的数量,h’为动作集合中的动作;
其中,所述激活函数为:
Figure FDA0003999419720000021
其中,所述损失函数为:
Figure FDA0003999419720000022
其中,所述损失函数的偏导数为:
Figure FDA0003999419720000023
其中,所述优化步长优化RBF参数为:
αi←αi-βδ(ψ(s)i,y)A(ψ(s)i,y)      (7)。
2.一种基于RBF-A2C的强化学习系统,其特征在于,该系统包括:
存储器,存储有计算机可执行指令;
处理器,所述处理器运行所述存储器中的计算机可执行指令,执行以下步骤:
步骤1:根据当前的状态数据ψ(s)与步长优化RBF参数α,根据动作选择策略公式获得动作a;
步骤2:执行所述动作a,获得环境反馈r和下一刻的状态数据ψ(s)′;
步骤3:判断ψ(s)′是否达到预定目标,若是,则算法结束,若否,则转到步骤4;
步骤4:根据当前的状态数据ψ(s)、环境反馈r和下一刻的状态数据ψ(s)′,计算Q函数值;
步骤5:根据当前的状态数据ψ(s)与Q函数值,计算优势函数A;
步骤6:计算激活函数与损失函数,计算所述损失函数的偏导数,进而计算优化步长优化RBF参数;
步骤7:利用所述优化步长优化RBF参数替换所述步长优化RBF参数α,重复步骤1-7;
其中,所述动作选择策略公式为:
Figure FDA0003999419720000031
其中,y为Q函数值,b*为常量偏差;
其中,所述Q函数值为:
Figure FDA0003999419720000032
其中,所述优势函数A为:
Figure FDA0003999419720000033
其中,card(A)为动作的数量,a'为动作集合中的动作;
其中,所述激活函数为:
Figure FDA0003999419720000034
其中,所述损失函数为:
Figure FDA0003999419720000035
其中,所述损失函数的偏导数为:
Figure FDA0003999419720000036
其中,所述优化步长优化RBF参数为:
αi←αi-βδ(ψ(s)i,y)A(ψ(s)i,y)     (7)。
CN201811140436.5A 2018-09-28 2018-09-28 基于rbf-a2c的强化学习方法及系统 Active CN110969248B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811140436.5A CN110969248B (zh) 2018-09-28 2018-09-28 基于rbf-a2c的强化学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811140436.5A CN110969248B (zh) 2018-09-28 2018-09-28 基于rbf-a2c的强化学习方法及系统

Publications (2)

Publication Number Publication Date
CN110969248A CN110969248A (zh) 2020-04-07
CN110969248B true CN110969248B (zh) 2023-04-07

Family

ID=70026819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811140436.5A Active CN110969248B (zh) 2018-09-28 2018-09-28 基于rbf-a2c的强化学习方法及系统

Country Status (1)

Country Link
CN (1) CN110969248B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112785076A (zh) * 2021-01-29 2021-05-11 亿景智联(北京)科技有限公司 社区团购生鲜配送路径优化算法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007126054A1 (ja) * 2006-04-27 2007-11-08 Riken 信号分離装置、信号分離方法、情報記録媒体、ならびに、プログラム
CN106612089A (zh) * 2016-12-20 2017-05-03 江苏大学 五自由度无轴承永磁同步电机强化学习控制器及构造方法
CN107403446A (zh) * 2016-05-18 2017-11-28 西门子保健有限责任公司 用于使用智能人工代理的图像配准的方法和系统
CN108510074A (zh) * 2018-05-30 2018-09-07 江苏理工学院 一种改进gwo算法的实现方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6917925B2 (en) * 2001-03-30 2005-07-12 Intelligent Inference Systems Corporation Convergent actor critic-based fuzzy reinforcement learning apparatus and method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007126054A1 (ja) * 2006-04-27 2007-11-08 Riken 信号分離装置、信号分離方法、情報記録媒体、ならびに、プログラム
CN107403446A (zh) * 2016-05-18 2017-11-28 西门子保健有限责任公司 用于使用智能人工代理的图像配准的方法和系统
CN106612089A (zh) * 2016-12-20 2017-05-03 江苏大学 五自由度无轴承永磁同步电机强化学习控制器及构造方法
CN108510074A (zh) * 2018-05-30 2018-09-07 江苏理工学院 一种改进gwo算法的实现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于BP神经网络的C2C电子商务信任度评价模型;胡伟雄、姜政军;《图书情报工作》;全文 *

Also Published As

Publication number Publication date
CN110969248A (zh) 2020-04-07

Similar Documents

Publication Publication Date Title
CN110168578B (zh) 具有任务特定路径的多任务神经网络
Heess et al. Actor-critic reinforcement learning with energy-based policies
CN113504987B (zh) 基于迁移学习的移动边缘计算任务卸载方法及装置
Cao et al. An optimized cost-sensitive SVM for imbalanced data learning
Duvenaud et al. Early stopping as nonparametric variational inference
CN109784149B (zh) 一种人体骨骼关键点的检测方法及系统
WO2018017546A1 (en) Training machine learning models on multiple machine learning tasks
CN105760933A (zh) 卷积神经网络的逐层变精度定点化方法及装置
CN113826125A (zh) 使用无监督数据增强来训练机器学习模型
CN116097277A (zh) 使用渐进式知识蒸馏训练神经网络模型的方法和系统
CN113487039A (zh) 基于深度强化学习的智能体自适应决策生成方法及系统
WO2021245286A1 (en) Learning options for action selection with meta-gradients in multi-task reinforcement learning
CN115204412A (zh) 基于知识蒸馏的问答模型压缩方法、装置及相关设备
CN110969248B (zh) 基于rbf-a2c的强化学习方法及系统
Lv et al. Integrated double estimator architecture for reinforcement learning
JP6942203B2 (ja) データ処理システムおよびデータ処理方法
US20220156607A1 (en) System and method for training recommendation policies
CN117808120A (zh) 用于大语言模型的强化学习的方法和装置
JP2019079227A (ja) 状態遷移規則獲得装置、行動選択学習装置、行動選択装置、状態遷移規則獲得方法、行動選択方法、およびプログラム
Catteeuw et al. The limits and robustness of reinforcement learning in Lewis signalling games
WO2020087254A1 (zh) 卷积神经网络的优化方法及相关产品
US7933449B2 (en) Pattern recognition method
CN117795527A (zh) 使用自回归语言模型神经网络评估输出序列
Contardo et al. Learning states representations in pomdp
Moudgalya et al. A Comparative Study of Model-Free Reinforcement Learning Approaches

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant