CN113269315A - 利用深度强化学习执行任务的设备、方法及可读存储介质 - Google Patents

利用深度强化学习执行任务的设备、方法及可读存储介质 Download PDF

Info

Publication number
CN113269315A
CN113269315A CN202110729536.7A CN202110729536A CN113269315A CN 113269315 A CN113269315 A CN 113269315A CN 202110729536 A CN202110729536 A CN 202110729536A CN 113269315 A CN113269315 A CN 113269315A
Authority
CN
China
Prior art keywords
function
vector
neural network
reinforcement learning
deep reinforcement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110729536.7A
Other languages
English (en)
Other versions
CN113269315B (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Cambricon Information Technology Co Ltd
Original Assignee
Anhui Cambricon Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Cambricon Information Technology Co Ltd filed Critical Anhui Cambricon Information Technology Co Ltd
Priority to CN202110729536.7A priority Critical patent/CN113269315B/zh
Publication of CN113269315A publication Critical patent/CN113269315A/zh
Application granted granted Critical
Publication of CN113269315B publication Critical patent/CN113269315B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及利用深度强化学习模型执行随机动态环境中的连续决策任务的集成电路装置、板卡、方法及可读存储介质,其中本发明的计算装置包括在集成电路装置中,该集成电路装置包括通用互联接口和其他处理装置。计算装置与其他处理装置进行交互,共同完成用户指定的计算操作。集成电路装置还可以包括存储装置,存储装置分别与计算装置和其他处理装置连接,用于计算装置和其他处理装置的数据存储。

Description

利用深度强化学习执行任务的设备、方法及可读存储介质
技术领域
本发明一般地涉及人工智能领域。更具体地,本发明涉及利用深度强化学习模型执行随机动态环境中的连续决策任务的集成电路装置、板卡、方法及可读存储介质。
背景技术
深度强化学习在解决连续决策任务方面取得了令人印象深刻的成果,特别是在自动驾驶、游戏、机器人控制等领域。在训练深度强化学习模型时,策略梯度法已被广泛的应用,因为该法可以直接与深度神经网络结合使用,并通过行动影响的未来回报的估计梯度来调整行动的概率。然而,由于行动对回报的影响与未来行动、当前状态和环境随机动态的影响相互作用,以至于策略梯度法中的梯度估计存在较高的方差。
减少方差的一个方法是从回报中减去一个“基线”,以排除相互作用的影响。最常见的基线是价值函数,其预测从当前状态开始的平均性能。价值函数能够通过消除当前状态的影响来降低梯度估计的方差。但在随机动态环境中,价值函数只考虑当前状态,无法排除意外的状态变动对回报的影响,导致价值函数在随机动态环境中无法有效地工作。
现有技术尚无法有效地模拟随机动态环境,以至于将深度强化学习应用在随机动态环境的效果并不理想,因此一种将深度强化学习模型应用在随机动态环境中的连续决策任务是迫切需要的。
发明内容
为了至少部分地解决背景技术中提到的技术问题,本发明的方案提供了一种利用深度强化学习模型执行随机动态环境中的连续决策任务的集成电路装置、板卡、方法及可读存储介质。
在一个方面中,本发明揭露一种利用深度强化学习模型在随机动态环境下执行连续决策任务的方法,包括:建立随机动态环境的后见价值函数,后见价值函数的输入包括后见向量,后见向量载有深度强化学习模型的未来状态奖励对的信息并与深度强化学习模型的当前状态行动对解耦;根据后见向量建立深度强化学习模型的损失函数;基于损失函数训练深度强化学习模型;以及利用训练好的深度强化学习模型执行连续决策任务。
在另一个方面,本发明揭露一种计算机可读存储介质,其上存储有利用深度强化学习模型在随机动态环境下执行连续决策任务的计算机程序代码,当计算机程序代码由处理装置运行时,执行前述的方法。
在另一个方面,本发明揭露一种利用深度强化学习模型在随机动态环境下执行连续决策任务的集成电路装置,包括处理装置及计算装置。处理装置用以建立随机动态环境的后见价值函数,后见价值函数的输入包括后见向量,后见向量载有深度强化学习模型的未来状态奖励对的信息并与深度强化学习模型的当前状态行动对解耦;并根据后见向量建立深度强化学习模型的损失函数。计算装置用以基于损失函数训练深度强化学习模型,并利用训练好的深度强化学习模型执行连续决策任务。
在另一个方面,本发明揭露一种板卡,包括前述的集成电路装置。
本发明提出一种利用后见价值函数来减少随机动态环境下梯度估计的方差,后见价值函数能提供有效的损失函数,以稳定训练,并在多种环境下改进最终策略,使得训练好的深度强化学习模型得以更有效地执行自动驾驶、游戏、机器人控制等连续决策任务。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,并且相同或对应的标号表示相同或对应的部分,其中:
图1是示出本发明实施例的板卡的结构图;
图2是示出本发明实施例的集成电路装置的结构图;
图3是示出本发明实施例训练深度强化学习模型再利用训练后的深度强化学习模型执行任务的流程图;
图4是示出本发明另一个实施例利用深度强化学习模型在随机动态环境下执行连续决策任务的流程图;
图5是示出本发明另一个实施例根据后见向量建立深度强化学习模型的损失函数的流程图;
图6是示出本发明另一个实施例基于损失函数训练深度强化学习模型的流程图;以及
图7是示出本发明另一个实施例计算对比对数比上限的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,本发明的权利要求、说明书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。本发明的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的,而并不意在限定本发明。如在本发明说明书和权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本发明说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。
下面结合附图来详细描述本发明的具体实施方式。
深度强化学习是统合深度学习和强化学习两者等优点而来。深度学习具有较强的感知能力,但是缺乏有效的决策能力;而强化学习具有决策能力,但不善于解决感知问题。深度强化学习兼具两者的优势,为复杂系统的先感知后决策的任务提供解决思路。
深度强化学习是一种端对端的感知与控制系统,具有很强的通用性,其学习过程为:首先在每个时刻具备行为能力的物体,像是机器人、无人车等的智能体(agent)与环境交互得到一个高维度的观察,并利用深度学习的方法来感知观察,进而获取状态(state);接着深度强化学习模型基于预期奖励(reward)来评价各行动(action)的价值函数,并通过策略(policy)将当前状态映射为相应的行动;最后环境对此状态做出反应,并得到下一个状态。通过不断循环以上过程,最终实现任务的最优策略。
图1示出本发明实施例的一种板卡10的结构示意图。如图1所示,板卡10包括芯片101,其是一种系统级芯片(System on Chip,SoC),或称片上系统,集成有一个或多个组合处理装置,组合处理装置是一种人工智能运算单元,用以支持各类深度强化学习算法,满足自动驾驶、游戏、机器人控制等领域复杂场景下的智能处理需求。特别是深度强化学习技术大量应用在云端智能领域,云端智能应用的一个显著特点是输入数据量大,对平台的存储能力和计算能力有很高的要求,此实施例的板卡10适用在云端智能应用,具有庞大的片外存储、片上存储和强大的计算能力。
芯片101通过对外接口装置102与外部设备103相连接。外部设备103例如是服务器、计算机、摄像头、激光雷达、显示器、鼠标、键盘、网卡或wifi接口等。待处理的数据可以由外部设备103通过对外接口装置102传递至芯片101。芯片101的计算结果可以经由对外接口装置102传送回外部设备103。根据不同的应用场景,对外接口装置102可以具有不同的接口形式,例如PCIe接口等。
板卡10还包括用于存储数据的存储器件104,其包括一个或多个存储单元105。存储器件104通过总线与控制器件106和芯片101进行连接和数据传输。板卡10中的控制器件106配置用于对芯片101的状态进行调控。为此,在一个应用场景中,控制器件106可以包括单片机(Micro Controller Unit,MCU)。
图2是示出此实施例的芯片101中的组合处理装置的结构图。如图2中所示,组合处理装置20包括计算装置201、接口装置202、处理装置203和片外内存204。
计算装置201配置成执行用户指定的操作,主要实现为单核智能处理器或者多核智能处理器,用以执行深度强化学习的计算,其可以通过接口装置202与处理装置203进行交互,以共同完成用户指定的操作。
接口装置202用于在计算装置201与处理装置203间传输数据和控制指令。例如,计算装置201可以经由接口装置202从处理装置203中获取输入数据,写入计算装置201片上的存储装置。进一步,计算装置201可以经由接口装置202从处理装置203中获取控制指令,写入计算装置201片上的控制缓存中。替代地或可选地,接口装置202也可以读取计算装置201的存储装置中的数据并传输给处理装置203。
处理装置203作为通用的处理装置,执行包括但不限于数据搬运、对计算装置201的开启和/或停止等基本控制。根据实现方式的不同,处理装置203可以是中央处理器(central processing unit,CPU)、图形处理器(graphics processing unit,GPU)或其他通用和/或专用处理器中的一种或多种类型的处理器,这些处理器包括但不限于数字信号处理器(digital signal processor,DSP)、专用集成电路(application specificintegrated circuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,并且其数目可以根据实际需要来确定。如前所述,仅就本发明的计算装置201而言,其可以视为具有单核结构或者同构多核结构。然而,当将计算装置201和处理装置203整合共同考虑时,二者视为形成异构多核结构。
片外内存204用以存储待处理的数据,为DDR内存,大小通常为16G或更大,用于保存计算装置201和/或处理装置203的数据。
此实施例的深度强化学习基于策略梯度(policy gradient)来完成任务。策略梯度是深度强化学习中策略相关方法的子集,策略相关方法用来维护显式策略并直接从该策略中决定行动,这些方法一般使用可微分函数来近似策略,并根据随机梯度上升来更新参数以获得更理想的回报。现有技术存在许多策略梯度方法,包括优势行动评价(AdvantageActor-Critic,A2C)、异步优势行动评价(Asynchronous Advantage Actor-Critic,A3C)、信任域策略优化(Trust Region Policy Optimization,TRPO)、近端策略优化(ProximalPolicy Optimization,PPO)等,此实施例较佳地但不限于选择A2C和PPO算法。
进一步来说,此实施例依循马尔科夫决策过程(Markov decision process,MDP),在离散的时间点取样,使得智能体与环境进行交互。在深度强化学习中,智能体会与环境持续互动,在每个时刻t,智能体接收到来自环境的状态St,基于状态St,智能体采取行动At,行动At作用在环境上,智能体接收到奖励Rt+1,使得智能体进入新的状态St+1。智能体与环境持续互动而产生以下序列:
S0,A0,R1,S1,A1,R2,S2,A2,R3,S3,A3,……
下一个状态的产生和当前的状态有关,而当前状态的产生又和前一个状态有关,即:
P[St+1|St]=P[St+1|S1,…,St]
原则上下一个状态的产生跟所有历史状态是有关的,但是马尔科夫决策过程的原则是忽略历史信息,只保留了当前状态的信息来预测下一个状态。换言之,马尔科夫决策过程对于一个具体的状态St和它的下一个状态St+1,其状态转移概率定义为:
Pss′=P[St+1=S′|St=S]
其中,Pss′为从状态S至状态S’的状态转移概率,即下一个状态的产生只受到当前状态的影响。为说明方便,在下文中如不需要特别强调时间序t,将以“S”表示当前状态St,以“S’”表示下一个状态St+1
当此模型共有n种状态可以选择时,则状态转移矩阵P定义为:
Figure BDA0003139585310000071
以状态转移矩阵P的第一行为例,P11指的是从当前状态1至下一个状态1的状态转移概率,P12指的是从当前状态1至下一个状态2的状态转移概率,P1n指的是从当前状态1至下一个状态n的状态转移概率。由于从当前状态1至下一个状态只有n种可能,故状态转移矩阵P的第一行的概率和为1。状态转移矩阵P的其他行也遵循同样的规则,故状态转移矩阵P的每一行的概率和为1。
在此实施例中,马尔科夫决策过程是由6个元组(tuple)S、A、P、ρ0、R和γ所定义的。S、A、P如前所述分别为状态、行动和状态转移矩阵,均不是固定数值,而是几率分布;ρ0为初始状态的几率分布;R为奖励函数,表示从当前状态S转移到下一个状态S’时能够获得奖励的期望值,即:
R=E[Rt+1|St=S]
γ为衰减因子(discount factor),同样是几率分布,用来避免在马尔科夫决策过程中产生无限奖励,无限奖励来自于在马尔科夫决策过程中一次又一次不断地的得到奖励R,导致奖励R可能会变成无穷大或无穷小的函数,这无穷大或无穷小的函数对于系统来说是没有意义的,衰减因子γ便是用来抑制奖励R出现无穷大或无穷小函数的情况。
马尔科夫决策过程是从状态S出发,经过一连串的状态转移最终达到终点,获得了一条决策过程的轨迹,每次状态转移都会有一个奖励R,最终回报(return)的期望值η(π)即是从状态S开始一直到终点的所有奖励R之和,深度强化学习的任务便是让回报期望值η(π)最大化。
衰减因子还可以用来反映离状态S越远的未来状态,状态S对其的影响越小,回报期望值的表示式如下:
Figure BDA0003139585310000081
其中,τ=(S0,A0,……)表示决策过程的轨迹,而π则是策略。更详细来说,策略π是在给定状态S下,关于行动A的概率分布,所以策略π实际上是πθ(A|S),θ为深度强化学习模型的参数,训练深度强化学习模型的目的就是在于找出合适的参数θ,使得回报期望值η(π)符合预期。从另一个角度来说,训练深度强化学习模型是通过不断更新参数θ,让深度强化学习模型在推理时可以找到一个轨迹使得η(π)值最大,也就是回报(累计奖励)最大。
马尔科夫决策过程的价值函数(value function)代表的就是从状态S开始沿着轨迹前进的回报期望值η(π),即:
Figure BDA0003139585310000082
其中l指的是时间步长。如前所述,从状态S出发到下一个状态S’会有n种可能,也就是从状态S开始存在多条路径可以抵达最终目标,每条路径都有对应的回报期望值η(π),价值函数就是这些回报期望值η(π)的期望值函数。
在深度强化学习模型的训练过程中要不断更新参数θ,使得回报最大化。由于无法事先预测动态环境的状态分布,而奖励函数又依赖于行动和状态的几率分布,因此难以直接进行求导。此实施例改以把奖励采用无偏差估计的方法计算出来。首先进行随机采样然后取均值来估计,再假设πθ为零时可微分,进而得到对于任意可微分的策略梯度估值如下:
Figure BDA0003139585310000083
为精简算式,进一步定义状态访问频率(state visitation frequency)如下:
Figure BDA0003139585310000091
Figure BDA0003139585310000092
然而,利用上述方法对Rt(τ)进行梯度估计时随机性太高,还是容易产生高方差,此实施例从中减去依赖于St的量,以去除St下的平均奖励,从而在不引入偏差的情况下降低梯度估计的方差。减去基线的策略梯度估值如下:
Figure BDA0003139585310000093
其中,基线函数b(St)反映的是St的平均奖励,也就是价值函数V(St)。
价值评估是深度强化学习的核心部分。对于上述的策略梯度法,采用基线来降低梯度估计的方差可以得到最优基线如下:
Figure BDA0003139585310000094
其中,上标T表示转置矩阵。由于上述的最优基线还是难以估算,实务上只好以Rt(τ)的期望值E[Rt(τ)]来替代。
准确的价值估算对于模型的建立来说是至关重要的,因为它意味着较低的方差。现有技术通常采用参数函数Vθ来估算价值函数,也就是在当前策略下对轨迹和回报进行抽样,根据这些样本来更新Vθ的参数。遗憾的是,这种回归方式效果不理想,尤其当环境或回报具有强随机性时,情况会变得难以控制。
为了有效估算价值函数,此实施例基于信息学引入互信息(mutual information)的概念来避免高方差。互信息是衡量两个随机变量之间依赖性的方法,已被广泛应用于机器学习中的许多任务中,像是生成建模、信息瓶颈和领域自适应等。此实施例利用互信息来衡量未来状态和先前行动之间的依赖性。
首先,处理装置203建立随机动态环境的后见价值函数(hindsight valuefunction),其载有当前状态、未来状态与奖励的信息。后见价值函数vh如下:
vh(St,S+,R+)=E[R|St,Rt,St+1,Rt+1,…]
其中,S+代表轨迹上所有的未来状态,R+代表轨迹上所有的未来奖励。然而,当整个未来已知时,价值函数V(St)成为一个常数Rt(τ),以至于策略梯度为零,无法训练,即:
Figure BDA0003139585310000101
为了解决上述问题,此实施例进一步调整后见价值函数,仅利用未来的信息,且去除基线以保持策略梯度不偏差。调整后的后见价值函数的输入包括多个后见向量,这些后见向量载有深度强化学习模型的轨迹上的所有未来状态与轨迹上所有未来奖励的信息,并与当前状态行动对解耦。换言之,后见向量从未来的状态和奖励中提取信息,而不是直接利用未来的状态奖励对(state-reward pairs)。处理装置203所采用的后见价值函数如下:
Vh(St,h+)=E[R|St,ht+1,ht+2,…]
其中,ht+1,ht+2,…均为后见向量,而h+是所有后见向量的统称。后见向量包含未来每个时间步长的信息。从上述式子可知,后见向量满足以下两个特征:第一,后见向量与智能体的行动无关,以保证梯度估计无偏差;第二,后见向量载有未来后见价值函数足够多的信息,方便估算回报期望值。举例来说,如果深度强化学习模型应用在自动驾驶上,后见向量对应车辆可能遭遇到的未来交通状况,需注意这些状况都是随机发生的。
后见向量h被设计为当前状态行动对(state-action pair)和未来状态奖励对的函数,且后见向量h满足以下条件:
I(h;(S,A))=0
其中,I函数表示两个随机变量之间的互信息,上式显示了后见向量h和当前状态行动对无关,也就是当前后见向量和当前状态行动对是独立的。数学推导可以证明,一旦当前后见向量和当前状态行动对是独立的,则未来的所有后见向量都与当前状态行动对无关。满足上式则后见向量与当前状态行动对解耦了。
这些后见向量还需要包含足够多的信息,使得后见价值函数Vh可以近似奖励期望值。在当前状态行动对的前提下,此实施例在企图最大化后见价值函数的同时,最大化后见向量h和未来状态奖励对的互信息函数,即:
max(I(h;(S′,R)|(S,A)))
上述互信息函数依旧难以直接对后见向量h求导,处理装置203进而引入第一神经网络
Figure BDA0003139585310000111
其中包括参数θf,通过训练第一神经网络
Figure BDA0003139585310000112
更新参数θf的过程,获得可进行梯度运算的后见向量h,即:
Figure BDA0003139585310000113
第一神经网络
Figure BDA0003139585310000114
为未来状态奖励对及当前状态行动对的函数。由于
Figure BDA0003139585310000115
是神经网络,处理装置203将第一神经网络
Figure BDA0003139585310000116
的损失函数(以下称第一损失函数)设定成:
LFf)=I(h;(S,A))-I(h;(S′,R)|(S,A))
其中,LFf)为第一损失函数。处理装置203利用第一损失函数来近似深度强化学习模型的损失函数。如上式所示,第一损失函数为当前状态行动对与后见向量的第一互信息函数减去在当前状态行动对的前提下,下一个状态奖励对与后见向量的第二互信息函数。如此一来,深度强化学习模型的损失函数(即第一损失函数)是互信息函数,而不是参数函数Vθ,可以避免高方差的出现。
第一损失函数LFf)越小,表示实际计算值和理想值越接近,也就是推理的效果越佳,因此针对第一损失函数LFf)进行训练的过程中,需要不断更新θf,以最小化损失函数L(θf)。在此实施例的训练过程中,欲最小化损失函数L(θf),首先考虑最大化第二互信息函数I(h;(S′,R)|(S,A)),原因在于第二互信息函数I(h;(S′,R)|(S,A))是第一损失函数LFf)的减数项,减数项越大,第一损失函数LFf)越小。考虑到第二互信息函数I(h;(S′,R)|(S,A))与后见向量h所包含的信息有关,处理装置203将该项I(h;(S′,R)|(S,A))转换为熵函数,即:
H((S′,R)|(S,A))-H((S′,R)|(S,A),h)
由上述式子可知,被减项H((S′,R)|(S,A))与后见向量h无关,故欲最大化第二互信息函数I(h;(S′,R)|(S,A)),直接最小化熵函数中的H((S′,R)|(S,A),h)即可。然而,直接最小化熵函数中的H((S′,R)|(S,A),h)还是一个困难任务,处理装置203继续将H((S′,R)|(S,A),h)转换成预测任务。处理装置203再度引入第二神经网络
Figure BDA0003139585310000121
其以后见向量h和当前状态行动对作为输入,用来执行预测任务。第二神经网络
Figure BDA0003139585310000122
的损失函数(以下称第二损失函数)如下:
Figure BDA0003139585310000123
欲最小化熵函数H((S′,R)|(S,A),h),仅需最小化神经网络
Figure BDA0003139585310000131
的损失函数即可。
回到第一神经网络
Figure BDA0003139585310000132
为了最小化第一损失函数LFf),此实施例还可以考虑最小化第一互信息函数I(h;(S,A)),欲最小化互信息I(h;(S,A)),处理装置203采用了对比对数比上限(contrastive log-ratio upper bound,CLUB)来近似被减项I(h;(S,A))的最大值,这是一种估计互信息上限的方法,其通过正样本对和负样本对之间的条件概率差来估计互信息。换言之,通过尽可能减小第一互信息函数I(h;(S,A))的上限值,使得第一互信息函数I(h;(S,A))最小化。
对于随机变量x和y,在条件分布为p(y|x)的前提下,互信息对比对数比上限定义为:
ICLUB(x;y)=Ep(y,x)[logp(y|x)]-Ep(x)Ep(y)[logp(y|x)]
在此实施例中,x为状态行动对,y为后见向量。
遗憾的是分布概率p(h|(S,A))无法取得,上述式子需要再度进行转换。处理装置203引入变分分布(variational distribution)
Figure BDA0003139585310000133
来近似分布概率,以替换互信息对比对数比上限ICLUB中的p(h|(S,A)),将上式的互信息对比对数比上限ICLUB调整为:
Figure BDA0003139585310000134
欲计算IvCLUB,此实施例采用几个步骤来近似。首先是利用对数似然方程(log-likelihood equation)来近似
Figure BDA0003139585310000135
对数似然方程如下所示:
Figure BDA0003139585310000136
接着在{1,2,…,N}的范围内取样N个样本ki′,来计算对比对数比上限的上限样本Ui函数,即:
Figure BDA0003139585310000141
再对N个Ui函数取第一平均函数,以获得对比对数比上限ICLUB
Figure BDA0003139585310000142
通过上式,便可以最小化第一互信息函数I(h;(S,A)),即:
LFf)=IvCLUB((S,A);h)
至此,第一损失函数LFf)的第一互信息函数得以最小化,而第二互信息函数得以最大化,间接获得低方差的第一损失函数LFf)。
在获得第一损失函数LFf)和第二损失函数LPfP)后,此实施例便可以开始针对这两个损失函数对相应的神经网络模型进行训练,也就是更新θP及θf,先训练第二神经网络
Figure BDA0003139585310000143
以获得θP,再最小化第一损失函数LFf)以获得θf。在第一神经网络训练完毕后,这些更新后的参数θP及θf最大化后见向量h和未来状态奖励对的互信息函数,进而最大化后见价值函数,最后获得奖励期望值的最大值,间接完成深度强化学习的训练。
为了更详细地说明此实施例利用深度强化学习模型执行任务的过程,图3示出此实施例训练深度强化学习模型再利用训练后的深度强化学习模型执行任务的流程图,以下将搭配图3进行说明。
在步骤301中,处理装置203将存储元组(St,At,St’,Rt)、第一神经网络
Figure BDA0003139585310000144
第二神经网络
Figure BDA0003139585310000145
变分分布
Figure BDA0003139585310000146
存储在片外内存204中。
在步骤302中,计算装置201自片外内存204中取出元组(St,At,St’,Rt),并对其进行取样。计算装置201从i=1至i=N,供取样N组,获得(S1,A1,S1’,R1)、(S2,A2,S2’,R2)至(SN,AN,SN’,RN)等N个元组的元组集合,供计算装置201根据元组集合计算对比对数比上限,详细步骤如后。
在步骤303中,计算装置201将元组集合代入第一神经网络
Figure BDA0003139585310000147
中,基于
Figure BDA0003139585310000151
进行训练,获得N个后见向量样本,即h1至hN
在步骤304中,计算装置201基于N个后见向量样本计算对数似然方程L(θc),以近似变分分布
Figure BDA0003139585310000152
在步骤305中,计算装置201在{1,2,…,N}的范围内取样N个样本ki′,代入Ui式子以获得N个上限样本Ui函数。
在步骤306中,计算装置201对N个上限样本Ui函数取平均值,即第一平均函数,以近似对比对数比上限ICLUB
在步骤307中,计算装置201获得N个第二神经网络
Figure BDA0003139585310000153
的损失函数(以下称第二损失函数)的取样函数:
Figure BDA0003139585310000154
其中,i从1至N。
在步骤308中,计算装置201对N个取样函数取平均值,即第二平均函数,即:
Figure BDA0003139585310000155
此实施例以第二平均函数来近似第二损失函数LPfP)。
在步骤309中,计算装置201基于第二平均函数来训练第二神经网络
Figure BDA0003139585310000156
也就是最小化第二平均函数,以更新第二神经网络
Figure BDA0003139585310000157
中的参数θP
在步骤310中,计算装置201基于在步骤306中获得的对比对数比上限ICLUB和在步骤309中获得的第二神经网络
Figure BDA0003139585310000158
最小化第一损失函数LFf),以更新第一神经网络
Figure BDA0003139585310000159
中的参数θf
在步骤311中,计算装置201基于更新后的参数θP和参数θf推导后见向量。由于后见向量是第一神经网络
Figure BDA00031395853100001510
的解,因此计算出第一神经网络
Figure BDA00031395853100001511
后,便可推导出后见向量。
在步骤312中,计算装置201基于在步骤311中推导出的后见向量优化后见价值函数。如前所述,后见价值函数如下:
Vh(St,h+)=E[R|St,ht+1,ht+2,…]
获得后见向量后,便可优化后见价值函数。在此步骤中,计算装置201已完成深度强化学习模型的训练。
在步骤313中,计算装置201将深度强化学习模型中已更新完成的各参数存储至片外内存204中。
在步骤314中,当需要利用深度强化学习模型进行连续决策任务时,计算装置201自片外内存204读取训练完成的参数,利用训练好的深度强化学习模型执行连续决策任务,该连续决策任务可以是自动驾驶、游戏、机器人控制等操作。
此实施例通过处理装置203建立对应至随机动态环境的后见价值函数,其中后见价值函数的输入包括后见向量,将后见向量转换成互信息,并提供有效的损失函数。计算装置201对其损失函数进行训练,避免直接根据深度强化学习模型的价值函数进行训练而高方差的问题,使得训练好的深度强化学习模型得以更有效地执行连续决策任务。
本发明的另一个实施例是一种利用深度强化学习模型在随机动态环境下执行连续决策任务的方法,此实施例同样依循马尔科夫决策过程,基于策略梯度来完成任务。此实施例的马尔科夫决策过程同样是由6个元组S、A、P、ρ0、R和γ所定义的,此6个元组均为几率分布。图4示出其流程图。
在步骤401中,建立随机动态环境的后见价值函数,其载有当前状态、未来状态与奖励的信息。后见价值函数vh如下:
vh(St,S+,R+)=E[R|St,Rt,St+1,Rt+1,…]
其中,S+代表轨迹上所有的未来状态,R+代表轨迹上所有的未来奖励。
为了解决某些情况下导致策略梯度为零无法训练的问题,此步骤进一步调整后见价值函数,仅利用未来的信息,且去除基线以保持策略梯度不偏差。在此实施例中,后见价值函数的输入包括多个后见向量,后见向量载有深度强化学习模型的未来状态奖励对的信息并与深度强化学习模型的当前状态行动对解耦。调整后的后见价值函数如下:
Vh(St,h+)=E[R|St,ht+1,ht+2,…]
其中,ht+1,ht+2,…均为后见向量,而h+是所有后见向量的统称。再者,后见向量h满足以下条件:
I(h;(S,A))=0
上式显示后见向量与当前状态行动对的互信息为零,也就是后见向量与当前状态行动对解耦了。
在步骤402中,根据后见向量建立深度强化学习模型的损失函数。由于后见向量与当前状态行动对解耦了,故利用后见向量建立深度强化学习模型的损失函数时,便不会产生策略梯度为零无法训练的情况。此步骤进一步可细化成如图5所示的流程图。
在步骤501中,引入第一神经网络。上述的后见向量需要包含足够多的信息,使得后见价值函数Vh可以近似奖励期望值。在当前状态行动对的前提下,此实施例在企图最大化后见价值函数的同时,最大化后见向量h和未来状态奖励对的互信息函数,即:
max(I(h;(S′,R)|(S,A)))
上述互信息函数依旧难以直接对后见向量h求导,因此在此步骤中引入第一神经网络
Figure BDA0003139585310000171
其中包括参数θf,通过训练第一神经网络
Figure BDA0003139585310000172
更新参数θf的过程,获得可进行梯度运算的后见向量h,即:
Figure BDA0003139585310000181
如上式所示,第一神经网络
Figure BDA0003139585310000182
为未来状态奖励对及当前状态行动对的函数。
在步骤502中,设定第一损失函数为用来训练的损失函数,第一损失函数为第一神经网络
Figure BDA0003139585310000183
的损失函数,即:
LFf)=I(h;(S,A))-I(h;(S′,R)|(S,A))
其中,LFf)为第一损失函数。第一损失函数为当前状态行动对与后见向量的第一互信息函数减去在当前状态行动对的前提下,下一个状态奖励对与后见向量的第二互信息函数。由于深度强化学习模型的损失函数是互信息函数,而不是参数函数Vθ,如此便可避免高方差的出现。
在步骤503中,将第二互信息函数转换成熵函数。此步骤先处理第二互信息函数I(h;(S′,R)|(S,A))。欲最小化损失函数L(θf),可以最大化第二互信息函数I(h;(S′,R)|(S,A)),考虑到第二互信息函数I(h;(S′,R)|(S,A))与后见向量h所包含的信息有关,将该项I(h;(S′,R)|(S,A))转换为熵函数,即:
H((S′,R)|(S,A))-H((S′,R)|(S,A),h)
由上述式子可知,被减项H((S′,R)|(S,A))与后见向量h无关,故欲最大化第二互信息函数I(h;(S′,R)|(S,A)),最小化熵函数中的H((S′,R)|(S,A),h)即可。
在步骤504中,将熵函数转换成第二神经网络。直接最小化熵函数中的H((S′,R)|(S,A),h)是一个困难任务,此步骤继续将H((S′,R)|(S,A),h)转换成预测任务,引入第二神经网络
Figure BDA0003139585310000184
其以后见向量h和当前状态行动对作为输入,用来执行预测任务。第二神经网络
Figure BDA0003139585310000185
的损失函数如下:
Figure BDA0003139585310000186
欲最小化熵函数中的H((S′,R)|(S,A),h),仅需最小化神经网络
Figure BDA0003139585310000191
的损失函数即可。
回到第一神经网络
Figure BDA0003139585310000192
为了最小化第一损失函数LFf),还可以考虑最小化第一互信息函数I(h;(S,A))。欲最小化互信息I(h;(S,A)),此实施例采用了对比对数比上限来近似第一互信息函数I(h;(S,A))的最大值。通过尽可能减小第一互信息函数I(h;(S,A))的上限值,使得第一互信息函数I(h;(S,A))最小化。
对于随机变量x和y,在条件分布为p(y|x)的前提下,互信息对比对数比上限定义为:
ICLUB(x;y)=Ep(y,x)[logp(y|x)]-Ep(x)Ep(y)[logp(y|x)]
其中,x为状态行动对,y为后见向量。从上式可知,对比对数比上限的输入包括在当前状态行动对的前提下,后见向量的分布概率。接下来便是获得对比对数比上限ICLUB的过程。
在步骤505中,引入变分分布
Figure BDA0003139585310000193
来近似分布概率,以替换互信息对比对数比上限ICLUB中的p(h|(S,A)),因此上式的互信息对比对数比上限ICLUB调整为:
Figure BDA0003139585310000194
在步骤506中,利用对数似然方程来近似
Figure BDA0003139585310000195
对数似然方程如下所示:
Figure BDA0003139585310000196
在步骤507中,在{1,2,…,N}的范围内取样N个样本ki′,来计算对比对数比上限的上限样本Ui函数,即:
Figure BDA0003139585310000197
在步骤508中,对N个Ui函数取第一平均函数,以获得对比对数比上限ICLUB
Figure BDA0003139585310000201
通过上式,便可以最小化第一互信息函数I(h;(S,A)),即:
LFf)=IvCLUB((S,A);h)
至此,通过建立第一损失函数与第二损失函数,得以近似深度强化学习模型的损失函数。综上所述,此实施例将原本深度强化学习训练的价值函数的梯度计算工作,先转换成后见价值函数中后见向量的互信息函数计算,再转换成二个神经网络模型的训练工作,以避免高方差的问题。
回到图4,接着执行步骤403,基于损失函数训练深度强化学习模型。训练的过程可以进一步可细化成如图6所示的流程图。
在步骤601中,取样N个元组的元组集合。取样N组,以获得(S1,A1,S1’,R1)、(S2,A2,S2’,R2)至(SN,AN,SN’,RN)等N个元组的元组集合。
在步骤602中,根据元组集合计算对比对数比上限。计算过程可以进一步可细化成如图7所示的流程图。
在步骤701中,将元组集合代入第一神经网络
Figure BDA0003139585310000202
中,基于
Figure BDA0003139585310000203
进行训练,获得N个后见向量样本,即h1至hN
在步骤702中,基于N个后见向量样本计算对数似然方程,以近似变分分布。对数似然方程如下所示:
Figure BDA0003139585310000204
在步骤703中,取样N个对比对数比上限的上限样本函数。在{1,2,…,N}的范围内取样N个样本ki′,计算对比对数比上限的上限样本Ui函数,即:
Figure BDA0003139585310000211
在步骤704中,对N个上限样本函数取第一平均函数,以近似对比对数比上限ICLUB
Figure BDA0003139585310000212
回到图6,接着执行步骤603,获得N个第二损失函数的取样函数,其中第二损失函数为第二神经网络
Figure BDA0003139585310000213
的损失函数。取样函数如下:
Figure BDA0003139585310000214
其中,i从1至N。
在步骤604中,对N个取样函数取第二平均函数,即:
Figure BDA0003139585310000215
此实施例以第二平均函数近似为第二损失函数LPfP)。
在步骤605中,基于第二平均函数训练第二神经网络
Figure BDA0003139585310000216
也就是最小化第二平均函数,以更新第二神经网络
Figure BDA0003139585310000217
中的参数θP
在步骤606中,基于在步骤508中获得的对比对数比上限ICLUB和在步骤605中获得的第二神经网络
Figure BDA0003139585310000218
最小化第一损失函数LFf),以更新第一神经网络
Figure BDA0003139585310000219
中的参数θf
在步骤607中,基于更新后的参数θP和参数θf推导后见向量。由于后见向量是第一神经网络
Figure BDA00031395853100002110
的解,因此计算出第一神经网络
Figure BDA00031395853100002111
后,便可推导出后见向量。
在步骤608中,基于推导出的后见向量优化后见价值函数。如前所述,后见价值函数如下:
Vh(St,h+)=E[R|St,ht+1,ht+2,…]
获得后见向量后,便可优化后见价值函数。至此已完成深度强化学习模型的训练。
再回到图4,接着执行步骤404,利用训练好的深度强化学习模型执行连续决策任务,该连续决策任务可以是自动驾驶、游戏、机器人控制等操作。
此实施例通过建立在随机动态环境的后见价值函数,而后见价值函数的输入包括后见向量,将后见向量转换成互信息函数,再提供有效的损失函数。对其损失函数进行训练时可避免直接根据深度强化学习模型的价值函数进行训练而产生高方差的问题,使得训练好的深度强化学习模型得以更有效地执行连续决策任务。
本发明另一个实施例为一种计算机可读存储介质,其上存储有利用深度强化学习模型在随机动态环境下执行连续决策任务的计算机程序代码,当所述计算机程序代码由处理器运行时,执行如前所述各实施例的方法。在一些实现场景中,上述集成的单元可以采用软件程序模块的形式来实现。如果以软件程序模块的形式实现并作为独立的产品销售或使用时,所述集成的单元可以存储在计算机可读取存储器中。基于此,当本发明的方案以软件产品(例如计算机可读存储介质)的形式体现时,该软件产品可以存储在存储器中,其可以包括若干指令用以使得计算机设备(例如个人计算机、服务器或者网络设备等)执行本发明实施例所述方法的部分或全部步骤。前述的存储器可以包括但不限于U盘、闪存盘、只读存储器(Read Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
为解决深度强化学习模型在随机动态环境下梯度估计的高方差的技术问题,本发明提出了利用后见价值函数,以及基于信息论来获得理想的无偏差梯度估计的技术手段,能够达到稳定训练,并在随机动态环境下改进最终策略,使得训练好的深度强化学习模型得以更有效地执行连续决策任务的技术效果。
根据不同的应用场景,本发明的电子设备或装置可以包括服务器、云端服务器、服务器集群、数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、PC设备、物联网终端、移动终端、手机、行车记录仪、导航仪、传感器、摄像头、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、视觉终端、自动驾驶终端、交通工具、家用电器、和/或医疗设备。所述交通工具包括飞机、轮船和/或车辆;所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机;所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。本发明的电子设备或装置还可以被应用于互联网、物联网、数据中心、能源、交通、公共管理、制造、教育、电网、电信、金融、零售、工地、医疗等领域。进一步,本发明的电子设备或装置还可以用于云端、边缘端、终端等与人工智能、大数据和/或云计算相关的应用场景中。在一个或多个实施例中,根据本发明方案的算力高的电子设备或装置可以应用于云端设备(例如云端服务器),而功耗小的电子设备或装置可以应用于终端设备和/或边缘端设备(例如智能手机或摄像头)。在一个或多个实施例中,云端设备的硬件信息和终端设备和/或边缘端设备的硬件信息相互兼容,从而可以根据终端设备和/或边缘端设备的硬件信息,从云端设备的硬件资源中匹配出合适的硬件资源来模拟终端设备和/或边缘端设备的硬件资源,以便完成端云一体或云边端一体的统一管理、调度和协同工作。
需要说明的是,为了简明的目的,本发明将一些方法及其实施例表述为一系列的行动及其组合,但是本领域技术人员可以理解本发明的方案并不受所描述的行动的顺序限制。因此,依据本发明的公开或教导,本领域技术人员可以理解其中的某些步骤可以采用其他顺序来执行或者同时执行。进一步,本领域技术人员可以理解本发明所描述的实施例可以视为可选实施例,即其中所涉及的行动或模块对于本发明某个或某些方案的实现并不一定是必需的。另外,根据方案的不同,本发明对一些实施例的描述也各有侧重。鉴于此,本领域技术人员可以理解本发明某个实施例中没有详述的部分,也可以参见其他实施例的相关描述。
在具体实现方面,基于本发明的公开和教导,本领域技术人员可以理解本发明所公开的若干实施例也可以通过本文未公开的其他方式来实现。例如,就前文所述的电子设备或装置实施例中的各个单元来说,本文在考虑了逻辑功能的基础上对其进行拆分,而实际实现时也可以有另外的拆分方式。又例如,可以将多个单元或组件结合或者集成到另一个系统,或者对单元或组件中的一些特征或功能进行选择性地禁用。就不同单元或组件之间的连接关系而言,前文结合附图所讨论的连接可以是单元或组件之间的直接或间接耦合。在一些场景中,前述的直接或间接耦合涉及利用接口的通信连接,其中通信接口可以支持电性、光学、声学、磁性或其它形式的信号传输。
在本发明中,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元示出的部件可以是或者也可以不是物理单元。前述部件或单元可以位于同一位置或者分布到多个网络单元上。另外,根据实际的需要,可以选择其中的部分或者全部单元来实现本发明实施例所述方案的目的。另外,在一些场景中,本发明实施例中的多个单元可以集成于一个单元中或者各个单元物理上单独存在。
在另外一些实现场景中,上述集成的单元也可以采用硬件的形式实现,即为具体的硬件电路,其可以包括数字电路和/或模拟电路等。电路的硬件结构的物理实现可以包括但不限于物理器件,而物理器件可以包括但不限于晶体管或忆阻器等器件。鉴于此,本文所述的各类装置(例如计算装置或其他处理装置)可以通过适当的硬件处理器来实现,例如中央处理器、GPU、FPGA、DSP和ASIC等。进一步,前述的所述存储单元或存储装置可以是任意适当的存储介质(包括磁存储介质或磁光存储介质等),其例如可以是可变电阻式存储器(Resistive Random Access Memory,RRAM)、动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)、静态随机存取存储器(Static Random Access Memory,SRAM)、增强动态随机存取存储器(Enhanced Dynamic Random Access Memory,EDRAM)、高带宽存储器(High Bandwidth Memory,HBM)、混合存储器立方体(Hybrid Memory Cube,HMC)、ROM和RAM等。
依据以下条款可更好地理解前述内容:
条款A1.一种利用深度强化学习模型在随机动态环境下执行连续决策任务的方法,包括:建立所述随机动态环境的后见价值函数,所述后见价值函数的输入包括后见向量,所述后见向量载有所述深度强化学习模型的未来状态奖励对的信息并与所述深度强化学习模型的当前状态行动对解耦;根据所述后见向量建立所述深度强化学习模型的损失函数;基于所述损失函数训练所述深度强化学习模型;以及利用训练好的深度强化学习模型执行所述连续决策任务。
条款A2.根据条款A1所述的方法,其中所述后见向量与所述当前状态行动对的互信息为零。
条款A3.根据条款A1所述的方法,其中所述建立损失函数的步骤包括引入第一神经网络,其中所述第一神经网络为所述未来状态奖励对及所述当前状态行动对的函数。
条款A4.根据条款A3所述的方法,其中所述建立损失函数的步骤还包括设定第一损失函数为所述损失函数,其中所述第一损失函数为所述第一神经网络的损失函数,所述第一损失函数为所述当前状态行动对与所述后见向量的第一互信息函数减去在所述当前状态行动对的前提下,下一个状态奖励对与所述后见向量的第二互信息函数。
条款A5.根据条款A4所述的方法,其中所述建立损失函数的步骤还包括:将所述第二互信息函数转换成熵函数;以及将所述熵函数转换成第二神经网络。
条款A6.根据条款A5所述的方法,其中所述建立损失函数的步骤还包括:利用对比对数比上限来近似所述第一互信息函数的上限,其中所述对比对数比上限的输入包括在所述当前状态行动对的前提下,所述后见向量的分布概率;以及引入变分分布来近似所述分布概率。
条款A7.根据条款A6所述的方法,其中所述训练步骤包括:取样N个元组的元组集合;以及根据所述元组集合计算所述对比对数比上限。
条款A8.根据条款A7所述的方法,其中所述计算所述对比对数比上限的步骤包括:将所述元组集合代入所述第一神经网络中进行训练,以获得N个后见向量样本;基于所述N个后见向量样本计算对数似然方程,以近似所述变分分布;取样N个所述对比对数比上限的上限样本函数;以及对所述N个上限样本函数取第一平均函数,以获得所述对比对数比上限。
条款A9.根据条款A8所述的方法,其中所述训练步骤还包括:获得N个第二损失函数的取样函数,其中所述第二损失函数为所述第二神经网络的损失函数;对所述N个取样函数取第二平均函数;基于所述第二平均函数训练所述第二神经网络,以更新所述第二神经网络中的参数。
条款A10.根据条款A9所述的方法,其中所述训练步骤还包括:最小化所述第二损失函数与所述对比对数比上限,以更新所述第一神经网络中的参数;基于更新后的参数推导所述后见向量;以及基于推导出的后见向量优化所述后见价值函数。
条款A11.一种计算机可读存储介质,其上存储有利用深度强化学习模型在随机动态环境下执行连续决策任务的计算机程序代码,当所述计算机程序代码由处理装置运行时,执行条款A1至10任一项所述的方法。
条款A12.一种利用深度强化学习模型在随机动态环境下执行连续决策任务的集成电路装置,包括:处理装置,用以:建立所述随机动态环境的后见价值函数,所述后见价值函数的输入包括后见向量,所述后见向量载有所述深度强化学习模型的未来状态奖励对的信息并与所述深度强化学习模型的当前状态行动对解耦;以及根据所述后见向量建立所述深度强化学习模型的损失函数;以及计算装置,用以:基于所述损失函数训练所述深度强化学习模型;以及利用训练好的深度强化学习模型执行所述连续决策任务。
条款A13.根据条款A12所述的集成电路装置,其中所述后见向量与所述当前状态行动对的互信息为零。
条款A14.根据条款A12所述的集成电路装置,其中所述处理装置引入第一神经网络,其中所述第一神经网络为所述未来状态奖励对及所述当前状态行动对的函数。
条款A15.根据条款A14所述的集成电路装置,其中所述处理装置设定第一损失函数为所述损失函数,其中所述第一损失函数为所述第一神经网络的损失函数,所述第一损失函数为所述当前状态行动对与所述后见向量的第一互信息函数减去在所述当前状态行动对的前提下,下一个状态奖励对与所述后见向量的第二互信息函数。
条款A16.根据条款A15所述的集成电路装置,其中所述处理装置将所述第二互信息函数转换成熵函数,并将所述熵函数转换成第二神经网络。
条款A17.根据条款A16所述的集成电路装置,其中所述处理装置利用对比对数比上限来近似所述第一互信息函数的上限,其中所述对比对数比上限的输入包括在所述当前状态行动对的前提下,所述后见向量的分布概率。
条款A18.根据条款A17所述的集成电路装置,其中所述处理装置引入变分分布来近似所述分布概率。
条款A19.根据条款A18所述的集成电路装置,其中所述计算装置取样N个元组的元组集合,并根据所述元组集合计算对比对数比上限。
条款A20.根据条款A19所述的集成电路装置,其中当所述计算装置在计算所述对比对数比上限时,将所述元组集合代入所述第一神经网络中进行训练,以获得N个后见向量样本,再基于所述N个后见向量样本计算对数似然方程,以近似所述变分分布,并取样N个所述对比对数比上限的上限样本函数,最后对所述N个上限样本函数取第一平均函数,以获得所述对比对数比上限。
条款A21.根据条款A20所述的集成电路装置,其中所述计算装置获得N个第二损失函数的取样函数,其中所述第二损失函数为所述第二神经网络的损失函数,并对所述N个取样函数取第二平均函数,基于所述第二平均函数训练所述第二神经网络,以更新所述第二神经网络中的参数。
条款A22.根据条款A21所述的集成电路装置,其中所述计算装置最小化所述第二损失函数与所述对比对数比上限,以更新所述第一神经网络中的参数,基于更新后的参数推导所述后见向量,并基于推导出的后见向量优化所述后见价值函数。
条款A23.一种板卡,包括根据条款A12至22任一项所述的集成电路装置。
以上对本发明实施例进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (23)

1.一种利用深度强化学习模型在随机动态环境下执行连续决策任务的方法,包括:
建立所述随机动态环境的后见价值函数,所述后见价值函数的输入包括后见向量,所述后见向量载有所述深度强化学习模型的未来状态奖励对的信息并与所述深度强化学习模型的当前状态行动对解耦;
根据所述后见向量建立所述深度强化学习模型的损失函数;
基于所述损失函数训练所述深度强化学习模型;以及
利用训练好的深度强化学习模型执行所述连续决策任务。
2.根据权利要求1所述的方法,其中所述后见向量与所述当前状态行动对的互信息为零。
3.根据权利要求1所述的方法,其中所述建立损失函数的步骤包括引入第一神经网络,其中所述第一神经网络为所述未来状态奖励对及所述当前状态行动对的函数。
4.根据权利要求3所述的方法,其中所述建立损失函数的步骤还包括设定第一损失函数为所述损失函数,其中所述第一损失函数为所述第一神经网络的损失函数,所述第一损失函数为所述当前状态行动对与所述后见向量的第一互信息函数减去在所述当前状态行动对的前提下,下一个状态奖励对与所述后见向量的第二互信息函数。
5.根据权利要求4所述的方法,其中所述建立损失函数的步骤还包括:
将所述第二互信息函数转换成熵函数;以及
将所述熵函数转换成第二神经网络。
6.根据权利要求5所述的方法,其中所述建立损失函数的步骤还包括:
利用对比对数比上限来近似所述第一互信息函数的上限,其中所述对比对数比上限的输入包括在所述当前状态行动对的前提下,所述后见向量的分布概率;以及
引入变分分布来近似所述分布概率。
7.根据权利要求6所述的方法,其中所述训练步骤包括:
取样N个元组的元组集合;以及
根据所述元组集合计算所述对比对数比上限。
8.根据权利要求7所述的方法,其中所述计算所述对比对数比上限的步骤包括:
将所述元组集合代入所述第一神经网络中进行训练,以获得N个后见向量样本;
基于所述N个后见向量样本计算对数似然方程,以近似所述变分分布;
取样N个所述对比对数比上限的上限样本函数;以及
对所述N个上限样本函数取第一平均函数,以获得所述对比对数比上限。
9.根据权利要求8所述的方法,其中所述训练步骤还包括:
获得N个第二损失函数的取样函数,其中所述第二损失函数为所述第二神经网络的损失函数;
对所述N个取样函数取第二平均函数;
基于所述第二平均函数训练所述第二神经网络,以更新所述第二神经网络中的参数。
10.根据权利要求9所述的方法,其中所述训练步骤还包括:
最小化所述第二损失函数与所述对比对数比上限,以更新所述第一神经网络中的参数;
基于更新后的参数推导所述后见向量;以及
基于推导出的后见向量优化所述后见价值函数。
11.一种计算机可读存储介质,其上存储有利用深度强化学习模型在随机动态环境下执行连续决策任务的计算机程序代码,当所述计算机程序代码由处理装置运行时,执行权利要求1至10任一项所述的方法。
12.一种利用深度强化学习模型在随机动态环境下执行连续决策任务的集成电路装置,包括:
处理装置,用以:
建立所述随机动态环境的后见价值函数,所述后见价值函数的输入包括后见向量,所述后见向量载有所述深度强化学习模型的未来状态奖励对的信息并与所述深度强化学习模型的当前状态行动对解耦;以及
根据所述后见向量建立所述深度强化学习模型的损失函数;以及
计算装置,用以:
基于所述损失函数训练所述深度强化学习模型;以及
利用训练好的深度强化学习模型执行所述连续决策任务。
13.根据权利要求12所述的集成电路装置,其中所述后见向量与所述当前状态行动对的互信息为零。
14.根据权利要求12所述的集成电路装置,其中所述处理装置引入第一神经网络,其中所述第一神经网络为所述未来状态奖励对及所述当前状态行动对的函数。
15.根据权利要求14所述的集成电路装置,其中所述处理装置设定第一损失函数为所述损失函数,其中所述第一损失函数为所述第一神经网络的损失函数,所述第一损失函数为所述当前状态行动对与所述后见向量的第一互信息函数减去在所述当前状态行动对的前提下,下一个状态奖励对与所述后见向量的第二互信息函数。
16.根据权利要求15所述的集成电路装置,其中所述处理装置将所述第二互信息函数转换成熵函数,并将所述熵函数转换成第二神经网络。
17.根据权利要求16所述的集成电路装置,其中所述处理装置利用对比对数比上限来近似所述第一互信息函数的上限,其中所述对比对数比上限的输入包括在所述当前状态行动对的前提下,所述后见向量的分布概率。
18.根据权利要求17所述的集成电路装置,其中所述处理装置引入变分分布来近似所述分布概率。
19.根据权利要求18所述的集成电路装置,其中所述计算装置取样N个元组的元组集合,并根据所述元组集合计算对比对数比上限。
20.根据权利要求19所述的集成电路装置,其中当所述计算装置在计算所述对比对数比上限时,将所述元组集合代入所述第一神经网络中进行训练,以获得N个后见向量样本,再基于所述N个后见向量样本计算对数似然方程,以近似所述变分分布,并取样N个所述对比对数比上限的上限样本函数,最后对所述N个上限样本函数取第一平均函数,以获得所述对比对数比上限。
21.根据权利要求20所述的集成电路装置,其中所述计算装置获得N个第二损失函数的取样函数,其中所述第二损失函数为所述第二神经网络的损失函数,并对所述N个取样函数取第二平均函数,基于所述第二平均函数训练所述第二神经网络,以更新所述第二神经网络中的参数。
22.根据权利要求21所述的集成电路装置,其中所述计算装置最小化所述第二损失函数与所述对比对数比上限,以更新所述第一神经网络中的参数,基于更新后的参数推导所述后见向量,并基于推导出的后见向量优化所述后见价值函数。
23.一种板卡,包括根据权利要求12至22任一项所述的集成电路装置。
CN202110729536.7A 2021-06-29 2021-06-29 利用深度强化学习执行任务的设备、方法及可读存储介质 Active CN113269315B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110729536.7A CN113269315B (zh) 2021-06-29 2021-06-29 利用深度强化学习执行任务的设备、方法及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110729536.7A CN113269315B (zh) 2021-06-29 2021-06-29 利用深度强化学习执行任务的设备、方法及可读存储介质

Publications (2)

Publication Number Publication Date
CN113269315A true CN113269315A (zh) 2021-08-17
CN113269315B CN113269315B (zh) 2024-04-02

Family

ID=77236147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110729536.7A Active CN113269315B (zh) 2021-06-29 2021-06-29 利用深度强化学习执行任务的设备、方法及可读存储介质

Country Status (1)

Country Link
CN (1) CN113269315B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114819093A (zh) * 2022-05-09 2022-07-29 清华大学 利用基于忆阻器阵列的环境模型的策略优化方法和装置
CN116362772A (zh) * 2023-04-13 2023-06-30 北京未来链技术有限公司 一种基于区块链的溯源处理方法及区块链分布式溯源系统
CN116484942A (zh) * 2023-04-13 2023-07-25 上海处理器技术创新中心 用于多智能体强化学习的方法、系统、设备和存储介质
TWI831292B (zh) * 2022-07-13 2024-02-01 國立陽明交通大學 多攝影機領域自適性物件偵測系統及其偵測方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100262286A1 (en) * 2009-04-03 2010-10-14 Robert Eidenberger Decision making mechanism, method, module, and robot configured to decide on at least one prospective action of the robot
CN108027897A (zh) * 2015-07-24 2018-05-11 渊慧科技有限公司 利用深度强化学习的连续控制
US20190244680A1 (en) * 2018-02-07 2019-08-08 D-Wave Systems Inc. Systems and methods for generative machine learning
CN111898728A (zh) * 2020-06-02 2020-11-06 东南大学 一种基于多Agent强化学习的团队机器人决策方法
US20200372410A1 (en) * 2019-05-23 2020-11-26 Uber Technologies, Inc. Model based reinforcement learning based on generalized hidden parameter markov decision processes
CN112179367A (zh) * 2020-09-25 2021-01-05 广东海洋大学 一种基于深度强化学习的智能体自主导航方法
CN112476424A (zh) * 2020-11-13 2021-03-12 腾讯科技(深圳)有限公司 机器人控制方法、装置、设备及计算机存储介质
WO2021058588A1 (en) * 2019-09-25 2021-04-01 Deepmind Technologies Limited Training action selection neural networks using hindsight modelling

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110262511B (zh) * 2019-07-12 2022-08-09 同济人工智能研究院(苏州)有限公司 基于深度强化学习的双足机器人自适应性行走控制方法
CN110648049B (zh) * 2019-08-21 2022-06-03 北京大学 一种基于多智能体的资源分配方法与系统
CN110882542B (zh) * 2019-11-13 2023-07-18 广州多益网络股份有限公司 游戏智能体的训练方法、装置、设备及存储介质
CN111514585B (zh) * 2020-03-17 2022-02-11 南京知能科技有限公司 智能体的控制方法及系统、计算机装置以及存储介质
CN112717415B (zh) * 2021-01-22 2022-08-16 上海交通大学 一种基于信息瓶颈理论的强化学习对战游戏ai训练方法
CN112819159A (zh) * 2021-02-24 2021-05-18 清华大学深圳国际研究生院 一种深度强化学习训练方法及计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100262286A1 (en) * 2009-04-03 2010-10-14 Robert Eidenberger Decision making mechanism, method, module, and robot configured to decide on at least one prospective action of the robot
CN108027897A (zh) * 2015-07-24 2018-05-11 渊慧科技有限公司 利用深度强化学习的连续控制
US20190244680A1 (en) * 2018-02-07 2019-08-08 D-Wave Systems Inc. Systems and methods for generative machine learning
US20200372410A1 (en) * 2019-05-23 2020-11-26 Uber Technologies, Inc. Model based reinforcement learning based on generalized hidden parameter markov decision processes
WO2021058588A1 (en) * 2019-09-25 2021-04-01 Deepmind Technologies Limited Training action selection neural networks using hindsight modelling
CN111898728A (zh) * 2020-06-02 2020-11-06 东南大学 一种基于多Agent强化学习的团队机器人决策方法
CN112179367A (zh) * 2020-09-25 2021-01-05 广东海洋大学 一种基于深度强化学习的智能体自主导航方法
CN112476424A (zh) * 2020-11-13 2021-03-12 腾讯科技(深圳)有限公司 机器人控制方法、装置、设备及计算机存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114819093A (zh) * 2022-05-09 2022-07-29 清华大学 利用基于忆阻器阵列的环境模型的策略优化方法和装置
TWI831292B (zh) * 2022-07-13 2024-02-01 國立陽明交通大學 多攝影機領域自適性物件偵測系統及其偵測方法
CN116362772A (zh) * 2023-04-13 2023-06-30 北京未来链技术有限公司 一种基于区块链的溯源处理方法及区块链分布式溯源系统
CN116484942A (zh) * 2023-04-13 2023-07-25 上海处理器技术创新中心 用于多智能体强化学习的方法、系统、设备和存储介质
CN116362772B (zh) * 2023-04-13 2024-02-20 北京未来链技术有限公司 一种基于区块链的溯源处理方法及区块链分布式溯源系统
CN116484942B (zh) * 2023-04-13 2024-03-15 上海处理器技术创新中心 用于多智能体强化学习的方法、系统、设备和存储介质

Also Published As

Publication number Publication date
CN113269315B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN113269315A (zh) 利用深度强化学习执行任务的设备、方法及可读存储介质
CN110458663B (zh) 一种车辆推荐方法、装置、设备及存储介质
CN112668128A (zh) 联邦学习系统中终端设备节点的选择方法及装置
CN114819190A (zh) 基于联邦学习的模型训练方法、装置、系统、存储介质
CN115330556B (zh) 充电站的信息调整模型的训练方法、装置及产品
CN114261400A (zh) 一种自动驾驶决策方法、装置、设备和存储介质
US20170255879A1 (en) Searching method and device based on artificial intelligence
CN113449188A (zh) 应用推荐方法、装置、电子设备及可读存储介质
Zhou et al. An improved particle swarm optimization-least squares support vector machine-unscented Kalman filtering algorithm on SOC estimation of lithium-ion battery
CN114090108B (zh) 算力任务执行方法、装置、电子设备及存储介质
CN114756694A (zh) 基于知识图谱的推荐系统、推荐方法和相关设备
CN114648103A (zh) 用于处理深度学习网络的自动多目标硬件优化
CN114219078A (zh) 一种神经网络模型交互训练方法、装置及存储介质
WO2019234156A1 (en) Training spectral inference neural networks using bilevel optimization
CN112926628B (zh) 动作价值的确定方法、装置、学习框架、介质及设备
CN113836388B (zh) 信息推荐方法、装置、服务器及存储介质
CN117077511A (zh) 一种基于改进萤火虫算法和svr的多元负荷预测方法、装置及存储介质
CN116796821A (zh) 面向3d目标检测算法的高效神经网络架构搜索方法及装置
CN111681068A (zh) 目标产品推荐方法、装置、设备及存储介质
CN114996487B (zh) 媒体资源推荐方法、装置、电子设备以及存储介质
CN115146786A (zh) 联邦学习的实现方法、装置、系统、介质、设备以及产品
CN116797464A (zh) 计算方法、装置、计算机设备和存储介质
CN114611610A (zh) 一种视频流行度预测方法、装置、设备和介质
CN110502715B (zh) 点击概率的预测方法及装置
CN114138493A (zh) 一种基于能耗感知的边缘算力资源调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant