CN114065929A - 一种深度强化学习模型的训练方法、装置及存储介质 - Google Patents

一种深度强化学习模型的训练方法、装置及存储介质 Download PDF

Info

Publication number
CN114065929A
CN114065929A CN202110843219.8A CN202110843219A CN114065929A CN 114065929 A CN114065929 A CN 114065929A CN 202110843219 A CN202110843219 A CN 202110843219A CN 114065929 A CN114065929 A CN 114065929A
Authority
CN
China
Prior art keywords
network
online
state
training
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110843219.8A
Other languages
English (en)
Inventor
张佳能
李辉
周俊成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Rongao Technology Co ltd
Original Assignee
Chengdu Rongao Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Rongao Technology Co ltd filed Critical Chengdu Rongao Technology Co ltd
Priority to CN202110843219.8A priority Critical patent/CN114065929A/zh
Publication of CN114065929A publication Critical patent/CN114065929A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5011Pool
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5021Priority

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种深度强化学习模型的训练方法、装置及存储介质。该方法包括如下步骤:(1)构建强化学习智能体(2)初始化网络参数,分配大小为N的经验缓冲池;(3)在线演员网络根据当前状态st输出相应动作at,智能体执行动作at进入下一状态st+1,获得奖励反馈rt,并存储交互信息元组;(4)根据效用对交互信息元组进行采样;(5)将采样的交互信息元组用于在线评论家网络和在线演员网络的更新;(6)使用软更新方式对目标演员网络对目标评论家网络进行更新。该方法使用了优先级加权和来计算交互信息元组的效用值,综合考虑了样本的利用效用和探索效用,可以更好的利用过往经验来加快神经网络的收敛,同时不陷入局部最优。

Description

一种深度强化学习模型的训练方法、装置及存储介质
技术领域
本申请例涉及机器学习领域,具体而言,涉及一种深度强化学习模型的训练方法、装置及存储介质。
背景技术
深度强化学习作为机器学习领域的一个重要分支,已经被广泛用于解决各类复杂的决策问题,例如影像游戏、机器控制,交通信号灯控制等。深度强化学习智能体采用“试错”的方式与环境交互,通过最大化从环境中获得的累计奖励来学习最优策略,往往需要数以万计次的尝试才可能收敛。如何加快强化学习的收敛速度和样本的利用率是近年来的关注焦点。
经验回放方法可以重用过去的经验来更新目标策略,提高样本的利用率,已经成为深度强化学习的一个重要组成部分。优先经验回放在经验回放的基础上进行选择性采样,期望更好地利用经验样本。但目前的优先经验回放方式集中于如何从经验缓冲池中采样可以加快神经网络的速度,例如以TD-error、 Reward为标准进行经验样本的选取。但这类采样会降低从经验缓冲池采样的样本的多样性,使神经网络收敛于局部最优。
发明内容
本申请提供一种深度强化学习模型的训练方法、装置及存储介质,旨在解决由于现有优先经验回放方法无法提供一种有效的采样方式,忽略采样样本的探索效用以及利用效用,导致的训练易收敛至局部最优的问题。
本申请的第一方面提供了一种深度强化学习模型的训练方法,所述方法包括以下步骤:构建强化学习智能体,包括一个在线评论家网络、在线演员网络、目标评论家网络以及目标演员网络;初始化网络参数,根据环境复杂度计算初步探索系数,分配空间大小为N的经验缓冲池;在线演员网络根据当前智能体所处状态st输出相应动作at,智能体执行动作at使环境进入下一状态st+1,并获取<st,at>对应的环境奖励反馈值rt,将交互信息元组<st,at,st+1,rt>存储到经验缓冲池;从经验缓冲池中采样效用最大的交互信息元组作为批处理样本;使用上一步骤的采样批处理样本更新在线评论家网络和在线演员网络;使用在线评论家网络软更新目标评论家网络,在线演员网络软更新目标演员网络;当损失函数收敛或者训练次数达到预设训练次数,结束训练并获取当前网络模型参数。
可选地,根据环境状态空间复杂度和动作空间复杂度计算探索系数,对于连续状态空间和连续动作空间,采用维度来表示复杂度,对于离散状态空间和离散动作空间,采用个数来表示复杂度。根据环境的状态空间复杂度和动作空间复杂度与预设阈值之间的比例关系计算初步探索系数。
可选地,从经验缓冲池中采样效用最大的交互信息元组批处理样本,采样的步骤包括:第一次采样,从经验缓冲池中采样λ*k个交互信息元组样本,其中,k为批处理样本大小,λ≥1决定优先经验回放的比例,λ=1对应于均匀采样,λ=N/k对应选取所有样本中的优先级最高的k个样本;第二次采样,计算从第一次采样的交互信息元组中的样本优先级加权和,从中选取k个样本;样本优先级加权和由两部分组成,一部分是交互信息元组中的状态st和智能体当前所处的状态scur之间的相似度,另一部分是交互信息元组的动作at和当前智能体面对st时所采取的动作φ(st)之间的相似度。
计算交互信息元组中的样本优先级加权和,包括以下步骤:计算交互信息元组中的状态和当前智能体所处的状态之间的相似度,对于图像表示的状态,将图像经过与在线评论家网络相同参数的卷积神经网络处理,得到状态的特征表示;计算交互信息元组的动作at和当前智能体面对交互信息元组中的状态时所采取的动作θ(st)之间的相似度;计算样本优先级加权和;其中,加权和与状态相似度成正相关,与动作相似度成负相关。
交互信息元组中的状态和当前智能体所处的状态之间的相似度为:
Figure RE-GDA0003347054870000021
其中,f(s)表示状态s的状态表征,对于状态为图像的情况,f(s)=(s,θs),θs表示与在线评论家网络参数相同的特征提取神经网络;对于状态为特征的情况,f(s)=s。
交互信息元组的动作at和当前智能体在状态st所采取的动作θ(st)之间的相似度为:
Figure RE-GDA0003347054870000022
样本的优先级加权和计算公式如下:
priority=αs·simility(f(st),f(scur))+αa·simility(at,φ(st))
其中,αs>0表示状态相似度权重,αa<0表示动作相似度。
将交互信息元组用于在线评论家网络和在线演员网络的更新,包括:
在线评论家网络的梯度更新,公式如下:
Figure RE-GDA0003347054870000023
其中,Qθ为在线评论家网络的输出,Qθ(st,at)表示<st,at>对应的Q值,
Figure RE-GDA0003347054870000024
为目标评论家网络的输出。
在线评论家网络的梯度更新,公式如下:
Figure RE-GDA0003347054870000025
其中,πφ为在线演员网络的输出,πφ(at∣st)表示智能体在st状态下会采取动作at
可选的,每隔固定迭代周期更新两个目标网络:
Figure RE-GDA0003347054870000026
Figure RE-GDA0003347054870000027
其中,
Figure RE-GDA0003347054870000028
为目标演员网络参数,
Figure RE-GDA0003347054870000029
为目标评论家网络参数,τ为软更新系数。
本申请提供的一种深度强化学习模型的训练方法具有以下多种技术效果:
一、通过初步探索系数在探索和利用之前进行权衡,保证经验缓冲池样本多样性的同时降低冗余性。
二、通过状态相似度和动作相似度的加权,可以综合考虑样本的探索效用和利用效用,并随着训练进程的推进而自动调整,可以有效提高样本利用率,并在提高训练速度的同时避免陷入局部最优。
本申请的第二方面提供了一种深度强化学习模型的训练装置,所述装置包括:构建模块,用于构建强化学习智能体,包括一个在线评论家网络、在线演员网络、目标评论家网络以及目标演员网络;初始化模块,用于初始化网络参数,并根据环境复杂度设置探索系数,分配足够大小的经验缓冲池;交互模块,用于智能体与环境交互,生成交互信息元组并将其存入经验缓冲池;采样模块,用于计算经验缓冲池中样本的效用值,并采用其中效用最大的一部分用于接下来的网络训练;训练模块,利用强化学习算法进行网络训练;结束模块,达到结束条件时候获取训练之后的网络参数,并存储至存储器。
另一方面,本申请还提供了一种计算机可读存储介质,其内储有计算机应用程序,所述计算机应用程序执行时实现如上强化学习模型的训练方法的各个步骤。
附图说明
为了更清楚的说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要的使用的附图做简要介绍。其中:
图1为本申请一实施例示出的一种深度强化学习模型的训练流程图;
图2为本申请一实施例示出的经验缓冲池采样示意图;
图3为本申请二实施例示出的训练装置结构示意图。
具体实施方式
为使本申请的目的,技术方法和优点更加清晰明了,下文将结合实施例中的附图对本申请作进一步描述。需要说明的是,此处所描述的实施例仅用于解释本申请,但不用与限定本申请。
本申请提供的一种深度强化学习模型的训练方法可以包括以下步骤:
步骤S101,构建强化学习智能体,包括在线评论家网络、在线演员网络、目标评论家网络以及目标演员网络;
其中,在线评论家网络与目标评论家网络结构相同,在线演员网络与目标演员网络结构相同。
步骤S102,初始化网络参数,根据环境复杂度计算探索系数,分配足够大小的经验缓冲池;
其中,不同的环境复杂度包括:状态空间是否连续、状态空间的维度/个数、动作空间是否连续,动作空间的维度/个数;探索系数与环境复杂度正相关;例如,在现代空战仿真环境中(以红蓝双方战机进行1V1博弈为例),红方飞机所能获取到的状态包括蓝方飞机的6个自由度的位置消息,以及己方的位置信息,状态空间是连续的且状态空间维数较大,而动作则是偏转角和加速度,动作空间是连续的且拥有多个子动作,因此,1v1的空战仿真强化学习训练环境的复杂系数较高,相应的探索系数也较高。
步骤S103,在线演员网络根据当前智能体所处状态st输出相应动作at,智能体执行动作at使环境进入下一状态st+1,并获取<st,at>对应的环境奖励反馈值rt,将交互信息元组<st,at,st+1,rt>存储到经验缓冲池。
示例地,在现代空战仿真环境中(以红蓝双方战机进行1V1博弈为例),红方飞机可以将当前时刻的状态(例如自身位置信息,蓝方飞机的位置信息,环境信息等)输入到自身的在线演员网络,以获取到当前红方飞机应执行的动作,执行后便进入下一状态。此时可以根据红方飞机是否到达有利态势或者是否击毁蓝方飞机给予单步奖励。
步骤S104,从经验缓冲池中选择效用最大的交互信息元组。
经验回放方法通过重用过去的经验来更新当前策略,可以提高样本的利用率。但经验缓冲池中样本的质量参次不齐。类比人类,从不同的经历中能学习的东西有所不同,有些经历能使人受益匪浅,而有些经历能给予的帮助则微乎其微。可以理解的是,从经验缓冲池中选择效用最大可以更好的促进神经网络的收敛及优化。
需要说明的是,经验缓冲池的容量的量级往往是106或者更大,倘若计算经验缓冲池中所有样本效用值将带来巨大的计算开销。为了降低时间复杂度,采样方式分为两步:首先从经验缓冲池中随机采样λ*k个样本;再对第一步采样样本根据效用值大小采样k个样本。其中,k为批处理样本大小,λ≥1决定优先经验回放的比例,其中λ=1对应于均匀采样;λ=N/k对应选取所有样本中的优先级最高的k个样本。
在步骤S104中,效用值的计算包括以下三个步骤:计算交互信息元组中的状态st和当前智能体所处的状态scur之间的相似度simility(st,scur),对于图像表示的状态,以图像为输入,采用与评论家相同参数的卷积神经网络,得到状态的特征表示;计算交互信息元组的动作at和当前智能体面对交互信息元组中的状态时所采取的动作θ(st)之间的相似度simility(at,θ(st));计算样本的优先级加权和;其中,加权和与状态相似度成正相关,与动作相似度成负相关。
需要说明的是,为了加快神经网络的收敛的同时保证神经网络不陷入局部最优,经验缓冲池样本的多样性是前提条件,采样样本的多样性是必要条件。因而,对于经验缓冲池的采样也需要权衡探索和利用。也就是对应步骤S104中的两种相似度。
为了保证探索,对于那些包含访问频率低的状态的经验样本以更高的采样频率,智能体在训练过程中形成的状态分布为:
Figure RE-GDA0003347054870000041
其中p(s0)为初始状态出现的概率。对于状态s而言,如果ρπ(s)很大,也就意味着智能体经常访问状态s,具有较高的探索意义,同理,如果ρπ(s)很小,接近于 0,也就意味着智能体很少访问状态s,探索意义较低。由于训练过程中策略不断地变化,无法直接获取ρπ(s),鉴于相似的状态会有相似的分布,将当前状态与经验样本中状态的差异作为样本的探索程度的衡量。
为了保证利用,将不同策略对于同一状态所采取的动作的差异来量化策略之间的差异,即样本的利用效用。
需要说明的是,对于不同的状态空间和动作空间,所采取的相似度的计算方式是有所不同的。例如以图像作为输入的强化学习环境,鉴于图像中可能存在无关信息或存在噪点,首先利用卷积神经网络获取图像表征,然后对图像表征进行状态相似度比较。
示例地,在现代空战仿真环境中(以红蓝双方战机进行1V1博弈为例),训练初期由于红方飞机不知道蓝方飞机的位置而进行随机探索,训练过程中产生的交互信息元组中的大部分是无意义的,通过相似度加权采样,可以使得红方飞机尽可以地从经验缓冲池中获取与蓝方飞机相遇的有效交互信息;训练中期红方飞机总是可以和蓝方飞机相遇,通过优先级加权和采样,可以使得红方飞机尽可能的探索多方位到达有利态势。
步骤S105,将步骤S104采样的交互信息元组用于在线评论家网络和在线演员网络的训练更新。包括:
在线评论家网络的梯度更新,公式如下:
Figure RE-GDA0003347054870000042
在线评论家网络的梯度更新,公式如下:
Figure RE-GDA0003347054870000043
步骤S106,每隔固定迭代周期更新两个目标网络:
Figure RE-GDA0003347054870000044
Figure RE-GDA0003347054870000045
步骤S107,当损失函数收敛或者达到预设训练次数,结束训练并获取当前获取网络模型参数。
基于同一发明构思,本申请另一实施例提供一种深度强化学习模型的训练装置。
图3是本申请实施例的一种深度强化学习模型的训练装置。
如图3所示,该深度强化学习模型的训练装置包括:构建模块100,初始化模块200,交互模块300,采样模块400,训练模块500,结束模块600。
其中,构建模块100用于构建强化学习神经网络,包括在线评论家网络、在线演员网络、目标评论家网络以及目标演员网络。初始化模块200用于初始化网络参数,并根据环境复杂度设置探索系数,分配足够大小的经验缓冲池。交互模块300用于智能体与环境交互,生成交互信息元组并将其存入经验缓冲池。采样模块400用于计算经验缓冲池中样本的效用值,并采用其中效用最大的一部分用于接下来的网络训练。训练模块500用于强化学习算法进行网络训练。结束模块600用于训练结束后获取网络参数,并存储至存储器。本申请装置可以充分利用经验缓冲池中的经验,可部分解决强化学习优先经验回放中存在的局部收敛的问题,并且可以实现更快的收敛速度,提升了学习效率。
需要说明的是,在本申请的一个实施例中,装置中的初始化模块200不仅要网络参数的初始化,还要实现对训练环境的初步理解,设定探索系数,作为采样模块300中的优先级加权和的权重参考。
需要说明的是,在本申请的一个实施例中,装置中的采样模块300与一般的采样模块有所不同,采样模块300需要进行多次采样来平衡计算成本和精确程度。第一次采样将交互信息元组样本的数量减少一个或者多个数量级,然后对第一次采样后的样本计算样本优先级加权和。对于观测图像直接输入状态的情况,采样模块中还必须包含图像特征提取模块用于图像特征状态相似度。
根据本申请实施例提出的一种深度强化学习模型的训练装置,智能体能够实现对训练环境的初步理解,并每次都从过往经验中获取到效用值最高的批处理样本用于神经网络的训练,部分解决优先经验回放中存在的局部收敛的问题,并实现更快的收敛速度。
基于同一发明构思,本申请另一实施例提供一种计算机可读存储介质。其内储有计算机应用程序,其特征在于,所述计算机应用程序执行时实现本申请上述任一实施例所述方法的任一步骤。

Claims (6)

1.一种深度强化学习模型的训练方法,其特征在于,所述方法包括下述步骤:
步骤1:构建强化学习智能体,包括一个在线评论家网络、在线演员网络、目标评论家网络以及目标演员网络;
步骤2:初始化网络参数,根据环境复杂度计算初步探索系数,分配空间大小为N的经验缓冲池;
步骤3:在线演员网络根据当前智能体所处状态st输出相应动作at,智能体执行动作at使环境进入下一状态st+1,并获取<st,at>对应的环境奖励反馈值rt,将交互信息元组<st,at,st+1,rt>存储到经验缓冲池;
步骤4:从经验缓冲池中采样效用最大的交互信息元组;
步骤5:使用上一步骤的采样批处理样本更新在线评论家网络和在线演员网络;
步骤6:使用在线演员网络软更新目标演员网络,在线评论家网络软更新目标评论家网络;
步骤7:当损失函数收敛或者达到预设训练次数,结束训练并获取当前获取网络模型参数。
2.如权利1所述训练方法,其特征在于,步骤4中,从经验缓冲池中采样效用最大的交互信息元组样本,效用是指样本对于训练过程的有利程度,即后文所述的样本优先级加权和。采样的步骤包括:
第一次采样,从经验缓冲池中采样λ*k个交互信息元组样本;其中,k为批处理样本大小,λ≥1决定优先经验回放的比例,λ=1对应均匀采样,λ=N/k对应选取所有样本中的优先级最高的k个样本。
第二次采样,计算从第一次采样的交互信息元组中的样本优先级加权和,从中选取k个样本;样本优先级加权和由两部分组成,一部分是交互信息元组中的状态st和智能体当前所处的状态scur之间的相似度,另一部分是交互信息元组的动作at和当前智能体面对st时所采取的动作φ(st)之间的相似度。
交互信息元组中的状态和当前智能体所处的状态之间的相似度为:
Figure FDA0003179620700000011
其中,f(s)表示状态s下对应的状态表征,对于状态为图像的情况,f(s)=(s,θs),θs表示与在线评论家网络参数相同的特征提取神经网络;对于状态为特征的情况,f(s)=s。
交互信息元组的动作at和当前智能体在状态st所采取的动作φ(st)之间的相似度为:
Figure FDA0003179620700000012
样本的优先级加权和计算公式如下:
priority=αs·simility(f(st),f(scur))+αa·simility(at,φ(st))
其中,αs>0表示状态相似度权重,αa<0表示动作相似度。
3.如权利1所述训练方法,其特征在于,步骤6中,将采样样本用于在线评论家网络和在线演员网络的更新,包括:
在线评论家网络的梯度更新,公式如下:
Figure FDA0003179620700000021
其中,γ为折扣因子,Qθ为在线评论家网络的输出,Qθ(st,at)表示<st,at>对应的Q值,
Figure FDA0003179620700000022
为目标评论家网络的输出。
在线评论家网络的梯度更新,公式如下:
Figure FDA0003179620700000023
其中,πφ为在线演员网络的输出,πφ(at∣st)表示智能体在st状态下会采取动作at
4.如权利1所述方法,其特征在于,步骤7中,使用在线演员网络软更新目标演员网络,在线评论家网络软更新目标评论家网络,所述步骤包括:每隔固定迭代周期更新两个目标网络,
目标演员网络更新公式如下:
Figure FDA0003179620700000024
其中,
Figure FDA0003179620700000025
为目标演员网络参数,τ为软更新系数。
目标评论家网络更新公式如下:
Figure FDA0003179620700000026
其中,
Figure FDA0003179620700000027
为目标评论家网络参数,τ为软更新系数。
5.一种深度强化学习模型的训练装置,其特征在于,所述装置包括:
构建模块,用于构建强化学习智能体,包括一个在线评论家网络、在线演员网络、目标评论家网络以及目标演员网络;
初始化模块,用于初始化网络参数,并根据环境复杂度计算探索系数,分配足够大小的经验缓冲池。
交互模块,用于智能体与环境交互,生成交互信息元组并将其存入经验缓冲池。
采样模块,用于计算经验缓冲池中样本的效用值,并采用其中效用最大的一部分用于接下来的网络训练。
训练模块,利用强化学习算法进行网络训练。
结束模块,达到结束条件时候获取训练之后的网络参数,并存储至存储器。
6.一种计算机可读存储介质,其内储有计算机应用程序,其特征在于,所述计算机应用程序执行时实现权利要求1-5所述方法的任一步骤。
CN202110843219.8A 2021-07-26 2021-07-26 一种深度强化学习模型的训练方法、装置及存储介质 Pending CN114065929A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110843219.8A CN114065929A (zh) 2021-07-26 2021-07-26 一种深度强化学习模型的训练方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110843219.8A CN114065929A (zh) 2021-07-26 2021-07-26 一种深度强化学习模型的训练方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN114065929A true CN114065929A (zh) 2022-02-18

Family

ID=80233376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110843219.8A Pending CN114065929A (zh) 2021-07-26 2021-07-26 一种深度强化学习模型的训练方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN114065929A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741886A (zh) * 2022-04-18 2022-07-12 中国人民解放军军事科学院战略评估咨询中心 一种基于贡献度评价的无人机集群多任务训练方法及系统
CN114872049A (zh) * 2022-05-31 2022-08-09 苏州大学 一种基于环境交互的机器人实时控制方法
CN117709806A (zh) * 2024-02-05 2024-03-15 慧新全智工业互联科技(青岛)有限公司 协同工作的多设备异常自动化检测方法及检测系统
WO2024067115A1 (zh) * 2022-09-28 2024-04-04 华为技术有限公司 一种生成流模型的训练方法及相关装置
CN117709806B (zh) * 2024-02-05 2024-05-28 慧新全智工业互联科技(青岛)有限公司 协同工作的多设备异常自动化检测方法及检测系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741886A (zh) * 2022-04-18 2022-07-12 中国人民解放军军事科学院战略评估咨询中心 一种基于贡献度评价的无人机集群多任务训练方法及系统
CN114741886B (zh) * 2022-04-18 2022-11-22 中国人民解放军军事科学院战略评估咨询中心 一种基于贡献度评价的无人机集群多任务训练方法及系统
CN114872049A (zh) * 2022-05-31 2022-08-09 苏州大学 一种基于环境交互的机器人实时控制方法
CN114872049B (zh) * 2022-05-31 2023-08-29 苏州大学 一种基于环境交互的机器人实时控制方法
WO2024067115A1 (zh) * 2022-09-28 2024-04-04 华为技术有限公司 一种生成流模型的训练方法及相关装置
CN117709806A (zh) * 2024-02-05 2024-03-15 慧新全智工业互联科技(青岛)有限公司 协同工作的多设备异常自动化检测方法及检测系统
CN117709806B (zh) * 2024-02-05 2024-05-28 慧新全智工业互联科技(青岛)有限公司 协同工作的多设备异常自动化检测方法及检测系统

Similar Documents

Publication Publication Date Title
CN114065929A (zh) 一种深度强化学习模型的训练方法、装置及存储介质
CN111858009B (zh) 基于迁移和强化学习的移动边缘计算系统任务调度方法
JP6824382B2 (ja) 複数の機械学習タスクに関する機械学習モデルのトレーニング
CN109523029B (zh) 自适应双自驱动深度确定性策略梯度强化学习方法
CN112215364B (zh) 一种基于强化学习的敌-友深度确定性策略方法及系统
CN109284812B (zh) 一种基于改进dqn的视频游戏模拟方法
CN111282267B (zh) 信息处理方法、装置、介质及电子设备
CN112801290B (zh) 一种多智能体深度强化学习方法、系统及应用
CN112734014A (zh) 基于置信上界思想的经验回放采样强化学习方法及系统
CN113568727A (zh) 一种基于深度强化学习的移动边缘计算任务分配方法
CN111240356A (zh) 一种基于深度强化学习的无人机集群会合方法
CN111282272B (zh) 信息处理方法、计算机可读介质及电子设备
CN112613608A (zh) 一种强化学习方法及相关装置
CN115409158A (zh) 基于分层深度强化学习模型的机器人行为决策方法及设备
CN113947022B (zh) 一种基于模型的近端策略优化方法
Fu et al. Greedy when sure and conservative when uncertain about the opponents
CN114404975A (zh) 决策模型的训练方法、装置、设备、存储介质及程序产品
CN111445024B (zh) 一种医学影像识别训练方法
Watanuki et al. Vision-based behavior acquisition by deep reinforcement learning in multi-robot environment
CN112905013A (zh) 智能体控制方法、装置、计算机设备和存储介质
CN114840024A (zh) 基于情景记忆的无人机控制决策方法
CN113689001B (zh) 一种基于反事实遗憾最小化的虚拟自我对弈方法和装置
CN115903901A (zh) 内部状态未知的无人集群系统输出同步优化控制方法
CN113240118B (zh) 优势估计方法、装置、电子设备和存储介质
CN114866356B (zh) 基于元学习的策略博弈的行为预测方法和预测器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination