CN114770523A - 一种基于离线环境交互的机器人控制方法 - Google Patents

一种基于离线环境交互的机器人控制方法 Download PDF

Info

Publication number
CN114770523A
CN114770523A CN202210610748.8A CN202210610748A CN114770523A CN 114770523 A CN114770523 A CN 114770523A CN 202210610748 A CN202210610748 A CN 202210610748A CN 114770523 A CN114770523 A CN 114770523A
Authority
CN
China
Prior art keywords
network
current
target
value
critic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210610748.8A
Other languages
English (en)
Other versions
CN114770523B (zh
Inventor
刘全
欧阳震
朱斐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202210610748.8A priority Critical patent/CN114770523B/zh
Publication of CN114770523A publication Critical patent/CN114770523A/zh
Application granted granted Critical
Publication of CN114770523B publication Critical patent/CN114770523B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开的一种基于离线环境交互的机器人控制方法,包括通过摄像头采集环境信息,生成目标行动者网络,通过离线数据集建立目标评论家网络,将目标行动者网络输入目标评论家网络进行更新;采集当前评论家网络,将目标评论家网络与当前评论家网络进行比较,得到偏差率;判断所述偏差率是否大于预设偏差率阈值,若大于,则生成损失函数,通过损失函数对当前评论家网络进行更新,得到更新后的当前评论家网络;根据更新后的当前评论家网络生成截断固定原子数量;通过截断固定原子数量生成目标值输入当前行动者网络;通过当前行动者网络控制机器人执行相应的动作。

Description

一种基于离线环境交互的机器人控制方法
技术领域
本发明涉及机器人控制领域,更具体的,涉及一种基于离线环境交互的机器人控制方法。
背景技术
人工智能在互联网、智能云计算、自动驾驶等领域有着强大的产能推动力。机器学习的一个重要研究领域是强化学习。强化学习研究的是智能体如何感知环境并能够采取最优的行动,通常采用最新的策略与环境进行交互并收集经验,其目标是最大化累计回报来探索当前环境的最优策略。但传统强化学习无法感知高维状态动作空间,难以在复杂现实环境应用。随着硬件计算能力的指数提升,深度学习取得了重大的突破,拥有组合多个非线性网络层来提取高维度数据特征的能力。因此深度强化学习将深度学习的高维特征提取能力和强化学习的序贯决策能力相结合,是目前解决高维环境最优策略任务的主要方法。
深度强化学习算法的智能体与在线环境进行交互,通过收集在线交互经验样本来训练得到最优的策略。但随着DRL算法逐渐应用到现实工业技术上,发现算法很难落地在机器人技术以及自动驾驶技术等问题。因为与现实环境在线交互收集大量样本的方式,可能会极大地降低采集样本的效率,并且容易导致意想不到的行为。同时,在仿真环境中运行在线强化学习算法,则需要具有高保真度的仿真环境,而这种环境建造成本极其昂贵且难度巨大。对于现实中存在的大量已收集的在线交互数据,离线强化学习也称批处理强化学习,其目标是探索如何利用收集得到的交互数据(即用某个在线策略与环境交互保留后的经验样本)中学习最优策略,在没有任何其他在线交互的情况下,仅利用先前收集到的数据集来学习策略,如同监督学习的机器学习方法,利用已有的数据集有效地训练出强大模式识别器(图像分类器、语音识别引擎等)。深度强化学习自身也拥有强大的函数逼近能力,利用足够大的数据集样本改进智能体的决策网络,使得智能体的策略逐步接近数据集分布上的最优策略。
离线强化学习问题可以定义为强化学习如何有效利用离线样本数据问题。算法最终目标依然是最优化策略从而达到最终状态,但是智能体在离线训练过程中无法再与环境直接交互,只能使用其他行为策略收集到的离线信息进行训练。离线信息将会组合成一个静态的状态转移数据集,算法须利用该数据集并学习到所能学习的最佳策略。本质上,离线强化学习算法需要具备如何从一个固定的数据集中获得对马尔科夫决策过程充分理解的功能。因为离线算法学习必须完全依赖静态数据集,没有探索新样本实时地进行策略改进的功能。所以在利用离线数据过程中往往容易出现探索离线数据集中未出现的状态动作对的区域,使得学习到的离线值分布和真实的值分布存在较大的偏差从而高估了未出现的状态动作值,算法出现分布外样本动作误差现象。
发明内容
为了解决上述至少一个技术问题,本发明提出了一种基于离线环境交互的机器人控制方法。
本发明第一方面提供了一种基于离线环境交互的机器人控制方法,其特征在于,包括如下步骤:
S1,通过摄像头采集环境信息,生成目标行动者网络,
S2,通过离线数据集建立目标评论家网络,将目标行动者网络输入目标评论家网络进行更新;
S3,采集当前评论家网络,将目标评论家网络与当前评论家网络进行比较,得到偏差率;
S4,判断所述偏差率是否大于预设偏差率阈值,
S5,若大于,则生成损失函数,通过损失函数对当前评论家网络进行更新,得到更新后的当前评论家网络;
S6,根据更新后的当前评论家网络生成截断固定原子数量;
S7,通过截断固定原子数量生成目标值输入当前行动者网络;
S8,通过当前行动者网络控制机器人执行相应的动作。
本发明一个较佳实施例中,目标评论家网络为两个,通过两个评论家神经网络来更新Q(s,a),两个网络的参数记为θ12,目标函数的更新公式为
Figure BDA0003671954790000031
缓解高估问题的同时,为目标动作添加截断噪声:
Figure BDA0003671954790000032
本发明一个较佳实施例中,使用已收集未知策略交互样本的离线数据集Β;
初始化总迭代次数T,折扣因子γ,τ=0.0001,c=0.5,emax,emin,e;
VEA模型参数
Figure BDA0003671954790000033
循环针对情节中每一时间步;
从数据集Β中取随机批量样本(s,a,r,s′);
根据编码输入s,a,解码输出
Figure BDA0003671954790000035
计算值函数:
Figure BDA0003671954790000034
更新VEA模型参数:
Figure BDA0003671954790000041
本发明一个较佳实施例中,VAE是一个生成模型,实现最大化边际对数似然对数
Figure BDA0003671954790000042
计算X={x1,x2,x3,x4......,xn}边际对数似然对数通过优化变分下界计算:
logp(X)≥
Eq(X|z)[logp(X|z)]+DKL(q(z|X)||p(z))
其中p(z)为多元正态分布N(0,1),定义后验q(z|X)=N(z|u(X),σ2(X)I)为编码器,p(X|z)为解码器,给定样本通过解码器产生一个随机潜在变量z,给编码器重建原始样本X,VAE模型根据重建损失函数进行训练,重新参数化对变分下界进行梯度下降,公式为:
Ez~N(μ,σ)[f(z)]=Eε~N(0,1)[f(μ+σε)]。
本发明一个较佳实施例中,
根据所得权重来截断Q原子数量,衡量公式为:
Figure BDA0003671954790000043
通过KL散度计算当前策略和预测策略的距离,计算变量值。
本发明一个较佳实施例中,根据最小化损失函数来更新评论家网络参数w:
w←argminw∑(Y-Qw(s,a))2
最大化目标函数来更新行动者网络参数θ:
Figure BDA0003671954790000044
本发明一个较佳实施例中,目标评论家网络的更新方式为
yi=r+γ(z(i)(s′,a′))i∈[1...KN]
Figure BDA0003671954790000051
yi是网络i的状态动作值,Y(s,a)是使用截断控制高估偏差方法后输出更真实的状态动作值。
本发明的上述技术方案相比现有技术具有以下优点:
本专利在选取最大状态动作值(Q值)对应的动作时,只考虑实际在离线数据中出现的动作,不必要考虑动作空间所有的动作以及约束算法的状态分布转移,使分布转移有界,从而要求学习到的策略分布与行为策略分布接近,则不会出现很大的动作误差,准确高效地在线控制机器人,去完成任务。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的一些附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明优选实施例中机器人控制方法流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
如图1所示,本发明提供了一种基于离线环境交互的机器人控制方法,TMS320C6670芯片分析摄像头采集的视频数据得出当前机器人的状态信息,然后将此信息通过太网传输到后台服务器,服务器通过我们的方法处理数据得到机器人下一步该执行的动作,然后将动作控制信息通过以太网再传回给芯片,控制机器人的执行,步骤如下:
1)初始化定义预测价值网络Qwi网络参数分别为wi,i∈(1…N)
初始化预测价值网络Qwi′网络参数分别为wi′,i∈(1…N)
初始化预测策略网络μθ和目标策略网络μθ′,网络参数分别为θ和θ′;
2)使用已收集未知策略交互样本的数据集Β;
3)初始化总迭代次数T,折扣因子γ,τ=0.0001,c=0.5,emax,emin,e;
4)VEA模型参数
Figure BDA0003671954790000061
5)循环针对情节中每一时间步;
6)从数据集Β中取随机批量样本(s,a,r,s′);
7)根据编码输入s,a,解码输出
Figure BDA0003671954790000062
计算值函数:
Figure BDA0003671954790000063
8)更新VEA模型参数:
Figure BDA0003671954790000064
9)取n批次的动作
Figure BDA0003671954790000065
10)扰动动作
Figure BDA0003671954790000066
11)计算截断原子的数量,
Figure BDA0003671954790000067
为w的平均值:
Figure BDA0003671954790000068
12)更新目标值:
yi=r+γ(z(i)(s′,a′))i∈[1...KN]
Figure BDA0003671954790000071
13)根据最小化损失函数来更新评论家网络参数w:
w←argminw∑(Y-Qw(s,a))2
14)最大化目标函数来更新行动者网络参数θ:
Figure BDA0003671954790000072
15)软更新目标网络:
Figure BDA0003671954790000073
16)循环至步数T为止,输出完成模型,并应用结合在机器人部件。
上述技术方案中,提到的状态s是通过摄像头或者传感器以及德州仪器TMS320C6670分析出来的。该仪器有很强的计算能力、高速I/O接口,可以满足计算的实时性要求。而且芯片有很多其他接口对后期的扩展很方便。芯片工作温度在-40度到100度之间可以满足户外工作的要求。
上述技术方案中,步骤8)中,VAE是一个生成模型,旨在最大化边际对数似然对数
Figure BDA0003671954790000074
计算X={x1,x2,x3,x4......,xn}边际对数似然对数通过优化变分下界来化简
logp(X)≥
Eq(X|z)[logp(X|z)]+DKL(q(z|X)||p(z))
其中p(z)为多元正态分布N(0,1),定义后验q(z|X)=N(z|u(X),σ2(X)I)为编码器,p(X|z)为解码器。给定样本通过解码器产生一个随机潜在变量z,给编码器重建原始样本X,VAE模型根据重建损失函数进行训练,重新参数化对变分下界进行梯度下降,公式为
Ez~N(μ,σ)[f(z)]=Eε~N(0,1)[f(μ+σε)]
VAE模型允许随机节点的反向传播,从多变量正太分布中对z样本的随机值进行采样,并且通过解码器产生历史采样的值分布。以此来约束更新Q值时动作的选择,模型会尽量选取历史出现过的动作。
上述技术方案中,步骤11)中,在计算Q值准确度不够理想,无法根据当前的状态动作值进行动态地改变。为了进一步减少目标值计算的误差,获得更好的训练稳定性和性能。针对上述方法进行改进,利用KL距离衡量动作状态值分布差异,并且计算过程中根据所得权重来截断Q原子数量,衡量公式为
Figure BDA0003671954790000081
在更新网络参数时,从样本池中抽取批量数量的转移样本,然后平均计算样本的e值,e估计样本的动作分布和行为动作分布的距离,值越大表明执行动作产生的高估概率越大,则Q值更新需要保守。截断过多容易导致过于低估,截断太少导致高估问题依然存在。算法计算截断原子的数量需要维持两个变量emax、emin。用于记录当前出现的最大权重和最小权重,并且加入扰乱因子c。即下式:
Figure BDA0003671954790000082
上述技术方案中,步骤12)中,使用Q学习公式不可避免地会导致高估的累计。为了缓解这个问题,结合利用方法使用两个评论家神经网络来更新Q(s,a),两个网络的参数记为θ12,目标函数的更新公式为
Figure BDA0003671954790000083
缓解高估问题的同时,为目标动作添加截断噪声:
Figure BDA0003671954790000084
并且每个评论家会输出M个Q原子。假设评论家数量为N个,在计算的过程中,网络会输出N×M数量的Q原子,将Q原子基于大小排序,每个评论家截断M-K数量Q原子,再对该分布进行一个分位数回归,使其值逼近一个较低的Q值分布。评论家目标网络的更新方式为
yi=r+γ(z(i)(s′,a′))i∈[1...KN]
Figure BDA0003671954790000091
yi是网络i的状态动作值,Y(s,a)是使用截断控制高估偏差方法后,输出更真实的状态动作值。使得值分布尽可能趋近真实的分布,更好地控制高估的问题,在连续环境任务下,提高离线算法发明的性能。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对上述实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的上述实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (7)

1.一种基于离线环境交互的机器人控制方法,其特征在于,包括如下步骤:
S1,通过摄像头采集环境信息,生成目标行动者网络,
S2,通过离线数据集建立目标评论家网络,将目标行动者网络输入目标评论家网络进行更新;
S3,采集当前评论家网络,将目标评论家网络与当前评论家网络进行比较,得到偏差率;
S4,判断所述偏差率是否大于预设偏差率阈值,
S5,若大于,则生成损失函数,通过损失函数对当前评论家网络进行更新,得到更新后的当前评论家网络;
S6,根据更新后的当前评论家网络生成截断固定原子数量;
S7,通过截断固定原子数量生成目标值输入当前行动者网络;
S8,通过当前行动者网络控制机器人执行相应的动作。
2.根据权利要求1所述的一种基于离线环境交互的机器人控制方法,其特征在于,目标评论家网络为两个,通过两个评论家神经网络来更新Q(s,a),两个网络的参数记为θ12,目标函数的更新公式为:
Figure FDA0003671954780000011
r为样本记录的离线环境回报值,γ是回报衰减度,通过计算更新公式,来更新现在的目标值y;
缓解高估问题的同时,为目标动作添加截断噪声:
Figure FDA0003671954780000012
通过μ(s′,θ′)评论家获取动作值,并且加入ε截断噪声,获取到下一步动作
Figure FDA0003671954780000013
3.根据权利要求1所述的一种基于离线环境交互的机器人控制方法,其特征在于,使用已收集未知策略交互样本的离线数据集Β;
初始化总迭代次数T,折扣因子γ,偏移量τ=0.0001,c=0.5,训练过程控制头最大范围emax,已经记录的最小范围emin,当前值e;
VEA模型参数
Figure FDA0003671954780000021
循环针对情节中每一时间步;
从数据集Β中取随机批量样本(s,a,r,s′);
根据编码输入s,a,解码输出
Figure FDA0003671954780000022
计算值函数:
Figure FDA0003671954780000023
z~N(μ,σ)
更新VEA模型参数:
Figure FDA0003671954780000024
4.根据权利要求3所述的一种基于离线环境交互的机器人控制方法,其特征在于,VAE是一个生成模型,实现最大化边际对数似然对数
Figure FDA0003671954780000025
计算X={x1,x2,x3,x4......,xn}边际对数似然对数通过优化变分下界计算:
logp(X)≥
Eq(X|z)[logp(X|z)]+DKL(q(z|X)||p(z));
其中p(z)为多元正态分布N(0,1),定义后验q(z|X)=N(z|u(X),σ2(X)I)为编码器,p(X|z)为解码器,给定样本通过解码器产生一个随机潜在变量z,给编码器重建原始样本X,VAE模型根据重建损失函数进行训练,重新参数化对变分下界进行梯度下降,公式为:
Ez~N(μ,σ)[f(z)]=Eε~N(0,1)[f(μ+σε)]。
5.根据权利要求4所述的一种基于离线环境交互的机器人控制方法,其特征在于,根据所得权重来截断Q原子数量,衡量公式为:
Figure FDA0003671954780000031
通过KL散度计算当前策略和预测策略的距离,计算变量值。
6.根据权利要求1所述的一种基于离线环境交互的机器人控制方法,其特征在于,根据最小化损失函数来更新评论家网络参数w:
w←argminw∑(Y-Qw(s,a))2
最大化目标函数来更新行动者网络参数θ:
Figure FDA0003671954780000032
7.根据权利要求1所述的一种基于离线环境交互的机器人控制方法,其特征在于,目标评论家网络的更新方式为:
yi=r+γ(z(i)(s′,a′))i∈[1...KN]
Figure FDA0003671954780000033
yi是网络i的状态动作值,Y(s,a)是使用截断控制高估偏差方法后输出更真实的状态动作值。
CN202210610748.8A 2022-05-31 2022-05-31 一种基于离线环境交互的机器人控制方法 Active CN114770523B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210610748.8A CN114770523B (zh) 2022-05-31 2022-05-31 一种基于离线环境交互的机器人控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210610748.8A CN114770523B (zh) 2022-05-31 2022-05-31 一种基于离线环境交互的机器人控制方法

Publications (2)

Publication Number Publication Date
CN114770523A true CN114770523A (zh) 2022-07-22
CN114770523B CN114770523B (zh) 2023-09-15

Family

ID=82422074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210610748.8A Active CN114770523B (zh) 2022-05-31 2022-05-31 一种基于离线环境交互的机器人控制方法

Country Status (1)

Country Link
CN (1) CN114770523B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934332A (zh) * 2018-12-31 2019-06-25 中国科学院软件研究所 基于评论家和双经验池的深度确定性策略梯度学习方法
CN112518742A (zh) * 2020-11-16 2021-03-19 清华大学深圳国际研究生院 基于动态模型与事后经验回放的多目标机器人控制方法
CN113033119A (zh) * 2021-03-11 2021-06-25 山东大学 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法
CN113574547A (zh) * 2019-03-20 2021-10-29 索尼集团公司 通过双演员评论家算法进行强化学习
US20220036186A1 (en) * 2020-07-30 2022-02-03 Waymo Llc Accelerated deep reinforcement learning of agent control policies
CN114358128A (zh) * 2021-12-06 2022-04-15 深圳先进技术研究院 一种训练端到端的自动驾驶策略的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934332A (zh) * 2018-12-31 2019-06-25 中国科学院软件研究所 基于评论家和双经验池的深度确定性策略梯度学习方法
CN113574547A (zh) * 2019-03-20 2021-10-29 索尼集团公司 通过双演员评论家算法进行强化学习
US20220036186A1 (en) * 2020-07-30 2022-02-03 Waymo Llc Accelerated deep reinforcement learning of agent control policies
CN112518742A (zh) * 2020-11-16 2021-03-19 清华大学深圳国际研究生院 基于动态模型与事后经验回放的多目标机器人控制方法
CN113033119A (zh) * 2021-03-11 2021-06-25 山东大学 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法
CN114358128A (zh) * 2021-12-06 2022-04-15 深圳先进技术研究院 一种训练端到端的自动驾驶策略的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李娇;刘全;傅启明;王庭钢;: "分布式数据库中基于局部CON模型的记录匹配方法", 通信学报, no. 07 *

Also Published As

Publication number Publication date
CN114770523B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
Chen et al. Approximating explicit model predictive control using constrained neural networks
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
Karim et al. BHyPreC: a novel Bi-LSTM based hybrid recurrent neural network model to predict the CPU workload of cloud virtual machine
Abdolmaleki et al. Relative entropy regularized policy iteration
Okada et al. Path integral networks: End-to-end differentiable optimal control
Dash et al. Efficient stock price prediction using a self evolving recurrent neuro-fuzzy inference system optimized through a modified differential harmony search technique
Morton et al. Deep variational koopman models: Inferring koopman observations for uncertainty-aware dynamics modeling and control
WO2020040763A1 (en) Real-time production scheduling with deep reinforcement learning and monte carlo tree search
CN113361680A (zh) 一种神经网络架构搜索方法、装置、设备及介质
Cheng et al. Cash flow prediction for construction project using a novel adaptive time-dependent least squares support vector machine inference model
US20230266721A1 (en) Method for configuring a control agent for a technical system, and control device
Han et al. Lightweight actor-critic generative adversarial networks for real-time smart generation control of microgrids
Lison Model-based bayesian reinforcement learning for dialogue management
Kubalík et al. Optimal control via reinforcement learning with symbolic policy approximation
Xie et al. Nonstop: A nonstationary online prediction method for time series
CN115577647B (zh) 电网故障类型识别方法与智能体构建方法
Agarwal et al. Classification of profit-based operating regions for the tennessee eastman process using deep learning methods
CN114770523B (zh) 一种基于离线环境交互的机器人控制方法
CN115081609A (zh) 一种智能决策中的加速方法、终端设备及存储介质
Wang et al. Stock price prediction based on chaotic hybrid particle swarm optimisation-RBF neural network
US11783194B1 (en) Evolutionary deep learning with extended Kalman filter for modeling and data assimilation
Zheng et al. Variance reduction based partial trajectory reuse to accelerate policy gradient optimization
Zeng et al. Contextual bandit guided data farming for deep neural networks in manufacturing industrial internet
Burega et al. Learning to prioritize planning updates in model-based reinforcement learning
Chen et al. Self-guided deep deterministic policy gradient with multi-actor

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant