CN112734030B - 用状态相似性进行经验回放采样的无人平台决策学习方法 - Google Patents

用状态相似性进行经验回放采样的无人平台决策学习方法 Download PDF

Info

Publication number
CN112734030B
CN112734030B CN202011623599.6A CN202011623599A CN112734030B CN 112734030 B CN112734030 B CN 112734030B CN 202011623599 A CN202011623599 A CN 202011623599A CN 112734030 B CN112734030 B CN 112734030B
Authority
CN
China
Prior art keywords
unmanned platform
similarity
state
sample data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011623599.6A
Other languages
English (en)
Other versions
CN112734030A (zh
Inventor
庄连生
张淦霖
李厚强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202011623599.6A priority Critical patent/CN112734030B/zh
Publication of CN112734030A publication Critical patent/CN112734030A/zh
Application granted granted Critical
Publication of CN112734030B publication Critical patent/CN112734030B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种用状态相似性进行经验回放采样的无人平台决策学习方法,输入为从经验回放池中采样得到的历史样本数据,之后计算每个历史样本数据与无人平台的决策神经网络模型的当前策略的状态相似度与动作相似度,基于状态和动作相似度来判定赋予历史样本数据不同的训练权重,根据历史样本数据的训练权重不同更新无人平台的决策神经网络模型。通过限制使用与当前策略差异较大的数据的更新幅度,来缓解利用深度强化学习更新无人平台策略时经验回放池中数据分布与当前策略对应数据分布不一致的问题,能够更好的利用经验回放池中历史数据,提高训练数据利用率和稳定性,使得无人平台能够学得更好更稳定的策略。

Description

用状态相似性进行经验回放采样的无人平台决策学习方法
技术领域
本发明涉及无人控制领域,尤其涉及一种用状态相似性进行经验回放采样的无人平台自主决策学习方法。
背景技术
近些年,利用深度强化学习在无人平台控制领域取得了突破性成果。无人平台通过一边与环境交互收集轨迹数据,一边用收集到的轨迹数据更新无人平台的决策神经网络模型。为了提高数据利用率和消除训练数据的相关性,强化学习会设置经验回放池,将每次无人平台与环境交互收集的样本数据放入经验回放池中,训练时从中随机采样得到训练样本数据,用于训练无人平台的决策神经网络。但是这种方法会带来一个问题:用于训练的样本数据有很多是从无人平台的历史策略采样得到的,而随着决策神经网络模型的更新,当前策略与历史策略差异很大,对应二者采样的样本数据分布也会差异很大,用与当前策略不相符的过于老旧的样本数据来训练当前策略会导致无人平台训练不稳定,甚至导致无法学到有效的策略。
关于哪些数据应当存放在经验回放池以及如何使用回放池中数据这两个问题一直是利用强化学习训练无人平台中的热点问题。在基于优先级采样的DQN方法中(DQN withprioritized sampling),根据奖励值的正负,对正奖励值的数据赋予更大的权重。在优先经验回放(Prioritized experience replay)方法中,根据样本的单步时间差分误差的大小赋予不同的优先级。上述这两种方法并没有考虑样本数据与无人平台当前策略不一致的问题。在记忆遗忘回放方法(Remember and forget experience replay)中,只使用与当前策略相似的样本数据训练无人平台决策神经网络,同时利用KL散度限制当前策略必须与历史策略相似。这种方法只通过动作选择的相似程度,一方面是无法准确计算整个样本数据与当前策略的相似程度,另一方面加入了额外的约束,会导致无人平台的决策可能会收敛到次优解。
因此,如何评估历史数据陈旧程度以及如何缓解从中采样的训练数据与当前策略不匹配依然是无人平台自主决策学习中的重要问题。
发明内容
基于现有技术所存在的问题,本发明的目的是提供一种用状态相似性进行经验回放采样的无人平台决策学习方法,能解决现有用于无人平台控制的自主决策学习中,因不能准确评估历史数据陈旧程度,使得从中采样的训练数据与当前策略不匹配,导致数据利用率低和稳定性差的问题。
本发明的目的是通过以下技术方案实现的:
本发明实施方式提供一种用状态相似性进行经验回放采样的无人平台决策学习方法,包括以下步骤:
步骤1,每一时刻,将无人平台与环境交互得到的轨迹数据放入经验回放池中;
步骤2,在更新无人平台的决策神经网络模型时,从所述经验回放池中采样得到一批历史样本数据;
步骤3,用所述步骤2中采样得到的历史样本数据通过对比学习训练图像编码器;
步骤4,计算所述步骤2中历史样本数据与所述无人平台的决策神经网络模型的当前策略的状态相似度与动作相似度,所述状态相似度利用所述步骤3中训练得到的图像编码器计算;
步骤5,利用所述步骤4计算得出的所述状态相似度和动作相似度,确定历史样本数据与所述无人平台的当前策略的一致性程度,根据确定的一致性程度对不同的历史样本数据赋予不同的训练权重,根据历史样本数据的训练权重不同更新无人平台的决策神经网络模型。
由上述本发明提供的技术方案可以看出,本发明实施例提供的用状态相似性进行经验回放采样的无人平台决策学习方法,其有益效果为:
通过将状态相似度与动作相似度相结合,确定训练样本数据与当前策略的一致性程度,按一致性程度的高低对应赋予训练样本数据不同的权重,在不影响收敛结果的前提下,很好的缓解了无人平台决策学习中,训练数据与当前策略不匹配,导致的数据利用率低和稳定性差的问题,能提高无人平台决策学习训练的稳定性和数据利用率,进而实现无人平台决策提升。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的无人平台决策学习方法流程图;
图2为本发明实施例提供的学习图像编码器的对比学习示意图;
图3为本发明实施例提供的对比学习训练图像编码器的示意图。
具体实施方式
下面结合本发明的具体内容,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
参见图1,本发明实施例提供一种用状态相似性进行经验回放采样的无人平台决策学习方法,包括以下步骤:
步骤1,每一时刻,将无人平台与环境交互得到的轨迹数据放入经验回放池中;
步骤2,在更新无人平台的决策神经网络模型时,从所述经验回放池中采样得到一批历史样本数据;
步骤3,用所述步骤2中采样得到的历史样本数据通过对比学习训练图像编码器;
步骤4,计算所述步骤2中历史样本数据与无人平台的决策神经网络模型的当前策略的状态相似度与动作相似度,所述状态相似度利用所述步骤3中训练得到的图像编码器计算;
步骤5,利用所述步骤4计算得出的所述状态相似度和动作相似度,确定历史样本数据与无人平台的当前策略的一致性程度,根据确定的一致性程度对不同的历史样本数据赋予不同的训练权重,根据历史样本数据的训练权重不同更新无人平台的决策神经网络模型。
上述方法中的无人平台指:设有决策神经网络模型和各种传感器的能通过自主学习进行无人参与而进行自动控制的无人化平台,如无人驾驶平台、无人加工平台、无人机平台等,如可以是实体机器人、控制用机器人等
上述方法中的无人平台包括:无人平台的决策神经网络模型为:用于无人平台策略决策的神经网络模型。
上述方法的步骤2在更新无人平台的决策神经网络模型开始前,还包括:
判断所述经验回放池中数据的数量是否大于预设值,若是,则进行更新无人平台的决策神经网络模型;
若否,则继续执行所述步骤1,直至所述经验回放池中数据的数量大于预设值。
上述方法的步骤5后,还包括:
步骤6,判断当前对决策神经网络模型更新的次数是否大于预设的总次数,若达到,则停止训练,若未达到,则返回所述步骤1。
上述方法的步骤1中,所述轨迹数据表示为st,at,rt,st+1,其中,st为无人平台当前时刻状态;at为当前时刻无人平台的决策神经网络模型选择的执行动作;rt为在状态st下执行at得到的奖励值;st+1为无人平台到达的下一状态。
上述方法的步骤3中,所述图像编码器的损失函数为:
Figure GDA0003686634600000041
所述损失函数中,
Figure GDA0003686634600000042
为编码器网络参数;f为余弦相似性函数;c为原始数据;s+为正样本数据;s为N个历史样本数据,包含一个正历史样本数据和N-1个负历史样本数据。此步骤中,通过将历史样本数据分别与正样本和负样本在特征空间进行对比学习训练图像编码器,去除图像中背景信息并学习到样本的有效表示。
上述方法的步骤4中,
所述状态相似度的计算公式为:
Figure GDA0003686634600000043
该状态相似度的计算公式中,son为当前策略π与环境交互采样得到的状态;soff为所述步骤2中历史样本数据中的状态;K为核函数;
所述动作相似度为当前策略π与历史策略μ对历史样本数据中动作选择的概率之比,其计算公式为:
Figure GDA0003686634600000044
上述的状态相似度的计算公式中,核函数K采用高斯函数,为:
Figure GDA0003686634600000045
其中,x和x′分别为历史状态和当前状态,σ为超参数。
上述方法的步骤5中,按确定的一致性程度的高低赋予历史样本数据对应的权重,即一致性程度高的历史样本数据,则赋予高的训练权重,一致性程度低的历史样本数据,则赋予低的训练权重。
上述方法中,通过采用对比学习,在计算状态相似程度时,用基于对比学习的损失函数学习得到的图像编码器,解决了提取图像中有效特征的问题,使得之后评估状态相似度更准确。
本发明提供的利用状态相似性进行经验回放采样的无人平台决策学习方法,根据从经验回放池中采样得到的历史样本数据与当前策略下数据分布的相似程度,赋予历史样本数据不同的权重,用于更新策略神经网络,该方法通过将状态相似度与动作相似度相结合,确定训练样本数据与当前策略的一致性程度,按一致性程度的高低对应赋予训练样本数据不同的权重,在不影响算法收敛结果的前提下,很好的缓解了无人平台决策学习中,训练数据与当前策略不匹配的问题,能提高学习训练的稳定性和数据利用率。在无人平台控制中,无人平台与现实环境交互收集数据的过程通常占处理的主要成本,本发明的方法可以提高数据的利用率,从而减少交互收集数据的使用,降低成本。
下面对本发明实施例具体作进一步地详细描述。
如图2所示,本发明实施例提供一种利用状态相似性进行经验回放采样的无人平台决策学习方法,输入为从经验回放池中采样得到的历史样本数据,之后计算每个历史样本数据与当前策略的状态相似度与动作相似度,最后基于状态和动作相似度来判定赋予历史样本数据不同的训练权重,再根据训练权重不同更新无人平台的决策神经网络模型。该方法实现了通过限制使用与当前策略差异较大的数据的更新幅度,来缓解利用深度强化学习训练无人平台决策神经网络的经验回放池中数据分布与当前策略对应数据分布不一致的问题,能够更好的利用经验回放池中历史样本,提高训练的数据利用率和稳定性。
如图1、3所示,本发明的方法,主要涉及如何评估历史数据匹配程度和在计算状态相似度时如何提取有效图像特征,具体包括以下步骤:
步骤1,每一时刻,将无人平台与环境交互得到的轨迹数据st,at,rt,st+1放入经验回放池中用于后续训练无人平台的决策神经网络模型;所述轨迹数据中,st为当前时刻状态,at为当前时刻决策神经网络模型选择的执行动作,rt为在状态st下执行at得到的奖励值,st+1为无人平台到达的下一状态;
步骤2,在训练初始阶段,由于经验回放池中数据过少,所以预设训练开始条件为:经验回放池中的数据数量要大于1000;若满足该训练开始条件则开始更新无人平台的决策神经网络模型,否则继续执行所述步骤1,直至满足训练开始条件;在更新无人平台的决策神经网络模型时,从经验回放池中随机采样得到一批N个历史样本数据,这里回放池中每个数据被采样得到的概率是相同的;
步骤3,利用上述步骤2中采样得到的历史样本数据作为训练数据基于对比学习训练图像编码器,图像编码器的损失函数(即采样对比学习的训练误差)为:
Figure GDA0003686634600000061
上述损失函数中,正样本用同一数据中的当前时刻状态和下一时刻状态组成,负样本为不同数据中的状态组成;所以对于每个样本有一个正样本和N-1个负样本;这样学到的图像编码器可以将相似的图像压缩映射到相似的隐状态空间同时最大化不相似图像在隐空间的距离,这里的f为余弦相似性函数;
步骤4,计算所述步骤2中历史样本数据与当前策略π的状态相似度与动作相似度;
利用上述步骤3中训练得到的图像编码器来计算所述步骤2中历史样本数据的状态相似度,计算公式为
Figure GDA0003686634600000062
具体为:先利用当前策略π与环境交互得到当前策略下的状态分布的采样son,然后将son与历史样本数据中的状态soff都通过编码器中得到对应的隐状态,之后利用核函数K来计算二者的相似程度。在实现时采用高斯核函数:
Figure GDA0003686634600000063
其中,x和x′分别为历史状态和当前状态,σ为超参数。
用以下公式计算所述步骤2中历史样本数据的动作相似程度:
Figure GDA0003686634600000064
直接计算当前策略和历史策略在样本状态st下选择样本动作at的概率之比;
步骤5,利用所述步骤4和步骤5中计算出的状态相似度和动作相似度,确定历史样本数据与当前策略的一致性程度,在策略更新时赋予对应的权重,即一致性程度越高的样本赋予的权重越高;
步骤6,判断当前对决策神经网络模型更新的次数是否大于预设的总次数,若达到了预设次数停止训练,否则返回步骤1。
本发明的方法通过评估历史数据的陈旧程度,通过对不同陈旧程度的历史数据对应赋予不同的权重,保证了训练样本与当前策略分布一致,有效的维护了无人平台决策神经网络模型运行的稳定性。并且,该方法还利用了自监督对比学习来学习图像的隐状态,能够更好地提取出输入图像的有效信息,帮助决策网络进行更好的策略选择。本发明方法是对训练数据加权,所以实现简单,也避免了加入额外的约束影响收敛到次优结果的问题,提高了神经网络模型的性能。本发明方法很好的解决了无人平台控制决策学习时,训练决策神经网络模型的重采样的历史样本数据分布不一致问题,保证了无人平台决策神经网络模型训练的稳定性和高效性。
本发明与现有技术相比的优点在于:由于考虑到了历史数据可能出现过时性的问题,通过有效评估与当前策略的匹配程度来缓解这种数据分布偏移的问题,并且,由于没有加入额外的约束,也不会影响最终结果的准确性。同时,本发明主要是通过计算加权改变了样本分布,对策略更新过程没有过多的限制,因此可在几乎相同时间复杂度下运用到绝大多数强化学习模型当中,提高它们的稳定性。
本发明在实际场景中有着重要意义。比如在用无人平台控制汽车自动驾驶上,为了能够让自动驾驶汽车适应各种情况,在收集数据时要求数据具有多样性,这也会导致数据收集成本变高,而本发明方法由于可以提升控制自动驾驶无人平台已获取的历史数据的利用率,减少获取新数据量的需求,进而降低数据收集的成本;另外,如果自动驾驶算法稳定性差,可能导致出现错误指令,造成严重的事故,而本发明方法在稳定性上也有明显的提升,可以缓解上述问题的出现。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (7)

1.一种用状态相似性进行经验回放采样的无人平台决策学习方法,其特征在于,包括以下步骤:
步骤1,每一时刻,将无人平台与环境交互得到的轨迹数据放入经验回放池中;
步骤2,在更新所述无人平台的决策神经网络模型时,从所述经验回放池中采样得到一批历史样本数据;
步骤3,用所述步骤2中采样得到的历史样本数据通过对比学习训练图像编码器;
步骤4,计算所述步骤2中历史样本数据与所述无人平台的决策神经网络模型的当前策略的状态相似度与动作相似度,所述状态相似度利用所述步骤3中训练得到的图像编码器计算;
步骤5,利用所述步骤4计算得出的所述状态相似度和动作相似度,确定历史样本数据与所述无人平台的当前策略的一致性程度,根据确定的一致性程度对不同的历史样本数据赋予不同的训练权重,根据历史样本数据的训练权重不同更新无人平台的决策神经网络模型。
2.根据权利要求1所述的用状态相似性进行经验回放采样的无人平台决策学习方法,其特征在于,所述步骤2在更新无人平台的决策神经网络模型开始前,还包括:
判断所述经验回放池中数据的数量是否大于预设值,若是,则进行更新无人平台的决策神经网络模型;
若否,则继续执行所述步骤1,直至所述经验回放池中数据的数量大于预设值。
3.根据权利要求1所述的用状态相似性进行经验回放采样的无人平台决策学习方法,其特征在于,所述步骤5后,还包括:
步骤6,判断当前对决策神经网络模型更新的次数是否大于预设的总次数,若达到,则停止训练,若未达到,则返回所述步骤1。
4.根据权利要求1至3任一项所述的用状态相似性进行经验回放采样的无人平台决策学习方法,其特征在于,所述步骤1中,所述轨迹数据表示为st,at,rt,st+1,其中,st为无人平台当前时刻状态;at为当前时刻无人平台的决策神经网络模型选择的执行动作;rt为在状态st下执行at得到的奖励值;st+1为无人平台到达的下一状态。
5.根据权利要求1至3任一项所述的用状态相似性进行经验回放采样的无人平台决策学习方法,其特征在于,所述步骤3中,所述图像编码器的损失函数为:
Figure FDA0003686634590000021
所述损失函数中,
Figure FDA0003686634590000022
为编码器网络参数;f为余弦相似性函数;c为原始数据;s+为正样本数据;s为N个历史样本数据,包含一个正历史样本数据和N-1个负历史样本数据。
6.根据权利要求1至3任一项所述的用状态相似性进行经验回放采样的无人平台决策学习方法,其特征在于,所述步骤4中,
所述状态相似度的计算公式为:
Figure FDA0003686634590000023
该状态相似度的计算公式中,son为当前策略π与环境交互采样得到的状态;soff为所述步骤2中历史样本数据中的状态;K为核函数;
所述动作相似度为当前策略π与历史策略μ对历史样本数据中动作选择的概率之比,其计算公式为:
Figure FDA0003686634590000024
7.根据权利要求6所述的用状态相似性进行经验回放采样的无人平台决策学习方法,其特征在于,所述状态相似度的计算公式中,核函数K采用高斯函数,为:
Figure FDA0003686634590000025
其中,x和x′分别为历史状态和当前状态,σ为超参数。
CN202011623599.6A 2020-12-31 2020-12-31 用状态相似性进行经验回放采样的无人平台决策学习方法 Active CN112734030B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011623599.6A CN112734030B (zh) 2020-12-31 2020-12-31 用状态相似性进行经验回放采样的无人平台决策学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011623599.6A CN112734030B (zh) 2020-12-31 2020-12-31 用状态相似性进行经验回放采样的无人平台决策学习方法

Publications (2)

Publication Number Publication Date
CN112734030A CN112734030A (zh) 2021-04-30
CN112734030B true CN112734030B (zh) 2022-09-02

Family

ID=75609476

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011623599.6A Active CN112734030B (zh) 2020-12-31 2020-12-31 用状态相似性进行经验回放采样的无人平台决策学习方法

Country Status (1)

Country Link
CN (1) CN112734030B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711529A (zh) * 2018-11-13 2019-05-03 中山大学 一种基于值迭代网络的跨领域联邦学习模型及方法
CN109740741A (zh) * 2019-01-09 2019-05-10 上海理工大学 一种结合知识转移的强化学习方法及其应用于无人车自主技能的学习方法
CN110298391A (zh) * 2019-06-12 2019-10-01 同济大学 一种基于小样本的迭代式增量对话意图类别识别方法
CN110919659A (zh) * 2019-12-24 2020-03-27 哈尔滨工程大学 一种基于ddgpes的机器人控制方法
CN111160525A (zh) * 2019-12-17 2020-05-15 天津大学 一种边缘计算环境下基于无人机群的任务卸载智能决策方法
CN111461347A (zh) * 2020-04-02 2020-07-28 中国科学技术大学 优化经验回放采样策略的强化学习方法
CN111523940A (zh) * 2020-04-23 2020-08-11 华中科技大学 一种带负反馈的基于深度强化学习的推荐方法及系统
CN111898728A (zh) * 2020-06-02 2020-11-06 东南大学 一种基于多Agent强化学习的团队机器人决策方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200097808A1 (en) * 2018-09-21 2020-03-26 International Business Machines Corporation Pattern Identification in Reinforcement Learning

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711529A (zh) * 2018-11-13 2019-05-03 中山大学 一种基于值迭代网络的跨领域联邦学习模型及方法
CN109740741A (zh) * 2019-01-09 2019-05-10 上海理工大学 一种结合知识转移的强化学习方法及其应用于无人车自主技能的学习方法
CN110298391A (zh) * 2019-06-12 2019-10-01 同济大学 一种基于小样本的迭代式增量对话意图类别识别方法
CN111160525A (zh) * 2019-12-17 2020-05-15 天津大学 一种边缘计算环境下基于无人机群的任务卸载智能决策方法
CN110919659A (zh) * 2019-12-24 2020-03-27 哈尔滨工程大学 一种基于ddgpes的机器人控制方法
CN111461347A (zh) * 2020-04-02 2020-07-28 中国科学技术大学 优化经验回放采样策略的强化学习方法
CN111523940A (zh) * 2020-04-23 2020-08-11 华中科技大学 一种带负反馈的基于深度强化学习的推荐方法及系统
CN111898728A (zh) * 2020-06-02 2020-11-06 东南大学 一种基于多Agent强化学习的团队机器人决策方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A multiple attribute decision model to compare the firms’ occupational health and safety management perspectives;Umut Hulusiİnan et al;《Safety Science》;20170131;全文 *
强化学习中离策略算法的分析及研究;傅启明;《中国博士学位论文全文数据库电子期刊 信息科技辑》;20140915;第2014年卷(第9期);全文 *
运营商网络中基于深度强化学习的服务功能链迁移机制;陈卓 等;《电子与信息学报》;20200930;第42卷(第9期);全文 *

Also Published As

Publication number Publication date
CN112734030A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN111260027B (zh) 一种基于强化学习的智能体自动决策方法
CN113044064B (zh) 基于元强化学习的车辆自适应的自动驾驶决策方法及系统
CN112172813B (zh) 基于深度逆强化学习的模拟驾驶风格的跟车系统及方法
CN114162146B (zh) 行驶策略模型训练方法以及自动驾驶的控制方法
CN113393032B (zh) 基于重采样下的航迹循环预测方法
CN111352419A (zh) 基于时序差分更新经验回放缓存的路径规划方法及系统
CN111507488A (zh) 一种基于vr的车辆维修保养辅助系统
CN111348034B (zh) 基于生成对抗模仿学习的自动泊车方法及系统
CN112977412A (zh) 一种车辆控制方法、装置、设备及计算机存储介质
CN116244647A (zh) 一种无人机集群的运行状态估计方法
CN112488147A (zh) 一种基于对抗网络的冗余去除主动学习方法
CN112734030B (zh) 用状态相似性进行经验回放采样的无人平台决策学习方法
CN113276852B (zh) 一种基于最大熵强化学习框架的无人驾驶车道保持方法
CN114872730A (zh) 一种车辆行驶轨迹预测方法、装置、汽车及存储介质
CN113326689B (zh) 一种基于深度强化学习模型的数据清洗方法及装置
CN116882574A (zh) 一种基于神经网络模型的碳排放预测方法及系统
CN113420706B (zh) 一种基于多层特征融合的车辆检测方法
CN114332520B (zh) 基于深度学习的异常驾驶行为识别模型构建方法
CN115009291B (zh) 基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统
CN115542915A (zh) 一种基于近似安全动作的自动驾驶强化学习方法
CN111443701A (zh) 基于异构深度学习的无人驾驶车辆/机器人行为规划方法
CN115035304A (zh) 一种基于课程学习的图像描述生成方法及系统
CN110751054B (zh) 一种异常驾驶行为的检测系统
CN114997048A (zh) 基于探索策略改进的td3算法的自动驾驶车辆车道保持方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant