CN117763974A

CN117763974A - 一种基于事件触发机制的模型训练与策略优化方法及系统

Info

Publication number: CN117763974A
Application number: CN202410039006.3A
Authority: CN
Inventors: 孙富春; 嵇天颖; 罗宇; 曾艳
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2024-01-10
Filing date: 2024-01-10
Publication date: 2024-03-26

Abstract

本发明公开一种基于事件触发机制的模型训练与策略优化方法及系统，涉及人工智能技术领域，该方法包括：初始化策略网络和动态模型，初始化重放缓冲区，并重复以下步骤：采集样本数据，并存储至重放缓冲区中；基于新增样本数据计算模型转移，并判断模型转移是否达到设定阈值；若模型转移未达到设定阈值，则不更新当前动态模型和当前策略网络，直接返回采集样本数据的步骤；若模型转移达到设定阈值，则基于新增样本数据更新当前动态模型和当前策略网络，并返回采集样本数据的步骤；直到当前策略网络达到预定性能要求，得到最佳动态模型和最佳策略网络。本发明能够改进模型驱动的强化学习系统的工作过程，提高其性能，使其更适合应对复杂任务和环境。

Description

一种基于事件触发机制的模型训练与策略优化方法及系统

技术领域

本发明涉及人工智能技术领域，特别是涉及一种基于事件触发机制的模型训练与策略优化方法及系统。

背景技术

强化学习是人工智能领域的一个重要分支，广泛应用于实现智能决策任务。与传统的监督学习不同，强化学习的焦点在于智能体如何在与环境互动的过程中，通过不断的试错和学习，最大化累积奖励，尤其是在未知环境中。强化学习在多个领域中具有广泛应用，包括自动驾驶、游戏玩法优化和机器人控制等。

无模型强化学习是强化学习的一种主流方法，其中智能体直接从交互样本中学习，而不需要构建环境的模型。无模型强化学习方法通过不断试验和纠错来改进策略，根据累积奖励来评估策略的质量。尽管在一些任务(如棋类和游戏)中取得了显著效果，但该模式下的算法为了获得出色的性能，通常需要大量的训练样本，这在某些实际应用(如机器人运动和操作任务)可能是不切实际的。

相比之下，基于模型的强化学习方法(Model-based Reinforcement Learning，MBRL)提供了改进样本效率的途径。这些方法通过与环境互动中学习环境模型，然后利用该模型进行策略优化。因此，基于模型的强化学习方法在低数据场景下成为一种吸引人的选择，有望在数据缺乏的真实应用场景上部署。

MBRL方法的工作原理可以总结为模型学习阶段和策略优化阶段。在模型学习阶段，MBRL方法的主要任务是使用与环境的实际互动数据来学习环境模型。这个模型可以是确定性或概率性的，用于模拟环境的状态转移和奖励信号。模型的训练需要选择适当的动力学模型逼近器，以有效地捕捉环境的状态转移和奖励信号。一旦模型学习完成，MBRL方法将利用学到的模型进行策略优化。这一阶段的目标是找到最优策略，以最大化累积奖励。通常，MBRL方法可以灵活地选择用于策略优化的算法，而不限定于特定策略优化方法，如SoftActor-Critic(SAC)、TrustRegion Policy Optimization(TRPO)、Twin Delayed DeepDeterministic Policy Gradient(TD3)等。通过这两个阶段的交替迭代，MBRL方法能够不断提高策略性能，同时更加高效地利用有限的训练样本。

一个更准确的模型将带来更好的策略，因此提高模型准确性一直是研究的重点。有许多尝试通过研究高容量模型(例如模型集成技术和更好的函数逼近器)或者根据模型偏差改进策略优化阶段的方法来改进模型的准确性。这些模型逼近器可以包括神经网络、高斯过程、时间变化的线性动力学模型等。模型的训练目标可以包括均方误差(MeanSquare Error，MSE)或负对数似然(Negative Log Likelihood，NLL)等。

尽管这些方法在一定程度上获得了准确的模型，但这种准确性仍然是相对的，局限在局部范围内。这是因为这些方法的学习过程主要基于当前策略在某一步骤中所探索的有限数量的状态-动作元组，而没有充分考虑环境的完整转换动态。这种相对准确性的局限性导致了在基于模型的强化学习中出现一系列挑战。

首先，确定应该进行多少探索是一个复杂而具有挑战性的任务。探索的不足可能会使模型陷入受限状态，这将在一定程度上阻碍后续策略的优化，因为模型无法提供足够准确的信息来引导策略改进。另一方面，如果引入过多的新状态-动作对进行探索，模型可能会因大量的不一致数据而感到困惑，最终导致策略不稳定和波动。

为了获得一个“真正”准确的模型，需要一种更智能的方案，它能够在不同时间选择不同数量的探索，以更好地平衡模型学习和策略优化之间的关系。当前的方法通常采用静态设置，缺乏适应性和灵活性，无法应对复杂和多变的环境。因此，传统的基于模型的强化学习方法在模型准确性方面存在局限性，无法提供“真正”准确的模型，限制了它们在基于模型的强化学习领域的性能。

因此，解决这一问题的关键在于设计一种智能方法，它能够根据当前环境和学习进展的需要，动态地调整探索的数量。这种方法能够更好地平衡模型学习和策略优化之间的关系，以获得更为准确的模型。通过克服这一问题，可以提高MBRL方法的性能，使其更适用于复杂和多变的环境，从而推动基于模型的强化学习领域的发展。

发明内容

本发明的目的是提供一种基于事件触发机制的模型训练与策略优化方法及系统，以改进模型驱动的强化学习系统的工作过程，提高其性能，使其更适合应对复杂任务和环境。

为实现上述目的，本发明提供了如下方案：

一种基于事件触发机制的模型训练与策略优化方法，包括：

初始化策略网络和动态模型，初始化重放缓冲区，并重复以下步骤：

采集样本数据，并存储至重放缓冲区中；所述样本数据包括智能体与真实环境的若干步交互样本；每步交互样本均包括：当前状态、动作、下一个状态和奖励；所述当前状态由智能体基于真实环境采集得到；所述动作由当前策略网络基于当前状态生成得到；所述下一个状态由智能体基于当前状态，执行动作与真实环境交互得到；所述奖励基于当前状态、动作和下一个状态确定；

基于新增样本数据计算模型转移，并判断模型转移是否达到设定阈值；

若模型转移未达到设定阈值，则不更新当前动态模型和当前策略网络，直接返回采集样本数据的步骤；

若模型转移达到设定阈值，则基于新增样本数据更新当前动态模型和当前策略网络，并返回采集样本数据的步骤；

直到当前策略网络达到预定性能要求，得到最佳动态模型和最佳策略网络。

可选地，基于新增样本数据计算模型转移，并判断模型转移是否达到设定阈值，具体包括：

将训练当前动态模型的原始交互样本确定为原始状态集合；将相对于原始状态集合新增的所有交互样本确定为新增状态集合；将新增状态集合中当前设定交互步数的交互样本确定为当前新增状态子集；将新增状态集合中除去当前新增状态子集剩余的所有交互样本确定为历史新增状态子集；

每采集设定交互步数的交互样本，则将原始状态集合与新增状态集合的并集确定为第一状态集合，将原始状态集合与历史新增状态子集的并集确定为第二状态集合；

基于第一状态集合和第二状态集合分别构建凸包并计算凸包体积；

基于当前新增状态子集计算模型预测误差的均值；

根据凸包体积和模型预测误差的均值计算模型转移，并判断模型转移是否达到设定阈值。

可选地，基于第一状态集合和第二状态集合分别构建凸包并计算凸包体积，具体包括：

对第一状态集合和第二状态集合中的状态数据分别进行随机采样，利用主成分分析对随机采样得到的状态数据进行降维，并确定降维后的状态集合所遵循的分布，得到第一状态分布和第二状态分布；

根据第一状态分布和第二状态分布分别确定支撑集，得到第一支撑集和第二支撑集；

根据第一支撑集和第二支撑集分别构建凸包，并计算凸包体积，得到第一凸包体积和第二凸包体积。

可选地，根据凸包体积和模型预测误差的均值计算模型转移，并判断模型转移是否达到设定阈值，具体公式为：

其中，D_t表示在t次交互步数下的重放缓冲区中的原始状态集合，ΔD(τ)表示新增交互步数τ下的重放缓冲区中的新增状态集合，ΔD(F(i-1))表示新增状态集合中由F(i-1)个交互样本组成的历史新增状态子集，表示新增状态集合中由F个交互样本组成的当前新增状态子集，dD表示重放缓冲区中状态集合所遵循的分布，supp(d)表示分布d的支撑集，Conv(·)表示支撑集的凸包体积，/>表示模型预测误差的均值，β表示惩罚常数，σ表示设定阈值，τ表示新增交互步数，F表示设定交互步数，i表示设定交互步数在新增交互步数中的序号，log(·)表示对数运算。

可选地，基于新增样本数据更新当前动态模型和当前策略网络，具体包括：

以最小化损失函数为优化目标，基于新增样本数据训练当前动态模型，得到下一个动态模型，并以下一个动态模型替换当前动态模型；

基于当前动态模型，采用无模型强化学习方法优化当前策略网络，得到下一个策略网络，并以下一个策略网络替换当前策略网络。

可选地，所述损失函数为负对数似然函数。

可选地，所述无模型强化学习方法为Soft Actor-Critic策略优化算法。

一种基于事件触发机制的模型训练与策略优化系统，包括：

初始模块，用于初始化策略网络和动态模型，初始化重放缓冲区；

迭代模块，用于重复以下步骤：

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供的基于事件触发机制的模型训练与策略优化方法引入智能事件触发机制，通过基于新增样本数据计算模型转移，并判断模型转移是否达到设定阈值，以此来决定是否对当前动态模型和当前策略网络进行更新，可以根据模型偏差动态地决定何时更新动态模型，而不是依赖于固定的时间表，从而既可以更准确地捕捉环境的动态特性，提高模型的准确性，又可以避免频繁的模型更新，减少计算资源的浪费。因此，本发明能够改进模型驱动的强化学习系统的工作过程，提高其性能，使其更适合应对复杂任务和环境。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于事件触发机制的模型训练与策略优化方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

尽管许多现有基于模型的强化学习算法在解决机器人运动和控制任务上取得了一定的成果，但在面对复杂环境时仍然存在一些挑战和限制。虽然基于模型的强化学习算法在样本效率上比起无模型的强化学习算法已有大幅改进，但是它需要的样本数量仍然是较为可观的，而在真实世界中获得这些样本可能非常昂贵。

考虑四足机器人DKitty的行走场景。在这个场景中，每一步的行动都会对机器人的未来状态产生重要影响，涉及步态、稳定性、速度等多个因素。为了找到最佳的行动序列，需要进行大量的试验和采样。然而，由于DKitty环境的动态性和复杂性，大规模采样的效率相对较低，这降低了算法的样本效率。

如果采用传统的固定间隔模型更新方法，将会面临两个主要问题：如果像过去的那些算法一样，模型更新的间隔(间隔长度即为间隔内的采样数量)是人为固定的，那么会面临两种问题：(1)新收集的数据相对于当前训练的DKitty模型的新颖度过低，在此数据上直接进行更新容易出现过拟合或者局部优化的问题，进而对模型和策略性能有着不好的影响；(2)新收集的数据的分布对于当前训练的DKitty模型的新颖度过大，则在此数据上直接进行更新容易出现过度的性能震荡，不利于在真实世界中的机器人训练的安全性和稳定性。

为了解决这些问题，本发明提出一种基于模型转移的切换事件触发机制。这一机制的关键特性是它可以智能地判别新收集数据的新颖度，并自动调节模型更新的间隔长度。通过动态调整更新频率，该机制可以有效防止模型震荡和过拟合问题。这对于在复杂和不断变化的真实世界环境中训练机器人非常有益。

在DKitty的行走任务中，这一机制可以根据环境的变化自动决定何时进行模型和策略的更新，从而使机器人更快地适应新环境，提高稳定性和性能。这一创新性的方法有望加速基于模型的强化学习在机器人领域的应用，降低训练成本，提高机器人的适应性，并推动真实世界中的机器人应用。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明提供一种基于事件触发机制的模型训练与策略优化方法，如图1所示，该方法包括：

步骤S1：初始化策略网络和动态模型，初始化重放缓冲区，并重复以下步骤：

步骤S2：采集样本数据，并存储至重放缓冲区中；所述样本数据包括智能体与真实环境的若干步交互样本；每步交互样本均包括：当前状态、动作、下一个状态和奖励；所述当前状态由智能体基于真实环境采集得到；所述动作由当前策略网络基于当前状态生成得到；所述下一个状态由智能体基于当前状态，执行动作与真实环境交互得到；所述奖励基于当前状态、动作和下一个状态确定。

步骤S3：基于新增样本数据计算模型转移，并判断模型转移是否达到设定阈值。

该步骤具体包括：将训练当前动态模型的原始交互样本确定为原始状态集合；将相对于原始状态集合新增的所有交互样本确定为新增状态集合；将新增状态集合中当前设定交互步数的交互样本确定为当前新增状态子集；将新增状态集合中除去当前新增状态子集剩余的所有交互样本确定为历史新增状态子集。每采集设定交互步数的交互样本，则将原始状态集合与新增状态集合的并集确定为第一状态集合，将原始状态集合与历史新增状态子集的并集确定为第二状态集合。基于第一状态集合和第二状态集合分别构建凸包并计算凸包体积。基于当前新增状态子集计算模型预测误差的均值。根据凸包体积和模型预测误差的均值计算模型转移，并判断模型转移是否达到设定阈值。

其中，基于第一状态集合和第二状态集合分别构建凸包并计算凸包体积，具体包括：对第一状态集合和第二状态集合中的状态数据分别进行随机采样，利用主成分分析对随机采样得到的状态数据进行降维，并确定降维后的状态集合所遵循的分布，得到第一状态分布和第二状态分布。根据第一状态分布和第二状态分布分别确定支撑集，得到第一支撑集和第二支撑集。根据第一支撑集和第二支撑集分别构建凸包，并计算凸包体积，得到第一凸包体积和第二凸包体积。

根据凸包体积和模型预测误差的均值计算模型转移，并判断模型转移是否达到设定阈值，具体公式为：

步骤S4：若模型转移未达到设定阈值，则不更新当前动态模型和当前策略网络，直接返回采集样本数据的步骤，即步骤S2。

步骤S5：若模型转移达到设定阈值，则基于新增样本数据更新当前动态模型和当前策略网络，并返回采集样本数据的步骤，即步骤S2。

具体地，首先以最小化损失函数为优化目标，基于新增样本数据训练当前动态模型，得到下一个动态模型，并以下一个动态模型替换当前动态模型。其次基于当前动态模型，采用无模型强化学习方法优化当前策略网络，得到下一个策略网络，并以下一个策略网络替换当前策略网络。

优选地，所述损失函数为负对数似然函数。

优选地，所述无模型强化学习方法为Soft Actor-Critic策略优化算法。

步骤S6：直到当前策略网络达到预定性能要求，得到最佳动态模型和最佳策略网络。其中，最佳动态模型用于对真实环境进行动态拟合；最佳策略网络用于控制智能体与真实环境交互。

本发明通过智能的事件触发机制和其他关键技术组件协同工作，以改进模型驱动的强化学习系统的性能。下面将详细说明本发明的工作过程，以突出其结构改变带来的优点。

1.初始化策略和模型：首先，初始化强化学习的策略网络π_φ和一组动态模型这组动态模型即系统的转移概率模型，但是用不同的参数随机初始化，输入是状态和动作，输出是预测的下一个状态。其中，j的最大值K可以随意设置，本实施例中将K设置成5，是一个比较均衡的状态，计算代价不算太大。这些模型用于模拟真实环境的动态特性，而策略则用于制定智能体在环境中采取的动作。

每个动态模型是一个概率神经网络，其输出参数为对角协方差的高斯分布：其中，s表示当前状态，a表示动作，s′表示下一个状态，N表示高斯分布，μ_θ表示高斯分布的均值，∑_θ表示方差，θ表示动态模型的参数。

策略网络π_φ也采用高斯分布来进行参数化，用输出的均值来确定采取的动作：a～π_φ(·|s)。其中，φ表示策略网络的参数。

动态模型的输入维度为任务的状态和动作维度之和，输出维度为任务的状态维度。策略网络的输入维度为任务的状态维度，输出维度为任务的动作维度。初始化的方式均采用随机初始化网络参数。

优化目标函数的最小化可以通过试图减小动态模型M和真实环境E之间的差异来实现。为了减小模型偏差，本发明中使用负对数似然(NLL)作为损失函数。具体来说，本发明会同时初始化若干个动态模型，每个动态模型去拟合真实环境的转移函数。这些动态模型是在共享但不同排列的重放缓冲区D_e上拟合的，优化目标是最小化负对数似然(NLL)。

负对数似然函数是一种f_θ预测的下一步状态与真实环境下一步转移到的状态的差异度量方式，具体公式为：

其中，l_NLL表示用于训练的负对数似然函数的记号，N表示在重放缓冲区D_e中采样的样本总数，n表示样本序号，s_n表示第n个样本的当前状态，a_n表示第n个样本的动作，s_n+1表示第n个样本的下一个状态，det表示矩阵的行列式值，log表示对数运算。

2.初始化重放缓冲区：系统初始化了一个空的缓冲区D作为重放缓冲区D_e，用于存储从真实环境中收集的样本数据。

样本数据为由状态、动作、下一个状态和奖励构成的四元组，比如四足机器人采样一次就是：机器人当前的状态，通过策略网络基于当前的状态生成一个动作，让机器人采取这个动作后，机器人就转移到下一个状态，根据当前的状态、动作、下一个状态，就会拿到一个奖励。

3.重复以下步骤：本发明的核心是智能的事件触发机制，它在以下步骤中发挥作用。

4.从真实系统中收集样本：智能体从真实环境中收集样本数据。

采集的过程为：基于当前状态s，执行动作a与环境交互，环境转移到状态s′，并反馈奖励信号r。其中，动作a由策略网络基于当前状态s生成，即a～π_φ(·|s)；下一个状态s′由智能体基于当前状态，执行动作a与真实环境交互得到，即s′～P_E(s，a)，P_E表示系统的转移概率模型；奖励r基于当前状态s、动作a和下一个状态s′确定，即r＝r(s，a，s′)。将四元组(s，a，s′，r)加入重放缓冲区D_e中。

5.每隔F步，计算模型转移：针对当前模型M_x和新收集的样本数据，系统计算模型转移，即：

其中，D_t表示在t次交互步数下的重放缓冲区的数据集(即原始状态集合)，而ΔD(τ)表示新增交互步数τ下的重放缓冲区的新增交互数据集(即新增状态集合)。而d_D表示重放缓冲区中状态集合所遵循的分布。supp(d)表示分布d的支撑集，而Conv(·)代指该支撑集的凸包体积。表示在ΔD(τ)上模型M_x(参数化为/>)相对于真实环境的估计误差的均值(即模型预测误差的均值)，即： σ是触发条件的阈值(即设定阈值)。

该条件表示基于当前模型M_x生成的策略收集ΔD(τ)个样本后，在新的重放缓冲区下训练模型M_x+1会带来的模型转移差异，同时考虑了探索区域范围大小和估计误差两个方面。

此处采用了分数形式的触发条件。分母用于获得模型转移的估计。分子一方面用于减小数值误差，另一方面，这个分数反映了模型转移的相对变化，如果从模型M_x开始在不同τ(新增交互步数)下切换到训练模型M_x+1。这个分数反映了当前吸收新数据的能力。分数形式可以简化阈值的设置，σ对模型模型转移的相对变化有约束作用，但不需要对模型转移的绝对值敏感。

在实际计算过程中，该模型转移的条件估计每F步执行一次，这样做是因为过于频繁的估计会增加计算负担，相邻估计的模型转移的数值差异不会很大。同时为了重复使用中间计算的结果，对每次估计的结果应用对数值，以便通过区间内的每次估计值之和来近似对数值条件函数。另外还附加了一个常数β＝1.0，用于对累积间隔步骤进行惩罚。此外，实际计算过程中，至于凸包的构建，首先对状态进行主成分分析以减少维度至2-8维度，然后构建重放缓冲区中这些状态点的凸包并计算凸包的面积。模型转移的条件估计的具体公式为：

在第i次计算的时候，已知当前相对于训练M_x的时候新增加的交互数据有τ个，而前(i-1)次计算使用的是F(i-1)个新增加的数据。第i次计算的时候，用的就是ΔD里面存储的(τ-F(i-1))个数据，也就是一共F个数据去计算估计误差。而一共有K个参数化模型估计了M_x，就对这F个数据用K个参数化模型都输入(s，a)预测一下，s’是重放缓冲区中存储的，是真实的环境的转移，而是模型预测的转移。

该计算每隔F步执行一次。当前模型M_x是在第t步完成训练的，而后续会基于当前模型M_x进行持续的采样直到触发了事件触发条件后开启模型M_x+1的训练。记当前的步数为t+τ，也就是在第t步后增加了τ次与真实环境交互的采样数量，则新增的数据集合记作ΔD(τ)。第i次计算的时候，此时相对于第i-1次计算时新增的数据集合为ΔD(τ-F(i-1))。

模型转移的条件估计的具体步骤如下：

(1)随机采样数据集合D_t∪ΔD(F(i-1))中1000个状态数据，随机采样数据集D_t∪ΔD(τ)中1000个状态数据。利用主成分分析将所有状态数据降维到3维后，分别计算这两个数据组的凸包体积，得到：

(2)在新增的数据集合ΔD(τ-F(i-1))上计算模型预测误差的NLL loss的均值，得到

(3)计算

(4)与前面i-1次的计算结果加和得到：

6.如果事件触发：在事件触发机制的指导下，系统检查模型转移是否达到一定阈值σ。如果模型转移足够大，触发事件，表示需要更新动态模型。

7.使用新数据训练模型：在事件触发的情况下，系统使用新收集的数据来训练新的动态模型M_x+1，以更准确地模拟环境的动态特性。

8.训练智能体策略：在新模型M_x+1的基础上，系统进行策略优化，更新智能体的策略，以提高性能。

其中，策略优化采用SAC算法，其算法流程如下：

(1)初始化策略网络(确定性策略，一般由神经网络表示)、两个Q-值网络以及一个目标策略网络。

(2)初始化目标策略网络参数为与策略网络参数相同。

(3)初始化环境，并设置其他超参数如学习率、折扣因子等。

(4)开始迭代训练：

a.从当前策略网络中采样动作。

b.执行动作并观察奖励以及下一个状态。

c.使用目标Q-值网络计算Q-值：

Q(s，a)＝r+γ·Q_target(s′，π_target(s′))

d.计算策略损失L_π：

L_π＝E[αlogπ(a|s)-Q(s，a)]

e.更新策略网络参数以最小化策略损失。

f.更新Q-值网络参数以最小化Q-值损失L_Q：

L_Q＝E[(Q(s，a)-Q_current(s，a))²]

g.更新目标策略网络和目标Q-值网络参数，使用平滑的目标网络更新规则：

θ_target←τ′·θ_current+(1-τ′)·θ_target

h.更新温度参数α，通常使用梯度上升法。

(5)重复步骤(4)直到满足停止条件(例如，达到最大迭代次数或解收敛)。

其中，π(a|s)表示策略网络输出的动作概率分布。α表示温度参数，用于控制策略的熵。τ’表示目标网络软更新参数，通常接近1。Q(s，a)表示Q-值函数估计。γ表示折扣因子。π_target(·)表示目标策略网络。E[·]表示数学期望。Qcurrent(s，a)表示当前Q-值函数估计。θ_current表示当前网络参数。θ_target表示目标网络参数。Q_target(s′，π_target(s′))表示目标Q-值函数估计。

策略评估中，SAC通过计算Q值(状态-动作对的价值函数)，然后利用Bellman备份操作来更新这些值，以找到一个更好的策略。在策略改进中，SAC根据已计算的Q值来更新策略。这种方法的关键点是使用最新的模型生成的数据来训练策略，而不是使用旧的模型来生成数据。这有助于避免复合误差，提高训练的稳定性和效果。这个方法可以有效地提高模型的使用率，同时减少了在模型更新时可能出现的问题。这对于基于模型的强化学习系统的性能提升非常有帮助。

9.如果事件未触发，系统将继续执行之前的策略，不进行模型更新。

10.直到策略在环境中表现良好：本发明不断重复上述步骤，直到智能体的策略在环境中表现良好，达到预定性能要求。

整体工作流程的算法逻辑如下：

初始化策略和模型

π←初始化策略

M_O←初始化模型

初始化空缓冲区

缓冲区←空集

重复：

从真实系统中收集样本

样本←与真实环境互动，使用π收集状态-动作转换(s，a，s′)

计算触发条件值

Δ←估计模型转移

如果事件触发(Δ＞＝σ)

使用收集的样本训练模型

更新模型集合M

减小模型偏差，提高模型准确性

训练智能体策略

优化策略π

改进智能体策略，以在环境中实现更好的性能

否则：

继续使用现有策略

直到策略在环境中表现良好

通过这一工作过程，本发明实现了智能的事件触发机制，可以根据模型偏差动态地决定何时更新动态模型，而不是依赖于固定的时间表。这带来了以下优点：

更快的适应能力：智能的事件触发机制使系统能够更快地适应新的环境条件，减少了性能提升所需的时间。

更准确的模型：通过根据模型偏差进行自适应的模型更新，可以更准确地捕捉环境的动态特性，提高了模型的准确性。

避免不必要的计算负担：事件触发机制避免了频繁的模型更新，减少了计算资源的浪费，提高了系统的效率。

减少复合误差：通过智能事件触发，系统可以避免使用过时的模型生成数据，从而减少了复合误差的影响。

与现有技术相比，本发明引入了智能的事件触发机制，用于确定何时进行模型的更新和策略的改进。这一机制基于模型之间的差异，反映了对于当前的模型，目前所收集数据的新颖性，能够更好地平衡模型学习和策略优化之间的关系。相比于传统的固定更新频率，这一机制使系统更加灵活和高效。本发明通过动态调整探索的数量，确保模型学习和策略优化之间的平衡。这种自适应的探索策略能够更好地适应不同的训练阶段和环境条件，提高了系统的稳定性和性能。本发明的智能的事件触发机制可以确保模型的更新和策略的改进在需要的时候进行，而不是按照固定的时间间隔。这意味着系统可以更快地适应新的环境条件和任务，加速了性能的提升和任务完成的速度。

综上所述，本发明通过引入智能事件触发机制，改进了模型驱动的强化学习系统的工作过程，提高了性能，使其更适合应对复杂任务和环境。这一结构改变带来了显著的优点，使得系统更具竞争力和应用前景。

为了执行上述方法，以实现相应的功能和技术效果，下面提供一种基于事件触发机制的模型训练与策略优化系统，该系统包括：

初始模块，用于初始化策略网络和动态模型，初始化重放缓冲区。

迭代模块，用于重复以下步骤：

采集样本数据，并存储至重放缓冲区中；所述样本数据包括智能体与真实环境的若干步交互样本；每步交互样本均包括：当前状态、动作、下一个状态和奖励；所述当前状态由智能体基于真实环境采集得到；所述动作由当前策略网络基于当前状态生成得到；所述下一个状态由智能体基于当前状态，执行动作与真实环境交互得到；所述奖励基于当前状态、动作和下一个状态确定。

基于新增样本数据计算模型转移，并判断模型转移是否达到设定阈值。

若模型转移未达到设定阈值，则不更新当前动态模型和当前策略网络，直接返回采集样本数据的步骤。

若模型转移达到设定阈值，则基于新增样本数据更新当前动态模型和当前策略网络，并返回采集样本数据的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于事件触发机制的模型训练与策略优化方法，其特征在于，包括：

2.根据权利要求1所述的基于事件触发机制的模型训练与策略优化方法，其特征在于，基于新增样本数据计算模型转移，并判断模型转移是否达到设定阈值，具体包括：

基于当前新增状态子集计算模型预测误差的均值；

3.根据权利要求2所述的基于事件触发机制的模型训练与策略优化方法，其特征在于，基于第一状态集合和第二状态集合分别构建凸包并计算凸包体积，具体包括：

4.根据权利要求2所述的基于事件触发机制的模型训练与策略优化方法，其特征在于，根据凸包体积和模型预测误差的均值计算模型转移，并判断模型转移是否达到设定阈值，具体公式为：

其中，D_t表示在t次交互步数下的重放缓冲区中的原始状态集合，ΔD(τ)表示新增交互步数τ下的重放缓冲区中的新增状态集合，ΔD(F(i-1))表示新增状态集合中由F(i-1)个交互样本组成的历史新增状态子集，表示新增状态集合中由F个交互样本组成的当前新增状态子集，d_D表示重放缓冲区中状态集合所遵循的分布，supp(d)表示分布d的支撑集，Conv(·)表示支撑集的凸包体积，/>表示模型预测误差的均值，β表示惩罚常数，σ表示设定阈值，τ表示新增交互步数，F表示设定交互步数，i表示设定交互步数在新增交互步数中的序号，log(·)表示对数运算。

5.根据权利要求1所述的基于事件触发机制的模型训练与策略优化方法，其特征在于，基于新增样本数据更新当前动态模型和当前策略网络，具体包括：

6.根据权利要求5所述的基于事件触发机制的模型训练与策略优化方法，其特征在于，所述损失函数为负对数似然函数。

7.根据权利要求5所述的基于事件触发机制的模型训练与策略优化方法，其特征在于，所述无模型强化学习方法为SoftActor-Critic策略优化算法。

8.一种基于事件触发机制的模型训练与策略优化系统，其特征在于，包括：

迭代模块，用于重复以下步骤：