CN113313249B

CN113313249B - 一种基于强化学习系统实现的动态集成训练方法

Info

Publication number: CN113313249B
Application number: CN202110499117.9A
Authority: CN
Inventors: 肖萌; 陈百基
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2023-07-18
Anticipated expiration: 2041-05-08
Also published as: CN113313249A

Abstract

本发明公开了一种基于强化学习系统实现的动态集成训练方法，包括：1)准备强化学习系统的多个学习主体(即基智能体)，基智能体维持着独立的经验池，用于存储转移样本、潜层特征空间的状态表征及局部竞争力；2)训练阶段让基智能体与环境进行交互，存储转移样本及实时回报以计算局部竞争力；3)随机选取一个状态，选择其与经验池中其它状态在潜层特征空间的状态进行相似性度量；4)根据状态相似度寻找其相似状态，并从中选取一批状态作为相似状态子集；5)根据相似状态子集完成局部竞争力的度量及权重计算；6)根据权重计算目标Q值，根据加权集成的目标Q值更新网络参数直至网络收敛。本发明最大化利用所有基础智能体的信息以提升集成系统的性能表现。

Description

一种基于强化学习系统实现的动态集成训练方法

技术领域

本发明涉及强化学习集成学习的技术领域，尤其是指一种基于强化学习系统实现的动态集成训练方法。

背景技术

强化学习作为人工智能领域的一大热门方向，在机器人控制、无人驾驶等序列动作决策领域有着广泛的应用。深度学习因其优秀的特征提取能力在图像识别、语义分割等诸多领域得以应用。2013年DeepMind将深度学习用于强化学习领域提出了深度Q网络的深度强化学习算法，实现了端到端的学习。但强化学习中的状态空间大、环境反馈稀疏、数据不满足独立同分布假定等问题使得强化学习的训练时间长且收敛困难。如何提升强化学习系统的性能及减少训练时常是亟待解决的问题。

集成学习通过集成一组次优学习器替代寻找最优学习器，可以有效提升系统性能，在分类领域有着广泛的应用。目前集成学习在强化学习领域的应用多沿用了分类领域的集成算法，采用了多数投票法、平均法、加权平均等静态集成算法，这些静态集成算法假定所有的基智能体都有相同的表现或是直接忽略整体表现较差的基智能体，在部分状态区域有着优秀表现但整体表现一般的基智能体的能力会被忽略。动态集成算法可根据基学习器的局部竞争力动态赋予权重有效提升系统性能，其已被证明在分类领域有着很好的性能提升效果，但其在强化学习领域的探究暂且空白。将动态集成算法从分类领域拓展到强化学习领域，有效利用基智能体的全部信息是本发明所要解决的问题。

发明内容

本发明的目的在于克服现有技术的缺陷和不足，提出了一种基于强化学习系统实现的动态集成训练方法，突破了传统静态集成算法无法利用基智能体在不同状态区域表现差异性的问题，有效利用了基智能体的全部能力，根据基智能体的局部竞争力来动态计算权重，根据权重来集成多个基智能体的目标Q值获得最终的目标Q值，根据集成后的目标Q值更新基智能体的Q值神经网络，使得目标Q值更为准确，提升系统性能和算法收敛能力。

基于上述目的，本发明所提供的技术方案为：一种基于强化学习系统实现的动态集成训练方法，包括以下步骤：

1)准备强化学习系统的多个学习主体，即多个基智能体，每个基智能体都维持着独立的经验池，经验池用于存储转移样本、潜层特征空间的状态表征及局部竞争力；

2)训练阶段让基智能体与环境进行交互，存储转移样本及实时回报以计算局部竞争力；

3)随机选取一个状态，选择其与经验池中其它状态在潜层特征空间的状态进行相似性度量；

4)根据状态相似度寻找其相似状态，并从中选取一批状态作为相似状态子集；

5)根据相似状态子集完成局部竞争力的度量及权重计算；

6)根据权重计算目标Q值，根据加权集成的目标Q值更新网络参数直至网络收敛。

进一步，在步骤1)中，所述基智能体采取不同的卷积层和全连接层来提升多样性，共有l个基智能体；所述转移样本包括当前时间步的状态、动作、实时回报及下一个状态。

进一步，在步骤2)中，所述局部竞争力用于评估基智能体在某一状态下的局部表现，其量化标准为局部折扣累积回报和，即以状态为初始状态与环境交互多次的折扣累计回报和：

其中，U(s_t,ρ_i)为基智能体ρ_i在状态s_t下的局部竞争力，s_t为时间步t环境所返回的状态，表示时间步t+i环境返回给基智能体的回报，i为基智能体的编号，i＝1,2,..,l，l为基智能体个数，γ为折扣因子，表示当前动作对未来回报影响的折扣；每个基智能体都维持着独立的经验池，经验池中的样本细分为完成了局部竞争力计算的验证集和未完成局部竞争力计算的边缘转移样本集。

进一步，在步骤3)中，所述潜层特征空间为基智能体的最后一层卷积层输出，相似性度量方法为潜层特征空间的欧几里得距离，计算公式如下：

sim(s₁,s₂,ρ_i)＝dist(φ_i(s₁),φ_i(s₂))

其中，sim(s₁,s₂,ρ_i)表示在基智能体ρ_i的潜层特征空间中状态s₁和状态s₂之间的距离，φ_i()表示该潜层特征空间的特征提取过程，dist()表示欧几里得距离。

进一步，在步骤4)中，找到相似状态子集的过程包括以下步骤：

4.1)随机选择一个状态s，获取状态s在多个潜层特征空间的特征表示φ_i(s)，其中φ_i()表示基智能体ρ_i所学习的潜层特征空间的特征提取过程，i＝1,2,..,l，l为基智能体个数；

4.2)根据状态在潜层特征空间的特征表示，在其对应的经验池的验证集中寻找状态s的K近邻子集：V(s,ρ_i,k)，其中k为子集的大小；如此便能够获得多个基智能体所对应的相似状态子集。

进一步，在步骤5)中，根据相似状态子集完成局部竞争力的度量及权重计算，包括以下步骤：

5.1)根据验证集存储的相似状态子集以及局部竞争力，计算在该局部状态特征空间的局部竞争力：

其中，V为基智能体ρ_i所寻找的相似状态子集，U(s,ρ_i)为基智能体ρ_i在状态s下的局部竞争力；

5.2)根据局部竞争力计算基智能体的权重：

其中，w(ρ_i,s_t)为基智能体ρ_i在状态s_t所对应的局部状态空间的权重，LC(ρ_i,s_t)为基智能体ρ_i在状态s_t下的局部竞争力，i为基智能体的编号，i＝1,2,..,l，l为基智能体个数。

进一步，在步骤6)中，根据权重完成目标Q值的计算，并进一步更新网络，包括以下步骤：

6.1)根据权重计算加权集成的目标Q值：

其中，Q_i(s_t,a_t)为基智能体ρ_i在状态s_t下的输出，w_t,i为基智能体ρ_i在状态s_t下的权重，i为基智能体的编号，i＝1,2,..,l，l为基智能体个数；

6.2)根据集成后的目标Q值来更新每个基智能体的Q神经网络：

其中，θ为Q神经网络的参数，θ^-为延迟更新的目标Q神经网络的参数，θ'为更新后的神经网络参数，α为学习率，r为环境返回的回报，s'为执行动作后的下一个状态，max表示选取目标Q值最大值所对应的Q值作为后继状态的值，Q(s,a；θ)表示决策Q神经网络的输出，表示梯度；

重复上述过程直至最终的Q神经网络收敛，从而完成基智能体的学习过程。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明首次实现了基于强化学习系统实现的动态集成训练方法，突破了传统静态集成方法的局限。

2、本发明实现了局部竞争力评估的量化算法，利于较好地度量基智能体的局部表现以获得更合适的权重。

3、本发明根据潜层特征空间来度量状态相似性，该特征空间可以更好地捕获位置、序列及危险状态信息，可寻找到更符合逻辑预期的相似状态。

4、本发明根据状态相似度来构成小批量数据，以稳定基智能体的权重、降低时间复杂度。

5、本发明根据动态权重集成目标Q神经网络，帮助Q值更好地收敛，提升了强化学习系统训练效率及稳定性。

6、本发明方法并未对强化学习算法做特定的假设，可轻松地迁移到其他深度强化学习算法中，有着较好地扩展性能，在提升数据利用率、降低训练时常上有着广阔前景。

附图说明

图1为本发明方法逻辑流程示意图。

图2为已有方法的经验池结构图。

图3为本发明采用的经验池结构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1至图3所示，本实施例基于Atari游戏环境来讲述基于强化学习系统实现的动态集成训练方法，但其应用不仅限于此，在机器人控制、自动驾驶等环境均可采用该方法。在本实施例中使用了ALE环境，其包括以下步骤：

1)准备强化学习系统的多个学习主体，即多个基智能体，每个基智能体都维持着独立的经验池，经验池用于存储转移样本、潜层特征空间的状态表征及局部竞争力，其中，基智能体采取不同的卷积层、全连接层来提升基智能体多样性，共有l个基智能体；转移样本包括当前时间步的状态、动作、实时回报及下一个状态。

强化学习中经验池所包含内容如图2所示，其中s为状态，其下标为编号，a为动作，r为在状态s下执行动作a环境所返回的回报，s’为下一个状态。对比于传统经验池，本发明的经验池多出了用于存储验证集的部分，状态s由原本输入空间转化为潜层特征空间的表示，在训练初始，让基智能体与环境多次交互以填充经验池，逐步计算其局部竞争力U(s_t,ρ_i)并存储在验证集之中，如图3所示。在Atari中，基智能体采用了不同的模型结构来提升多样性，模型结构如表1所示，数量初步选择为4。

表1基智能体结构表

2)训练阶段让基智能体与环境进行交互，存储转移样本及实时回报以计算局部竞争力；其中，转移样本如图2中的四元组所示；局部竞争力用于评估基智能体在该状态下的局部表现，其量化标准为局部折扣累积回报和，既以状态为初始状态与环境交互多次的折扣累计回报和：

其中，U(s_t,ρ_i)为基智能体ρ_i在状态s_t下的局部竞争力，s_t为时间步t环境所返回的状态，表示时间步t+i环境返回给基智能体的回报，i为基智能体的编号，i＝1,2,..,l，l为基智能体个数，γ为折扣因子，表示当前动作对未来回报影响的折扣。每个基智能体都维持着独立的经验池，经验池中的样本又可以细分为完成了局部竞争力计算的验证集和未完成局部竞争力计算的边缘转移样本集。

根据最新返回的转移样本进行局部竞争力的计算，在Atari游戏环境中，我们将n设置为50，即计算其后50步的折扣累计回报和。该值需要50个转移样本的回报来进行计算，在实际计算中采用的逐步更新方法，当状态的折扣累计回报和计算次数未满50时，将最新回报用于更新局部竞争力，计算完成的样本将加入验证集，若验证集满了，则随机替换一个样本。

3)随机选取一个状态，选择其与验证集中其它状态在潜层特征空间的状态进行相似性度量；其中潜层特征空间为基智能体的最后一层卷积层输出，相似性度量方法为潜层特征空间的欧几里得距离，计算公式如下：

sim(s₁,s₂,ρ_i)＝dist(φ_i(s₁),φ_i(s₂))

4)根据状态相似度寻找其相似状态，并从中选取一批状态作为相似状态子集；其中找到相似状态子集的过程包括以下步骤：

4.1)随机选择一个状态s，获取状态s在多个潜层特征空间的特征表示φ_i(s)，其中φ_i()表示基智能体ρ_i所学习的潜层特征空间的特征提取过程，i＝1,2,..,l，l为基智能体个数。

对于选取的状态s，将获得其在4个潜层特征空间的表征φ₁(s),φ₂(s),φ₃(s),φ₄(s)，根据相似性度量函数sim(s₁,s₂,ρ_i)分别计算状态s和4个基智能体的验证集的相似距离。

4.2)根据状态在潜层特征空间的特征表示，在其对应的经验池的验证集中寻找状态s的K近邻子集：V(s,ρ_i,k)，其中ρ_i为基智能体，k为子集的大小。如此便可获得多个基智能体所对应的相似状态子集。

采用上述步骤，计算好相似距离后根据相似距离对验证集中的状态进行排序，暂取k为32，找到离状态s最近的32个状态来构成K近邻子集，每个基智能体均会找到其对应的相似状态子集，即我们将找到4个相似子集。

5)根据相似状态子集完成局部竞争力的度量及权重计算，包括以下步骤：

其中，V为基智能体ρ_i所寻找的相似状态子集，U(s,ρ_i)为基智能体ρ_i在状态s下的局部竞争力。

采用上述步骤，基智能体的K近邻集将用于计算其局部竞争力，本方法预测基智能体在相似子集上的局部竞争力与环境返回状态上的表现呈正相关，假设计算4个基智能体的局部竞争力分别为12.1,13.25,10.75,20。

5.2)根据局部竞争力计算基智能体的权重：

其中，w(ρ_i,s_t)为基智能体ρ_i在状态s_t所对应的局部状态空间的权重，LC(ρ_i,s_t)为基智能体ρ_i在状态s_t下的局部竞争力，i为基智能体的编号，i＝1,2,..,l。

根据局部竞争力来计算每个基智能体的权重，局部竞争力越高权重越大，根据上一步的局部竞争力可计算得4个基智能体的权重分别为0.215686，0.236185，0.1916221，0.356506。

6)根据权重计算目标Q值，根据加权集成的目标Q值更新网络参数直至网络收敛；其中，根据权重完成目标Q值的计算，并进一步更新网络，包括以下步骤：

6.1)根据权重计算加权集成的目标Q值：

其中，Q_i(s_t,a_t)为基智能体ρ_i在状态s_t下的输出，w_t,i为基智能体ρ_i在状态s_t下的权重，i为基智能体的编号，i＝1,2,..,l。根据上一步计算的权重0.215686，0.236185，0.1916221，0.356506对基智能体的目标Q值进行集成，可以得到集成的目标Q值。在Atari游戏中，Q值为18维的向量，此处不进行列举。

6.2)根据集成后的目标Q值来更新每个基智能体的Q神经网络：

其中，θ为Q神经网络的参数，θ^-为延迟更新的目标Q神经网络的参数，θ'为更新后的神经网络参数，α为学习率，r为环境返回的回报，s'为执行动作后的下一个状态，max表示选取目标Q值最大值所对应的Q值作为后继状态的值，Q(s,a；θ)表示决策Q神经网络的输出，表示梯度。

对于相似子集中的每一个样本，均根据集成目标Q值计算目标值和实际值的差作为损失函数，根据损失函数来更新Q神经网络。

在每一步均更新决策Q神经网络，延迟更新的目标Q神经网络用于计算目标Q值，不断更新Q神经网络直至Q神经网络收敛。由于集成学习对性能的提升，可有效提升目标Q值评估的有效性，让Q神经网络朝更优的方向收敛，从而提升系统的收敛性能及最终的表现，有着较大的应用场景。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，本发明的权重计算方法与根据可较好地迁移到其他强化学习算法中，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于强化学习系统实现的动态集成训练方法，其特征在于，包括以下步骤：

所述基智能体采取不同的卷积层和全连接层来提升多样性，共有l个基智能体；所述转移样本包括当前时间步的状态、动作、实时回报及下一个状态；

所述局部竞争力用于评估基智能体在某一状态下的局部表现，其量化标准为局部折扣累积回报和，即以状态为初始状态与环境交互多次的折扣累计回报和：

其中，U(s_t,ρ_i)为基智能体ρ_i在状态s_t下的局部竞争力，s_t为时间步t环境所返回的状态，表示时间步t+i环境返回给基智能体的回报，i为基智能体的编号，i＝1,2,..,l，l为基智能体个数，γ为折扣因子，表示当前动作对未来回报影响的折扣；每个基智能体都维持着独立的经验池，经验池中的样本细分为完成了局部竞争力计算的验证集和未完成局部竞争力计算的边缘转移样本集；

所述潜层特征空间为基智能体的最后一层卷积层输出，相似性度量方法为潜层特征空间的欧几里得距离，计算公式如下：

sim(s₁,s₂,ρ_i)＝dist(φ_i(s₁),φ_i(s₂))

其中，sim(s₁,s₂,ρ_i)表示在基智能体ρ_i的潜层特征空间中状态s₁和状态s₂之间的距离，φ_i()表示该潜层特征空间的特征提取过程，dist()表示欧几里得距离；

找到相似状态子集的过程包括以下步骤：

4.2)根据状态在潜层特征空间的特征表示，在其对应的经验池的验证集中寻找状态s的K近邻子集：V(s,ρ_i,k)，其中k为子集的大小；如此便能够获得多个基智能体所对应的相似状态子集；

5.1)根据验证集存储的相似状态子集以及局部竞争力，计算在局部状态特征空间的局部竞争力：

5.2)根据局部竞争力计算基智能体的权重：

其中，w(ρ_i,s_t)为基智能体ρ_i在状态s_t所对应的局部状态空间的权重，LC(ρ_i,s_t)为基智能体ρ_i在状态s_t下的局部竞争力，i为基智能体的编号，i＝1,2,..,l，l为基智能体个数；

6)根据权重计算目标Q值，根据加权集成的目标Q值更新网络参数直至网络收敛，包括以下步骤：

6.1)根据权重计算加权集成的目标Q值：

6.2)根据集成后的目标Q值来更新每个基智能体的Q神经网络：