CN108647789B

CN108647789B - 一种基于状态分布感知采样的智能体深度价值函数学习方法

Info

Publication number: CN108647789B
Application number: CN201810459347.0A
Authority: CN
Inventors: 李玺; 李伟超; 皇福献
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-05-15
Filing date: 2018-05-15
Publication date: 2022-04-19
Anticipated expiration: 2038-05-15
Also published as: CN108647789A

Abstract

本发明公开了一种基于状态分布感知采样的智能体深度价值函数学习方法，用于智能体在较少的样本下较快地学习价值函数。具体包括如下步骤：1)获取用于智能体学习价值函数的经验数据，并定义算法目标；2)使用卷积神经网络对经验数据进行预处理，得到表达能力更强的特征集；3)在经验数据集的特征空间中使用无监督方法对经验数据集进行聚类；4)根据经验数据集的状态分布，采用基于均匀采样和簇等概率采样插值的样本状态分布感知采样方法进行采样；5)智能体使用采样得到的样本进行价值函数的学习。本发明适用于增强学习领域的游戏博弈问题，能够在较少的样本量的情况下较快地取得较好的效果。

Description

一种基于状态分布感知采样的智能体深度价值函数学习方法

技术领域

本发明属于增强学习领域，是机器学习领域的一个分支，特别地涉及一种基于经验数据状态分布感知的样本采样的方法。

背景技术

样本选择是机器学习领域一个重要问题，选择方式的不同直接影响到模型学习的质量。在增强学习领域，从经验数据集中进行样本采样能够帮助克服样本相关性和遗忘早期样本的问题。样本采样的目标是要从样本集中选出能够加快模型收敛，并增强智能体对环境感知能力的样本。传统方法一般是采用随机均匀采样的方式从经验数据集中采样，这种方式容易造成样本不平衡问题，使得智能体学习速度较慢。

现有的基于对样本属性感知的采样方法主要根据某种度量方式，比如时间差分误差，来对不同的样本设定不同的采样优先级。而这种方式并没有从根本上解决两个问题：1.不同状态的样本重要程度接近，但是产生的数量却相差较大，根据什么标准来从经验数据集中采样可以避免对冗余的样本进行过度采样；2.由于样本本身维度非常高、数目巨大且不断产生，因此有效地对大量高维样本进行分析是一个关键因素，如何才能高效地从不断产生的大量的样本集中采样。

发明内容

为解决上述问题，本发明的目的在于提供一种基于状态分布感知采样的智能体深度价值函数学习方法。该方法基于深度神经网络对智能体所处环境有效的特征表达，利用哈希的方法对样本集的特征进行高效地聚类分析，即对状态空间的感知，并采用基于状态感知的采样方式，能够更好地选择经验数据集中的样本，提高智能体的学习速率和质量。

为实现上述目的，本发明的技术方案为：

一种基于状态分布感知采样的智能体深度价值函数学习方法，包括以下步骤：

S1、获取用于智能体学习价值函数的经验数据，并定义算法目标；

S2、使用卷积神经网络对经验数据进行预处理，增强经验数据集的表达能力；

S3、在经验数据集的特征空间中使用无监督方法对经验数据集进行聚类；

S4、根据经验数据集的状态分布，采用基于均匀采样和簇等概率采样插值的样本状态分布感知采样方法进行样本采样；

S5、智能体使用采样得到的样本数据进行价值函数的学习。

上述方案中，各步骤可采用如下优选方式具体实现。

作为优选，步骤S1中所述的用于智能体学习价值函数的经验数据为四元组{s,a,r,s′}，其中s表示智能体的状态，a表示智能体采取的动作，r表示智能体获得的奖励，s′表示智能体的下一状态；所述的算法目标为最大化智能体的累计奖励，累计奖励计算如下：

其中γ是折现系数，且γ∈(0,1)，t是智能体和环境的交互次数，r_t为智能体在t次交互获得的奖励。

作为优选，步骤S2中所述的预处理具体为：使用卷积神经网络对数据进行处理以获得表达性更强的状态特征，具体计算如下：

其中f_cnn()为卷积神经网络，θ_cnn为卷积参数，

为提取到的s_i的深层卷积特征,s_i为经验数据集中第i个样本的原始状态特征；i＝1,2,…,n，n为经验数据集中的样本总数。

作为优选，所述步骤S3包括以下子步骤：

S31、使用静态哈希的方法SimHash将高维的数据

转换为哈希码进行分析聚类，即：

其中

为

的哈希码；A是一个k×D的转换矩阵，其元素从一个标准高斯分布N(0,1)中随机采样得到，k是哈希码的长度，D是

的维度；

S32、对n个哈希码按照汉明距离进行不同类别的分类统计，得到m个不同的簇，第j个簇包含的样本数量为num_j，并且

作为优选，步骤S4中样本采样方法具体为：在S3聚类分析得到的样本状态空间分布的基础上，采用基于均匀采样和簇等概率采样插值的样本状态分布感知采样方法进行样本采样，该采样方法中采样第i个样本的概率为：

其中β是用来平衡均匀采样和簇等概率采样之间的超参数，β∈(0,1)；num_i表示第i个样本所在的簇包含的样本数量；

得到每个样本的概率后，根据不同样本的概率从经验数据集中采集样本。

作为优选，步骤S5具体为：使用S4所述采样方法从经验数据集中获取样本后，将其用于智能体学习价值函数，根据如下方程迭代地更新价值函数：

其中Q(s,a)为价值函数，Q(s′,a′)下一时刻的价值函数，α为学习率。

本发明的一种基于状态分布感知采样的智能体深度价值函数学习方法，相比于现有的增强学习的采样方法，具有以下有益效果：

首先，本发明的一种基于状态分布感知采样的智能体深度价值函数学习方法解决了增强学习领域对经验数据采样中两个重要的问题，即大量高维、不断产生的样本空间分布的探索、高效采样方式的设计，可以有效地解决增强学习领域样本选择问题。

其次，本发明的样本采样方法基于深度卷积神经网络建立结构化对应模型以模拟价值函数，并具有提取状态特征有效性的优点。深度卷积神经网络能够更好地表达视觉特征，另外，视觉特征的提取和使用哈希进行降维、分类被统一在同一个框架里，提高了方法的最终效果。

最后，本发明的样本采样方法中提出使用非监督的方法对样本空间的分布进行感知，并通过基于样本分布的方法，近似均匀地在不同状态的样本之间进行采样，避免出现样本冗余现象。这种方法能够有效地提高价值函数的学习速度，同时能够提高智能体的学习质量。

本发明的一种基于状态分布感知采样的智能体深度价值函数学习方法，在交互式游戏博弈中，能够有效提高样本使用效率，提升智能体的学习能力和学习质量，具有良好的应用价值。例如，在对抗作战类游戏场景里，本发明的样本采样方法使得智能体能够快速和准确地认知场景中不同的状态的特点，从而能够快速适应场景并采取相应的最有利的行动。

附图说明

图1为样本在状态空间中的分布示意图；

图2为本发明提出的采样方式与传统采样对比的示意图：a)均匀采样示意图；b)簇等采样示意图；c)本发明的方法采样示意图

图3为本发明提出的采样方式与传统采样方法在OpenAI gym控制类游戏中运行结果对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

在本发明的较佳实施例中，展示了一种基于状态分布感知采样的智能体深度价值函数学习方法，主要涉及一种基于经验数据状态分布感知的样本采样的方法，包括以下步骤：

S1、获取用于智能体学习价值函数的经验数据，并定义算法目标。本步骤中，用于智能体学习价值函数的每条经验数据为四元组{s,a,r,s′}，其中s表示智能体的状态，a表示智能体采取的动作，r表示智能体获得的奖励，s′表示智能体的下一状态。算法目标为最大化智能体的累计奖励，累计奖励计算如下：

S2、使用卷积神经网络对经验数据进行预处理，增强经验数据集的表达能力。本步骤中，一般智能体的原始状态特征具有维度高、数据冗余的特点(如Atari游戏原始状态由游戏像素表示)。本发明将原始状态特征s_i通过卷积神经网络转换为表达性更强的状态特征

计算如下：

其中f_cnn()为卷积神经网络，θ_cnn为卷积参数，

S3、在经验数据集的特征空间中使用无监督方法对经验数据集进行聚类。本步骤具体包括以下子步骤：

S31、因经验数据庞大且在智能体和环境的交互过程中持续产生，因此使用传统的聚类方法(如k-means)变得不可行。为此，我们使用静态哈希的方法SimHash(SimHash是局部敏感散列的一种实现算法)，将高维的数据

转换为长度较短且一致的哈希码

相似的数据哈希码之间相似度较高。通过这种方式来进行对高维特征进行分析聚类，即：

其中

为

的维度；

S4、根据经验数据集通过聚类得到的状态分布，采用基于均匀采样和簇等概率采样插值的样本状态分布感知采样方法进行样本采样。本步骤中，样本采样方法具体为：在S3聚类分析得到的样本状态空间分布的基础上，采用基于均匀采样和簇等概率采样插值的样本状态分布感知采样方法进行样本采样，该采样方法中采样第i个样本的概率为：

其中β是用来平衡均匀采样和簇等概率采样之间的超参数，β∈(0,1)；num_i表示第i个样本所在的簇包含的样本数量。上述公式中，当β＝0时，采样方式对应于均匀采样；当β＝1时，采样方式对应于簇等概率采样。因此，β∈(0,1)时可兼顾两种采样方式。实际操作过程中可以不断的优化β的取值，以实现最优采样。

S5、智能体使用采样得到的样本数据进行价值函数的学习。本步骤具体实现为：使用S4中的采样方法从经验数据集中获取样本后，将其用于智能体学习价值函数，并根据如下方程迭代地更新价值函数：

由此，智能体能够快速和准确地认知场景中不同的状态的特点，从而能够快速适应场景并采取相应的最有利的行动。

下面将上述方法应用于具体实施例中，以便本领域技术人员能够更好地理解本发明的效果。

实施例

本实施例的实现方法如前所述，不再详细阐述具体的步骤，下面仅针对案例数据展示其效果。

首先使用哈希的方法将通过卷积神经网络得到的智能体观测到的状态集的抽象表达进行降维和分类，以便于对状态空间分布进行感知。在此基础上，对经验数据集中的样本进行合理地选取。最后，利用选择好的样本数据来训练智能体的价值函数，使得其对环境有更准确的判断能力。结果如图1、2、3所示。

图1为本发明的原始经验数据执行本发明步骤S1、S2后，对样本进行可视化的结果，即样本在状态空间中的分布示意图；

图2为采用三种采样方法，即a)传统的均匀采样、b)传统的簇等概率采样和c)本发明提出的基于均匀采样和簇等概率采样插值的样本状态分布感知采样方法(其中超参数β的取值为0.5)的采样结果。对比图a和本发明图c可以看出，与传统的均匀采样相比，本发明提出的方法能够避免稀疏区域无法采样的问题(图a中有若干区域完全未采样)和密集区域过多采样的问题(图a中部分区域过多采样)。对比图b和本发明图c可以看出，与传统的簇等概率采样相比，本发明能够解决密集区域过多采样的问题(图b中部分区域过多采样)，以及对密集区域过少采样的问题(图c中部分区域过少采样)。因此本发明提出的基于均匀采样和簇等概率采样插值的样本状态分布感知采样方法，在考虑个体分布密度不同的同时也考虑了由聚类得到的分布的信息，采样均匀性相对于传统的均匀采样和簇等概率均有明显的提高。

图3为在OpenAI gym控制类游戏中不同场景下(Acrobot、MoutainCar、LunarLander)的效果示意图，其中C为传统的DQN深度强化学习方法，B为本发明提出的深度价值函数学习方法，buffer大小为5×10⁴个经验数据，A为本发明深度价值函数学习方法的基础上调整buffer为原来的1/5以后的效果，表明本发明的方法即使在较少的样本量的情况下，依然能够较快地取得较好的效果。尤其观察MoutainCar场景下的结果可以看出，本发明提出的一种基于状态分布感知采样的智能体深度价值函数学习方法，其训练能够更快地收敛(横轴为时间轴，更快上升)，并且收敛值更高(纵轴为reward奖励值)。

通过以上技术方案，本发明实施例基于深度学习技术发展了一种基于状态分布感知采样的智能体深度价值函数学习方法。本发明可以在对样本状态空间感知的基础上高效地采样出不同状态类型的样本，从而提高智能体的学习能力和效率，在较少的经验数据集中也可以有类似的效果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。