CN108647789B - 一种基于状态分布感知采样的智能体深度价值函数学习方法 - Google Patents
一种基于状态分布感知采样的智能体深度价值函数学习方法 Download PDFInfo
- Publication number
- CN108647789B CN108647789B CN201810459347.0A CN201810459347A CN108647789B CN 108647789 B CN108647789 B CN 108647789B CN 201810459347 A CN201810459347 A CN 201810459347A CN 108647789 B CN108647789 B CN 108647789B
- Authority
- CN
- China
- Prior art keywords
- sampling
- agent
- empirical data
- sample
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于状态分布感知采样的智能体深度价值函数学习方法,用于智能体在较少的样本下较快地学习价值函数。具体包括如下步骤:1)获取用于智能体学习价值函数的经验数据,并定义算法目标;2)使用卷积神经网络对经验数据进行预处理,得到表达能力更强的特征集;3)在经验数据集的特征空间中使用无监督方法对经验数据集进行聚类;4)根据经验数据集的状态分布,采用基于均匀采样和簇等概率采样插值的样本状态分布感知采样方法进行采样;5)智能体使用采样得到的样本进行价值函数的学习。本发明适用于增强学习领域的游戏博弈问题,能够在较少的样本量的情况下较快地取得较好的效果。
Description
技术领域
本发明属于增强学习领域,是机器学习领域的一个分支,特别地涉及一种基于经验数据状态分布感知的样本采样的方法。
背景技术
样本选择是机器学习领域一个重要问题,选择方式的不同直接影响到模型学习的质量。在增强学习领域,从经验数据集中进行样本采样能够帮助克服样本相关性和遗忘早期样本的问题。样本采样的目标是要从样本集中选出能够加快模型收敛,并增强智能体对环境感知能力的样本。传统方法一般是采用随机均匀采样的方式从经验数据集中采样,这种方式容易造成样本不平衡问题,使得智能体学习速度较慢。
现有的基于对样本属性感知的采样方法主要根据某种度量方式,比如时间差分误差,来对不同的样本设定不同的采样优先级。而这种方式并没有从根本上解决两个问题:1.不同状态的样本重要程度接近,但是产生的数量却相差较大,根据什么标准来从经验数据集中采样可以避免对冗余的样本进行过度采样;2.由于样本本身维度非常高、数目巨大且不断产生,因此有效地对大量高维样本进行分析是一个关键因素,如何才能高效地从不断产生的大量的样本集中采样。
发明内容
为解决上述问题,本发明的目的在于提供一种基于状态分布感知采样的智能体深度价值函数学习方法。该方法基于深度神经网络对智能体所处环境有效的特征表达,利用哈希的方法对样本集的特征进行高效地聚类分析,即对状态空间的感知,并采用基于状态感知的采样方式,能够更好地选择经验数据集中的样本,提高智能体的学习速率和质量。
为实现上述目的,本发明的技术方案为:
一种基于状态分布感知采样的智能体深度价值函数学习方法,包括以下步骤:
S1、获取用于智能体学习价值函数的经验数据,并定义算法目标;
S2、使用卷积神经网络对经验数据进行预处理,增强经验数据集的表达能力;
S3、在经验数据集的特征空间中使用无监督方法对经验数据集进行聚类;
S4、根据经验数据集的状态分布,采用基于均匀采样和簇等概率采样插值的样本状态分布感知采样方法进行样本采样;
S5、智能体使用采样得到的样本数据进行价值函数的学习。
上述方案中,各步骤可采用如下优选方式具体实现。
作为优选,步骤S1中所述的用于智能体学习价值函数的经验数据为四元组{s,a,r,s′},其中s表示智能体的状态,a表示智能体采取的动作,r表示智能体获得的奖励,s′表示智能体的下一状态;所述的算法目标为最大化智能体的累计奖励,累计奖励计算如下: 其中γ是折现系数,且γ∈(0,1),t是智能体和环境的交互次数,rt为智能体在t次交互获得的奖励。
作为优选,步骤S2中所述的预处理具体为:使用卷积神经网络对数据进行处理以获得表达性更强的状态特征,具体计算如下:
作为优选,所述步骤S3包括以下子步骤:
作为优选,步骤S4中样本采样方法具体为:在S3聚类分析得到的样本状态空间分布的基础上,采用基于均匀采样和簇等概率采样插值的样本状态分布感知采样方法进行样本采样,该采样方法中采样第i个样本的概率为:
其中β是用来平衡均匀采样和簇等概率采样之间的超参数,β∈(0,1);numi表示第i个样本所在的簇包含的样本数量;
得到每个样本的概率后,根据不同样本的概率从经验数据集中采集样本。
作为优选,步骤S5具体为:使用S4所述采样方法从经验数据集中获取样本后,将其用于智能体学习价值函数,根据如下方程迭代地更新价值函数:
其中Q(s,a)为价值函数,Q(s′,a′)下一时刻的价值函数,α为学习率。
本发明的一种基于状态分布感知采样的智能体深度价值函数学习方法,相比于现有的增强学习的采样方法,具有以下有益效果:
首先,本发明的一种基于状态分布感知采样的智能体深度价值函数学习方法解决了增强学习领域对经验数据采样中两个重要的问题,即大量高维、不断产生的样本空间分布的探索、高效采样方式的设计,可以有效地解决增强学习领域样本选择问题。
其次,本发明的样本采样方法基于深度卷积神经网络建立结构化对应模型以模拟价值函数,并具有提取状态特征有效性的优点。深度卷积神经网络能够更好地表达视觉特征,另外,视觉特征的提取和使用哈希进行降维、分类被统一在同一个框架里,提高了方法的最终效果。
最后,本发明的样本采样方法中提出使用非监督的方法对样本空间的分布进行感知,并通过基于样本分布的方法,近似均匀地在不同状态的样本之间进行采样,避免出现样本冗余现象。这种方法能够有效地提高价值函数的学习速度,同时能够提高智能体的学习质量。
本发明的一种基于状态分布感知采样的智能体深度价值函数学习方法,在交互式游戏博弈中,能够有效提高样本使用效率,提升智能体的学习能力和学习质量,具有良好的应用价值。例如,在对抗作战类游戏场景里,本发明的样本采样方法使得智能体能够快速和准确地认知场景中不同的状态的特点,从而能够快速适应场景并采取相应的最有利的行动。
附图说明
图1为样本在状态空间中的分布示意图;
图2为本发明提出的采样方式与传统采样对比的示意图:a)均匀采样示意图;b)簇等采样示意图;c)本发明的方法采样示意图
图3为本发明提出的采样方式与传统采样方法在OpenAI gym控制类游戏中运行结果对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
在本发明的较佳实施例中,展示了一种基于状态分布感知采样的智能体深度价值函数学习方法,主要涉及一种基于经验数据状态分布感知的样本采样的方法,包括以下步骤:
S1、获取用于智能体学习价值函数的经验数据,并定义算法目标。本步骤中,用于智能体学习价值函数的每条经验数据为四元组{s,a,r,s′},其中s表示智能体的状态,a表示智能体采取的动作,r表示智能体获得的奖励,s′表示智能体的下一状态。算法目标为最大化智能体的累计奖励,累计奖励计算如下:其中γ是折现系数,且γ∈(0,1),t是智能体和环境的交互次数,rt为智能体在t次交互获得的奖励。
S2、使用卷积神经网络对经验数据进行预处理,增强经验数据集的表达能力。本步骤中,一般智能体的原始状态特征具有维度高、数据冗余的特点(如Atari游戏原始状态由游戏像素表示)。本发明将原始状态特征si通过卷积神经网络转换为表达性更强的状态特征计算如下:
S3、在经验数据集的特征空间中使用无监督方法对经验数据集进行聚类。本步骤具体包括以下子步骤:
S31、因经验数据庞大且在智能体和环境的交互过程中持续产生,因此使用传统的聚类方法(如k-means)变得不可行。为此,我们使用静态哈希的方法SimHash(SimHash是局部敏感散列的一种实现算法),将高维的数据转换为长度较短且一致的哈希码相似的数据哈希码之间相似度较高。通过这种方式来进行对高维特征进行分析聚类,即:
S4、根据经验数据集通过聚类得到的状态分布,采用基于均匀采样和簇等概率采样插值的样本状态分布感知采样方法进行样本采样。本步骤中,样本采样方法具体为:在S3聚类分析得到的样本状态空间分布的基础上,采用基于均匀采样和簇等概率采样插值的样本状态分布感知采样方法进行样本采样,该采样方法中采样第i个样本的概率为:
其中β是用来平衡均匀采样和簇等概率采样之间的超参数,β∈(0,1);numi表示第i个样本所在的簇包含的样本数量。上述公式中,当β=0时,采样方式对应于均匀采样;当β=1时,采样方式对应于簇等概率采样。因此,β∈(0,1)时可兼顾两种采样方式。实际操作过程中可以不断的优化β的取值,以实现最优采样。
得到每个样本的概率后,根据不同样本的概率从经验数据集中采集样本。
S5、智能体使用采样得到的样本数据进行价值函数的学习。本步骤具体实现为:使用S4中的采样方法从经验数据集中获取样本后,将其用于智能体学习价值函数,并根据如下方程迭代地更新价值函数:
其中Q(s,a)为价值函数,Q(s′,a′)下一时刻的价值函数,α为学习率。
由此,智能体能够快速和准确地认知场景中不同的状态的特点,从而能够快速适应场景并采取相应的最有利的行动。
下面将上述方法应用于具体实施例中,以便本领域技术人员能够更好地理解本发明的效果。
实施例
本实施例的实现方法如前所述,不再详细阐述具体的步骤,下面仅针对案例数据展示其效果。
首先使用哈希的方法将通过卷积神经网络得到的智能体观测到的状态集的抽象表达进行降维和分类,以便于对状态空间分布进行感知。在此基础上,对经验数据集中的样本进行合理地选取。最后,利用选择好的样本数据来训练智能体的价值函数,使得其对环境有更准确的判断能力。结果如图1、2、3所示。
图1为本发明的原始经验数据执行本发明步骤S1、S2后,对样本进行可视化的结果,即样本在状态空间中的分布示意图;
图2为采用三种采样方法,即a)传统的均匀采样、b)传统的簇等概率采样和c)本发明提出的基于均匀采样和簇等概率采样插值的样本状态分布感知采样方法(其中超参数β的取值为0.5)的采样结果。对比图a和本发明图c可以看出,与传统的均匀采样相比,本发明提出的方法能够避免稀疏区域无法采样的问题(图a中有若干区域完全未采样)和密集区域过多采样的问题(图a中部分区域过多采样)。对比图b和本发明图c可以看出,与传统的簇等概率采样相比,本发明能够解决密集区域过多采样的问题(图b中部分区域过多采样),以及对密集区域过少采样的问题(图c中部分区域过少采样)。因此本发明提出的基于均匀采样和簇等概率采样插值的样本状态分布感知采样方法,在考虑个体分布密度不同的同时也考虑了由聚类得到的分布的信息,采样均匀性相对于传统的均匀采样和簇等概率均有明显的提高。
图3为在OpenAI gym控制类游戏中不同场景下(Acrobot、MoutainCar、LunarLander)的效果示意图,其中C为传统的DQN深度强化学习方法,B为本发明提出的深度价值函数学习方法,buffer大小为5×104个经验数据,A为本发明深度价值函数学习方法的基础上调整buffer为原来的1/5以后的效果,表明本发明的方法即使在较少的样本量的情况下,依然能够较快地取得较好的效果。尤其观察MoutainCar场景下的结果可以看出,本发明提出的一种基于状态分布感知采样的智能体深度价值函数学习方法,其训练能够更快地收敛(横轴为时间轴,更快上升),并且收敛值更高(纵轴为reward奖励值)。
通过以上技术方案,本发明实施例基于深度学习技术发展了一种基于状态分布感知采样的智能体深度价值函数学习方法。本发明可以在对样本状态空间感知的基础上高效地采样出不同状态类型的样本,从而提高智能体的学习能力和效率,在较少的经验数据集中也可以有类似的效果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于状态分布感知采样的智能体深度价值函数学习方法,其特征在于包括以下步骤:
S1、获取用于智能体学习价值函数的经验数据,并定义算法目标;
S2、使用卷积神经网络对经验数据进行预处理,增强经验数据集的表达能力;
S3、在经验数据集的特征空间中使用无监督方法对经验数据集进行聚类;
S4、根据经验数据集的状态分布,采用基于均匀采样和簇等概率采样插值的样本状态分布感知采样方法进行样本采样;
S5、智能体使用采样得到的样本数据进行价值函数的学习;
步骤S1中所述的用于智能体学习价值函数的经验数据为四元组{s,a,r,s′},其中s表示智能体的状态,a表示智能体采取的动作,r表示智能体获得的奖励,s′表示智能体的下一状态;所述的算法目标为最大化智能体的累计奖励,累计奖励计算如下:其中γ是折现系数,且γ∈(0,1),t是智能体和环境的交互次数,rt为智能体在t次交互获得的奖励;
步骤S2中所述的预处理具体为:使用卷积神经网络对数据进行处理以获得表达性更强的状态特征,具体计算如下:
所述步骤S3包括以下子步骤:
步骤S4中样本采样方法具体为:在S3聚类分析得到的样本状态空间分布的基础上,采用基于均匀采样和簇等概率采样插值的样本状态分布感知采样方法进行样本采样,该采样方法中采样第i个样本的概率为:
其中β是用来平衡均匀采样和簇等概率采样之间的超参数,β∈(0,1);numi表示第i个样本所在的簇包含的样本数量;
得到每个样本的概率后,根据不同样本的概率从经验数据集中采集样本;
步骤S5具体为:使用S4所述采样方法从经验数据集中获取样本后,将其用于智能体学习价值函数,根据如下方程迭代地更新价值函数:
其中Q(s,a)为价值函数,Q(s′,a′)下一时刻的价值函数,α为学习率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810459347.0A CN108647789B (zh) | 2018-05-15 | 2018-05-15 | 一种基于状态分布感知采样的智能体深度价值函数学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810459347.0A CN108647789B (zh) | 2018-05-15 | 2018-05-15 | 一种基于状态分布感知采样的智能体深度价值函数学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108647789A CN108647789A (zh) | 2018-10-12 |
CN108647789B true CN108647789B (zh) | 2022-04-19 |
Family
ID=63755525
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810459347.0A Active CN108647789B (zh) | 2018-05-15 | 2018-05-15 | 一种基于状态分布感知采样的智能体深度价值函数学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108647789B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674673A (zh) * | 2019-07-31 | 2020-01-10 | 国家计算机网络与信息安全管理中心 | 一种关键视频帧抽取方法、装置和存储介质 |
CN112698933A (zh) * | 2021-03-24 | 2021-04-23 | 中国科学院自动化研究所 | 在多任务数据流中持续学习的方法及装置 |
CN112924177B (zh) * | 2021-04-02 | 2022-07-19 | 哈尔滨理工大学 | 一种改进深度q网络的滚动轴承故障诊断方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9569736B1 (en) * | 2015-09-16 | 2017-02-14 | Siemens Healthcare Gmbh | Intelligent medical image landmark detection |
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN107169567A (zh) * | 2017-03-30 | 2017-09-15 | 深圳先进技术研究院 | 一种用于车辆自动驾驶的决策网络模型的生成方法及装置 |
CN107342078A (zh) * | 2017-06-23 | 2017-11-10 | 上海交通大学 | 对话策略优化的冷启动系统和方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120124581A (ko) * | 2011-05-04 | 2012-11-14 | 엔에이치엔(주) | 개선된 유사 문서 탐지 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 |
US10896383B2 (en) * | 2014-08-07 | 2021-01-19 | Okinawa Institute Of Science And Technology School Corporation | Direct inverse reinforcement learning with density ratio estimation |
US10839302B2 (en) * | 2015-11-24 | 2020-11-17 | The Research Foundation For The State University Of New York | Approximate value iteration with complex returns by bounding |
-
2018
- 2018-05-15 CN CN201810459347.0A patent/CN108647789B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9569736B1 (en) * | 2015-09-16 | 2017-02-14 | Siemens Healthcare Gmbh | Intelligent medical image landmark detection |
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN107169567A (zh) * | 2017-03-30 | 2017-09-15 | 深圳先进技术研究院 | 一种用于车辆自动驾驶的决策网络模型的生成方法及装置 |
CN107342078A (zh) * | 2017-06-23 | 2017-11-10 | 上海交通大学 | 对话策略优化的冷启动系统和方法 |
Non-Patent Citations (3)
Title |
---|
State Distribution-aware Sampling for Deep Q-learning;Weichao Li;《arXiv:1804.08619v1》;20180423;第1-11页 * |
基于直接策略搜索的强化学习方法研究;笪庆;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160815(第8期);第I140-67页 * |
深度强化学习综述;刘全 等;《计算机学报》;20180131;第41卷(第1期);第3节 * |
Also Published As
Publication number | Publication date |
---|---|
CN108647789A (zh) | 2018-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108389211B (zh) | 基于改进鲸鱼优化模糊聚类的图像分割方法 | |
CN108647789B (zh) | 一种基于状态分布感知采样的智能体深度价值函数学习方法 | |
CN109671102B (zh) | 一种基于深度特征融合卷积神经网络的综合式目标跟踪方法 | |
US10885439B1 (en) | Automated neural network generation using fitness estimation | |
CN112464005B (zh) | 一种深度强化图像聚类方法 | |
Kusuma et al. | Emotion recognition on fer-2013 face images using fine-tuned vgg-16 | |
CN111353545B (zh) | 一种基于稀疏网络迁移的植株病虫害识别方法 | |
CN109034062B (zh) | 一种基于时序一致性的弱监督异常行为检测方法 | |
Zhang et al. | Accelerated training for massive classification via dynamic class selection | |
CN113326731A (zh) | 一种基于动量网络指导的跨域行人重识别算法 | |
CN111046178B (zh) | 一种文本序列生成方法及其系统 | |
CN110188654A (zh) | 一种基于移动未裁剪网络的视频行为识别方法 | |
CN113128671B (zh) | 一种基于多模态机器学习的服务需求动态预测方法及系统 | |
CN110987436A (zh) | 基于激励机制的轴承故障诊断方法 | |
CN116933046B (zh) | 基于深度学习的多模态健康管理方案生成方法和系统 | |
CN113364751A (zh) | 网络攻击预测方法、计算机可读存储介质及电子设备 | |
JP6172317B2 (ja) | 混合モデル選択の方法及び装置 | |
CN111310918B (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN115952424A (zh) | 一种基于多视图结构的图卷积神经网络聚类方法 | |
CN113807176A (zh) | 一种基于多知识融合的小样本视频行为识别方法 | |
CN115238835A (zh) | 基于双空间自适应融合的脑电情感识别方法、介质及设备 | |
CN110738239A (zh) | 一种基于鼠标交互序列区域行为联合建模的搜索引擎用户满意度评估方法 | |
CN116595465A (zh) | 基于自编码器和数据增强的高维稀疏数据离群点检测方法及系统 | |
CN116523877A (zh) | 一种基于卷积神经网络的脑mri图像肿瘤块分割方法 | |
CN114757310B (zh) | 情感识别模型及其训练方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |