CN115480585A - 一种搭载强化学习智能体的无人设备集群协同探索方法 - Google Patents
一种搭载强化学习智能体的无人设备集群协同探索方法 Download PDFInfo
- Publication number
- CN115480585A CN115480585A CN202211047986.9A CN202211047986A CN115480585A CN 115480585 A CN115480585 A CN 115480585A CN 202211047986 A CN202211047986 A CN 202211047986A CN 115480585 A CN115480585 A CN 115480585A
- Authority
- CN
- China
- Prior art keywords
- agent
- intelligent
- state
- reinforcement learning
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000003795 chemical substances by application Substances 0.000 claims abstract description 232
- 239000013598 vector Substances 0.000 claims abstract description 77
- 238000012549 training Methods 0.000 claims description 16
- 230000009471 action Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000004069 differentiation Effects 0.000 abstract description 4
- 230000008901 benefit Effects 0.000 description 5
- 230000001737 promoting effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008450 motivation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/104—Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Image Analysis (AREA)
Abstract
本发明属于无人设备自动化控制领域,具体提供一种搭载强化学习智能体的无人设备集群协同探索方法,能够有效增强无人集群对未知环境协同探索能力;本发明采用堆栈式自编码器将相似状态编码为相似特征向量,使得智能体能够更清晰的识别相似的环境状态;采用自监督分类器为智能体与所访问的环境状态计算匹配评分,判断该智能体是否应当访问这一状态,引导智能体访问状态的分化,促使不同智能体探索不同的区域,增强多智能体系统对环境的总体探索能力,实现多智能体系统的协同探索,进而加强无人设备集群中不同设备的协同性,提升不同设备间的有效配合,提升集群综合决策能力。
Description
技术领域
本发明属于无人设备自动化控制领域,涉及算法智能决策,具体提供一种搭载强化学习智能体的无人设备集群协同探索方法。
背景技术
强化学习是智能决策领域的常用方法,尤其是深度强化学习结合了强化学习的决策优势与深度学习的感知优势,极大的推进了现代人工智能的发展,被誉为最可能实现通用人工智能的方法。强化学习智能体也比传统智能体具有更加强大的能力,尤其是具有较强的学习性和环境适应性,能够自主探索各类未知环境,对无人设备在野外、远海、太空等完全未知环境中的智能决策、自主运行有关键性作用。具体而言,搭载强化学习智能体的无人设备较传统无人设备有更强的决策能力,搭载强化学习智能体的无人设备集群则可以被认为是多智能体强化学习系统。
然而,强化学习算法要求环境提供的任务奖励不能过于稀疏,否则仍然需要人工制定奖励目标来引导智能体探索未知环境和决策最优策略。传统的强化学习智能体在未知环境中的探索上采取暴力穷举的方式,若环境任务奖励过于稀疏,智能体则需要花费大量的算力在探索奖励上,甚至可能完全无法正确的探索到任何奖励,而人工奖励塑形往往又需要较高的开销。这一问题使得强化学习智能体的训练需要耗费高昂的成本,该成本甚至无法被强化学习智能体的决策优势性所带来的收益补偿,这导致了强化学习算法在实际工业生产中难以落地。
现阶段的强化学习探索主要分为内在动机构建和先验知识引入两种方式,前者主要通过算法构建出除环境任务目标以外的其他奖励逻辑,如好奇心机制鼓励智能体探索从未访问过的环境区域;事后经验回放有效利用失败的探索,增强智能体的可探索范围,但单智能体领域的探索策略对多智能体系统仅部分有效,无法完全解决多智能体的协同探索问题;后者则是使智能体直接学习人类专家已制定完成的策略,此类方法需要专家对未知环境直接进行研究判断,无法充分发挥强化学习的决策优势。
发明内容
本发明的目的在于针对上述现有技术存在的缺陷,提供一种搭载强化学习智能体的无人设备集群协同探索方法,能够有效增强无人集群对未知环境协同探索能力;本发明旨在训练不同智能体之间的独立性,鼓励不同智能体探索不同环境区域,加速多智能体系统的社会分工分化,极大的缩短总体探索时间,节省多智能体强化学习训练中探索阶段的算力开销,进而反映到无人设备集群上,可以提升集群间不同设备的有效配合,提升集群综合决策能力。
为达到上述目的,本发明采用的技术方案是:
一种搭载强化学习智能体的无人设备集群协同探索方法,将无人集群视为一个多智能体系统,将搭载强化学习智能体的无人设备集群视为一个多智能体强化学习系统,包括以下步骤:
S1、根据智能体属性对多智能体系统中每个智能体进行特征向量编码,获得每个智能体的智能体特征向量;
S2、多智能体系统与环境交互,每个智能体从环境中获取下一个观测态和任务奖励;
S3、构建堆栈式自编码器,并根据环境中已探知状态对其进行无监督训练,得到自编码器模型;
S4、通过自编码器模型对多智能体系统中每个智能体在当前时间步访问状态的观测态进行编码,获得每个智能体的状态特征向量;
S5、采用分类器对当前时间步多智能体系统中每个智能体的智能体特征向量和状态特征向量计算匹配评分;
S6、根据匹配评分,对当前时间步多智能体系统中的每个智能体计算匹配评分奖励;
S7、根据匹配评分奖励、任务奖励,对当前时间步多智能体系统中的每个智能体计算总奖励;
S8、根据智能体当前观测态、动作、下一个观测态与总奖励,训练多智能体强化学习算法,更新强化学习智能体策略模型。
进一步的,步骤S1中,所述特征向量编码的过程为:
S11、马尔可夫决策决策过程中的全体动作空间{Ai}i∈I可以被划分为互相独立的n份:{z1,z2,...,zn},采用n维向量编码智能体类型,若智能体i的可执行动作空间Ai和划分空间zi重合,则将zi所对应的向量位记为1,其余向量位记为0,获得智能体i的智能体类型特性向量;
S12、对每个类型的智能体,通过独热编码方式编码智能体序号,获得智能体i的智能体序号特征向量;
S13、将智能体类型特征向量和智能体序号特性向量级联,获得智能体i的智能体特征向量。
进一步的,步骤S2中,在每个时间步中,多智能体系统中的每个智能体依次与环境交互:智能体i根据当前观测态oi与强化学习策略模型πi决策出动作ai,环境在智能体i的当前状态si执行动作ai,将智能体i转移到状态si′,并将任务奖励和下一个观测态oi′反馈给智能体i。
进一步的,步骤S3中,具体为:S31、在每个时间步中,收集多智能体系统中各个智能体访问状态的观测态,存入大小为buffsize的观测态缓存区Bs;
S32、通过多层感知器构建足够解析全体环境状态空间的堆栈式自编码器Coder;
S33、在强化学习的每个epsiode结束时,从观测态缓存区Bs中采样抽取数据,采用均方误差损失函数对堆栈式自编码器Coder进行无监督训练,得到收敛的自编码器模型。
进一步的,步骤S4中,具体为:将智能体i从环境获取的下一个观测态输入至自编码器模型中,由自编码器模型的编码模块计算得到智能体i的状态特征向量。
进一步的,步骤S5中,具体为:
S51、将智能体i的智能体特征向量与状态特征向量输入分类器,由分类器输出匹配评分;
S52、构建临时标签:<featurei,codei;1>和其中,表示除智能体i以外的其他智能体的特征向量,-为反事实标注,1表示智能体特征向量featurei和状态特征向量codei的事实组合是正样本,0表示除智能体i外的其他智能体特征向量和状态特征向量codei的反事实组合是负样本;通过临时标签更新分类器Classifier的网络参数。
其中,β为奖励权重,rb为基础奖励,score为匹配评分;
进一步的,步骤S7中,具体为:
基于上述技术方案,本发明的有益效果在于:
1、采用堆栈式自编码器将相似状态编码为相似特征向量,使得智能体能够更清晰的识别相似的环境状态,能够从环境中获取更多信息,进而在实际上加强了无人设备集群的综合信息获取能力;
2、使用自监督分类器classifier为智能体与所访问的环境状态计算匹配评分,判断该智能体是否应当访问这一状态,随着强化学习训练的episode增加,引导智能体访问状态的分化,促使不同智能体探索不同的区域,增强多智能体系统对环境的总体探索能力,实现多智能体系统的协同探索,进而加强无人设备集群中不同设备的协同性,提升不同设备间的有效配合,提升集群综合决策能力。
附图说明
图1为本发明中基于强化学习的智能体协同探索方法的流程示意图。
图2为本发明中多智能体系统与环境交互过程示意图。
图3为本发明中自编码器模型的结构示意图。
图4为本发明中自监督分类器classifier网络模型的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施例和附图,对本发明作进一步地详细描述。
本实施例旨在提出一种搭载强化学习智能体的无人设备集群协同探索方法,该方法通过构建状态匹配奖励,给智能体提供新的内在动机,加速多智能体之间的环境社会分工分化,提高多智能体系统的综合探索效率,进而解决搭载强化学习智能体的无人设备集群对未知环境自主学习困难的问题;具体流程如图1所示,包括以下步骤:
S1、根据智能体属性对多智能体系统中每个智能体进行特征向量编码,获得每个智能体的智能体特征向量;所述特征向量编码的过程为:
S11、马尔可夫决策决策过程中的全体动作空间{Ai}i∈I可以被划分为互相独立的n份:{z1,z2,…,zn},采用n维向量编码智能体类型,若智能体i的可执行动作空间Ai和划分空间zi重合,则将zi所对应的向量位记为1,其余向量位记为0,获得智能体i的智能体类型特性向量I表示智能体集合;
S13、将智能体类型特征向量和智能体序号特性向量级联,获得智能体i的智能体特征向量featurei;
S2、多智能体系统与环境交互,每个智能体从环境中获取下一个观测态和任务奖励;
所述多智能体系统与环境交互的过程如图2所示,其中,在每个时间步中,多智能体系统中的每个智能体依次与环境交互:智能体i根据当前观测态oi与强化学习策略模型πi决策出动作ai,环境在智能体i的当前状态si执行动作ai,将智能体i转移到状态si′,并将任务奖励和下一个观测态oi′反馈给智能体i;
S3、构建堆栈式自编码器,并根据环境中已探知状态对其进行无监督训练,得到自编码器模型;
所述堆栈式自编码器模型如图3所示,分为编码器和解码器,其中编码器包括输入层与隐藏层,解码器包括隐藏层与输出层,编码器与解码器共享隐藏层网络参数,以加快训练,其计算式为:
hw,b(x)=x
decoder(enCoder(k))=x
具体为:S31、在每个时间步中,收集多智能体系统中各个智能体访问状态的观测态(观测态oi′),存入大小为buffsize的观测态缓存区Bs;
S32、通过多层感知器构建足够解析全体环境状态空间的堆栈式自编码器Coder;
S33、在强化学习的每个epsiode结束时,从观测态缓存区Bs中采样抽取数据,采用均方误差损失函数对堆栈式自编码器Coder进行无监督训练,得到收敛的自编码器模型;
S4、通过自编码器模型对多智能体系统中每个智能体在当前时间步访问状态的观测态(观测态oi′)进行编码,获得每个智能体的状态特征向量;
具体为:将智能体i从环境获取的下一个观测态oi′输入至自编码器模型中,由自编码器模型的编码模块encoder计算得到智能体i的状态特征向量codei;
S5、采用分类器对当前时间步多智能体系统中每对智能体特征向量和状态特征向量计算匹配评分;
所述分类器Classifier的网络模型如图4所示,包括输入层、隐藏层与输出层,评分计算式为:
score=sigmoid(W4(W3(W1cfeaturei)+W2(codei)))
其中,W1、W2分别为智能体特征向量、状态特征向量在输入层的网络参数,W3为隐藏层网络参数,W4、sigmoid分别为输出层网络参数和激活函数;
在训练阶段,分类器Classifier通过智能体特征向量featurei和状态特征向量codei,采用sigmoid激活函数计算出匹配评分,同时通过智能体特征向量featurei和状态特征向量codei产生自监督学习标签,并采取最小化交叉熵损失函数的方式,自监督的更新网络参数;
在执行阶段,具体为:
S51、将智能体i的智能体特征向量featurei与状态特征向量codei输入分类器Classifier,由分类器Classifier输出智能体特征向量featurei和状态特征向量codei的匹配评分score;
S52、构建临时标签:<featurei,codei;1>和其中,表示除智能体i以外的其他智能体的特征向量,-为反事实标注,1表示智能体特征向量featurei和状态特征向量codei的事实组合是正样本,0表示除智能体i外的其他智能体特征向量和状态特征向量codei的反事实组合是负样本;通过临时标签更新分类器Classifier的网络参数;
S6、对当前时间步多智能体系统中的每个智能体计算匹配评分奖励;
其中,β为奖励权重,rb为基础奖励;
S7、对当前时间步多智能体系统中的每个智能体计算总奖励;
具体为:
S8、根据智能体当前观测态、动作、下一个观测态与总奖励,择机训练多智能体强化学习算法,更新强化学习智能体策略模型;具体的,若存在经验回放区,智能体将观测态、动作下一个观测态与总奖励存入经验回放区,待模型更新阶段从回放区采样进行训练;若采用在线学习的方式进行更新,则智能体之间利用这条经验更新策略模型,并将该经验抛弃。
上述强化学习智能体分为训练阶段和执行阶段,在训练阶段时,S1为初始化阶段实施,S2、S4-S8随着时间步推进迭代实施,S3在每个episode结束阶段实施;在执行阶段时,智能体特征向量编码方式已确立,自编码器Coder、分类器Classifier已训练完成,S2、S4-S7随着时间步推进迭代实施。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。
Claims (8)
1.一种搭载强化学习智能体的无人设备集群协同探索方法,将无人集群视为一个多智能体系统,将搭载强化学习智能体的无人设备集群视为一个多智能体强化学习系统,包括以下步骤:
S1、根据智能体属性对多智能体系统中每个智能体进行特征向量编码,获得每个智能体的智能体特征向量;
S2、多智能体系统与环境交互,每个智能体从环境中获取下一个观测态和任务奖励;
S3、构建堆栈式自编码器,并根据环境中已探知状态对其进行无监督训练,得到自编码器模型;
S4、通过自编码器模型对多智能体系统中每个智能体在当前时间步访问状态的观测态进行编码,获得每个智能体的状态特征向量;
S5、采用分类器对当前时间步多智能体系统中每个智能体的智能体特征向量和状态特征向量计算匹配评分;
S6、根据匹配评分,对当前时间步多智能体系统中的每个智能体计算匹配评分奖励;
S7、根据匹配评分奖励、任务奖励,对当前时间步多智能体系统中的每个智能体计算总奖励;
S8、根据智能体当前观测态、动作、下一个观测态与总奖励,训练多智能体强化学习算法,更新强化学习智能体策略模型。
2.按权利要求1所述搭载强化学习智能体的无人设备集群协同探索方法,其特征在于,步骤S1中,所述特征向量编码的过程为:
S11、马尔可夫决策决策过程中的全体动作空间{Ai}i∈I可以被划分为互相独立的n份:{z1,z2,…,zn},采用n维向量编码智能体类型,若智能体i的可执行动作空间Ai和划分空间zi重合,则将zi所对应的向量位记为1,其余向量位记为0,获得智能体i的智能体类型特性向量;
S12、对每个类型的智能体,通过独热编码方式编码智能体序号,获得智能体i的智能体序号特征向量;
S13、将智能体类型特征向量和智能体序号特性向量级联,获得智能体i的智能体特征向量。
4.按权利要求1所述搭载强化学习智能体的无人设备集群协同探索方法,其特征在于,步骤S3中,具体为:
S31、在每个时间步中,收集多智能体系统中各个智能体访问状态的观测态,存入大小为buffsize的观测态缓存区Bs;
S32、通过多层感知器构建足够解析全体环境状态空间的堆栈式自编码器Coder;
S33、在强化学习的每个epsiode结束时,从观测态缓存区Bs中采样抽取数据,采用均方误差损失函数对堆栈式自编码器Coder进行无监督训练,得到收敛的自编码器模型。
5.按权利要求1所述搭载强化学习智能体的无人设备集群协同探索方法,其特征在于,步骤S4中,具体为:将智能体i从环境获取的下一个观测态输入至自编码器模型中,由自编码器模型的编码模块计算得到智能体i的状态特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211047986.9A CN115480585A (zh) | 2022-08-30 | 2022-08-30 | 一种搭载强化学习智能体的无人设备集群协同探索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211047986.9A CN115480585A (zh) | 2022-08-30 | 2022-08-30 | 一种搭载强化学习智能体的无人设备集群协同探索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115480585A true CN115480585A (zh) | 2022-12-16 |
Family
ID=84423210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211047986.9A Pending CN115480585A (zh) | 2022-08-30 | 2022-08-30 | 一种搭载强化学习智能体的无人设备集群协同探索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115480585A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116595424A (zh) * | 2023-07-13 | 2023-08-15 | 湖南一特医疗股份有限公司 | 一种面向医疗环境的数字化智能制氧系统 |
-
2022
- 2022-08-30 CN CN202211047986.9A patent/CN115480585A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116595424A (zh) * | 2023-07-13 | 2023-08-15 | 湖南一特医疗股份有限公司 | 一种面向医疗环境的数字化智能制氧系统 |
CN116595424B (zh) * | 2023-07-13 | 2023-10-13 | 湖南一特医疗股份有限公司 | 一种面向医疗环境的数字化智能制氧系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112668235B (zh) | 基于离线模型预训练学习的ddpg算法的机器人控制方法 | |
CN110532377B (zh) | 一种基于对抗训练和对抗学习网络的半监督文本分类方法 | |
CN106970615A (zh) | 一种深度强化学习的实时在线路径规划方法 | |
WO2022105635A1 (zh) | 一种机器人运动技能学习方法及系统 | |
CN109858041A (zh) | 一种半监督学习结合自定义词典的命名实体识别方法 | |
CN113190699A (zh) | 一种基于类别级语义哈希的遥感图像检索方法及装置 | |
CN112905807B (zh) | 一种多源时空知识融合方法 | |
CN115480585A (zh) | 一种搭载强化学习智能体的无人设备集群协同探索方法 | |
CN112668719A (zh) | 基于工程能力提升的知识图谱构建方法 | |
CN112527993A (zh) | 一种跨媒体层次化深度视频问答推理框架 | |
CN113420868A (zh) | 一种基于深度强化学习的旅行商问题求解方法及求解系统 | |
CN116932722A (zh) | 一种基于跨模态数据融合的医学视觉问答方法及系统 | |
CN114357221B (zh) | 一种基于图像分类的自监督主动学习方法 | |
CN114170333B (zh) | 基于直推式半监督深度学习的图像哈希编码方法 | |
CN107766895A (zh) | 一种诱导式非负投影半监督数据分类方法及系统 | |
CN114626598A (zh) | 一种基于语义环境建模的多模态轨迹预测方法 | |
CN116892932B (zh) | 一种结合好奇心机制与自模仿学习的导航决策方法 | |
CN117171326A (zh) | 一种金融问答算法的快速构建方法及生命周期管理平台 | |
CN116010621B (zh) | 一种基于规则引导的自适应路径生成方法 | |
CN112182439A (zh) | 一种基于自注意力网络的搜索结果多样化方法 | |
CN117131858A (zh) | 一种基于字典的轨迹预测系统及方法 | |
CN114880527B (zh) | 一种基于多预测任务的多模态知识图谱表示方法 | |
CN116992758A (zh) | 一种基于机器学习的复杂机械智能装配方法 | |
CN114943216B (zh) | 基于图注意力网络的案件微博属性级观点挖掘方法 | |
CN115982586A (zh) | 针对少样本文本转sql任务流的半监督持续学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |