CN115480585A - 一种搭载强化学习智能体的无人设备集群协同探索方法 - Google Patents

一种搭载强化学习智能体的无人设备集群协同探索方法 Download PDF

Info

Publication number
CN115480585A
CN115480585A CN202211047986.9A CN202211047986A CN115480585A CN 115480585 A CN115480585 A CN 115480585A CN 202211047986 A CN202211047986 A CN 202211047986A CN 115480585 A CN115480585 A CN 115480585A
Authority
CN
China
Prior art keywords
agent
intelligent
state
reinforcement learning
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211047986.9A
Other languages
English (en)
Inventor
罗光春
陈爱国
付波
孙国林
杜凯
张晨曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202211047986.9A priority Critical patent/CN115480585A/zh
Publication of CN115480585A publication Critical patent/CN115480585A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于无人设备自动化控制领域,具体提供一种搭载强化学习智能体的无人设备集群协同探索方法,能够有效增强无人集群对未知环境协同探索能力;本发明采用堆栈式自编码器将相似状态编码为相似特征向量,使得智能体能够更清晰的识别相似的环境状态;采用自监督分类器为智能体与所访问的环境状态计算匹配评分,判断该智能体是否应当访问这一状态,引导智能体访问状态的分化,促使不同智能体探索不同的区域,增强多智能体系统对环境的总体探索能力,实现多智能体系统的协同探索,进而加强无人设备集群中不同设备的协同性,提升不同设备间的有效配合,提升集群综合决策能力。

Description

一种搭载强化学习智能体的无人设备集群协同探索方法
技术领域
本发明属于无人设备自动化控制领域,涉及算法智能决策,具体提供一种搭载强化学习智能体的无人设备集群协同探索方法。
背景技术
强化学习是智能决策领域的常用方法,尤其是深度强化学习结合了强化学习的决策优势与深度学习的感知优势,极大的推进了现代人工智能的发展,被誉为最可能实现通用人工智能的方法。强化学习智能体也比传统智能体具有更加强大的能力,尤其是具有较强的学习性和环境适应性,能够自主探索各类未知环境,对无人设备在野外、远海、太空等完全未知环境中的智能决策、自主运行有关键性作用。具体而言,搭载强化学习智能体的无人设备较传统无人设备有更强的决策能力,搭载强化学习智能体的无人设备集群则可以被认为是多智能体强化学习系统。
然而,强化学习算法要求环境提供的任务奖励不能过于稀疏,否则仍然需要人工制定奖励目标来引导智能体探索未知环境和决策最优策略。传统的强化学习智能体在未知环境中的探索上采取暴力穷举的方式,若环境任务奖励过于稀疏,智能体则需要花费大量的算力在探索奖励上,甚至可能完全无法正确的探索到任何奖励,而人工奖励塑形往往又需要较高的开销。这一问题使得强化学习智能体的训练需要耗费高昂的成本,该成本甚至无法被强化学习智能体的决策优势性所带来的收益补偿,这导致了强化学习算法在实际工业生产中难以落地。
现阶段的强化学习探索主要分为内在动机构建和先验知识引入两种方式,前者主要通过算法构建出除环境任务目标以外的其他奖励逻辑,如好奇心机制鼓励智能体探索从未访问过的环境区域;事后经验回放有效利用失败的探索,增强智能体的可探索范围,但单智能体领域的探索策略对多智能体系统仅部分有效,无法完全解决多智能体的协同探索问题;后者则是使智能体直接学习人类专家已制定完成的策略,此类方法需要专家对未知环境直接进行研究判断,无法充分发挥强化学习的决策优势。
发明内容
本发明的目的在于针对上述现有技术存在的缺陷,提供一种搭载强化学习智能体的无人设备集群协同探索方法,能够有效增强无人集群对未知环境协同探索能力;本发明旨在训练不同智能体之间的独立性,鼓励不同智能体探索不同环境区域,加速多智能体系统的社会分工分化,极大的缩短总体探索时间,节省多智能体强化学习训练中探索阶段的算力开销,进而反映到无人设备集群上,可以提升集群间不同设备的有效配合,提升集群综合决策能力。
为达到上述目的,本发明采用的技术方案是:
一种搭载强化学习智能体的无人设备集群协同探索方法,将无人集群视为一个多智能体系统,将搭载强化学习智能体的无人设备集群视为一个多智能体强化学习系统,包括以下步骤:
S1、根据智能体属性对多智能体系统中每个智能体进行特征向量编码,获得每个智能体的智能体特征向量;
S2、多智能体系统与环境交互,每个智能体从环境中获取下一个观测态和任务奖励;
S3、构建堆栈式自编码器,并根据环境中已探知状态对其进行无监督训练,得到自编码器模型;
S4、通过自编码器模型对多智能体系统中每个智能体在当前时间步访问状态的观测态进行编码,获得每个智能体的状态特征向量;
S5、采用分类器对当前时间步多智能体系统中每个智能体的智能体特征向量和状态特征向量计算匹配评分;
S6、根据匹配评分,对当前时间步多智能体系统中的每个智能体计算匹配评分奖励;
S7、根据匹配评分奖励、任务奖励,对当前时间步多智能体系统中的每个智能体计算总奖励;
S8、根据智能体当前观测态、动作、下一个观测态与总奖励,训练多智能体强化学习算法,更新强化学习智能体策略模型。
进一步的,步骤S1中,所述特征向量编码的过程为:
S11、马尔可夫决策决策过程中的全体动作空间{Ai}i∈I可以被划分为互相独立的n份:{z1,z2,...,zn},采用n维向量编码智能体类型,若智能体i的可执行动作空间Ai和划分空间zi重合,则将zi所对应的向量位记为1,其余向量位记为0,获得智能体i的智能体类型特性向量;
S12、对每个类型的智能体,通过独热编码方式编码智能体序号,获得智能体i的智能体序号特征向量;
S13、将智能体类型特征向量和智能体序号特性向量级联,获得智能体i的智能体特征向量。
进一步的,步骤S2中,在每个时间步中,多智能体系统中的每个智能体依次与环境交互:智能体i根据当前观测态oi与强化学习策略模型πi决策出动作ai,环境在智能体i的当前状态si执行动作ai,将智能体i转移到状态si′,并将任务奖励
Figure BDA0003822619540000031
和下一个观测态oi′反馈给智能体i。
进一步的,步骤S3中,具体为:S31、在每个时间步中,收集多智能体系统中各个智能体访问状态的观测态,存入大小为buffsize的观测态缓存区Bs
S32、通过多层感知器构建足够解析全体环境状态空间的堆栈式自编码器Coder;
S33、在强化学习的每个epsiode结束时,从观测态缓存区Bs中采样抽取数据,采用均方误差损失函数对堆栈式自编码器Coder进行无监督训练,得到收敛的自编码器模型。
进一步的,步骤S4中,具体为:将智能体i从环境获取的下一个观测态输入至自编码器模型中,由自编码器模型的编码模块计算得到智能体i的状态特征向量。
进一步的,步骤S5中,具体为:
S51、将智能体i的智能体特征向量与状态特征向量输入分类器,由分类器输出匹配评分;
S52、构建临时标签:<featurei,codei;1>和
Figure BDA0003822619540000032
其中,
Figure BDA0003822619540000033
表示除智能体i以外的其他智能体的特征向量,-为反事实标注,1表示智能体特征向量featurei和状态特征向量codei的事实组合是正样本,0表示除智能体i外的其他智能体特征向量
Figure BDA0003822619540000034
和状态特征向量codei的反事实组合是负样本;通过临时标签更新分类器Classifier的网络参数。
进一步的,步骤S6中,具体为:计算智能体i应获取的状态匹配奖励
Figure BDA0003822619540000035
Figure BDA0003822619540000036
其中,β为奖励权重,rb为基础奖励,score为匹配评分;
并将状态匹配奖励
Figure BDA0003822619540000037
反馈给智能体i。
进一步的,步骤S7中,具体为:
S71、将智能体i的状态匹配奖励与其他内在奖励采用好奇心机制或事后经验重放计算得到智能体i的总内在奖励
Figure BDA0003822619540000038
S72、将智能体i的总内在奖励
Figure BDA0003822619540000039
与任务奖励相加得到总奖励ri,并将总奖励ri反馈给智能体i。
基于上述技术方案,本发明的有益效果在于:
1、采用堆栈式自编码器将相似状态编码为相似特征向量,使得智能体能够更清晰的识别相似的环境状态,能够从环境中获取更多信息,进而在实际上加强了无人设备集群的综合信息获取能力;
2、使用自监督分类器classifier为智能体与所访问的环境状态计算匹配评分,判断该智能体是否应当访问这一状态,随着强化学习训练的episode增加,引导智能体访问状态的分化,促使不同智能体探索不同的区域,增强多智能体系统对环境的总体探索能力,实现多智能体系统的协同探索,进而加强无人设备集群中不同设备的协同性,提升不同设备间的有效配合,提升集群综合决策能力。
附图说明
图1为本发明中基于强化学习的智能体协同探索方法的流程示意图。
图2为本发明中多智能体系统与环境交互过程示意图。
图3为本发明中自编码器模型的结构示意图。
图4为本发明中自监督分类器classifier网络模型的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施例和附图,对本发明作进一步地详细描述。
本实施例旨在提出一种搭载强化学习智能体的无人设备集群协同探索方法,该方法通过构建状态匹配奖励,给智能体提供新的内在动机,加速多智能体之间的环境社会分工分化,提高多智能体系统的综合探索效率,进而解决搭载强化学习智能体的无人设备集群对未知环境自主学习困难的问题;具体流程如图1所示,包括以下步骤:
S1、根据智能体属性对多智能体系统中每个智能体进行特征向量编码,获得每个智能体的智能体特征向量;所述特征向量编码的过程为:
S11、马尔可夫决策决策过程中的全体动作空间{Ai}i∈I可以被划分为互相独立的n份:{z1,z2,…,zn},采用n维向量编码智能体类型,若智能体i的可执行动作空间Ai和划分空间zi重合,则将zi所对应的向量位记为1,其余向量位记为0,获得智能体i的智能体类型特性向量
Figure BDA0003822619540000041
I表示智能体集合;
S12、对每个类型的智能体,通过独热编码方式编码智能体序号(若智能体序号过大、则采用分段独热编码方式),获得智能体i的智能体序号特征向量
Figure BDA0003822619540000042
S13、将智能体类型特征向量和智能体序号特性向量级联,获得智能体i的智能体特征向量featurei
S2、多智能体系统与环境交互,每个智能体从环境中获取下一个观测态和任务奖励;
所述多智能体系统与环境交互的过程如图2所示,其中,在每个时间步中,多智能体系统中的每个智能体依次与环境交互:智能体i根据当前观测态oi与强化学习策略模型πi决策出动作ai,环境在智能体i的当前状态si执行动作ai,将智能体i转移到状态si′,并将任务奖励
Figure BDA0003822619540000051
和下一个观测态oi′反馈给智能体i;
S3、构建堆栈式自编码器,并根据环境中已探知状态对其进行无监督训练,得到自编码器模型;
所述堆栈式自编码器模型如图3所示,分为编码器和解码器,其中编码器包括输入层与隐藏层,解码器包括隐藏层与输出层,编码器与解码器共享隐藏层网络参数,以加快训练,其计算式为:
hw,b(x)=x
decoder(enCoder(k))=x
Figure BDA0003822619540000052
其中,hw,b(.)表示自编码器,x表示智能体观测态向量,encoder、decoder分别为编码器和解码器,loss为损失函数,yi
Figure BDA0003822619540000053
分别表示真实值和网络预测值;
具体为:S31、在每个时间步中,收集多智能体系统中各个智能体访问状态的观测态(观测态oi′),存入大小为buffsize的观测态缓存区Bs
S32、通过多层感知器构建足够解析全体环境状态空间的堆栈式自编码器Coder;
S33、在强化学习的每个epsiode结束时,从观测态缓存区Bs中采样抽取数据,采用均方误差损失函数对堆栈式自编码器Coder进行无监督训练,得到收敛的自编码器模型;
S4、通过自编码器模型对多智能体系统中每个智能体在当前时间步访问状态的观测态(观测态oi′)进行编码,获得每个智能体的状态特征向量;
具体为:将智能体i从环境获取的下一个观测态oi′输入至自编码器模型中,由自编码器模型的编码模块encoder计算得到智能体i的状态特征向量codei
S5、采用分类器对当前时间步多智能体系统中每对智能体特征向量和状态特征向量计算匹配评分;
所述分类器Classifier的网络模型如图4所示,包括输入层、隐藏层与输出层,评分计算式为:
score=sigmoid(W4(W3(W1cfeaturei)+W2(codei)))
其中,W1、W2分别为智能体特征向量、状态特征向量在输入层的网络参数,W3为隐藏层网络参数,W4、sigmoid分别为输出层网络参数和激活函数;
在训练阶段,分类器Classifier通过智能体特征向量featurei和状态特征向量codei,采用sigmoid激活函数计算出匹配评分,同时通过智能体特征向量featurei和状态特征向量codei产生自监督学习标签,并采取最小化交叉熵损失函数的方式,自监督的更新网络参数;
在执行阶段,具体为:
S51、将智能体i的智能体特征向量featurei与状态特征向量codei输入分类器Classifier,由分类器Classifier输出智能体特征向量featurei和状态特征向量codei的匹配评分score;
S52、构建临时标签:<featurei,codei;1>和
Figure BDA0003822619540000061
其中,
Figure BDA0003822619540000062
表示除智能体i以外的其他智能体的特征向量,-为反事实标注,1表示智能体特征向量featurei和状态特征向量codei的事实组合是正样本,0表示除智能体i外的其他智能体特征向量
Figure BDA0003822619540000063
和状态特征向量codei的反事实组合是负样本;通过临时标签更新分类器Classifier的网络参数;
S6、对当前时间步多智能体系统中的每个智能体计算匹配评分奖励;
具体为:计算智能体i应获取的状态匹配奖励
Figure BDA0003822619540000064
Figure BDA0003822619540000065
其中,β为奖励权重,rb为基础奖励;
并将状态匹配奖励
Figure BDA0003822619540000066
反馈给智能体i;
S7、对当前时间步多智能体系统中的每个智能体计算总奖励;
具体为:
S71、将智能体i的状态匹配奖励
Figure BDA0003822619540000067
与其他内在奖励采用好奇心机制或事后经验重放计算得到智能体i的总内在奖励
Figure BDA0003822619540000068
S72、将智能体i的总内在奖励
Figure BDA0003822619540000069
与任务奖励
Figure BDA00038226195400000610
相加得到总奖励ri
Figure BDA00038226195400000611
将总奖励ri反馈给智能体i;
S8、根据智能体当前观测态、动作、下一个观测态与总奖励,择机训练多智能体强化学习算法,更新强化学习智能体策略模型;具体的,若存在经验回放区,智能体将观测态、动作下一个观测态与总奖励存入经验回放区,待模型更新阶段从回放区采样进行训练;若采用在线学习的方式进行更新,则智能体之间利用这条经验更新策略模型,并将该经验抛弃。
上述强化学习智能体分为训练阶段和执行阶段,在训练阶段时,S1为初始化阶段实施,S2、S4-S8随着时间步推进迭代实施,S3在每个episode结束阶段实施;在执行阶段时,智能体特征向量编码方式已确立,自编码器Coder、分类器Classifier已训练完成,S2、S4-S7随着时间步推进迭代实施。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。

Claims (8)

1.一种搭载强化学习智能体的无人设备集群协同探索方法,将无人集群视为一个多智能体系统,将搭载强化学习智能体的无人设备集群视为一个多智能体强化学习系统,包括以下步骤:
S1、根据智能体属性对多智能体系统中每个智能体进行特征向量编码,获得每个智能体的智能体特征向量;
S2、多智能体系统与环境交互,每个智能体从环境中获取下一个观测态和任务奖励;
S3、构建堆栈式自编码器,并根据环境中已探知状态对其进行无监督训练,得到自编码器模型;
S4、通过自编码器模型对多智能体系统中每个智能体在当前时间步访问状态的观测态进行编码,获得每个智能体的状态特征向量;
S5、采用分类器对当前时间步多智能体系统中每个智能体的智能体特征向量和状态特征向量计算匹配评分;
S6、根据匹配评分,对当前时间步多智能体系统中的每个智能体计算匹配评分奖励;
S7、根据匹配评分奖励、任务奖励,对当前时间步多智能体系统中的每个智能体计算总奖励;
S8、根据智能体当前观测态、动作、下一个观测态与总奖励,训练多智能体强化学习算法,更新强化学习智能体策略模型。
2.按权利要求1所述搭载强化学习智能体的无人设备集群协同探索方法,其特征在于,步骤S1中,所述特征向量编码的过程为:
S11、马尔可夫决策决策过程中的全体动作空间{Ai}i∈I可以被划分为互相独立的n份:{z1,z2,…,zn},采用n维向量编码智能体类型,若智能体i的可执行动作空间Ai和划分空间zi重合,则将zi所对应的向量位记为1,其余向量位记为0,获得智能体i的智能体类型特性向量;
S12、对每个类型的智能体,通过独热编码方式编码智能体序号,获得智能体i的智能体序号特征向量;
S13、将智能体类型特征向量和智能体序号特性向量级联,获得智能体i的智能体特征向量。
3.按权利要求1所述搭载强化学习智能体的无人设备集群协同探索方法,其特征在于,步骤S2中,在每个时间步中,多智能体系统中的每个智能体依次与环境交互:智能体i根据当前观测态oi与强化学习策略模型πi决策出动作ai,环境在智能体i的当前状态si执行动作ai,将智能体i转移到状态si′,并将任务奖励
Figure FDA0003822619530000011
和下一个观测态oi′反馈给智能体i。
4.按权利要求1所述搭载强化学习智能体的无人设备集群协同探索方法,其特征在于,步骤S3中,具体为:
S31、在每个时间步中,收集多智能体系统中各个智能体访问状态的观测态,存入大小为buffsize的观测态缓存区Bs
S32、通过多层感知器构建足够解析全体环境状态空间的堆栈式自编码器Coder;
S33、在强化学习的每个epsiode结束时,从观测态缓存区Bs中采样抽取数据,采用均方误差损失函数对堆栈式自编码器Coder进行无监督训练,得到收敛的自编码器模型。
5.按权利要求1所述搭载强化学习智能体的无人设备集群协同探索方法,其特征在于,步骤S4中,具体为:将智能体i从环境获取的下一个观测态输入至自编码器模型中,由自编码器模型的编码模块计算得到智能体i的状态特征向量。
6.按权利要求1所述搭载强化学习智能体的无人设备集群协同探索方法,其特征在于,步骤S5中,具体为:
S51、将智能体i的智能体特征向量与状态特征向量输入分类器,由分类器输出匹配评分;
S52、构建临时标签:<featurei,codei;1>和
Figure FDA0003822619530000021
其中,
Figure FDA0003822619530000022
表示除智能体i以外的其他智能体的特征向量,-为反事实标注,1表示智能体特征向量featurei和状态特征向量codei的事实组合是正样本,0表示除智能体i外的其他智能体特征向量
Figure FDA0003822619530000028
和状态特征向量codei的反事实组合是负样本;通过临时标签更新分类器Classifier的网络参数。
7.按权利要求1所述搭载强化学习智能体的无人设备集群协同探索方法,其特征在于,步骤S6中,具体为:计算智能体i应获取的状态匹配奖励
Figure FDA0003822619530000023
Figure FDA0003822619530000024
其中,β为奖励权重,rb为基础奖励,score为匹配评分;
并将状态匹配奖励
Figure FDA0003822619530000025
反馈给智能体i。
8.按权利要求1所述搭载强化学习智能体的无人设备集群协同探索方法,其特征在于,步骤S7中,具体为:
S71、将智能体i的状态匹配奖励与其他内在奖励采用好奇心机制或事后经验重放计算得到智能体i的总内在奖励
Figure FDA0003822619530000026
S72、将智能体i的总内在奖励
Figure FDA0003822619530000027
与任务奖励相加得到总奖励ri,并将总奖励ri反馈给智能体i。
CN202211047986.9A 2022-08-30 2022-08-30 一种搭载强化学习智能体的无人设备集群协同探索方法 Pending CN115480585A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211047986.9A CN115480585A (zh) 2022-08-30 2022-08-30 一种搭载强化学习智能体的无人设备集群协同探索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211047986.9A CN115480585A (zh) 2022-08-30 2022-08-30 一种搭载强化学习智能体的无人设备集群协同探索方法

Publications (1)

Publication Number Publication Date
CN115480585A true CN115480585A (zh) 2022-12-16

Family

ID=84423210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211047986.9A Pending CN115480585A (zh) 2022-08-30 2022-08-30 一种搭载强化学习智能体的无人设备集群协同探索方法

Country Status (1)

Country Link
CN (1) CN115480585A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116595424A (zh) * 2023-07-13 2023-08-15 湖南一特医疗股份有限公司 一种面向医疗环境的数字化智能制氧系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116595424A (zh) * 2023-07-13 2023-08-15 湖南一特医疗股份有限公司 一种面向医疗环境的数字化智能制氧系统
CN116595424B (zh) * 2023-07-13 2023-10-13 湖南一特医疗股份有限公司 一种面向医疗环境的数字化智能制氧系统

Similar Documents

Publication Publication Date Title
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN110532377B (zh) 一种基于对抗训练和对抗学习网络的半监督文本分类方法
CN106970615A (zh) 一种深度强化学习的实时在线路径规划方法
WO2022105635A1 (zh) 一种机器人运动技能学习方法及系统
CN109858041A (zh) 一种半监督学习结合自定义词典的命名实体识别方法
CN113190699A (zh) 一种基于类别级语义哈希的遥感图像检索方法及装置
CN112905807B (zh) 一种多源时空知识融合方法
CN115480585A (zh) 一种搭载强化学习智能体的无人设备集群协同探索方法
CN112668719A (zh) 基于工程能力提升的知识图谱构建方法
CN112527993A (zh) 一种跨媒体层次化深度视频问答推理框架
CN113420868A (zh) 一种基于深度强化学习的旅行商问题求解方法及求解系统
CN116932722A (zh) 一种基于跨模态数据融合的医学视觉问答方法及系统
CN114357221B (zh) 一种基于图像分类的自监督主动学习方法
CN114170333B (zh) 基于直推式半监督深度学习的图像哈希编码方法
CN107766895A (zh) 一种诱导式非负投影半监督数据分类方法及系统
CN114626598A (zh) 一种基于语义环境建模的多模态轨迹预测方法
CN116892932B (zh) 一种结合好奇心机制与自模仿学习的导航决策方法
CN117171326A (zh) 一种金融问答算法的快速构建方法及生命周期管理平台
CN116010621B (zh) 一种基于规则引导的自适应路径生成方法
CN112182439A (zh) 一种基于自注意力网络的搜索结果多样化方法
CN117131858A (zh) 一种基于字典的轨迹预测系统及方法
CN114880527B (zh) 一种基于多预测任务的多模态知识图谱表示方法
CN116992758A (zh) 一种基于机器学习的复杂机械智能装配方法
CN114943216B (zh) 基于图注意力网络的案件微博属性级观点挖掘方法
CN115982586A (zh) 针对少样本文本转sql任务流的半监督持续学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination