CN113313249B - 一种基于强化学习系统实现的动态集成训练方法 - Google Patents

一种基于强化学习系统实现的动态集成训练方法 Download PDF

Info

Publication number
CN113313249B
CN113313249B CN202110499117.9A CN202110499117A CN113313249B CN 113313249 B CN113313249 B CN 113313249B CN 202110499117 A CN202110499117 A CN 202110499117A CN 113313249 B CN113313249 B CN 113313249B
Authority
CN
China
Prior art keywords
state
base
local
agent
competitiveness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110499117.9A
Other languages
English (en)
Other versions
CN113313249A (zh
Inventor
肖萌
陈百基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110499117.9A priority Critical patent/CN113313249B/zh
Publication of CN113313249A publication Critical patent/CN113313249A/zh
Application granted granted Critical
Publication of CN113313249B publication Critical patent/CN113313249B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于强化学习系统实现的动态集成训练方法,包括:1)准备强化学习系统的多个学习主体(即基智能体),基智能体维持着独立的经验池,用于存储转移样本、潜层特征空间的状态表征及局部竞争力;2)训练阶段让基智能体与环境进行交互,存储转移样本及实时回报以计算局部竞争力;3)随机选取一个状态,选择其与经验池中其它状态在潜层特征空间的状态进行相似性度量;4)根据状态相似度寻找其相似状态,并从中选取一批状态作为相似状态子集;5)根据相似状态子集完成局部竞争力的度量及权重计算;6)根据权重计算目标Q值,根据加权集成的目标Q值更新网络参数直至网络收敛。本发明最大化利用所有基础智能体的信息以提升集成系统的性能表现。

Description

一种基于强化学习系统实现的动态集成训练方法
技术领域
本发明涉及强化学习集成学习的技术领域,尤其是指一种基于强化学习系统实现的动态集成训练方法。
背景技术
强化学习作为人工智能领域的一大热门方向,在机器人控制、无人驾驶等序列动作决策领域有着广泛的应用。深度学习因其优秀的特征提取能力在图像识别、语义分割等诸多领域得以应用。2013年DeepMind将深度学习用于强化学习领域提出了深度Q网络的深度强化学习算法,实现了端到端的学习。但强化学习中的状态空间大、环境反馈稀疏、数据不满足独立同分布假定等问题使得强化学习的训练时间长且收敛困难。如何提升强化学习系统的性能及减少训练时常是亟待解决的问题。
集成学习通过集成一组次优学习器替代寻找最优学习器,可以有效提升系统性能,在分类领域有着广泛的应用。目前集成学习在强化学习领域的应用多沿用了分类领域的集成算法,采用了多数投票法、平均法、加权平均等静态集成算法,这些静态集成算法假定所有的基智能体都有相同的表现或是直接忽略整体表现较差的基智能体,在部分状态区域有着优秀表现但整体表现一般的基智能体的能力会被忽略。动态集成算法可根据基学习器的局部竞争力动态赋予权重有效提升系统性能,其已被证明在分类领域有着很好的性能提升效果,但其在强化学习领域的探究暂且空白。将动态集成算法从分类领域拓展到强化学习领域,有效利用基智能体的全部信息是本发明所要解决的问题。
发明内容
本发明的目的在于克服现有技术的缺陷和不足,提出了一种基于强化学习系统实现的动态集成训练方法,突破了传统静态集成算法无法利用基智能体在不同状态区域表现差异性的问题,有效利用了基智能体的全部能力,根据基智能体的局部竞争力来动态计算权重,根据权重来集成多个基智能体的目标Q值获得最终的目标Q值,根据集成后的目标Q值更新基智能体的Q值神经网络,使得目标Q值更为准确,提升系统性能和算法收敛能力。
基于上述目的,本发明所提供的技术方案为:一种基于强化学习系统实现的动态集成训练方法,包括以下步骤:
1)准备强化学习系统的多个学习主体,即多个基智能体,每个基智能体都维持着独立的经验池,经验池用于存储转移样本、潜层特征空间的状态表征及局部竞争力;
2)训练阶段让基智能体与环境进行交互,存储转移样本及实时回报以计算局部竞争力;
3)随机选取一个状态,选择其与经验池中其它状态在潜层特征空间的状态进行相似性度量;
4)根据状态相似度寻找其相似状态,并从中选取一批状态作为相似状态子集;
5)根据相似状态子集完成局部竞争力的度量及权重计算;
6)根据权重计算目标Q值,根据加权集成的目标Q值更新网络参数直至网络收敛。
进一步,在步骤1)中,所述基智能体采取不同的卷积层和全连接层来提升多样性,共有l个基智能体;所述转移样本包括当前时间步的状态、动作、实时回报及下一个状态。
进一步,在步骤2)中,所述局部竞争力用于评估基智能体在某一状态下的局部表现,其量化标准为局部折扣累积回报和,即以状态为初始状态与环境交互多次的折扣累计回报和:
其中,U(sti)为基智能体ρi在状态st下的局部竞争力,st为时间步t环境所返回的状态,表示时间步t+i环境返回给基智能体的回报,i为基智能体的编号,i=1,2,..,l,l为基智能体个数,γ为折扣因子,表示当前动作对未来回报影响的折扣;每个基智能体都维持着独立的经验池,经验池中的样本细分为完成了局部竞争力计算的验证集和未完成局部竞争力计算的边缘转移样本集。
进一步,在步骤3)中,所述潜层特征空间为基智能体的最后一层卷积层输出,相似性度量方法为潜层特征空间的欧几里得距离,计算公式如下:
sim(s1,s2i)=dist(φi(s1),φi(s2))
其中,sim(s1,s2i)表示在基智能体ρi的潜层特征空间中状态s1和状态s2之间的距离,φi()表示该潜层特征空间的特征提取过程,dist()表示欧几里得距离。
进一步,在步骤4)中,找到相似状态子集的过程包括以下步骤:
4.1)随机选择一个状态s,获取状态s在多个潜层特征空间的特征表示φi(s),其中φi()表示基智能体ρi所学习的潜层特征空间的特征提取过程,i=1,2,..,l,l为基智能体个数;
4.2)根据状态在潜层特征空间的特征表示,在其对应的经验池的验证集中寻找状态s的K近邻子集:V(s,ρi,k),其中k为子集的大小;如此便能够获得多个基智能体所对应的相似状态子集。
进一步,在步骤5)中,根据相似状态子集完成局部竞争力的度量及权重计算,包括以下步骤:
5.1)根据验证集存储的相似状态子集以及局部竞争力,计算在该局部状态特征空间的局部竞争力:
其中,V为基智能体ρi所寻找的相似状态子集,U(s,ρi)为基智能体ρi在状态s下的局部竞争力;
5.2)根据局部竞争力计算基智能体的权重:
其中,w(ρi,st)为基智能体ρi在状态st所对应的局部状态空间的权重,LC(ρi,st)为基智能体ρi在状态st下的局部竞争力,i为基智能体的编号,i=1,2,..,l,l为基智能体个数。
进一步,在步骤6)中,根据权重完成目标Q值的计算,并进一步更新网络,包括以下步骤:
6.1)根据权重计算加权集成的目标Q值:
其中,Qi(st,at)为基智能体ρi在状态st下的输出,wt,i为基智能体ρi在状态st下的权重,i为基智能体的编号,i=1,2,..,l,l为基智能体个数;
6.2)根据集成后的目标Q值来更新每个基智能体的Q神经网络:
其中,θ为Q神经网络的参数,θ-为延迟更新的目标Q神经网络的参数,θ'为更新后的神经网络参数,α为学习率,r为环境返回的回报,s'为执行动作后的下一个状态,max表示选取目标Q值最大值所对应的Q值作为后继状态的值,Q(s,a;θ)表示决策Q神经网络的输出,表示梯度;
重复上述过程直至最终的Q神经网络收敛,从而完成基智能体的学习过程。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明首次实现了基于强化学习系统实现的动态集成训练方法,突破了传统静态集成方法的局限。
2、本发明实现了局部竞争力评估的量化算法,利于较好地度量基智能体的局部表现以获得更合适的权重。
3、本发明根据潜层特征空间来度量状态相似性,该特征空间可以更好地捕获位置、序列及危险状态信息,可寻找到更符合逻辑预期的相似状态。
4、本发明根据状态相似度来构成小批量数据,以稳定基智能体的权重、降低时间复杂度。
5、本发明根据动态权重集成目标Q神经网络,帮助Q值更好地收敛,提升了强化学习系统训练效率及稳定性。
6、本发明方法并未对强化学习算法做特定的假设,可轻松地迁移到其他深度强化学习算法中,有着较好地扩展性能,在提升数据利用率、降低训练时常上有着广阔前景。
附图说明
图1为本发明方法逻辑流程示意图。
图2为已有方法的经验池结构图。
图3为本发明采用的经验池结构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1至图3所示,本实施例基于Atari游戏环境来讲述基于强化学习系统实现的动态集成训练方法,但其应用不仅限于此,在机器人控制、自动驾驶等环境均可采用该方法。在本实施例中使用了ALE环境,其包括以下步骤:
1)准备强化学习系统的多个学习主体,即多个基智能体,每个基智能体都维持着独立的经验池,经验池用于存储转移样本、潜层特征空间的状态表征及局部竞争力,其中,基智能体采取不同的卷积层、全连接层来提升基智能体多样性,共有l个基智能体;转移样本包括当前时间步的状态、动作、实时回报及下一个状态。
强化学习中经验池所包含内容如图2所示,其中s为状态,其下标为编号,a为动作,r为在状态s下执行动作a环境所返回的回报,s’为下一个状态。对比于传统经验池,本发明的经验池多出了用于存储验证集的部分,状态s由原本输入空间转化为潜层特征空间的表示,在训练初始,让基智能体与环境多次交互以填充经验池,逐步计算其局部竞争力U(sti)并存储在验证集之中,如图3所示。在Atari中,基智能体采用了不同的模型结构来提升多样性,模型结构如表1所示,数量初步选择为4。
表1基智能体结构表
2)训练阶段让基智能体与环境进行交互,存储转移样本及实时回报以计算局部竞争力;其中,转移样本如图2中的四元组所示;局部竞争力用于评估基智能体在该状态下的局部表现,其量化标准为局部折扣累积回报和,既以状态为初始状态与环境交互多次的折扣累计回报和:
其中,U(sti)为基智能体ρi在状态st下的局部竞争力,st为时间步t环境所返回的状态,表示时间步t+i环境返回给基智能体的回报,i为基智能体的编号,i=1,2,..,l,l为基智能体个数,γ为折扣因子,表示当前动作对未来回报影响的折扣。每个基智能体都维持着独立的经验池,经验池中的样本又可以细分为完成了局部竞争力计算的验证集和未完成局部竞争力计算的边缘转移样本集。
根据最新返回的转移样本进行局部竞争力的计算,在Atari游戏环境中,我们将n设置为50,即计算其后50步的折扣累计回报和。该值需要50个转移样本的回报来进行计算,在实际计算中采用的逐步更新方法,当状态的折扣累计回报和计算次数未满50时,将最新回报用于更新局部竞争力,计算完成的样本将加入验证集,若验证集满了,则随机替换一个样本。
3)随机选取一个状态,选择其与验证集中其它状态在潜层特征空间的状态进行相似性度量;其中潜层特征空间为基智能体的最后一层卷积层输出,相似性度量方法为潜层特征空间的欧几里得距离,计算公式如下:
sim(s1,s2i)=dist(φi(s1),φi(s2))
其中,sim(s1,s2i)表示在基智能体ρi的潜层特征空间中状态s1和状态s2之间的距离,φi()表示该潜层特征空间的特征提取过程,dist()表示欧几里得距离。
4)根据状态相似度寻找其相似状态,并从中选取一批状态作为相似状态子集;其中找到相似状态子集的过程包括以下步骤:
4.1)随机选择一个状态s,获取状态s在多个潜层特征空间的特征表示φi(s),其中φi()表示基智能体ρi所学习的潜层特征空间的特征提取过程,i=1,2,..,l,l为基智能体个数。
对于选取的状态s,将获得其在4个潜层特征空间的表征φ1(s),φ2(s),φ3(s),φ4(s),根据相似性度量函数sim(s1,s2i)分别计算状态s和4个基智能体的验证集的相似距离。
4.2)根据状态在潜层特征空间的特征表示,在其对应的经验池的验证集中寻找状态s的K近邻子集:V(s,ρi,k),其中ρi为基智能体,k为子集的大小。如此便可获得多个基智能体所对应的相似状态子集。
采用上述步骤,计算好相似距离后根据相似距离对验证集中的状态进行排序,暂取k为32,找到离状态s最近的32个状态来构成K近邻子集,每个基智能体均会找到其对应的相似状态子集,即我们将找到4个相似子集。
5)根据相似状态子集完成局部竞争力的度量及权重计算,包括以下步骤:
5.1)根据验证集存储的相似状态子集以及局部竞争力,计算在该局部状态特征空间的局部竞争力:
其中,V为基智能体ρi所寻找的相似状态子集,U(s,ρi)为基智能体ρi在状态s下的局部竞争力。
采用上述步骤,基智能体的K近邻集将用于计算其局部竞争力,本方法预测基智能体在相似子集上的局部竞争力与环境返回状态上的表现呈正相关,假设计算4个基智能体的局部竞争力分别为12.1,13.25,10.75,20。
5.2)根据局部竞争力计算基智能体的权重:
其中,w(ρi,st)为基智能体ρi在状态st所对应的局部状态空间的权重,LC(ρi,st)为基智能体ρi在状态st下的局部竞争力,i为基智能体的编号,i=1,2,..,l。
根据局部竞争力来计算每个基智能体的权重,局部竞争力越高权重越大,根据上一步的局部竞争力可计算得4个基智能体的权重分别为0.215686,0.236185,0.1916221,0.356506。
6)根据权重计算目标Q值,根据加权集成的目标Q值更新网络参数直至网络收敛;其中,根据权重完成目标Q值的计算,并进一步更新网络,包括以下步骤:
6.1)根据权重计算加权集成的目标Q值:
其中,Qi(st,at)为基智能体ρi在状态st下的输出,wt,i为基智能体ρi在状态st下的权重,i为基智能体的编号,i=1,2,..,l。根据上一步计算的权重0.215686,0.236185,0.1916221,0.356506对基智能体的目标Q值进行集成,可以得到集成的目标Q值。在Atari游戏中,Q值为18维的向量,此处不进行列举。
6.2)根据集成后的目标Q值来更新每个基智能体的Q神经网络:
其中,θ为Q神经网络的参数,θ-为延迟更新的目标Q神经网络的参数,θ'为更新后的神经网络参数,α为学习率,r为环境返回的回报,s'为执行动作后的下一个状态,max表示选取目标Q值最大值所对应的Q值作为后继状态的值,Q(s,a;θ)表示决策Q神经网络的输出,表示梯度。
对于相似子集中的每一个样本,均根据集成目标Q值计算目标值和实际值的差作为损失函数,根据损失函数来更新Q神经网络。
在每一步均更新决策Q神经网络,延迟更新的目标Q神经网络用于计算目标Q值,不断更新Q神经网络直至Q神经网络收敛。由于集成学习对性能的提升,可有效提升目标Q值评估的有效性,让Q神经网络朝更优的方向收敛,从而提升系统的收敛性能及最终的表现,有着较大的应用场景。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,本发明的权重计算方法与根据可较好地迁移到其他强化学习算法中,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (1)

1.一种基于强化学习系统实现的动态集成训练方法,其特征在于,包括以下步骤:
1)准备强化学习系统的多个学习主体,即多个基智能体,每个基智能体都维持着独立的经验池,经验池用于存储转移样本、潜层特征空间的状态表征及局部竞争力;
所述基智能体采取不同的卷积层和全连接层来提升多样性,共有l个基智能体;所述转移样本包括当前时间步的状态、动作、实时回报及下一个状态;
2)训练阶段让基智能体与环境进行交互,存储转移样本及实时回报以计算局部竞争力;
所述局部竞争力用于评估基智能体在某一状态下的局部表现,其量化标准为局部折扣累积回报和,即以状态为初始状态与环境交互多次的折扣累计回报和:
其中,U(sti)为基智能体ρi在状态st下的局部竞争力,st为时间步t环境所返回的状态,表示时间步t+i环境返回给基智能体的回报,i为基智能体的编号,i=1,2,..,l,l为基智能体个数,γ为折扣因子,表示当前动作对未来回报影响的折扣;每个基智能体都维持着独立的经验池,经验池中的样本细分为完成了局部竞争力计算的验证集和未完成局部竞争力计算的边缘转移样本集;
3)随机选取一个状态,选择其与经验池中其它状态在潜层特征空间的状态进行相似性度量;
所述潜层特征空间为基智能体的最后一层卷积层输出,相似性度量方法为潜层特征空间的欧几里得距离,计算公式如下:
sim(s1,s2i)=dist(φi(s1),φi(s2))
其中,sim(s1,s2i)表示在基智能体ρi的潜层特征空间中状态s1和状态s2之间的距离,φi()表示该潜层特征空间的特征提取过程,dist()表示欧几里得距离;
4)根据状态相似度寻找其相似状态,并从中选取一批状态作为相似状态子集;
找到相似状态子集的过程包括以下步骤:
4.1)随机选择一个状态s,获取状态s在多个潜层特征空间的特征表示φi(s),其中φi()表示基智能体ρi所学习的潜层特征空间的特征提取过程,i=1,2,..,l,l为基智能体个数;
4.2)根据状态在潜层特征空间的特征表示,在其对应的经验池的验证集中寻找状态s的K近邻子集:V(s,ρi,k),其中k为子集的大小;如此便能够获得多个基智能体所对应的相似状态子集;
5)根据相似状态子集完成局部竞争力的度量及权重计算,包括以下步骤:
5.1)根据验证集存储的相似状态子集以及局部竞争力,计算在局部状态特征空间的局部竞争力:
其中,V为基智能体ρi所寻找的相似状态子集,U(s,ρi)为基智能体ρi在状态s下的局部竞争力;
5.2)根据局部竞争力计算基智能体的权重:
其中,w(ρi,st)为基智能体ρi在状态st所对应的局部状态空间的权重,LC(ρi,st)为基智能体ρi在状态st下的局部竞争力,i为基智能体的编号,i=1,2,..,l,l为基智能体个数;
6)根据权重计算目标Q值,根据加权集成的目标Q值更新网络参数直至网络收敛,包括以下步骤:
6.1)根据权重计算加权集成的目标Q值:
其中,Qi(st,at)为基智能体ρi在状态st下的输出,wt,i为基智能体ρi在状态st下的权重,i为基智能体的编号,i=1,2,..,l,l为基智能体个数;
6.2)根据集成后的目标Q值来更新每个基智能体的Q神经网络:
其中,θ为Q神经网络的参数,θ-为延迟更新的目标Q神经网络的参数,θ'为更新后的神经网络参数,α为学习率,r为环境返回的回报,s'为执行动作后的下一个状态,max表示选取目标Q值最大值所对应的Q值作为后继状态的值,Q(s,a;θ)表示决策Q神经网络的输出,表示梯度;
重复上述过程直至最终的Q神经网络收敛,从而完成基智能体的学习过程。
CN202110499117.9A 2021-05-08 2021-05-08 一种基于强化学习系统实现的动态集成训练方法 Active CN113313249B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110499117.9A CN113313249B (zh) 2021-05-08 2021-05-08 一种基于强化学习系统实现的动态集成训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110499117.9A CN113313249B (zh) 2021-05-08 2021-05-08 一种基于强化学习系统实现的动态集成训练方法

Publications (2)

Publication Number Publication Date
CN113313249A CN113313249A (zh) 2021-08-27
CN113313249B true CN113313249B (zh) 2023-07-18

Family

ID=77371622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110499117.9A Active CN113313249B (zh) 2021-05-08 2021-05-08 一种基于强化学习系统实现的动态集成训练方法

Country Status (1)

Country Link
CN (1) CN113313249B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108762281A (zh) * 2018-06-08 2018-11-06 哈尔滨工程大学 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法
CN111105034A (zh) * 2019-12-24 2020-05-05 中国科学院自动化研究所 基于反事实回报的多智能体深度强化学习方法、系统
CN111582311A (zh) * 2020-04-09 2020-08-25 华南理工大学 基于强化学习利用动态奖励示例样本训练智能体的方法
CN112132263A (zh) * 2020-09-11 2020-12-25 大连理工大学 一种基于强化学习的多智能体自主导航方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108762281A (zh) * 2018-06-08 2018-11-06 哈尔滨工程大学 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法
CN111105034A (zh) * 2019-12-24 2020-05-05 中国科学院自动化研究所 基于反事实回报的多智能体深度强化学习方法、系统
CN111582311A (zh) * 2020-04-09 2020-08-25 华南理工大学 基于强化学习利用动态奖励示例样本训练智能体的方法
CN112132263A (zh) * 2020-09-11 2020-12-25 大连理工大学 一种基于强化学习的多智能体自主导航方法

Also Published As

Publication number Publication date
CN113313249A (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN111625361B (zh) 一种基于云端服务器和IoT设备协同的联合学习框架
CN113221905B (zh) 基于均匀聚类的语义分割的无监督域适应方法、装置、系统和存储介质
CN111626128B (zh) 一种基于改进YOLOv3的果园环境下行人检测方法
CN111259906B (zh) 含多级通道注意力的条件生成对抗遥感图像目标分割方法
CN113326731B (zh) 一种基于动量网络指导的跨域行人重识别方法
CN113610146B (zh) 基于中间层特征提取增强的知识蒸馏实现图像分类的方法
CN111104831B (zh) 一种视觉追踪方法、装置、计算机设备以及介质
CN116503676B (zh) 一种基于知识蒸馏小样本增量学习的图片分类方法及系统
CN113361645A (zh) 基于元学习及知识记忆的目标检测模型构建方法及系统
CN114708479A (zh) 一种基于图结构和特征的自适应防御方法
CN113313249B (zh) 一种基于强化学习系统实现的动态集成训练方法
CN111783688A (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN116433909A (zh) 基于相似度加权多教师网络模型的半监督图像语义分割方法
CN115457269A (zh) 一种基于改进DenseNAS的语义分割方法
CN115331460A (zh) 一种基于深度强化学习的大规模交通信号控制方法及装置
CN114595695A (zh) 一种用于少样本意图识别系统的自训练模型构建方法
CN114861917A (zh) 贝叶斯小样本学习的知识图谱推理模型、系统及推理方法
CN113033653A (zh) 一种边-云协同的深度神经网络模型训练方法
CN115759383B (zh) 一种带有分支网络的目的地预测方法、系统及电子设备
CN112215272A (zh) 一种基于贝塞尔曲线的图像分类神经网络攻击方法
CN112419362A (zh) 一种基于先验信息特征学习的运动目标跟踪方法
CN116109650B (zh) 点云实例分割模型训练方法和训练装置
JP2019133496A (ja) コンテンツ特徴量抽出装置、方法、及びプログラム
CN114565796B (zh) 一种基于网络增长和逼近论的图像分类方法
CN112116593B (zh) 一种基于基尼指数的领域自适应语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant