CN114926319A - 一种无训练Transformer结构搜索方法 - Google Patents

一种无训练Transformer结构搜索方法 Download PDF

Info

Publication number
CN114926319A
CN114926319A CN202210673432.3A CN202210673432A CN114926319A CN 114926319 A CN114926319 A CN 114926319A CN 202210673432 A CN202210673432 A CN 202210673432A CN 114926319 A CN114926319 A CN 114926319A
Authority
CN
China
Prior art keywords
vit
msa
score
mlp
synaptic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210673432.3A
Other languages
English (en)
Inventor
纪荣嵘
周勤勤
盛柯恺
郑侠武
李珂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202210673432.3A priority Critical patent/CN114926319A/zh
Publication of CN114926319A publication Critical patent/CN114926319A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种无训练Transformer结构搜索方法,涉及计算机视觉。在给定的ViT搜索空间中随机采样子模型结构作为基础结构集合,并对采样到的基础结构集合中的MSA和MLP模块进行模块化分析;依据MSA突触多样性评分和MLP突触显著性评分,计算基础结构集合中的各ViT模型结构的绩效指标TF‑indicator;将绩效指标TF‑indicator作为评估相应的ViT模型的代理分数,选取代理分数最高的模型结构交叉和变异,得新的子模型结构更新基础结构集合;循环迭代,选取基础结构集合代理分数最高的模型结构作为最终搜索结果。平衡搜索效率和搜索结果,提高TAS搜索效率,寻找相对最优ViT结构只需0.5个GPU天。

Description

一种无训练Transformer结构搜索方法
技术领域
本发明涉及计算机视觉,尤其是涉及基于多头注意力模块(Multi-head Self-Attention,MSA)突触多样性和多层感知机模块(Multi-Layer Perceptron,MLP)突触显著性的一种无训练Transformer结构搜索方法(Training-free Transformer ArchitectureSearch,TF-TAS)。
背景技术
视觉Transformer(Vision Transformer,ViT)在计算机视觉领域已经展现出强大的竞争力,成为一个重要的研究热点。随着许多人工设计的优秀ViT结构的出现,Transformer结构搜索(Transformer Architecture Search,TAS)开始受到关注,TAS旨在以自动化的方式搜索Transformer结构的多个维度。虽然基于NAS的one-shot方案在TAS中得到初步的利用,但它仍然需要很高的计算成本(例如大于24GPU天数)来训练一个超级网络,以便在各种ViT结构上进行可靠的性能评估。此外,ViT搜索空间的大小(例如GLiT中约1030)远远超过CNN搜索空间(如DARTS中的约1018),而且ViT模型通常需要更多的训练周期(如300Epoch),这些因素使得基于one-shot的TAS的搜索效率仍然很低。
为提高CNN搜索空间的搜索效率,研究人员提出零成本代理的指标(例如,GraSP、TE-score、NASWOT),能够以无训练的方式评估不同CNN结构的排序关系。从技术上来说,一个典型的CNN主要是由卷积层组成的,而一个ViT模型主要是由多头注意力模块(Multi-head Self-Attention,MSA)和多层感知机模块(Multi-Layer Perceptron,MLP)以及线性层组成。多头注意力模块(Multi-head Self-Attention,MSA)中的突触多样性和多层感知机模块(Multi-Layer Perceptron,MLP)中的突触显著性,作为评估模型的代理指标,称为TF-indicator。CNN与ViT之间的差异造成现有在CNN上验证有效的零成本代理直接应用到ViT搜索空间上具有很大的不确定性。研究一种更适合ViT结构评估、更有利于TAS训练效率的有效零成本代理指标是有必要和值得的。
发明内容
本发明的目的在于解决当前对Transformer结构设计依赖大量专家知识,以及对Transformer结构搜索需要大量计算资源的技术问题,通过探索和利用在ViT中的MSA和MLP的不同特性,提出一种无训练Transformer结构搜索方法,结合基于MSA突触多样性和MLP突触显著性作为TF-indicator,通过进化搜索结合TF-indicator的方式对不同的Transformer结构进行评估搜索最优结构,在保证搜索结果性能的同时极大的提高搜索效率。
本发明包括以下步骤:
1)在给定的ViT搜索空间中随机采样100个子模型结构作为基础结构集合,并对采样到的基础结构集合中的MSA和MLP模块进行模块化分析,即分别计算MSA的突触多样性评分和MLP的突触显著性评分;
2)依据MSA的突触多样性评分和MLP的突触显著性评分,计算基础结构集合中的各ViT模型结构的绩效指标TF-indicator;
3)将绩效指标TF-indicator作为评估相应的ViT模型的代理分数,选取代理分数最高的前50个模型结构进行交叉和变异的操作后,得到100个新的子模型结构更新步骤1)中的基础结构集合;
4)循环迭代以上步骤100次后,选取基础结构集合代理分数最高的模型结构作为最终的搜索结果。
在步骤1)中,所述计算MSA的突触多样性评分,将MSA模块中权重参数的秩作为评价ViT结构的指标;对第l个MSA模块中权重参数的突触多样性定义为:
Figure BDA0003693988520000021
其中,Wm为MSA模块的权值参数矩阵,m表示MSA模块中第m个线性层;
Figure BDA0003693988520000022
表示每个MSA模块的梯度矩阵,L为损失函数;‖Wmnuc为Wm的核范数;
所述MLP的突触显著性评分,基于MLP的修剪敏感性,以模块化的方式测量突触显著性,给定一个ViT结构,第l个MLP模块的显著性得分为:
Figure BDA0003693988520000023
其中,n为指定ViT网络中第l个MLP的线性层数。
在步骤2)中,所述计算各ViT模型结构的绩效指标TF-indicator的具体步骤为:结合MSA的突触多样性和MLP的突触显著性评分,给定一个结构A得到TF-indicator的定义如下:
Figure BDA0003693988520000024
TF-indicator从两个不同的维度评估每个ViT结构,TF-TAS将采样到的模型以每个像素为1构成的虚拟图像数据作为输入数据,经过一个前向传播和后向更新后计算STF,作为相应的ViT模型的代理分数。
在步骤3)中,所述交叉和变异的操作的具体步骤为:交叉是对给定的两个ViT结构按照0.4的比例互相交换部分结构,变异是对给定的单个ViT结构按照0.2的比例随机的替换该ViT的部分结构。
本发明的优点为:为提高TAS的搜索效率,本发明提出一种有效的零成本代理来评估ViT结构。具体来说,提出一种面向虚拟现实的绩效指标,即TF-indicator,从两个理论维度:突触多样性和突触显著性出发对ViT结构进行评估。基于这两个维度,该指标分别测量MSAs上的突触多样性和MLPs上的突触显著性。与其他TAS方法相比,基于TF-indicator的进化搜索在不同的ViT搜索空间中取得效率和搜索结果上的巨大优势。实验表明,本发明平衡搜索效率和搜索结果,极大地提高TAS的搜索效率:与现有同类算法的24个GPU天数相比,本发明寻找相对最优的ViT结构只需要0.5个GPU天。
附图说明
图1为TF-indicator在采样的Transformer结构上的相关性分析结果。
图2为本发明的整体框架图。
图3为本发明中使用的突触多样性和显著性与模型精度之间的相关性分析,以及ViT中的MSA和MLP模块对剪枝的敏感性分析。
具体实施方式
以下实施例将结合附图对本发明进行作进一步的说明。
本发明对一般的ViT中的MSA和MLP模块进行模块化分析,借助MSA和MLP上的特有性质提出有效的性能评估指标应用于ViT网络结构评估中。基于数值结果,观察到在ViT中MSA和MLP具有不同的性质来指示模型的性能。当MSA拥有更高的突触多样性得分时,或者当MLP有更多的突触显著性时,相应的Transformer网络总是有更好的性能(参见图1),基于这些结果,本发明一个有效并且高效的TF-indicator,并基于此设计一个包含模块化策略的无训练Transformer结构搜索算法(Transformer Architecture Search,TF-TAS)。具体来说,本发明通过上述MSA和MLP的特性对各种ViT进行评估排名。TF-indicator通过评估MSA的突触多样性和MLP的突触显著性来生成ViT结构的有效评价分数。突触多样性衡量一个MSA上的秩复杂程度,突触显著性估计一个MLP内重要参数的数量。这是第一次提出基于MSA的突触多样性和MLP的突触显著性作为评价ViT结构的代理。需要注意的是,TF-TAS与搜索空间设计和权值共享策略是正交的。因此,可以灵活地将TF-TAS与其他ViT搜索空间或TAS方法相结合,进一步提高搜索效率。与人工设计的ViT和自动搜索的ViT相比,本发明的TF-TAS实现具有竞争力的性能,将搜索过程从24GPU天数缩短到不到0.5GPU天数,大约快48倍(见表1)。
表1
Figure BDA0003693988520000041
本发明的框架如图2所示,对于给定的一个搜索空间,TF-TAS随机的采样100个子网络结构构成基础结构集合,通过计算采样的相应的结A中的不同的模块相应的属性:MSA中的突触多样性DMSA与MLP中的突触显著性SMLP,得到评估一个ViT模型的代理分数STF(A),对随机采样的所有结构进行评估后,从中选出代理分数最高的模型作为搜索结果。
本发明实施例具体包括以下部分:
1)MSA的突触多样性:
MSA是ViT体系结构的一个基本组件。MSA的多样性在ViT结构中起到重要的作用。然而,MSA中存在学到的表示存在秩崩溃的现象。具体来说,随着输入在网络中前向传播和深度的不断加深,ViT中MSA的输出逐渐收敛到秩为1的结果。最终,输出退化为一个秩为1的矩阵,每一行的值不变,即多样性出现稀疏的情况。秩崩溃严重影响ViT的性能。然而,在高维表示空间中估计秩崩溃需要大量的计算量。实际上,已经被证明矩阵的秩包含特征中多样性信息的代表性线索。基于这些理解,MSA模块中权重参数的秩可以作为评价ViT结构的指标。
对于MSA模块,直接对其权值矩阵的秩进行度量,存在计算量较大的问题,这一点阻碍了度量MSA模块的实际应用。为了加速MSA模块突触多样性的计算,利用MSA权重矩阵的核范数近似其秩作为多样性指标。理论上,当权重矩阵的Frobenius范数满足一定条件时,权重矩阵的核范数可视为其秩的等价替换。具体来说,将MSA模块的权值参数矩阵表示为Wm。m表示MSA模块中第m个线性层。因此,Wm的Frobenius-范数可以定义为:
Figure BDA0003693988520000042
其中,wi,j表示Wm中第i行j列的元素,根据算术均值和几何均值的不等式,Wm的上界为:
Figure BDA0003693988520000051
上式表示‖WmF的上界即为Wm的最大线性独立的向量数,即矩阵的秩。随机给定Wm中的两个向量
Figure BDA0003693988520000052
Figure BDA0003693988520000053
独立时,‖WmF的值相应的会更大。这表明:Wm的Frobenius-norm越大,Wm的秩越接近Wm的多样性。当‖WmF≤1时,Wm的核范数可以是Wm秩的近似。形式上,Wm的核范数被定义为:
Figure BDA0003693988520000054
其中,tr(*)表示相应矩阵的迹。在本发明中,有
Figure BDA0003693988520000055
因此,Wm的秩可以近似为
Figure BDA0003693988520000056
理论上,‖Wmnuc
Figure BDA0003693988520000057
成正比,这也表明利用Wm的核范数可以测度Wm的多样性。为了更好地估计权重随机初始化的ViT网络中MSA模块的突触多样性,在每个MSA模块的梯度矩阵
Figure BDA0003693988520000058
(L为损失函数)上进一步考虑上述步骤。
总的来说,对第l个MSA模块中权重参数的突触多样性定义如下:
Figure BDA0003693988520000059
为了验证MSA的突触多样性与给定ViT结构的测试精度之间的正相关关系,对从AutoFormer搜索空间中采样的100个ViT网络进行完整的训练,得到其对应的MSA模块的分类性能和突触多样性。它们之间的Kentall’sτ相关系数为0.65,如图3中a图所示。表明MSA的突触多样性与每个输入ViT结构的性能之间的正相关联系。
2)MLP的突触显著性:
模型剪枝对于CNN领域已经取得了很多进展,并开始在Transformer上得到应用。目前已经有几种有效的CNN剪枝方法被提出用来衡量早期训练阶段模型权重的重要性。主要存在一下两种方法:1.测量在初始化状态下衡量突触的显著性用于CNN模型的剪枝。2.由于Transformer中不同模块即使在初始化阶段也有不同程度的冗余,可以通过对不同大小的Transformer进行剪枝。与剪枝相似,TAS主要搜索几个重要维度,包括注意力头数量、MSA和MLP比值等。受这些剪枝领域的启发,本发明中尝试使用突触显著性来评估不同的ViT。然而,由于MSA和MLP对剪枝的敏感性不同,因此有必要进一步分析剪枝敏感性对度量ViT中不同模块的影响。目前已被证明的是MSA中很大比例的权重是冗余的,这写冗余的全汇总对模型的性能影响很小。这一点也侧面反映突触显著性可能在MSA和MLP中表现出不同的属性。
为进一步分析MSA和MLP对剪枝的敏感性不同对评估ViT模型的影响,通过剪枝敏感性实验给出一些定量结果。如图3中b图所示,从AutoFormer搜索空间中随机抽样5个ViT结构,分析MSA和MLP对剪枝的敏感性。观察到,MLP对修剪比MSA更敏感。对PiT搜索空间进行分析,得到类似的观察结果(图3中c图)。此外,采用MSA和MLP模块上的突触显著性作为代理,分别计算代理ViT基准上的Kendall’sτ相关性系数。最终结果表明,在MLP上突触显著性的Kendall’sτ为0.47,优于MSA(0.24)、MLP和MSA(0.41)。
由于突触显著性通常以总和的形式计算,冗余的权重往往带来负面的累积效应。MSA模块对剪枝不敏感,说明MSA的权值参数具有较高的冗余性。在剪枝领域中被证明冗余权参数的值要比非冗余权参数的值小得多。尽管这些冗余参数的值相对较小,但超过50%的冗余往往会产生较大的累积效应,尤其是在区分相似的ViT结构时。对于累积效应,一般的零成本代理中不加区分的将MSA的冗余权重参数考虑在内来衡量显著性,导致相应的零成本代理中的累加形式存在MSA的累积效应。累积效应可能会使零成本代理给差的网络更高的排名。同时,权重冗余对MLP模块突触显著性的影响较小,因此可以作为评估MLP模块权重次数秩的复杂性的一个指标,从一个方面指示模型的优劣。
为了评估ViT中的MLP,基于突触显著性设计评估的代理指标。在网络剪枝中,对模型权值的重要性进行了广泛的研究。由于神经网络主要由卷积层组成,有几种基于剪枝的零成本代理可以直接用于测量神经网络的突触显著性。另一方面,ViT体系结构主要由MLP和MSA模块组成,它们具有不同的剪枝特性。通过对MSA和MLP模块的剪枝敏感性分析,验证MLP模块对剪枝更加敏感。因此,突触显著性可以更好地反映MLP模块中权重重要性的差异。相比之下,MSA模块对剪枝相对不敏感,其突触显著性往往受到冗余权重的影响。
基于MLP的修剪敏感性,建议以模块化的方式测量突触显著性。具体来说,所提出的模块化策略测量了作为ViT结构的一个重要部分的MLPs的突触显著性。给定一个ViT结构,第l个MLP模块的显著性得分为:
Figure BDA0003693988520000061
其中n为指定ViT网络中第l个MLP的线性层数,通常设置为2。图3中的a图显示一些定性结果,以验证
Figure BDA0003693988520000062
在评估ViT结构方面的有效性。
3)无训练的TAS:
基于上述分析,本发明设计一种基于模块化策略的无训练TAS(TF-TAS),以进一步提高搜索ViT的效率。如图2所示,提出的模块化策略将ViT体系结构的零成本代理评价分为两个部分考虑,最终形成TF-indicator。
结合MSA的突触多样性和MLP的突触显著性评分,给定一个结构A可以得到TF-indicator的定义如下:
Figure BDA0003693988520000071
总的来说,TF-indicator从两个不同的维度评估每个ViT结构。TF-TAS在输入模型经过一个前向传播和后向更新后计算STF,作为相应的ViT模型的代理分数。保持模型的输入数据的每个像素为1,以消除输入数据对权重计算的影响。因此,STF对随机种子具有不变性,与真实的图片输入数据无关。
具体来说,本发明中的TF-TAS在给定一个指定的模型大小约束后,首先在相应的ViT搜索空间中随机抽样100个子模型结构构成基础结构集合。然后,计算基础结构集合中的结构中MSA的突触多样性评分和MLP的突触显著性评分作为各子模型结构性能评估的依据。通过结合突触多样性评分和突触显著性评分计算各ViT体系结构的TF-indicator作为结构的代理分数,选取基础结构中代理分数最高的前50个模型结构进行交叉变异的操作后,得到100个新的子模型结构替换基础结构集合。循环迭代以上步骤100次后,选取基础结构集合代理分数最高的模型结构作为最终的搜索结果。最后对搜索到的最优网络进行重新训练,获得最终的测试精度。
在AutoFormer与PiT搜索空间上基于3个经典的数据集上进行实验,ImageNet,CIFAR-10和CIFAR-100。
实验结果参见表2~4。
表2 AutoFormer搜索空间上基于ImageNet数据集的结果
Figure BDA0003693988520000072
Figure BDA0003693988520000081
表3 PiT搜索空间上基于ImageNet数据集的结果
Figure BDA0003693988520000082
表4 CIFAR-10/100上的迁移结果
Figure BDA0003693988520000083
表2展示在AutoFormer搜索空间上基于ImageNet数据集的结果,表3展示在PiT搜索空间上基于ImageNet数据集的结果,表4展示在ImageNet数据集上搜索到的结构迁移到Cifar10/100上的结果,实验的评测度量为分类准确率。通过实验结果对比可以看出,本发明平衡搜索效率和搜索结果,极大地提高TAS的搜索效率:与现有同类算法的24个GPU天数相比,本发明寻找相对最优的ViT结构只需要0.5个GPU天。
本发明提供一种无训练的Transformer结构搜索方法,以模块化的方式从两个维度分别衡量Transformer中不同模块的不同性质:多头注意力模块(Multi-head Self-Attention,MSA)中的突触多样性和多层感知机模块(Multi-Layer Perceptron,MLP)中的突触显著性,作为评估模型的代理指标,称为TF-indicator。通过进化搜索结合TF-indicator的方式设计一种有效的无训练Transformer结构搜索方案(Training-freeTransformer Architecture Search,TF-TAS)对不同的Transformer结构进行评估搜索最优结构,在保证搜索结果的同时有效的提高搜索Transformer结构的效率。
上述实施例仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等,均应仍归属于本发明的专利涵盖范围之内。

Claims (5)

1.一种无训练Transformer结构搜索方法,其特征在于包括以下步骤:
1)在给定的ViT搜索空间中随机采样子模型结构作为基础结构集合,并对采样到的基础结构集合中的MSA和MLP模块进行模块化分析,即分别计算MSA的突触多样性评分和MLP的突触显著性评分;
2)依据MSA的突触多样性评分和MLP的突触显著性评分,计算基础结构集合中的各ViT模型结构的绩效指标TF-indicator;
3)将绩效指标TF-indicator作为评估相应的ViT模型的代理分数,选取代理分数最高的模型结构进行交叉和变异的操作后,得到新的子模型结构更新步骤1)中的基础结构集合;
4)循环迭代以上步骤,选取基础结构集合代理分数最高的模型结构作为最终的搜索结果。
2.如权利要求1所述一种无训练Transformer结构搜索方法,其特征在于在步骤1)中,所述计算MSA的突触多样性评分,将MSA模块中权重参数的秩作为评价ViT结构的指标;对第l个MSA模块中权重参数的突触多样性定义为:
Figure FDA0003693988510000011
其中,Wm为MSA模块的权值参数矩阵,m表示MSA模块中第m个线性层;
Figure FDA0003693988510000014
表示每个MSA模块的梯度矩阵,L为损失函数;‖Wmnuc为Wm的核范数。
3.如权利要求1所述一种无训练Transformer结构搜索方法,其特征在于在步骤1)中,所述MLP的突触显著性评分,基于MLP的修剪敏感性,以模块化的方式测量突触显著性,给定一个ViT结构,第l个MLP模块的显著性得分为:
Figure FDA0003693988510000012
其中,n为指定ViT网络中第l个MLP的线性层数。
4.如权利要求1所述一种无训练Transformer结构搜索方法,其特征在于在步骤2)中,计算各ViT模型结构的绩效指标TF-indicator的具体步骤为:结合MSA的突触多样性和MLP的突触显著性评分,给定一个结构A得到TF-indicator的定义如下:
Figure FDA0003693988510000013
TF-indicator从两个不同的维度评估每个ViT结构,TF-TAS将采样到的模型以每个像素为1构成的虚拟图像数据作为输入数据,经过一个前向传播和后向更新后计算STF,作为相应的ViT模型的代理分数。
5.如权利要求1所述一种无训练Transformer结构搜索方法,其特征在于在步骤3)中,所述交叉和变异的操作的具体步骤为:交叉是对给定的两个ViT结构按照0.4的比例互相交换部分结构,变异是对给定的单个ViT结构按照0.2的比例随机的替换该ViT的部分结构。
CN202210673432.3A 2022-06-14 2022-06-14 一种无训练Transformer结构搜索方法 Pending CN114926319A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210673432.3A CN114926319A (zh) 2022-06-14 2022-06-14 一种无训练Transformer结构搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210673432.3A CN114926319A (zh) 2022-06-14 2022-06-14 一种无训练Transformer结构搜索方法

Publications (1)

Publication Number Publication Date
CN114926319A true CN114926319A (zh) 2022-08-19

Family

ID=82814976

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210673432.3A Pending CN114926319A (zh) 2022-06-14 2022-06-14 一种无训练Transformer结构搜索方法

Country Status (1)

Country Link
CN (1) CN114926319A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116051964A (zh) * 2023-03-30 2023-05-02 阿里巴巴(中国)有限公司 深度学习网络确定方法、图像分类方法及设备
CN116258405A (zh) * 2023-02-08 2023-06-13 南京农业大学 一种基于双路网络的母猪体况自动评分系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116258405A (zh) * 2023-02-08 2023-06-13 南京农业大学 一种基于双路网络的母猪体况自动评分系统
CN116258405B (zh) * 2023-02-08 2024-02-02 南京农业大学 一种基于双路网络的母猪体况自动评分系统
CN116051964A (zh) * 2023-03-30 2023-05-02 阿里巴巴(中国)有限公司 深度学习网络确定方法、图像分类方法及设备

Similar Documents

Publication Publication Date Title
US11836451B2 (en) Dialogue state tracking using a global-local encoder
CN114926319A (zh) 一种无训练Transformer结构搜索方法
US8108328B2 (en) Neural network based hermite interpolator for scatterometry parameter estimation
CN113537600B (zh) 一种全过程耦合机器学习的中长期降水预报建模方法
EP3979143A1 (en) Method of performing splitting in neural network model by means of multi-core processor, and related product
Sibanda et al. Novel application of Multi-Layer Perceptrons (MLP) neural networks to model HIV in South Africa using Seroprevalence data from antenatal clinics
CN111767791A (zh) 一种基于对抗正则化深度神经网络的到达角估计方法
CN111047078B (zh) 交通特征预测方法、系统及存储介质
CN109117943B (zh) 利用多属性信息增强网络表征学习的方法
CN114925270B (zh) 一种会话推荐方法和模型
CN116363423A (zh) 面向小样本学习的知识蒸馏方法、装置及存储介质
CN106569954A (zh) 一种基于kl散度的多源软件缺陷预测方法
Choudhary et al. FuNVol: multi-asset implied volatility market simulator using functional principal components and neural SDEs
Cai et al. EST-NAS: An evolutionary strategy with gradient descent for neural architecture search
CN116596915A (zh) 基于多尺度特征和长距离依赖的盲图像质量评价方法
CN116739100A (zh) 量子神经网络的漏洞检测方法及自动驾驶漏洞检测方法
CN110728292A (zh) 一种多任务联合优化下的自适应特征选择算法
CN114969209B (zh) 训练方法及装置、预测资源消耗量的方法及装置
CN116090546A (zh) 能耗模型的训练方法、能耗表征方法及相关设备
CN115081856A (zh) 一种企业知识管理绩效评价装置及方法
CN115292509A (zh) 基于多粒度注意力网络的图立方链接预测方法
CN114595890A (zh) 基于bp-svr组合模型的船舶备件需求预测方法及系统
CN114444654A (zh) 一种面向nas的免训练神经网络性能评估方法、装置和设备
Bhat et al. InvestorRank and an inverse problem for PageRank
CN114529063A (zh) 一种基于机器学习的金融领域数据预测方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination