CN115204253A - 基于分层变分条件转移神经元的跨域小样本学习方法 - Google Patents
基于分层变分条件转移神经元的跨域小样本学习方法 Download PDFInfo
- Publication number
- CN115204253A CN115204253A CN202210596869.1A CN202210596869A CN115204253A CN 115204253 A CN115204253 A CN 115204253A CN 202210596869 A CN202210596869 A CN 202210596869A CN 115204253 A CN115204253 A CN 115204253A
- Authority
- CN
- China
- Prior art keywords
- layer
- sample
- cross
- query
- support set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于分层变分条件转移神经元的跨域小样本学习方法,包括:1)构建初始记忆单元集M;2)随机初始化关键字生成网络f的参数θ、查询集推理网络g的参数φ1、支持集推理网络g的参数φ2;3)利用变分推理ELBO下限对所述记忆单元集M的生成过程以及所述参数θ、φ1、φ2进行优化;4)在所述参数θ、φ1、φ2训练收敛之后,利用测试数据进行测试。本发明基于分层变分条件转移神经元的跨域小样本学习方法,能够在小样本下解决跨域的偏移问题,在分布层面构建记忆单元,增强模型的泛化性能。
Description
技术领域
本发明涉及计算机视觉领域。特别涉及一种基于分层变分条件转移神经元的跨域小样本学习方法。
背景技术
小样本学习指在每种类别样本很少的情况下学习得到性能较佳的分类器,在小样本学习中,一般将数据集分为支持集(Support)和查询集(Query),分别用于训练和测试。如1-shot/5-way,指支持集中包含5个类别数据,每个类别只有一个训练数据。查询集中若干数据,用来测试系统性能。
在典型的小样本学习中,可以采用元学习方法,这时假设有很多个任务,每个任务有一个支持集(Support)和查询集(Query),将多个任务划分为元训练数据(meta-train)和元测试数据(meta-test)。其中元测试数据和真实测试数据类似。而元训练数据为获取模型参数的训练数据。另外的方法是通过增加记忆单元,加快在小样本下的分类器的快速适应能力,从而达到提升分类器性能。这些方法或者是通过在记忆单元中搜索和样本类似的表征作为对样本的补充,或者将其嵌入到神经元中,对每一层神经元的激活函数做调整,使其输出不仅和本层的输入相关,还和本层的记忆单元中的数据相关。上述方法在小样本识别中对性能提升起到一定作用,其中元学习是一个框架,可以和其他方法结合,作为辅助手段进一步提升性能,而在记忆机制中,多是将训练过程用到的数据表征存放到记忆单元中,在小样本学习中加以利用。如果遇到学习或训练阶段未见或完全不一样的数据,则记忆机制将会失效。
通常的机器学习中,一般要求训练数据和测试数据分布保持一致,才能获得较佳的系统性能。而在跨域识别中,训练数据和测试数据可能来源于不同的域,任务之间的数据会存在较大的偏移,称其为domain shift,即域偏移。这种偏移会引起系统性能下降。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出了基于分层变分条件转移神经元的跨域小样本学习方法,针对跨域小样本识别任务,除了要解决小样本识别中的样本数少带来的影响之外,还要解决训练数据和测试数据跨域带来的问题。
为实现上述目的,第一方面,本发明所提供的技术方案为:基于分层变分条件转移神经元的跨域小样本学习方法,包括以下步骤:
1)构建初始记忆单元集M;
2)随机初始化关键字生成网络丁的参数θ、查询集推理网络g的参数φ1、支持集推理网络g的参数φ2;
3)利用变分推理ELBO下限对记忆单元集M的生成过程以及参数θ、φ1、φ2进行优化;
4)在参数θ、φ1、φ2训练收敛之后,利用测试数据进行测试。
进一步,在所述步骤3)中,所述变分推理ELBO下限为
式中Q为查询集,S为支持集,mt为t层的记忆单元,xi为查询集中样本i,yi为查询集中样本i对应的实际输出标签,q(mt|S,mt-1)为变分推理中的支持集对应的近似分布,而p(mt|xi,mt-1)为查询集对应的推理分布,DKL为支持集和查询集上关于记忆单元分布的KL距离。
进一步,所述步骤3)包括以下步骤:
式中p设置为7,并且式中
3.7)根据记忆单元集M,按如下公式计算查询集样本x′i的各层记忆单元:
α=softmax(cos(k′i,kc))
m=αTM
其中记忆单元m包含T层,由[m1...mT]组成,α为表示查询集Q样本与支持集S中各类样本之间相关程度的系数;
3.11)计算整体目标函数如下:
3.12)更新参数θ、φ1、φ2如下:
进一步,在步骤3.4)中,包括如下步骤:
3.4.3)对每一个类别、每一层的记忆单元的分布进行如下采样,生成对应类别c和层t的记忆单元
进一步,所述步骤4)包括以下步骤:
4.1)根据支持集S中的类别c和步骤3.5)中的记忆单元集M,生成和支持集S对应类别的记忆单元集M′;
4.3)根据记忆单元集M′,按如下公式计算查询集Q样本数据x′i的各层记忆单元:
α=softmax(cos(k′i,kc))
m′i=αTM′。
第二方面,本发明还提供一种电子设备,包括一个或多个处理器及存储器,所述存储器上存储有一个或多个计算机程序,当所述一个或多个处理器执行所述一个或多个计算机程序时,实现第一方面的基于分层变分条件转移神经元的跨域小样本学习方法。
第三方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序程序被处理器运行时实现第一方面的基于分层变分条件转移神经元的跨域小样本学习方法。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明利用变分推理网络生成记忆单元集。利用变分推理在记忆单元层面上建立数据集中的支持集和查询集之间的关联,在一定程度上消除每个任务数据差异带来的影响。
2、本发明的记忆单元集中,允许在各层的记忆单元之间建立下层到上层的单向链接,有效利用下层记忆单元中的有用信息。
本发明的基于分层变分条件转移神经元的跨域小样本学习方法,能够在小样本下解决跨域的偏移问题,在分布层面构建记忆单元,增强模型的泛化性能。
附图说明
图1为本发明的基于分层变分条件转移神经元的跨域小样本学习方法中的记忆单元集的示意图;
图2为本发明的基于分层变分条件转移神经元的跨域小样本学习方法的流程示意图;
图3为本发明的变分推理中分布之间关系示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1、图2和图3所示,本实施例所提供的基于分层变分条件转移神经元的跨域小样本学习方法,这里假设具有T层的基本识别模型B已知,即已知其每一层对应的参数Wt和bt。本实施例包括以下步骤:
1)构建初始记忆单元集M,对于各层之间的记忆单元,允许下层向上层传递信息,生成T层的记忆单元。记忆单元集M的具体结构如附图1所示,各单元的值初始化为0。具体每一层每个记忆单元生成在步骤3.4)中描述。其中图1中的记忆单元集M是由若干层对应的记忆单元组成,假设基本神经网络(基本识别模型B)层数为T层,则每一层对应基本神经网络的相关层。由于在训练过程中支持集S中的数据有类别标签,因此在图1中对每一个类别分别建立记忆单元。图1中最大的特点在于允许低层向相邻高层传递信息,这在小样本情况下非常重要,合理利用前层的信息生成本层的记忆单元,可以在小样本下更加有效地利用可以利用的信息。在步骤3.4)的生成过程中,将变分推理引入到记忆单元中,这是利用变分推理是在分布层面建立分布之间的关联,并根据查询集Q和支持集S的数据通过各自的推理网络(Inference Network)产生记忆单元的分布,并在学习过程中使分布间距离变小,如图3所示。这种做法拉近支持集S和查询集Q的联系,在一定程度上消除每个任务数据差异带来的影响。
2)随机初始化关键字生成网络f的参数θ、查询集推理网络g的参数φ1、支持集推理网络g的参数φ2;这里网络f和网络g的结构都采用多层神经网络MLP结构,具体层数可以在针对不同数据动态调节。
3)在参数θ、φ1、φ2训练未收敛之前,利用变分推理ELBO(Evidence Lower Bound)下限对记忆单元集M的生成过程以及参数θ、φ1、φ2进行优化。ELBO表示如下:
其中对于所有查询集Q的数据,基本识别模型B要得到的最大似然度(即上式左边),等价于将等式右边进行最大化。即在引入记忆单元后,在保证支持集和查询集上关于记忆单元分布的KL距离DKL最小的前提下,保证查询集在q(mt|S,mt-1)分布下,关于p(yi|xi,mt)的期望最大化。mt为t层生成记忆单元,是根据查询集中的xi和支持集数据的关键字相似度,生成记忆单元集M。
式中p设置为7,并且式中
3.4.3)对每一个类别、每一层的记忆单元的分布进行如下采样,生成对应类别c和层t的记忆单元
在步骤3.5)中,允许在各层的记忆单元之间建立下层到上层的单向链接,有效利用下层记忆单元中的有用信息。这里记忆单元集M中,每一层记忆单元可以向上一层记忆单元传递信息,这对于小样本条件下更合理利用数据背后隐藏的信息尤为重要。
3.7)根据记忆单元集M,按如下公式计算查询集Q样本数据x′i的各层记忆单元:
α=softmax(cos(k′i,kc))
m=αTM
其中记忆单元m包含T层,由[m1...mT]组成,α为表示查询集Q样本与支持集S中各类样本之间相关程度的系数。
3.11)计算整体目标函数如下:
3.12)更新参数θ、φ1、φ2如下:
4)在参数θ、φ1、φ2训练收敛之后,利用测试数据进行测试。
4.1)根据支持集S中的类别和步骤3.5)中训练数据对应的记忆单元集M,生成和支持集S对应类别的记忆单元集M′。
4.3)根据记忆单元集M′,按如下公式计算查询集Q样本数据x′i的各层记忆单元:
α=softmax(cos(k′i,kc))
m′i=αTM′
本发明的基于分层变分条件转移神经元的跨域小样本学习方法,利用变分推理网络生成记忆单元集M。利用变分推理在记忆单元层面上建立数据集中的支持集和查询集之间的关联,在一定程度上消除每个任务数据差异带来的影响。
本发明的基于分层变分条件转移神经元的跨域小样本学习方法,能够在小样本下解决跨域的偏移问题,在分布层面构建记忆单元,增强模型的泛化性能。
本发明的电子设备,包括一个或多个处理器及存储器,存储器上存储有一个或多个计算机程序,当一个或多个处理器执行一个或多个计算机程序时,实现本发明的基于分层变分条件转移神经元的跨域小样本学习方法。
本发明的计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序程序被处理器运行时实现本发明的基于分层变分条件转移神经元的跨域小样本学习方法。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (7)
1.基于分层变分条件转移神经元的跨域小样本学习方法,其特征在于,包括以下步骤:
1)构建初始记忆单元集M;
2)随机初始化关键字生成网络丁的参数θ、查询集推理网络g的参数φ1、支持集推理网络g的参数φ2;
3)利用变分推理ELBO下限对所述记忆单元集M的生成过程以及所述参数θ、φ1、φ2进行优化;
4)在所述参数θ、φ1、φ2训练收敛之后,利用测试数据进行测试。
3.根据权利要求1所述的基于分层变分条件转移神经元的跨域小样本学习方法,其特征在于,所述步骤3)包括以下步骤:
式中p设置为7,并且式中
3.7)根据记忆单元集M,按如下公式计算查询集Q样本数据x′i的各层记忆单元:
α=softmax(cos(k′i,kc))
其中记忆单元m包含T层,由[m1...mT]组成,α为表示查询集Q样本与支持集S中各类样本之间相关程度的系数;
3.11)计算整体目标函数如下:
3.12)更新参数θ、φ1、φ2如下:
5.根据权利要求3所述的基于分层变分条件转移神经元的跨域小样本学习方法,其特征在于:在所述步骤4)中,包括以下步骤:
4.1)根据支持集S中的类别c和步骤3.5)中的记忆单元集M,生成和支持集S对应类别的记忆单元集M′;
4.3)根据记忆单元集M′,按如下公式计算查询集Q样本数据x′i的各层记忆单元:
α=softmax(cos(k′i,kc))
6.一种电子设备,其特征在于,包括一个或多个处理器及存储器,所述存储器上存储有一个或多个计算机程序,当所述一个或多个处理器执行所述一个或多个计算机程序时,实现权利要求1-5中任一项所述的基于分层变分条件转移神经元的跨域小样本学习方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序程序被处理器运行时实现权利要求1-5中任一项所述的基于分层变分条件转移神经元的跨域小样本学习方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210596869.1A CN115204253A (zh) | 2022-05-30 | 2022-05-30 | 基于分层变分条件转移神经元的跨域小样本学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210596869.1A CN115204253A (zh) | 2022-05-30 | 2022-05-30 | 基于分层变分条件转移神经元的跨域小样本学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115204253A true CN115204253A (zh) | 2022-10-18 |
Family
ID=83577196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210596869.1A Pending CN115204253A (zh) | 2022-05-30 | 2022-05-30 | 基于分层变分条件转移神经元的跨域小样本学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115204253A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116361190A (zh) * | 2023-04-17 | 2023-06-30 | 南京航空航天大学 | 一种基于神经元相关性指导的深度学习变异测试方法 |
-
2022
- 2022-05-30 CN CN202210596869.1A patent/CN115204253A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116361190A (zh) * | 2023-04-17 | 2023-06-30 | 南京航空航天大学 | 一种基于神经元相关性指导的深度学习变异测试方法 |
CN116361190B (zh) * | 2023-04-17 | 2023-12-05 | 南京航空航天大学 | 一种基于神经元相关性指导的深度学习变异测试方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zheng et al. | Meta label correction for noisy label learning | |
CN109753992B (zh) | 基于条件生成对抗网络的无监督域适应图像分类方法 | |
Gu et al. | Stack-captioning: Coarse-to-fine learning for image captioning | |
CN109711254B (zh) | 基于对抗生成网络的图像处理方法和装置 | |
Liu et al. | Incdet: In defense of elastic weight consolidation for incremental object detection | |
CN114492574A (zh) | 基于高斯均匀混合模型的伪标签损失无监督对抗域适应图片分类方法 | |
CN111741330A (zh) | 一种视频内容评估方法、装置、存储介质及计算机设备 | |
Hara et al. | Attentional network for visual object detection | |
CN113609965B (zh) | 文字识别模型的训练方法及装置、存储介质、电子设备 | |
CN111931814A (zh) | 一种基于类内结构紧致约束的无监督对抗域适应方法 | |
Li et al. | Cross adversarial consistency self-prediction learning for unsupervised domain adaptation person re-identification | |
CN112883756A (zh) | 年龄变换人脸图像的生成方法及生成对抗网络模型 | |
CN115563327A (zh) | 基于Transformer网络选择性蒸馏的零样本跨模态检索方法 | |
CN115204253A (zh) | 基于分层变分条件转移神经元的跨域小样本学习方法 | |
Kang et al. | Reasoning visual dialog with sparse graph learning and knowledge transfer | |
CN108810551B (zh) | 一种视频帧预测方法、终端及计算机存储介质 | |
CN108509949A (zh) | 基于注意力地图的目标检测方法 | |
CN116895016A (zh) | 一种sar图像船舶目标生成与分类方法 | |
CN113033410B (zh) | 基于自动数据增强的域泛化行人重识别方法、系统及介质 | |
CN115661539A (zh) | 一种嵌入不确定性信息的少样本图像识别方法 | |
Yang et al. | NAM Net: Meta-network with normalization-based attention for few-shot learning | |
CN114298278A (zh) | 一种基于预训练模型的电工装备性能预测方法 | |
CN113553917A (zh) | 一种基于脉冲迁移学习的办公设备识别方法 | |
Li et al. | Foundation | |
Li et al. | More correlations better performance: Fully associative networks for multi-label image classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |