CN115204253A

CN115204253A - 基于分层变分条件转移神经元的跨域小样本学习方法

Info

Publication number: CN115204253A
Application number: CN202210596869.1A
Authority: CN
Inventors: 张磊; 左利云; 王宝艳; 甄先通
Original assignee: Guangdong University of Petrochemical Technology
Current assignee: Guangdong University of Petrochemical Technology
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2022-10-18

Abstract

本发明公开了一种基于分层变分条件转移神经元的跨域小样本学习方法，包括：1)构建初始记忆单元集M；2)随机初始化关键字生成网络f的参数θ、查询集推理网络g的参数φ₁、支持集推理网络g的参数φ₂；3)利用变分推理ELBO下限对所述记忆单元集M的生成过程以及所述参数θ、φ₁、φ₂进行优化；4)在所述参数θ、φ₁、φ₂训练收敛之后，利用测试数据进行测试。本发明基于分层变分条件转移神经元的跨域小样本学习方法，能够在小样本下解决跨域的偏移问题，在分布层面构建记忆单元，增强模型的泛化性能。

Description

基于分层变分条件转移神经元的跨域小样本学习方法

技术领域

本发明涉及计算机视觉领域。特别涉及一种基于分层变分条件转移神经元的跨域小样本学习方法。

背景技术

小样本学习指在每种类别样本很少的情况下学习得到性能较佳的分类器，在小样本学习中，一般将数据集分为支持集(Support)和查询集(Query)，分别用于训练和测试。如1-shot/5-way，指支持集中包含5个类别数据，每个类别只有一个训练数据。查询集中若干数据，用来测试系统性能。

在典型的小样本学习中，可以采用元学习方法，这时假设有很多个任务，每个任务有一个支持集(Support)和查询集(Query)，将多个任务划分为元训练数据(meta-train)和元测试数据(meta-test)。其中元测试数据和真实测试数据类似。而元训练数据为获取模型参数的训练数据。另外的方法是通过增加记忆单元，加快在小样本下的分类器的快速适应能力，从而达到提升分类器性能。这些方法或者是通过在记忆单元中搜索和样本类似的表征作为对样本的补充，或者将其嵌入到神经元中，对每一层神经元的激活函数做调整，使其输出不仅和本层的输入相关，还和本层的记忆单元中的数据相关。上述方法在小样本识别中对性能提升起到一定作用，其中元学习是一个框架，可以和其他方法结合，作为辅助手段进一步提升性能，而在记忆机制中，多是将训练过程用到的数据表征存放到记忆单元中，在小样本学习中加以利用。如果遇到学习或训练阶段未见或完全不一样的数据，则记忆机制将会失效。

通常的机器学习中，一般要求训练数据和测试数据分布保持一致，才能获得较佳的系统性能。而在跨域识别中，训练数据和测试数据可能来源于不同的域，任务之间的数据会存在较大的偏移，称其为domain shift，即域偏移。这种偏移会引起系统性能下降。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了基于分层变分条件转移神经元的跨域小样本学习方法，针对跨域小样本识别任务，除了要解决小样本识别中的样本数少带来的影响之外，还要解决训练数据和测试数据跨域带来的问题。

为实现上述目的，第一方面，本发明所提供的技术方案为：基于分层变分条件转移神经元的跨域小样本学习方法，包括以下步骤：

1)构建初始记忆单元集M；

2)随机初始化关键字生成网络丁的参数θ、查询集推理网络g的参数φ₁、支持集推理网络g的参数φ₂；

3)利用变分推理ELBO下限对记忆单元集M的生成过程以及参数θ、φ₁、φ₂进行优化；

4)在参数θ、φ₁、φ₂训练收敛之后，利用测试数据进行测试。

进一步，在所述步骤3)中，所述变分推理ELBO下限为

式中Q为查询集，S为支持集，m^t为t层的记忆单元，x_i为查询集中样本i，y_i为查询集中样本i对应的实际输出标签，q(m^t|S，m^t-1)为变分推理中的支持集对应的近似分布，而p(m^t|x_i，m^t-1)为查询集对应的推理分布，D_KL为支持集和查询集上关于记忆单元分布的KL距离。

进一步，所述步骤3)包括以下步骤：

3.1)对于支持集S中每一个样本i，计算支持集S的交叉熵损失函数

其中y_i为样本i的实际输出标签，

为样本i的预测输出标签；

3.2)根据支持集S每一个样本i的交叉熵损失函数，计算每一层t的分层条件信息

如下：

式中p设置为7，并且式中

3.3)对支持集中S每一个样本i，计算每一层的网络中间输出

和输出

式中W_t和b_t为第t层的基本识别模型B的参数，假设为已知；

为

的前一层的输出，

为当前层的输出；

3.4)对支持集S中每一个样本i，从t＝1开始递推生成各层的记忆单元

其中

初始设置为0；

3.5)将

按照类别c和层t，拼接成记忆单元集M；

3.6)对于查询集Q中每一个样本数据x′_i，以及支持集S中每个类别的样本特征平均值

经过关键字生成网络f，生成其对应关键字如下：

k′_i＝f_θ(x′_i)

3.7)根据记忆单元集M，按如下公式计算查询集样本x′_i的各层记忆单元：

α＝softmax(cos(k′_i，k_c))

m＝α^TM

其中记忆单元m包含T层，由[m¹...m^T]组成，α为表示查询集Q样本与支持集S中各类样本之间相关程度的系数；

3.8)对于查询集Q中的样本数据x′_i，按照如下公式得到其对应的中间输出

和预测值

3.9)计算查询集Q中的所有样本的交叉熵

3.10)将

送入查询集Q推理网络g，得到关于记忆单元的分布如下：

3.11)计算整体目标函数如下：

这望

勾根据支持集S得到的各类别c的记忆单元分布的均值和方差，

为查询集Q对应的记忆单元分布的均值和方差；

3.12)更新参数θ、φ₁、φ₂如下：

进一步，在步骤3.4)中，包括如下步骤：

3.4.1)对于支持集S中每一个类别c，将其中的每个样本的

求平均，得到这个类别c的

3.4.2)将各个类别c的

分别送入支持集推理网络g，得到关于记忆单元的分布如下：

3.4.3)对每一个类别、每一层的记忆单元的分布进行如下采样，生成对应类别c和层t的记忆单元

进一步，所述步骤4)包括以下步骤：

4.1)根据支持集S中的类别c和步骤3.5)中的记忆单元集M，生成和支持集S对应类别的记忆单元集M′；

4.2)对于查询集Q每一个样本数据x′_i，以及支持集S中每个类别的样本数据平均值

经过关键字生成网络f，生成其对应关键字如下：

k′_i＝f_θ(x′_i)

4.3)根据记忆单元集M′，按如下公式计算查询集Q样本数据x′_i的各层记忆单元：

α＝softmax(cos(k′_i，k_c))

m′_i＝α^TM′。

式中m′_i包含T层，由

组成；

4.4)根据基本识别模型B模型及其各层参数W_t和b_t，得到查询集Q每个样本数据x′_i的预测值

如下：

第二方面，本发明还提供一种电子设备，包括一个或多个处理器及存储器，所述存储器上存储有一个或多个计算机程序，当所述一个或多个处理器执行所述一个或多个计算机程序时，实现第一方面的基于分层变分条件转移神经元的跨域小样本学习方法。

第三方面，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序程序被处理器运行时实现第一方面的基于分层变分条件转移神经元的跨域小样本学习方法。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明利用变分推理网络生成记忆单元集。利用变分推理在记忆单元层面上建立数据集中的支持集和查询集之间的关联，在一定程度上消除每个任务数据差异带来的影响。

2、本发明的记忆单元集中，允许在各层的记忆单元之间建立下层到上层的单向链接，有效利用下层记忆单元中的有用信息。

本发明的基于分层变分条件转移神经元的跨域小样本学习方法，能够在小样本下解决跨域的偏移问题，在分布层面构建记忆单元，增强模型的泛化性能。

附图说明

图1为本发明的基于分层变分条件转移神经元的跨域小样本学习方法中的记忆单元集的示意图；

图2为本发明的基于分层变分条件转移神经元的跨域小样本学习方法的流程示意图；

图3为本发明的变分推理中分布之间关系示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1、图2和图3所示，本实施例所提供的基于分层变分条件转移神经元的跨域小样本学习方法，这里假设具有T层的基本识别模型B已知，即已知其每一层对应的参数W_t和b_t。本实施例包括以下步骤：

1)构建初始记忆单元集M，对于各层之间的记忆单元，允许下层向上层传递信息，生成T层的记忆单元。记忆单元集M的具体结构如附图1所示，各单元的值初始化为0。具体每一层每个记忆单元生成在步骤3.4)中描述。其中图1中的记忆单元集M是由若干层对应的记忆单元组成，假设基本神经网络(基本识别模型B)层数为T层，则每一层对应基本神经网络的相关层。由于在训练过程中支持集S中的数据有类别标签，因此在图1中对每一个类别分别建立记忆单元。图1中最大的特点在于允许低层向相邻高层传递信息，这在小样本情况下非常重要，合理利用前层的信息生成本层的记忆单元，可以在小样本下更加有效地利用可以利用的信息。在步骤3.4)的生成过程中，将变分推理引入到记忆单元中，这是利用变分推理是在分布层面建立分布之间的关联，并根据查询集Q和支持集S的数据通过各自的推理网络(Inference Network)产生记忆单元的分布，并在学习过程中使分布间距离变小，如图3所示。这种做法拉近支持集S和查询集Q的联系，在一定程度上消除每个任务数据差异带来的影响。

2)随机初始化关键字生成网络f的参数θ、查询集推理网络g的参数φ₁、支持集推理网络g的参数φ₂；这里网络f和网络g的结构都采用多层神经网络MLP结构，具体层数可以在针对不同数据动态调节。

3)在参数θ、φ₁、φ₂训练未收敛之前，利用变分推理ELBO(Evidence Lower Bound)下限对记忆单元集M的生成过程以及参数θ、φ₁、φ₂进行优化。ELBO表示如下：

其中对于所有查询集Q的数据，基本识别模型B要得到的最大似然度(即上式左边)，等价于将等式右边进行最大化。即在引入记忆单元后，在保证支持集和查询集上关于记忆单元分布的KL距离D_KL最小的前提下，保证查询集在q(m^t|S，m^t-1)分布下，关于p(y_i|x_i，m^t)的期望最大化。m^t为t层生成记忆单元，是根据查询集中的x_i和支持集数据的关键字相似度，生成记忆单元集M。

其中y_i为样本i的实际输出标签，

为样本i的预测输出标签。

如下：

式中p设置为7，并且式中

3.3)对支持集中S每一个样本i，计算每一层的网络中间输出

和输出

式中W_t和b_t为第t层的基本识别模型B的参数，假设为已知。

为

的前一层的输出。

为当前层的输出。

其中

初始设置为0。样本i产生的每一层的记忆单元

安如下过程得到：

3.4.1)对于支持集S中每一个类别c，将其中的每个样本的

求平均，得到这个类别的

3.4.2)将各个类别c的

分别送入支持集推理网络，得到关于记忆单元的分布如下：

3.5)将

安照类别c和层t，拼接成记忆单元集M。

在步骤3.5)中，允许在各层的记忆单元之间建立下层到上层的单向链接，有效利用下层记忆单元中的有用信息。这里记忆单元集M中，每一层记忆单元可以向上一层记忆单元传递信息，这对于小样本条件下更合理利用数据背后隐藏的信息尤为重要。

经过关键字生成网络f，生成其对应关键字如下：

k′_i＝f_θ(x′_i)

3.7)根据记忆单元集M，按如下公式计算查询集Q样本数据x′_i的各层记忆单元：

α＝softmax(cos(k′_i，k_c))

m＝α^TM

其中记忆单元m包含T层，由[m¹...m^T]组成，α为表示查询集Q样本与支持集S中各类样本之间相关程度的系数。

3.8)由识别模型B以及其各层参数W_t和b_t，得到查询集Q中样本数据x′_i对应的中间输出

和预测值

3.9)计算查询集Q中的所有样本的交叉烯

3.10)将

差入查询集Q推理网络g，得到关于记忆单元的分布如下：

3.11)计算整体目标函数如下：

这望

为根据支持集S得到的各类别c的记忆单元分布的均值和方差，{μ^t，σ^t}为查询集Q对应的记忆单元分布的均值和方差。

3.12)更新参数θ、φ₁、φ₂如下：

4.1)根据支持集S中的类别和步骤3.5)中训练数据对应的记忆单元集M，生成和支持集S对应类别的记忆单元集M′。

4.2)对于查询集Q每一个样本数据x′_i，以及支持集中每个类别的样本数据平均值

经过关键字生成网络f，生成其对应关键字如下：

k′_i＝f_θ(x′_i)

α＝softmax(cos(k′_i，k_c))

m′_i＝α^TM′

式中m′_i包含T层，由

组成。

4.4)根据基本识别模型B以及各层参数W_t和b_t，查询集Q每个样本数据x′_i的预测值

如下：

本发明的基于分层变分条件转移神经元的跨域小样本学习方法，利用变分推理网络生成记忆单元集M。利用变分推理在记忆单元层面上建立数据集中的支持集和查询集之间的关联，在一定程度上消除每个任务数据差异带来的影响。

本发明的电子设备，包括一个或多个处理器及存储器，存储器上存储有一个或多个计算机程序，当一个或多个处理器执行一个或多个计算机程序时，实现本发明的基于分层变分条件转移神经元的跨域小样本学习方法。

本发明的计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序程序被处理器运行时实现本发明的基于分层变分条件转移神经元的跨域小样本学习方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于分层变分条件转移神经元的跨域小样本学习方法，其特征在于，包括以下步骤：

1)构建初始记忆单元集M；

3)利用变分推理ELBO下限对所述记忆单元集M的生成过程以及所述参数θ、φ₁、φ₂进行优化；

4)在所述参数θ、φ₁、φ₂训练收敛之后，利用测试数据进行测试。

2.根据权利要求1所述的基于分层变分条件转移神经元的跨域小样本学习方法，其特征在于，在所述步骤3)中，所述变分推理ELBO下限为

3.根据权利要求1所述的基于分层变分条件转移神经元的跨域小样本学习方法，其特征在于，所述步骤3)包括以下步骤：

其中y_i为样本i的实际输出标签，

为样本i的预测输出标签；

如下：

式中p设置为7，并且式中

3.3)对支持集中S每一个样本i，计算每一层的网络中间输出

和输出

式中W_t和h_t为第t层的基本识别模型B的参数，假设为已知，

为

的前一层的输出，

为当前层的输出；

其中

初始设置为0；

3.5)将

按照类别c和层t，拼接成记忆单元集M；

经过关键字生成网络f，生成其对应关键字如下：

k′_i＝f_θ(x′_i)

α＝softmax(cos(k′_i，k_c))

和预测值

3.9)计算查询集Q中的所有样本的交叉熵

3.10)将

送入查询集Q推理网络g，得到关于记忆单元的分布如下：

3.11)计算整体目标函数如下：

这里

为根据支持集S得到的各类别c的记忆单元分布的均值和方差，{μ^t，σ^t}为查询集Q对应的记忆单元分布的均值和方差；

3.12)更新参数θ、φ₁、φ₂如下：

4.根据权利要求3所述的基于分层变分条件转移神经元的跨域小样本学习方法，其特征在于：在所述步骤3.4)中，包括以下步骤：

3.4.1)对于支持集S中每一个类别c，将其中的每个样本的

求平均，得到这个类别c的

3.4.2)将各个类别c的

分别送入支持集推理网络g，得到关于记忆单元的分布如下：

3.4.3)对每一个类别、每一层的记忆单元的分布进行如下采样，生成对应类别c和层t的记忆单元：

5.根据权利要求3所述的基于分层变分条件转移神经元的跨域小样本学习方法，其特征在于：在所述步骤4)中，包括以下步骤：

经过关键字生成网络f，生成其对应关键字如下：

k′_i＝f_θ(x′_i)

α＝softmax(cos(k′_i，k_c))

式中m′_i包含T层，由

组成；

4.4)根据基本识别模型B及每一层参数W_t和b_t，得到查询集Q每个样本数据x′_i的预测值

如下：

6.一种电子设备，其特征在于，包括一个或多个处理器及存储器，所述存储器上存储有一个或多个计算机程序，当所述一个或多个处理器执行所述一个或多个计算机程序时，实现权利要求1-5中任一项所述的基于分层变分条件转移神经元的跨域小样本学习方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序程序被处理器运行时实现权利要求1-5中任一项所述的基于分层变分条件转移神经元的跨域小样本学习方法。