CN112446423A

CN112446423A - 一种基于迁移学习的快速混合高阶注意力域对抗网络的方法

Info

Publication number: CN112446423A
Application number: CN202011258357.1A
Authority: CN
Inventors: 王蒙; 付佳伟; 马意; 郭正兵
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2021-03-05
Anticipated expiration: 2040-11-12
Also published as: CN112446423B

Abstract

本发明涉及基于迁移学习的快速混合高阶注意力域对抗网络的方法，包括：设计用于待处理图像数据集的快速混合高阶注意力和域对抗自适应网络；对源域和目标域进行预处理；将预处理的源域和目标域依次分批量导入所设计的网络，经过快速混合高阶注意力网络得到加权的特征图，然后将这些加权的精细特征图输入到域对抗自适应网络中训练，最后经全连接层进行概率运算；分别计算出源域和目标域的图像平均分类准确率；经过反向传播中梯度反转层取反梯度方向形成对抗训练，再进行迭代训练，利用在源域上训练好的快速混合高阶注意力和域对抗自适应网络，直接应用在目标域上进行图像分类。本发明提高了迁移学习中无监督域自适应网络的识别率和迁移能力。

Description

一种基于迁移学习的快速混合高阶注意力域对抗网络的方法

技术领域

本发明涉及一种基于迁移学习的快速混合高阶注意力域对抗网络的方法，属于神经网络深度学习技术领域。

背景技术

到目前为止，采用完全标注数据进行模型训练的监督学习方法已经取得了巨大的成功，并且成功地应用于许多实际应用中，例如图像识别，语音识别等。但在实际场景中收集足够的训练数据通常很昂贵，耗时并涉及大量的人力资源甚至不切实际。针对这个问题，目前一种常用的解决办法是利用容易标注的源领域中的丰富知识来促进多个标签稀缺目标领域的有效模型学习，被称为领域适应。通常，域适应包括有监督的适应(其中少量标记的目标数据可用于训练)和无监督的适应(其中不存在标记的目标数据)。在应用场景下，目标域无标签的情况更加普遍，并且针对这种情况下的无监督方法近年来也获得了一些重大的进展。因此,本文专注于处理无监督域自适应问题，该问题更具挑战性和解决现实世界中的问题实用性。

无监督域自适应专门解决有全部标记的源域数据和只包含未标记的目标域数据可在训练期间使用的情况。解决无监督域自适应的主要挑战是如何减少域不一致，这也称为域差异。域不一致是一个非常普遍的问题，它是由多种因素引起的，例如自然场景理解中存在的数据捕获角度，照明和图像质量，背景，分辨率等等。为此，在早期基于浅层模型提出了深层领域混淆方法，通过引入适应层和最大均值差域混淆损失来学习域不变表示。深度适应网络方法将任务特定的层嵌入到再现的内核希尔伯特空间中，以增强特征的可传递性。测地流核网络采用KL散度来估计域差异，并整合有限个子空间来发现新的特征表示。然而想要学习到深层模型的可迁移特征，普遍采用基于域分布间统计特性的一种方法是引入对抗学习。

近年来，对抗训练已经被引入来学习领域不变特征，并大大提高了无监督域自适应的性能。已有提出域对抗自适应(DANN)方法建议适用于域自适应的特征应具有判别性和域不变性，并增加了在特征提取器的末尾进行领域分类，以学习领域不变特征。协作与对抗网络提出使用DANN学习领域不变特征后，目标领域数据中的某些特征信息可能会丢失。因此，协作与对抗网络将一组域分类器引入到多个块中，以学习较低层块的域信息表示和较高层块的域非信息表示。对抗性区分域适应网络学习源域的表示，然后通过域对抗损失将目标数据映射到同一空间。多对抗域自适应通过捕获多模态信息来实现多对抗学习，从而基于多个域识别符实现跨域数据分布的细粒度匹配。条件域对抗网络是一种新颖的条件对抗学习框架，它以标签分类器输出中传递的区分性信息为条件，来对抗对抗传递模型，从而实现多模式结构的细粒度对齐。

尽管域对抗自适应方法已经取得了显著的成果，但它们仍然面临着一个主要的瓶颈：尽管对抗域自适应有了显著的改进，但没有考虑不同图像区域的复杂空间属性。显然，图像的不同区域不能平等地迁移。图像中的某些区域，如背景，虽然可以在特征空间中跨域对齐，但可能对域自适应贡献不大。此外，某些在特征空间中跨域明显不同的图像不应跨域强行对齐，否则可能容易受到无关知识的负面转移的影响。为此，有研究人员建议把注意力加入到对抗自适应中,提出自注意力生成对抗网络方法将自注意力加到生成对抗网络框架中，有助于对跨图像区域进行远程和多级依赖性建模.之后，在领域适应性转移注意模型中，部署了多个区域级域标识符以生成可转移的局部注意力，而单个图像级域标识符则用于生成可转移的全局注意力以强调可转移的图像。虽然，领域适应性转移注意考虑到不同图像可转移性的差异性，探索跨域更相似的图像,但是这些常用的注意力方法(即空间和通道注意力)是基于一阶空间分布判别mask，仅限于挖掘简单和粗糙的信息，它们不足以捕获复杂的高阶显著性信息。

为了解决这一局限性，在本发明中，探索使用高阶统计信息进行域匹配的好处，由于高阶统计量可以近似更复杂的非高斯分布，因此高阶矩张量匹配有望实现全面的域对齐。

发明内容

本发明的目的是针对上述已有技术存在的不足和缺陷，提供一种基于迁移学习的快速混合高阶注意力域对抗网络的方法，增强特征的可迁移性以提高模型在无监督图像分类任务中的迁移泛化能力和准确的，避免出现负迁移，解决迁移学习中无监督自适应的域不一致的问题。

本发明的技术方案是：一种基于迁移学习的快速混合高阶注意力域对抗网络的方法，所述方法包括如下步骤：

Step1：将待处理的图像数据集划分为源域和目标域；

Step2：设计用于待处理图像数据集的快速混合高阶注意力和域对抗自适应网络FHAN，该快速混合高阶注意力包括通道注意力和高阶空间注意力，域对抗自适应网络包括特征提取器G、域鉴别器D、分类器C；

Step3：对源域和目标域在输入快速混合高阶注意力和域对抗自适应网络前进行预处理；

Step4：将预处理的源域和目标域依次分批量导入所设计的快速混合高阶注意力和域对抗自适应网络，经过快速混合高阶注意力网络得到加权的特征图，然后将这些加权的精细特征图输入到域对抗自适应网络中训练，最后经全连接层进行概率运算；

Step5：分别计算出源域和目标域的图像平均分类准确率；

Step6：经过反向传播中梯度反转层取反梯度方向形成对抗训练，然后进行迭代训练，最后，利用在源域上训练好的快速混合高阶注意力和域对抗自适应网络，直接应用在目标域上进行图像分类。

进一步地，所述快速混合高阶注意力和域对抗自适应网络的详细训练步骤如下：给定一个通过ResNet-50提取的特征图F∈R^C×H×W网络，这里C,H,W仅分别表示F的通道数，高度和宽度，将其输入卷积层，为了利用特征的通道间关系，应分别使用两个不同的空间上下文描述符AvgPool(F)和MaxPool(F)汇总输入特征的空间尺寸，然后将两个描述符作为具有一个隐藏层的多层感知器MLP转发到共享网络，以生成通道注意掩码M_c(F)，将共享网络应用于每个描述符后，使用逐元素求和合并输出特征向量；最后，通过S形函数获得每个像素值的重要值；简而言之，通道注意力映射的计算公式为：

M_c(F)＝sigmoid(K_1×H×W*(AvgPool(F)+maxPool(F))) (1)

把得到通道注意力映射加权传播到特征图F上，最终通道注意力为：

从空间角度来看，通道注意力是全局性应用的，而空间注意力是局部性的，但是，这些掩模只能由空间特征的一阶统计量表示，这仅限于挖掘简单和粗糙的信息，也不足以捕获复杂的高级表示，因此，进一步采用高阶空间注意M_h(F)∈R^1×H×W，以获得特征对齐的详细高阶统计量；首先，在f∈R^C的高阶统计量f的顶部定义一个线性多项式预测变量，它表示在f的特定空间位置的局部描述符为：

其中<·,·>表示两个相同大小的张量的内积，r是阶数，

表示r阶次的外积，其中每个外积包含f中的度R单项式，而w^r是要学习的r阶张量，它包含f中阶r变量组合的权重，D^r为r组1×1卷积滤波器，α^r为权重向量，α^r,d为秩一张量的关联权重向量，

多项式特征向量，s为源域的向量阶数，d目标源的向量阶数，f为高阶统计量，z^r为r阶特征向量图，高阶空间注意力映射计算公式为：

M_h(F)＝sigmoid([m(f)；f∈F])

＝(h_σ(m(f))；f∈F) (4)

给定中间特征映射F∈R^C×H×W作为输入，依次推断出一个一维通道注意力映射M_c∈R^C×1×1和一个二维的空间注意力映射M_s∈R^1×H×W，整个快速混合注意力计算公式为:

其中

表示逐元素乘法，在乘法过程中，注意力值被传播；

为此，致力于通过组合复杂的高阶统计量来建模空间注意力机制，以捕获精确零件之间的更复杂和更高级的信息，从而使特征提取器产生更高层次的信息可传递性并区分出精细特征。

进一步地，在Step4中，利用学习到的加权的特征图和分类器C预测作为条件训练域判别器，这里采用min-max策略计算域对抗自适应损失通过如下计算公式：

其中，L_y表示交叉熵损失函数，L_d表示为域判别器损失函数，D表示域判别器，C表示分类器，α表示平衡参数，D_s为源域，D_t为目标域，y_i为源域样本个数，d_i为目标域样本个数，x_i表示为域判别器判别正确的样本个数，F_h(x_i)表示快速混合高阶注意力的特征向量，训练收敛后，快速混合高阶注意力/域判别器和C分类器三者对应的参数θ_f，θ_d，θ_c将传递函数对抗自适应损失公式的鞍点：

其中：

分别对应快速混合高阶注意力，域判别器和C分类器三者在对抗训练收敛之后的平衡靶点。

进一步地，在Step3中，所述对源域和目标域图像在输入训练快速混合注意力和域对抗自适应网络前进行预处理方法如下：首先对每张图像缩放到固定的尺寸大小，然后对于源域和目标域图像，每张图像进行归一化处理，最后，对图像的每个通道的像素值缩放到[0,1]区间。

进一步地，在Step4中，分批量导入的源域和目标域批大小均为64，训练时，目标域批大小为16。

本发明的有益效果是：

本发明在无监督域自适应图像分类过程中，有效的提高了特征的可迁移性，同时极大的提高了模型的泛化能力和分类准确度，避免了负迁移。

附图说明

图1是本发明的快速混合高阶注意力域对抗自适应网络模型；

图2是本发明的快速高阶空间注意力示意图；

图3是本发明和其他对比方法在迁移任务MNIST→USPS上的测试误差曲线。

具体实施方式

实施例1：结合附图和在数据集Digits上的无监督域自适应对发明内容做进一步说明，一种基于迁移学习的快速混合高阶注意力域对抗网络的方法，图1是本发明一个实施例的快速混合高阶注意力和域对抗自适应模型框图；

所述方法包括如下步骤：

Step1：将待处理的图像数据集划分为源域和目标域；

Step5：分别计算出源域和目标域的图像平均分类准确率；

本发明设计用于待处理图像数据集的快速混合高阶注意力和域对抗自适应网络，利用ResNet-50基本网络提取图像的特征，然后把这些特征传输到快速混合高阶注意力网络，得到加权的精细特征图；最后把这些加权的精细特征图送给域对抗自适应网络进行训练，通过不断的迭代训练，得到能够直接应用在目标域上进行图像分类模型。

M_c(F)＝sigmoid(K_1×H×W*(AvgPool(F)+maxPool(F))) (1)

图2是本发明的快速高阶空间注意力示意图，从空间角度来看，通道注意力是全局性应用的，而空间注意力是局部性的，但是，这些掩模只能由空间特征的一阶统计量表示，这仅限于挖掘简单和粗糙的信息，也不足以捕获复杂的高级表示，因此，进一步采用高阶空间注意M_h(F)∈R^1×H×W，以获得特征对齐的详细高阶统计量；首先，在f∈R^C的高阶统计量f的顶部定义一个线性多项式预测变量，它表示在f的特定空间位置的局部描述符为：

其中<·,·>表示两个相同大小的张量的内积，r是阶数，

M_h(F)＝sigmoid([m(f)；f∈F])

＝(h_σ(m(f))；f∈F) (4)

其中

表示逐元素乘法，在乘法过程中，注意力值被传播；

其中：

进一步地，在Step3中，所述对源域和目标域图像在输入训练快速混合注意力和域对抗自适应网络前进行预处理方法如下：首先对每张图像缩放到固定的尺寸大小，然后对于源域和目标域图像，每张图像进行归一化处理，最后，对图像的每个通道的像素值缩放到[0,1]区间，以此提高网络训练时的准确率。

本发明主要是一种基于迁移学习的快速混合高阶注意力域对抗网络的方法，其将设计的快速混合高阶注意力与域对抗自适应网络结合。该方法采用混合高阶注意力机制对提取的特征进行加权，从而可以有效地消除不可转让特征的影响。该方法仅匹配从整个图像中提取的特征跨域通过考虑不同区域或图像的可传递性，进一步开发了复杂的多峰结构信息，以实现更精细的特征匹配。对Digits基准数据集的实验证明了该方法的可行性和有效性。

本发明有着广泛的应用领域，例如在迁移学习，应用于不同数据集跨域迁移下的任务训练中，通过对源域数据集学习权重的更新保存，可以实现跨域数据集的迁移，提升迁移的有效性，同时这些跨域任务的学习是无监督的，能减少了海量的数据标注成本。在未来人工智能时代下，对“智慧”大脑的发展也有所帮助，减少神经网络冗余复杂的麻烦，一个神经网络能学习多个知识并把学到知识迁移到另一个领域。本发明的实验过程中，使用系统Ubuntu18.04，采用硬件CPU为i78700k 3.7GHz×6，编程语言为python3.6，显卡为英伟达GeForce RTX 2070，深度学习框架为Pytorch1.2。

该实施所述模型在数字Digits数据集上验证本发明的有效性，Digits数据集：数字手写体(MNIST)，邮政数字(USPS)和街景房门号码(SVHN)是一个用于图像识别域自适应的标准数据集。这三个数据集都包含10个类别的数字，范围从0到9。和USPS分别包含28×28和16×16灰度图像，SVHN由32×32彩色图像组成，每个图像中可能包含多个数字。采用具有三个迁移任务的评估协议：USPS→MNIST，MNIST→USPS，SVHN→MNIST。

图3是本发明和其他对比方法在迁移任务MNIST→USPS上的测试误差曲线。可以看出，提出的HMAN-1的收敛速度比DAN快，而HMAN-3的性能优于HMAN-1。值得注意的是，在对抗训练开始时，HMAN-3的性能具有与HMAN-6类似的稳定收敛性能，而HMAN-6的性能明显优于HMAN-3在整个收敛过程中。因此，随着阶数的上升训练的进行，逐渐在源域和目标域之间学习了更细粒度的特征，并且HMAN-6的性能优于其他方法。以上发现证实本发明的模型可以平稳，快速地实现最小的测试误差，从而实现更好的域传输。

表1为本发明和其他比较方法在Digits数据集上的实验结果。本发明在大多数域自适应任务上取得了最好的准确率，清楚地观察到在实验中，本发明的方法在MNIST→USPS，USPS→MNIST和SVHN→MNIST上的性能明显优于基本模型DANN，提高到14.9％，9％，和19.7％。从结果可以看出，本发明的方法可以胜过最新的方法3CATN。本发明分别在MNIST→USPS，USPS→MNIST和SVHN→MNIST上实现了0.9\％，0.4\％和1.1\％的精度改进。平均值就准确性而言，与最新的3CATN方法相比，本发明可以提高1.2\％。本发明的模型从图像中提取出前景中关键目标的精细特征，训练方法进一步学习了可以传递和区分的更精细的特征表示，这进一步证明了本发明在迁移任务过程中学习更多可迁移特征的有效性。

表1为本发明和其他比较方法在Digits数据集上的实验结果

综上，根据本发明实施例的一种基于迁移学习的快速混合高阶注意力域对抗网络的方法是一种具有混合式高阶注意力机制的新型对抗学习方法。与以前的方法不同，它仅匹配跨域的全局要素表示，这可能导致负迁移。该方法利用混合的高阶注意力机制对提取的特征进行加权，可以有效消除不可转移特征的影响。在这种方法中，只有从整个图像中提取的特征才跨域匹配。通过考虑不同区域或图像的传递性，可以进一步开发复杂的多峰结构信息，以实现更精确的特征匹配。在基准数据集上的综合实验表明了该方法的可行性和有效性。

与现有的其他方法相比，本例的实施通过使用对抗增量聚类动态路由网络的模型，然后通过对旋转任务的训练进行参数调整，找到使得训练精度最高的参数。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于迁移学习的快速混合高阶注意力域对抗网络的方法，其特征在于：所述方法包括如下步骤：

Step1：将待处理的图像数据集划分为源域和目标域；

Step2：设计用于待处理图像数据集的快速混合高阶注意力和域对抗自适应网络，该快速混合高阶注意力包括通道注意力和高阶空间注意力，域对抗自适应网络包括特征提取器G、域鉴别器D、分类器C；

Step5：分别计算出源域和目标域的图像平均分类准确率；

2.根据权利要求1所述的基于迁移学习的快速混合高阶注意力域对抗网络的方法，其特征在于：所述快速混合高阶注意力和域对抗自适应网络的详细训练步骤如下：给定一个通过ResNet-50提取的特征图F∈R^C×H×W网络，这里C,H,W仅分别表示F的通道数，高度和宽度，将其输入卷积层，为了利用特征的通道间关系，应分别使用两个不同的空间上下文描述符AvgPool(F)和MaxPool(F)汇总输入特征的空间尺寸，然后将两个描述符作为具有一个隐藏层的多层感知器MLP转发到共享网络，以生成通道注意掩码M_c(F)，将共享网络应用于每个描述符后，使用逐元素求和合并输出特征向量；最后，通过S形函数获得每个像素值的重要值；简而言之，通道注意力映射的计算公式为：

M_c(F)＝sigmoid(K_1×H×W*(AvgPool(F)+maxPool(F))) (1)

其中<·,·>表示两个相同大小的张量的内积，r是阶数，

M_h(F)＝sigmoid([m(f)；f∈F])

＝(h_σ(m(f))；f∈F) (4)

其中

表示逐元素乘法，在乘法过程中，注意力值被传播；

3.根据权利要求1所述的基于迁移学习的快速混合高阶注意力域对抗网络的方法，其特征在于：在Step4中，利用学习到的加权的特征图和分类器C预测作为条件训练域判别器，这里采用min-max策略计算域对抗自适应损失通过如下计算公式：

其中：

4.根据权利要求1所述的基于迁移学习的快速混合高阶注意力域对抗网络的方法，其特征在于：在Step3中，所述对源域和目标域图像在输入训练快速混合注意力和域对抗自适应网络前进行预处理方法如下：首先对每张图像缩放到固定的尺寸大小，然后对于源域和目标域图像，每张图像进行归一化处理，最后，对图像的每个通道的像素值缩放到[0,1]区间。

5.根据权利要求1所述的基于迁移学习的快速混合高阶注意力域对抗网络的方法，其特征在于：在Step4中，分批量导入的源域和目标域批大小均为64，训练时，目标域批大小为16。