CN112801029B

CN112801029B - 基于注意力机制的多任务学习方法

Info

Publication number: CN112801029B
Application number: CN202110182158.5A
Authority: CN
Inventors: 邢德旺; 刘兆英; 张婷; 李玉鑑
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2024-05-28
Anticipated expiration: 2041-02-09
Also published as: CN112801029A

Abstract

本发明公开了基于注意力机制的多任务学习方法，具体步骤包括：(1)使用全局共享特征池提取图像特征；(2)使用注意力机制提取特定任务的特征；(3)将注意力机制提取的特征进行解码，使其适应于该任务；(4)对模型进行训练；(5)利用训练模型生成多任务学习结果。本发明方法大多为在共享特征池后进行分流，这样会使得共享特征利用不充分，无法利用低层次特征，最终使得效果偏差。本发明利用vgg16特征提取网络作为共享特征池，并在共享特征池中多次利用注意力机制提取低、中、高层次特征，充分利用了特征池中的各个特征。大大解决了特征利用不充分的问题，为机器视觉的发展奠定了基础。

Description

基于注意力机制的多任务学习方法

技术领域

本发明属于多任务学习和计算机视觉领域，涉及图像识别、语义分割、目标检测等任务，尤其涉及一种基于注意力机制的多任务学习方法。

背景技术

近年来，卷积神经网络在许多计算机视觉方面的任务上取得了巨大的成功，包括图像分类、语义分割、风格转换等。例如在2012年，Alex等人提出的AlexNet网络在ImageNet大赛上以远超第二名的成绩夺冠，在2014年的ILSVRC比赛中，VGG在Top-5中取得了92.3％的正确率。同年的冠军是googlenet。与此同时，目标检测和语义分割领域的算法层出不穷，推动着图像识别技术快速发展。FCN和SSD网络在语音分割和目标检测任务上分别取得了令人满意的成绩。然而，这些网络是典型的单任务网络，只能实现特定的任务。对于在真实场景下应用的大多数计算机视觉系统，按照传统的方法是针对每个任务建立适合该任务的网络，每个网络有不同的输入和输出，没有相互影响。这就带来了很多问题，首先参数量是成倍增长，虽说可以对每个网络进行优化，但是参数量还是很大。其次如果同时进行多个任务的运行需要同时运行多个网络，这对内存的消耗非常大。最后从数据集的角度说，每个任务需要不同的数据集，由于任务间没有共享，训练一组网络往往需要更大的数据集。因此，建立可以同时执行多个任务的网络比建立一组独立的网络要更可取。这不仅对内存和运算速度来说是一个有效的提升，在能利用更少的数据得到更好的准确率，因为相关的任务可能共享更有用的视觉特征。多任务学习用于同时学习多个相关任务，通过联合学习，它既保持了任务间的差异性又充分利用其相关性，从而从整体上提高所有任务的学习性能。

因此，本发明针对舰船目标的识别问题，研究多任务深度卷积神经网络的目标识别方法。通过多任务学习和共享卷积特征以提高舰船目标的识别性能。在此基础上引入注意力机制，有效地在参数共享的基础上筛选出对特定任务更为有效的特征，同时抑制对该任务没有帮助的特征，最终实现舰船目标的识别。本文的成果可以为舰船目标的识别问题提供重要的技术参考，具有重要的军事意义和应用价值。

发明内容

1、基于注意力机制的多任务学习方法，其特征在于：该方法包括如下步骤，

步骤1：构建舰船数据集。舰船数据集来源于CNSS海事服务网，称为数据集D，舰船数据集舰船图像为I_m，类别标签为x_m，语义标签为y_m，目标检测框为z_m；分割标签y_m为使用Labelme进行精准标注的灰度图像，目标检测框z_m为使用LabelImg进行精准标注的xml文件；数据集D共包含M类舰船的N幅图像，将数据集D划分为训练集D_t和测试集D_s；训练集D_t包含N_t幅图像，测试集D_s包含N_s幅图像；m为图像的序号数；

步骤2：构建主干网络。选择VGG-16的前13层作为主干网络，该主干网络由5个卷积块组成；前两个卷积块中各包含两个卷积层，后三个卷积块中各包含三个卷积层，卷积层表示为C_i-j，其中i表示当前是第几个卷积块，j表示当前卷积层是该卷积块中的第几个卷积层；每个卷积块后有一个池化层；主干网络的输入为彩色的舰船图像I_i∈R^h×w×3(1<i<N_t)，其中h和w分别表示图像的高度和宽度，3表示图像的通道个数；主干网络不做任何输出，由各个任务对应的注意力机制来做输出。

步骤3：在主干网络中添加注意力机制。主干网络中有5个卷积块，因此本发明中每个任务的注意力机制包含5个注意力掩膜。注意力掩膜实现将全局特征池中的前后特征进行连接和融合。

步骤4：建立损失函数。为每个任务建立损失函数：交叉熵是建立在熵的基础上表示两种概率分布之间的差异的一种度量方法。交叉熵损失函数常用于分类任务中，尤其是在神经网络分类问题中使用更为普遍。分类任务的损失函数L_cla为网络实际输出概率P_c与标签值y_c的交叉熵，表示为：

其中K为类别数量；P_c为网络预测的该图像属于类别c的概率。y_c是ont-hot格式的标签，也就是如果类别是c，则y_c＝1，否则等于0；语义分割任务同分类任务类似，其损失函数L_seg为实际输出特征图O_seg与真实标签值y_seg的逐像素交叉熵损失，其中O_seg和y_seg为h×w的二维向量，表示为：

其中1<p<h,1<q<w；y_seg中的所有值为0或1。

在计算目标检测的损失函数时，首先需要计算网络预测层输出的每个点的预测框和真实框的交并比，若交并比大于设定的阈值，就可以认为这个预测框与真实框标记的类别相同，认为这是一个正例，否则就认为这个框是负例，指向背景。所有正例组成的集合叫Pos，所有负例组成的集合为Neg。因此目标检测损失函数由两部分组成，一方面来自于预测框与真实框位置的损失L_loc，另一方面来自于该框预测的类别置信度的损失L_conf，总的损失为两个损失加权和，表示为：

其中N是匹配的先验框的数量(就是正负样本的数量之和)，位置损失L_loc是预测框(l)和真实标签值框(g)参数之间的smooth_L1损失

其中中a是预选框序号，b是真实框序号，p是类别序号，当p＝0时为背景，则/>表示第a个预测框与第b个真实框关于类别k是否匹配，若匹配则该值为1，否则为0。

smooth_L1是做光滑处理之后的L1范数损失函数，其计算公式如下：

表示预测框相对于第b个真实框在m方向上的偏移量，其中m∈{cx，cy，w，h}，计算公式分别如下：

其中g_a代表真实框，即图片中目标的位置，分别为cx、cy、h、w，d_a表示预测框。

由分类任务中的交叉熵公式可得置信度计算中的交叉熵损失函数：

其中p(x_c)为真实框属于第c类的概率，q(x_c)表示预测框属于第c类的概

率，计算置信损失L_conf由下面公式计算得出：

其中，表示第a个预测框对应类别c的预测概率，/>表示第a个预测框属于背景的概率。

计算完三个任务的损失之后，网络的总损失为三个损失函数的加和：

L_mtl＝L_cla+L_seg+L_obj

步骤5：网络训练。设置迭代次数、学习率超参数，将训练集D_t输入网络，使用随机梯度下降算法对网络参数进行迭代更新，直到损失收敛，保存最终的模型。

步骤6：网络测试。加载保存的模型，利用测试集D_s测试各个任务，输入单幅图像I_i∈R^h×w×3(1<i<N_t)，获得3个输出out₁、out2、out3；out1为维度为K的向量，其中K为类别数；out2为维度为(h，w)的向量；out3为维度为(K，nm，5)的向量，其中nm表示输出前n×m个置信度最大的框，5表示[cx,cy,h,w,conf]，其中conf为这个预测框是该类别的置信度。根据以上三个输出，对out1取最大值索引即可获得预测类别，使用opencv将out2显示为灰度图即可获得预测的分割图，对out3中取出所有类别中最大置信度的框合并到输入图像中即可获得目标检测检测框和类别。

2、根据权利要求1所述的基于注意力机制的多任务学习方法，其特征在于：步骤3中，包括如下步骤，步骤3.1：每个卷积块中的第一个和最后一个卷积层的输出将做为该任务注意力掩膜的输入，并且该注意力掩膜将这两个输入进行连接。任务1注意力机制A₁的第一个注意力掩膜接收主干网络第一个卷积块的两个输出out_1-1和out_1-2，假设该掩膜中的两个函数为f_1-1和f_1-2，f_1-1中包含的层顺序为卷积层、batchnorm层、relu激活层、卷积层、batchnorm层、sigmoid层，即：

f_1-1(x)＝sigmoid(bn(conv(relu(bn(conv(x))))))

其中conv表示卷积计算，bn表示batchnorm计算，sigmoid和relu分别表示不同的激活函数；f_1-2将f_1-1的结果和out_1-2进行逐元素相乘后进行卷积和池化运算，即

f_1-2(x)＝maxpool(conv(f_1-1(x)*out_1-2)))

其中maxpool表示最大池化计算，*表示逐元素相乘。

步骤3.2：下一个注意力掩膜通过结合主干网络中的部分输出和上一个掩膜的输出来达到特征融合的目的。结合下一个掩膜输入结果

R_cat(x)＝concat(f_1-2(x)，out_2-1，dim＝1)

其中concat为拼接函数，接收一个dim参数来指定拼接维度；则第二个掩膜的输入为：R_cat(x)、out_2-2，此时计算方法同第一个掩膜。后续的3个掩膜同第二个掩膜方法类似，且后续的3个掩膜的输入分别为：R_cat(x)和out_3-3、R_cat(x)和out_4-3、R_cat(x)和out_5-3。其中R_cat(x)为上一个掩膜的输出；

步骤3.3：由于实现目标检测、语义分割、分类3个任务，在注意力机制结构设计上构建3个上述注意力机制。假设注意力机制A₁对应分类任务，将A₁的输出A_1-out输入到分类器classifier中，分类器为全连接层结构，将所有神经元全连接到c个神经元中产生每个类别的概率；注意力机制A₂对应语义分割任务，将A₂的输出A_2-out输入到分割解码网络seg中，解码网络主要使用上采样方法，将特征图还原成原始输入大小，在应用softmax就能产生和原始图像一样大小的二维概率矩阵；注意力机制A₃对应目标检测任务，将A₃的输出A_3-out输入到检测网络obj中，利用辅助卷积层分别提取不同大小的目标特征进行检测和识别。

附图说明

图1为原始图像。

图2为骨干网络结构。

图3为网络整体结构。

图4为测试结果图。

具体实施方式

其中1<p<h,1<q<w；y_seg中的所有值为0或1。

率，计算置信损失L_conf由下面公式计算得出：

L_mtl＝L_cla+L_seg+L_obj

步骤6：网络测试。加载保存的模型，利用测试集D_s测试各个任务，输入单幅图像I_i∈R^h×w×3(1<i<N_t)，获得3个输出out₁、out2、out3；out1为维度为K的向量，其中K为类别数；out2为维度为(h，w)的向量；out3为维度为(K，nm，5)的向量，其中nm表示输出前n×m个置信度最大的框，5表示[cx,cy,h,w,conf]，其中conf为这个预测框是该类别的置信度。根据以上三个输出，对out1取最大值索引即可获得预测类别，使用opencv将out2显示为灰度图即可获得预测的分割图，如附图4(a)所示。对out3中取出所有类别中最大置信度的框合并到输入图像中即可获得目标检测检测框和类别，如附图4(b)所示。

f_1-1(x)＝sigmoid(bn(conv(relu(bn(conv(x))))))

f_1-2(x)＝maxpool(conv(f_1-1(x)*out_1-2)))

其中maxpool表示最大池化计算，*表示逐元素相乘。

R_cat(x)＝concat(f_1-2(x)，out_2-1，dim＝1)

以上实例仅用于描述本发明，而非限制本发明所描述的技术方案。因此，一切不脱离本发明精神和范围的技术方案及其改进，均应涵盖在本发明的权利要求范围中。

Claims

1.基于注意力机制的多任务学习方法，其特征在于：该方法包括如下步骤，

步骤1：构建舰船数据集；舰船数据集来源于CNSS海事服务网，称为数据集D，舰船数据集舰船图像为I_m，类别标签为x_m，语义标签为y_m，目标检测框为z_m；分割标签y_m为使用Labelme进行精准标注的灰度图像，目标检测框z_m为使用LabelImg进行精准标注的xml文件；数据集D共包含M类舰船的N幅图像，将数据集D划分为训练集D_t和测试集D_s；训练集D_t包含N_t幅图像，测试集D_s包含N_s幅图像；m为图像的序号数；

步骤2：构建主干网络；选择VGG-16的前13层作为主干网络，该主干网络由5个卷积块组成；前两个卷积块中各包含两个卷积层，后三个卷积块中各包含三个卷积层，卷积层表示为C_i-j，其中i表示当前是第几个卷积块，j表示当前卷积层是该卷积块中的第几个卷积层；每个卷积块后有一个池化层；主干网络的输入为彩色的舰船图像I_i∈R^h×w×3，1＜i＜N_t，其中h和w分别表示图像的高度和宽度，3表示图像的通道个数；主干网络不做任何输出，由各个任务对应的注意力机制来做输出；

步骤3：在主干网络中添加注意力机制；主干网络中有5个卷积块，因此本发明中每个任务的注意力机制包含5个注意力掩膜；注意力掩膜实现将全局特征池中的前后特征进行连接和融合；

步骤4：建立损失函数；为每个任务建立损失函数：交叉熵是建立在熵的基础上表示两种概率分布之间的差异的一种度量方法；分类任务的损失函数L_cla为网络实际输出概率P_c与标签值y_c的交叉熵，表示为：

其中K为类别数量；P_c为网络预测的图像属于类别c的概率；y_c是ont-hot格式的标签，也就是如果类别是c，则y_c＝1，否则等于0；语义分割任务同分类任务类似，损失函数L_seg为实际输出特征图O_seg与真实标签值y_seg的逐像素交叉熵损失，其中O_seg和y_seg为h×w的二维向量，表示为：

其中1＜p＜h，1＜q＜w；y_seg中的所有值为0或1；

在计算目标检测的损失函数时，首先需要计算网络预测层输出的每个点的预测框和真实框的交并比，若交并比大于设定的阈值，认为这个预测框与真实框标记的类别相同，认为这是一个正例，否则就认为这个框是负例，指向背景；所有正例组成的集合叫Pos，所有负例组成的集合为Neg；因此目标检测损失函数由两部分组成，一方面来自于预测框与真实框位置的损失L_loc，另一方面来自于该框预测的类别置信度的损失L_eonf，总的损失为两个损失加权和，表示为：

其中N是匹配的先验框的数量，位置损失L_loc是预测框l和真实标签值框g参数之间的smooth_L1损失

其中中a是预选框序号，b是真实框序号，p是类别序号，当p＝0时为背景，则/>表示第a个预测框与第b个真实框关于类别k是否匹配，若匹配则该值为1，否则为0；

其中g_a代表真实框，即图片中目标的位置，分别为cx、cy、h、w，d_a表示预测框；

其中p(x_c)为真实框属于第c类的概率，q(x_c)表示预测框属于第c类的概率，计算置信损失L_conf由下面公式计算得出：

其中，表示第a个预测框对应类别c的预测概率，/>表示第a个预测框属于背景的概率；

L_mtl＝L_cla+L_seg+L_obj

步骤5：网络训练；设置迭代次数、学习率超参数，将训练集D_t输入网络，使用随机梯度下降算法对网络参数进行迭代更新，直到损失收敛，保存最终的模型；

步骤6：网络测试；加载保存的模型，利用测试集D_s测试各个任务，输入单幅图像I_i∈R^h ^×w×3，1＜i＜N_t，获得3个输出out₁、out2、out3；out1为维度为K的向量，其中K为类别数；out2为维度为(h，w)的向量；out3为维度为(K，nm，5)的向量，其中nm表示输出前n×m个置信度最大的框，5表示[cx，cy，h，w，conf]，其中conf为这个预测框是该类别的置信度；根据以上三个输出，对outl取最大值索引即可获得预测类别，使用opencv将out2显示为灰度图即可获得预测的分割图，对out3中取出所有类别中最大置信度的框合并到输入图像中即可获得目标检测检测框和类别。

2.根据权利要求1所述的基于注意力机制的多任务学习方法，其特征在于：步骤3中，包括如下步骤，步骤3.1：每个卷积块中的第一个和最后一个卷积层的输出将做为该任务注意力掩膜的输入，并且该注意力掩膜将这两个输入进行连接；任务1注意力机制A₁的第一个注意力掩膜接收主干网络第一个卷积块的两个输出out_1-1和out_1-2，假设该掩膜中的两个函数为f_1-1和f_1-2，f_1-1中包含的层顺序为卷积层、batchnorm层、relu激活层、卷积层、batchnorm层、sigmoid层，即：

f_1-1(x)＝sigmoid(bn(conv(relu(bn(conv(x))))))

f_1-2(x)＝maxpool(conv(f_1-1(x)*out_1-2)))

其中maxpool表示最大池化计算，*表示逐元素相乘；

步骤3.2：下一个注意力掩膜通过结合主干网络中的部分输出和上一个掩膜的输出来达到特征融合的目的；结合下一个掩膜输入结果

R_cat(x)＝concat(f_1-2(x)，out_2-1，dim＝1)

其中concat为拼接函数，接收一个dim参数来指定拼接维度；则第二个掩膜的输入为：R_cat(x)、out_2-2，此时计算方法同第一个掩膜；后续的3个掩膜同第二个掩膜方法类似，且后续的3个掩膜的输入分别为：R_cat(x)和out_3-3、R_cat(x)和out_4-3、R_cat(x)和out_5-3；其中R_cat(x)为上一个掩膜的输出；

步骤3.3：由于实现目标检测、语义分割、分类3个任务，在注意力机制结构设计上构建3个上述注意力机制；假设注意力机制A₁对应分类任务，将A₁的输出A_1-out输入到分类器classifier中，分类器为全连接层结构，将所有神经元全连接到c个神经元中产生每个类别的概率；注意力机制A₂对应语义分割任务，将A₂的输出A_2-out输入到分割解码网络seg中，解码网络主要使用上采样方法，将特征图还原成原始输入大小，在应用softmax就能产生和原始图像一样大小的二维概率矩阵；注意力机制A₃对应目标检测任务，将A₃的输出A_3-out输入到检测网络obj中，利用辅助卷积层分别提取不同大小的目标特征进行检测和识别。