CN115115830A

CN115115830A - 一种基于改进Transformer的家畜图像实例分割方法

Info

Publication number: CN115115830A
Application number: CN202210537811.XA
Authority: CN
Inventors: 唐晶磊; 丁亚伟; 邵嘉燕; 史怀平; 霍迎秋
Original assignee: Northwest A&F University
Current assignee: Northwest A&F University
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-09-27

Abstract

本发明涉及一种基于改进Transformer的家畜图像实例分割方法，包括以下步骤：步骤S1：获取高质量的家畜图像，进行标注和图像数据扩增，构建训练集；步骤S2：基于多尺度可变形注意力模块和统一查询表示模块对目标检测网络DETR进行改进，从而构建基于改进Transformer的家畜图像实例分割模型；步骤S3：根据训练集对基于Transformer的家畜图像实例分割模型进行训练，得到训练好的分割模型；步骤S4：根据训练好的分割模型对待检测家畜图像数据进行处理，获得实例分割效果。本发明可以有效地解决原始Transformer结构直接用于家畜图像分割时模型训练比较困难、分割性能不佳的问题。

Description

一种基于改进Transformer的家畜图像实例分割方法

技术领域

本发明涉及家畜图像实例分割技术领域，尤其涉及一种基于改进Transformer的家畜图像实例分割方法。

背景技术

家畜信息监测是家畜规模化养殖的关键环节。对家畜的健康状况、行为、生理和心理状态等多方面的信息进行监测有利于强化养殖场的科学管理，改善动物福利，提高家畜产品的生产效率和产品品质。传统的家畜信息监测技术往往采用人工观察法或接触式传感器，成本较高，不适用于大规模养殖。近年来，计算机视觉技术在家畜信息监测方面逐渐展现出了独特的优势，它可以提供一种无接触、自动化的方式来满足家畜信息日常监测的需求，成本较低且人力负担小，也不会造成家畜受伤和应激反应。

计算机视觉技术应用于家畜信息监测任务时，需要对家畜图像进行分析和理解，达成此目标的前提和基础是家畜图像实例分割，后续步骤中家畜目标对象的特征提取建立在分割出的图像区域上。因此，图像分割质量的优劣对于实现家畜信息的精准监测起着决定性作用。传统的家畜图像实例分割方法大多基于卷积神经网络，近年来，有部分方法试图将Transformer结构迁移到图像分割领域。然而，基于Transformer的家畜图像实例方法存在一系列问题，如下：

(1)Transformer结构直接用于计算机视觉任务时，模型的运算量较大，训练比较困难；

(2)在Transformer的原始结构之外简单地增加一个掩码预测分支以实现图像实例分割的操作会使模型无法从原先任务的学习中受益，得到的分割性能不佳。

发明内容

针对上述现有技术的不足，本发明提供了一种基于改进Transformer的家畜图像实例分割方法，用以解决原始Transformer结构直接用于家畜图像分割时模型训练比较困难、分割性能不佳的问题。

为实现上述目的，本发明采用如下技术方案：

一种基于改进Transformer的家畜图像实例分割方法，包括以下步骤：

步骤S1：获取高质量的家畜图像，进行标注和图像数据扩增，构建训练集；

步骤S2：基于多尺度可变形注意力模块和统一查询表示模块对目标检测网络DETR进行改进，从而构建基于改进Transformer的家畜图像实例分割模型。该模型包含三个主要部分，一个用以提取多尺度图像特征图的主干卷积神经网络(CNN)，一个编码器-解码器架构的改进Transformer和一个生成最终预测结果的统一查询表示模块；

步骤S3：根据训练集对基于Transformer的家畜图像实例分割模型进行训练，得到训练好的分割模型；

步骤S4：根据训练好的分割模型对待检测家畜图像数据进行处理，获得实例分割效果。

进一步地，在所述步骤S1中，通过养殖场中的高清摄像头采集家畜监控视频，以各个家畜出现的场景均衡分布的原则筛选视频关键帧，获得宽和高相等的尺寸统一的高质量原始图像。将原始图像标注后进行图像数据扩增处理，所述图像数据扩增处理使用的图像数据增强方法包括几何变换、灰度和彩色空间变换以及添加噪声和滤波。扩增后的家畜图像数据集以6：2：2的比例划分为训练集、验证集和测试集。

进一步地，所述步骤S2具体包括：

步骤S21：构建多尺度可变形注意力模块，以多尺度可变形注意力替换DETR的Transformer中编码器的自注意力和解码器的交叉注意力。设多尺度可变形注意力模块的输出结果为MSDAttn，MSDAttn的计算公式如下：

其中，

表示输入的多尺度特征图。具体地，l∈[1,L]表示特征图所在层数的索引，由于原始DETR仅采用单尺度特征，因此对于主干网络提取的不同尺度的图像特征图，除了位置嵌入，还额外加入了一个可学习的尺度嵌入以区分不同的特征层。与原始Transformer计算注意力时对全局位置进行密集采样不同，本模块计算注意力时仅在每个特征层的每个注意力头部采样K个位置(K＜＜H_lW_l)，m∈[1,M]表示注意力头部的索引，k∈[1,K]表示采样点的索引。采样点是由参考点加上可学习的位置偏移得到的，公式中

为归一化的参考点坐标，由查询嵌入q_i经过可学习的线性投射层再由sigmoid函数处理后得出，i∈[1,N_q]表示查询嵌入的索引，N_q为预先设定的远大于图像中待分割的家畜目标个数的值。Δp_mlki表示位置偏移，由于不同的特征层的尺寸可能不同，因此归一化的参考点坐标

与位置偏移相加得出采样点坐标之前需要通过

运算还原成第l层中参考点的实际坐标。A_mlki表示归一化的注意力权重，W_m、W′_m为多头注意力中的可学习权重。

步骤S22：构建统一查询表示模块，即在DETR的预测头部分增加一个与原有类别预测分支和定位分支相平行的掩码嵌入预测分支，从而使Transformer解码器输出的查询嵌入可以统一表征以及并行地完成分类、定位和掩码嵌入预测这三个子任务，模型在训练也可以从多任务学习中受益。掩码嵌入预测分支是一个三层的带有ReLU激活函数的多层感知机(MLP)，最终输出预测的掩码嵌入。由于查询嵌入是一维的，当其直接用于表征二维的原始掩码时存在维度上的鸿沟，影响分割性能，因此新增的分支预测的是一维的掩码嵌入而非原始掩码，在模型训练时需要将原始掩码转换为掩码嵌入，预测时需要将掩码嵌入转换为原始掩码。本模块采用主成分分析(PCA)的编码方式进行掩码嵌入与原始二维掩码之间的相互转换。设掩码向量为v，v的维度为d，原始掩码为m，m的尺寸为N×N，通过PCA将m降维的计算公式如下：

f＝argmin‖m-DD^Tm||₂,s.t.DD^T＝I

其中

表示转换矩阵，

表示归一化矩阵。公式的目的是求出f最小时的D，则v和m之间相互转换的计算公式如下：

v＝mD,m＝vD^T

进一步地，在所述步骤S2中，基于Transformer的家畜图像实例分割模型总的损失函数公式如下：

Loss＝λ_cls·L_cls+λ_box·L_box+λ_mask·L_mask

其中，λ_cls、λ_box、λ_mask为分类、定位和掩码嵌入预测三个损失的不同权重，分别为1.5、3.75、2.25。

进一步地，所述步骤S3具体包括：

步骤S31：采用迁移学习的思想，利用网络上公开的大型数据集上预训练好的模型权重对本网络中的权重进行初始化，以加快训练时间，降低网络模型的收敛难度。

步骤S32：使用Adam优化器对模型进行训练，训练至网络收敛以获得模型的最优参数，得到训练好的基于Transformer的家畜图像实例分割模型。

步骤S33：训练完成后，使用步骤S1中的测试集样本对训练完成后的基于Transformer的家畜图像实例分割模型进行测试，验证模型的效果。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有如下有益效果：

1.本发明构建了一种多尺度可变形注意力模块，代替原始Transformer中编码器的自注意力模块和解码器的交叉注意力模块，可以在融合多尺度的图像特征的同时显著减少模型计算注意力时的运算量，从而提高模型训练和推理的速度。

2.本发明对DETR的预测头部分进行改进，构建了一种统一查询表示模块将家畜实例的类别、位置和掩码以统一的查询嵌入表示，使模型能够从多任务学习中受益，从而可以并行地完成家畜实例的分类、定位和掩码嵌入预测这三个子任务，并改善查询嵌入直接用于掩码预测时性能不佳的问题。

附图说明

为了便于本领域技术人员理解，下面结合附图对本发明作进一步的说明。

图1是本发明的实施流程图；

图2是本发明实施例中基于改进Transformer的家畜图像实例分割模型的架构图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。

请参照图1，本发明提供一种基于改进Transformer的家畜图像实例分割方法，包括以下步骤：

在本实施例中，以高清红外枪型摄像机作为采集设备，在西北农林科技大学畜牧教学试验基地采集畜舍室内和室外全天多时段不同行为状态下家畜的监控视频。以FFmpeg软件提取视频关键帧，并进行人为筛选，去除过于黯淡和模糊不清的家畜图像，同时保证室内外家畜样本数量分布均衡，室内外图像的比例为1:1，得到的图像以512×512的尺寸统一保存。获得高质量的家畜图像后，使用开源的标注软件Labelme对图像进行标注。随后，对标注的图像进行图像数据扩增处理，所述图像数据扩增处理使用的图像数据增强方法包括几何变换、灰度和彩色空间变换以及添加噪声和滤波，本实施例中，几何变换包括随机旋转、镜像翻转；灰度和彩色空间变换包括随机亮度、对比度和颜色空间变换，添加噪声和滤波包括随机添加高斯和椒盐噪声、随机锐化和模糊。扩增后的家畜图像数据集以6：2：2的比例划分为训练集、验证集和测试集。

步骤S2：基于多尺度可变形注意力模块和统一查询表示模块对目标检测网络DETR进行改进，从而构建基于改进Transformer的家畜图像实例分割模型。该模型包含三个主要部分，一个用以提取多尺度图像特征图的主干卷积神经网络(CNN)，一个编码器-解码器架构的改进Transformer和一个生成最终预测结果的统一查询表示模块，模型的架构如图2所示；

在本实施例中，所述步骤S2具体包括：

其中，

表示输入的多尺度特征图。具体地，l∈[1,L]表示特征图所在层数的索引，由于原始DETR仅采用单尺度特征，因此对于主干网络提取的不同尺度的图像特征图，除了位置嵌入，还额外加入了一个可学习的尺度嵌入以区分不同的特征层。本实施例使用ResNet-50作为主干网络，提取尺寸为512×512的输入图像在C₃～C₅层的特征图，并将C₅经步长为2的3×3卷积处理作为C₆层，共提取4个层级的特征图，特征图的通道数均为256，相应设置L＝4。与原始Transformer计算注意力时对全局位置进行密集采样不同，本模块计算注意力时仅在每个特征层的每个注意力头部采样K个位置(K＜＜H_lW_l)，m∈[1,M]表示注意力头部的索引，k∈[1,K]表示采样点的索引，本实施例设置M＝8，K＝4。采样点是由参考点加上可学习的位置偏移得到的，公式中

为归一化的参考点坐标，由查询嵌入q_i经过可学习的线性投射层再由sigmoid函数处理后得出，i∈[1,N_q]表示查询嵌入的索引，N_q为预先设定的远大于图像中待分割的家畜目标个数的值，本实施例设置N_q＝50。Δp_mlki表示位置偏移，由于不同的特征层的尺寸可能不同，因此归一化的参考点坐标

与位置偏移相加得出采样点坐标之前需要通过

f＝argmin‖m-DD^Tm||₂,s.t.DD^T＝I

其中

表示转换矩阵，

v＝mD,m＝vD^T

本实施例中设置N＝512,d＝256。

Loss＝λ_cls·L_cls+λ_box·L_box+λ_mask·L_mask

其中，λ_cls、λ_box、λ_mask为分类、定位和掩码嵌入预测三个损失的不同权重，分别为1.5、3.75、2.25。本实施例中，分类和定位损失的计算公式保持与DETR一致，掩码嵌入损失使用L1损失函数计算，计算公式如下：

公式中

为预测的掩码嵌入。

在本实施例中，所述步骤S3具体包括：

步骤S31：采用迁移学习的思想，利用网络上公开的大型数据集上预训练好的模型权重对本网络中的权重进行初始化，以加快训练时间，降低网络模型的收敛难度。本实施例采用Microsoft COCO数据集进行模型的迁移学习。

步骤S32：使用Adam优化器对模型进行训练，本实施例中，设置β₁＝0.9，β₂＝0.999，权重衰减为10^-4，初始学习率为2×10^-4，衰减系数为0.95，衰减速度为5个周期，模型训练时批数据量(Batch size)设置为32。训练至网络收敛以获得模型的最优参数，得到训练好的基于Transformer的家畜图像实例分割模型。

步骤S33：训练完成后，使用步骤S1中的测试集样本对训练完成后的基于Transformer的家畜图像实例分割模型进行测试，验证模型的效果。在本实施例中，使用AP,AP₅₀,AP₇₅三种指标对测试结果进行评估。

以上内容仅仅是对本发明结构所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于改进Transformer的家畜图像实例分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于改进Transformer的家畜图像实例分割方法，其特征在于，所述高质量的家畜图像的获取需要采集家畜监控视频并以各个家畜出现的场景均衡分布的原则筛选关键帧，所述图像数据扩增处理使用的图像数据增强方法包括几何变换、灰度和彩色空间变换以及添加噪声和滤波。

3.根据权利要求1所述的基于改进Transformer的家畜图像实例分割方法，其特征在于，所述步骤S2具体包括：

其中，

与位置偏移相加得出采样点坐标之前需要通过

f＝argmin‖m-DD^Tm||₂,s.t.DD^T＝I

其中

表示转换矩阵，

v＝mD,m＝vD^T

4.根据权利要求3所述的基于改进Transformer的家畜图像实例分割方法，其特征在于，基于Transformer的家畜图像实例分割模型总的损失函数公式如下：

Loss＝λ_cls·L_cls+λ_box·L_box+λ_mask·L_mask

5.根据权利要求1所述的基于改进Transformer的家畜图像实例分割方法，其特征在于，所述步骤S3具体包括：