CN115115830A - 一种基于改进Transformer的家畜图像实例分割方法 - Google Patents
一种基于改进Transformer的家畜图像实例分割方法 Download PDFInfo
- Publication number
- CN115115830A CN115115830A CN202210537811.XA CN202210537811A CN115115830A CN 115115830 A CN115115830 A CN 115115830A CN 202210537811 A CN202210537811 A CN 202210537811A CN 115115830 A CN115115830 A CN 115115830A
- Authority
- CN
- China
- Prior art keywords
- livestock
- mask
- embedding
- model
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 244000144972 livestock Species 0.000 title claims abstract description 74
- 230000011218 segmentation Effects 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 11
- 230000003321 amplification Effects 0.000 claims abstract description 9
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 9
- 230000000694 effects Effects 0.000 claims abstract description 7
- 238000001514 detection method Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 10
- 238000000513 principal component analysis Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 230000004807 localization Effects 0.000 claims description 4
- 238000013526 transfer learning Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- 238000009827 uniform distribution Methods 0.000 claims 1
- 238000012544 monitoring process Methods 0.000 description 8
- 238000003709 image segmentation Methods 0.000 description 4
- 238000007792 addition Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000009395 breeding Methods 0.000 description 2
- 230000001488 breeding effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 239000006002 Pepper Substances 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于改进Transformer的家畜图像实例分割方法,包括以下步骤:步骤S1:获取高质量的家畜图像,进行标注和图像数据扩增,构建训练集;步骤S2:基于多尺度可变形注意力模块和统一查询表示模块对目标检测网络DETR进行改进,从而构建基于改进Transformer的家畜图像实例分割模型;步骤S3:根据训练集对基于Transformer的家畜图像实例分割模型进行训练,得到训练好的分割模型;步骤S4:根据训练好的分割模型对待检测家畜图像数据进行处理,获得实例分割效果。本发明可以有效地解决原始Transformer结构直接用于家畜图像分割时模型训练比较困难、分割性能不佳的问题。
Description
技术领域
本发明涉及家畜图像实例分割技术领域,尤其涉及一种基于改进Transformer的家畜图像实例分割方法。
背景技术
家畜信息监测是家畜规模化养殖的关键环节。对家畜的健康状况、行为、生理和心理状态等多方面的信息进行监测有利于强化养殖场的科学管理,改善动物福利,提高家畜产品的生产效率和产品品质。传统的家畜信息监测技术往往采用人工观察法或接触式传感器,成本较高,不适用于大规模养殖。近年来,计算机视觉技术在家畜信息监测方面逐渐展现出了独特的优势,它可以提供一种无接触、自动化的方式来满足家畜信息日常监测的需求,成本较低且人力负担小,也不会造成家畜受伤和应激反应。
计算机视觉技术应用于家畜信息监测任务时,需要对家畜图像进行分析和理解,达成此目标的前提和基础是家畜图像实例分割,后续步骤中家畜目标对象的特征提取建立在分割出的图像区域上。因此,图像分割质量的优劣对于实现家畜信息的精准监测起着决定性作用。传统的家畜图像实例分割方法大多基于卷积神经网络,近年来,有部分方法试图将Transformer结构迁移到图像分割领域。然而,基于Transformer的家畜图像实例方法存在一系列问题,如下:
(1)Transformer结构直接用于计算机视觉任务时,模型的运算量较大,训练比较困难;
(2)在Transformer的原始结构之外简单地增加一个掩码预测分支以实现图像实例分割的操作会使模型无法从原先任务的学习中受益,得到的分割性能不佳。
发明内容
针对上述现有技术的不足,本发明提供了一种基于改进Transformer的家畜图像实例分割方法,用以解决原始Transformer结构直接用于家畜图像分割时模型训练比较困难、分割性能不佳的问题。
为实现上述目的,本发明采用如下技术方案:
一种基于改进Transformer的家畜图像实例分割方法,包括以下步骤:
步骤S1:获取高质量的家畜图像,进行标注和图像数据扩增,构建训练集;
步骤S2:基于多尺度可变形注意力模块和统一查询表示模块对目标检测网络DETR进行改进,从而构建基于改进Transformer的家畜图像实例分割模型。该模型包含三个主要部分,一个用以提取多尺度图像特征图的主干卷积神经网络(CNN),一个编码器-解码器架构的改进Transformer和一个生成最终预测结果的统一查询表示模块;
步骤S3:根据训练集对基于Transformer的家畜图像实例分割模型进行训练,得到训练好的分割模型;
步骤S4:根据训练好的分割模型对待检测家畜图像数据进行处理,获得实例分割效果。
进一步地,在所述步骤S1中,通过养殖场中的高清摄像头采集家畜监控视频,以各个家畜出现的场景均衡分布的原则筛选视频关键帧,获得宽和高相等的尺寸统一的高质量原始图像。将原始图像标注后进行图像数据扩增处理,所述图像数据扩增处理使用的图像数据增强方法包括几何变换、灰度和彩色空间变换以及添加噪声和滤波。扩增后的家畜图像数据集以6:2:2的比例划分为训练集、验证集和测试集。
进一步地,所述步骤S2具体包括:
步骤S21:构建多尺度可变形注意力模块,以多尺度可变形注意力替换DETR的Transformer中编码器的自注意力和解码器的交叉注意力。设多尺度可变形注意力模块的输出结果为MSDAttn,MSDAttn的计算公式如下:
其中,表示输入的多尺度特征图。具体地,l∈[1,L]表示特征图所在层数的索引,由于原始DETR仅采用单尺度特征,因此对于主干网络提取的不同尺度的图像特征图,除了位置嵌入,还额外加入了一个可学习的尺度嵌入以区分不同的特征层。与原始Transformer计算注意力时对全局位置进行密集采样不同,本模块计算注意力时仅在每个特征层的每个注意力头部采样K个位置(K<<HlWl),m∈[1,M]表示注意力头部的索引,k∈[1,K]表示采样点的索引。采样点是由参考点加上可学习的位置偏移得到的,公式中为归一化的参考点坐标,由查询嵌入qi经过可学习的线性投射层再由sigmoid函数处理后得出,i∈[1,Nq]表示查询嵌入的索引,Nq为预先设定的远大于图像中待分割的家畜目标个数的值。Δpmlki表示位置偏移,由于不同的特征层的尺寸可能不同,因此归一化的参考点坐标与位置偏移相加得出采样点坐标之前需要通过运算还原成第l层中参考点的实际坐标。Amlki表示归一化的注意力权重,Wm、W′m为多头注意力中的可学习权重。
步骤S22:构建统一查询表示模块,即在DETR的预测头部分增加一个与原有类别预测分支和定位分支相平行的掩码嵌入预测分支,从而使Transformer解码器输出的查询嵌入可以统一表征以及并行地完成分类、定位和掩码嵌入预测这三个子任务,模型在训练也可以从多任务学习中受益。掩码嵌入预测分支是一个三层的带有ReLU激活函数的多层感知机(MLP),最终输出预测的掩码嵌入。由于查询嵌入是一维的,当其直接用于表征二维的原始掩码时存在维度上的鸿沟,影响分割性能,因此新增的分支预测的是一维的掩码嵌入而非原始掩码,在模型训练时需要将原始掩码转换为掩码嵌入,预测时需要将掩码嵌入转换为原始掩码。本模块采用主成分分析(PCA)的编码方式进行掩码嵌入与原始二维掩码之间的相互转换。设掩码向量为v,v的维度为d,原始掩码为m,m的尺寸为N×N,通过PCA将m降维的计算公式如下:
f=argmin‖m-DDTm||2,s.t.DDT=I
v=mD,m=vDT
进一步地,在所述步骤S2中,基于Transformer的家畜图像实例分割模型总的损失函数公式如下:
Loss=λcls·Lcls+λbox·Lbox+λmask·Lmask
其中,λcls、λbox、λmask为分类、定位和掩码嵌入预测三个损失的不同权重,分别为1.5、3.75、2.25。
进一步地,所述步骤S3具体包括:
步骤S31:采用迁移学习的思想,利用网络上公开的大型数据集上预训练好的模型权重对本网络中的权重进行初始化,以加快训练时间,降低网络模型的收敛难度。
步骤S32:使用Adam优化器对模型进行训练,训练至网络收敛以获得模型的最优参数,得到训练好的基于Transformer的家畜图像实例分割模型。
步骤S33:训练完成后,使用步骤S1中的测试集样本对训练完成后的基于Transformer的家畜图像实例分割模型进行测试,验证模型的效果。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:
1.本发明构建了一种多尺度可变形注意力模块,代替原始Transformer中编码器的自注意力模块和解码器的交叉注意力模块,可以在融合多尺度的图像特征的同时显著减少模型计算注意力时的运算量,从而提高模型训练和推理的速度。
2.本发明对DETR的预测头部分进行改进,构建了一种统一查询表示模块将家畜实例的类别、位置和掩码以统一的查询嵌入表示,使模型能够从多任务学习中受益,从而可以并行地完成家畜实例的分类、定位和掩码嵌入预测这三个子任务,并改善查询嵌入直接用于掩码预测时性能不佳的问题。
附图说明
为了便于本领域技术人员理解,下面结合附图对本发明作进一步的说明。
图1是本发明的实施流程图;
图2是本发明实施例中基于改进Transformer的家畜图像实例分割模型的架构图。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
请参照图1,本发明提供一种基于改进Transformer的家畜图像实例分割方法,包括以下步骤:
步骤S1:获取高质量的家畜图像,进行标注和图像数据扩增,构建训练集;
在本实施例中,以高清红外枪型摄像机作为采集设备,在西北农林科技大学畜牧教学试验基地采集畜舍室内和室外全天多时段不同行为状态下家畜的监控视频。以FFmpeg软件提取视频关键帧,并进行人为筛选,去除过于黯淡和模糊不清的家畜图像,同时保证室内外家畜样本数量分布均衡,室内外图像的比例为1:1,得到的图像以512×512的尺寸统一保存。获得高质量的家畜图像后,使用开源的标注软件Labelme对图像进行标注。随后,对标注的图像进行图像数据扩增处理,所述图像数据扩增处理使用的图像数据增强方法包括几何变换、灰度和彩色空间变换以及添加噪声和滤波,本实施例中,几何变换包括随机旋转、镜像翻转;灰度和彩色空间变换包括随机亮度、对比度和颜色空间变换,添加噪声和滤波包括随机添加高斯和椒盐噪声、随机锐化和模糊。扩增后的家畜图像数据集以6:2:2的比例划分为训练集、验证集和测试集。
步骤S2:基于多尺度可变形注意力模块和统一查询表示模块对目标检测网络DETR进行改进,从而构建基于改进Transformer的家畜图像实例分割模型。该模型包含三个主要部分,一个用以提取多尺度图像特征图的主干卷积神经网络(CNN),一个编码器-解码器架构的改进Transformer和一个生成最终预测结果的统一查询表示模块,模型的架构如图2所示;
步骤S3:根据训练集对基于Transformer的家畜图像实例分割模型进行训练,得到训练好的分割模型;
步骤S4:根据训练好的分割模型对待检测家畜图像数据进行处理,获得实例分割效果。
在本实施例中,所述步骤S2具体包括:
步骤S21:构建多尺度可变形注意力模块,以多尺度可变形注意力替换DETR的Transformer中编码器的自注意力和解码器的交叉注意力。设多尺度可变形注意力模块的输出结果为MSDAttn,MSDAttn的计算公式如下:
其中,表示输入的多尺度特征图。具体地,l∈[1,L]表示特征图所在层数的索引,由于原始DETR仅采用单尺度特征,因此对于主干网络提取的不同尺度的图像特征图,除了位置嵌入,还额外加入了一个可学习的尺度嵌入以区分不同的特征层。本实施例使用ResNet-50作为主干网络,提取尺寸为512×512的输入图像在C3~C5层的特征图,并将C5经步长为2的3×3卷积处理作为C6层,共提取4个层级的特征图,特征图的通道数均为256,相应设置L=4。与原始Transformer计算注意力时对全局位置进行密集采样不同,本模块计算注意力时仅在每个特征层的每个注意力头部采样K个位置(K<<HlWl),m∈[1,M]表示注意力头部的索引,k∈[1,K]表示采样点的索引,本实施例设置M=8,K=4。采样点是由参考点加上可学习的位置偏移得到的,公式中为归一化的参考点坐标,由查询嵌入qi经过可学习的线性投射层再由sigmoid函数处理后得出,i∈[1,Nq]表示查询嵌入的索引,Nq为预先设定的远大于图像中待分割的家畜目标个数的值,本实施例设置Nq=50。Δpmlki表示位置偏移,由于不同的特征层的尺寸可能不同,因此归一化的参考点坐标与位置偏移相加得出采样点坐标之前需要通过运算还原成第l层中参考点的实际坐标。Amlki表示归一化的注意力权重,Wm、W′m为多头注意力中的可学习权重。
步骤S22:构建统一查询表示模块,即在DETR的预测头部分增加一个与原有类别预测分支和定位分支相平行的掩码嵌入预测分支,从而使Transformer解码器输出的查询嵌入可以统一表征以及并行地完成分类、定位和掩码嵌入预测这三个子任务,模型在训练也可以从多任务学习中受益。掩码嵌入预测分支是一个三层的带有ReLU激活函数的多层感知机(MLP),最终输出预测的掩码嵌入。由于查询嵌入是一维的,当其直接用于表征二维的原始掩码时存在维度上的鸿沟,影响分割性能,因此新增的分支预测的是一维的掩码嵌入而非原始掩码,在模型训练时需要将原始掩码转换为掩码嵌入,预测时需要将掩码嵌入转换为原始掩码。本模块采用主成分分析(PCA)的编码方式进行掩码嵌入与原始二维掩码之间的相互转换。设掩码向量为v,v的维度为d,原始掩码为m,m的尺寸为N×N,通过PCA将m降维的计算公式如下:
f=argmin‖m-DDTm||2,s.t.DDT=I
v=mD,m=vDT
本实施例中设置N=512,d=256。
进一步地,在所述步骤S2中,基于Transformer的家畜图像实例分割模型总的损失函数公式如下:
Loss=λcls·Lcls+λbox·Lbox+λmask·Lmask
其中,λcls、λbox、λmask为分类、定位和掩码嵌入预测三个损失的不同权重,分别为1.5、3.75、2.25。本实施例中,分类和定位损失的计算公式保持与DETR一致,掩码嵌入损失使用L1损失函数计算,计算公式如下:
在本实施例中,所述步骤S3具体包括:
步骤S31:采用迁移学习的思想,利用网络上公开的大型数据集上预训练好的模型权重对本网络中的权重进行初始化,以加快训练时间,降低网络模型的收敛难度。本实施例采用Microsoft COCO数据集进行模型的迁移学习。
步骤S32:使用Adam优化器对模型进行训练,本实施例中,设置β1=0.9,β2=0.999,权重衰减为10-4,初始学习率为2×10-4,衰减系数为0.95,衰减速度为5个周期,模型训练时批数据量(Batch size)设置为32。训练至网络收敛以获得模型的最优参数,得到训练好的基于Transformer的家畜图像实例分割模型。
步骤S33:训练完成后,使用步骤S1中的测试集样本对训练完成后的基于Transformer的家畜图像实例分割模型进行测试,验证模型的效果。在本实施例中,使用AP,AP50,AP75三种指标对测试结果进行评估。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
Claims (5)
1.一种基于改进Transformer的家畜图像实例分割方法,其特征在于,包括以下步骤:
步骤S1:获取高质量的家畜图像,进行标注和图像数据扩增,构建训练集;
步骤S2:基于多尺度可变形注意力模块和统一查询表示模块对目标检测网络DETR进行改进,从而构建基于改进Transformer的家畜图像实例分割模型。该模型包含三个主要部分,一个用以提取多尺度图像特征图的主干卷积神经网络(CNN),一个编码器-解码器架构的改进Transformer和一个生成最终预测结果的统一查询表示模块;
步骤S3:根据训练集对基于Transformer的家畜图像实例分割模型进行训练,得到训练好的分割模型;
步骤S4:根据训练好的分割模型对待检测家畜图像数据进行处理,获得实例分割效果。
2.根据权利要求1所述的基于改进Transformer的家畜图像实例分割方法,其特征在于,所述高质量的家畜图像的获取需要采集家畜监控视频并以各个家畜出现的场景均衡分布的原则筛选关键帧,所述图像数据扩增处理使用的图像数据增强方法包括几何变换、灰度和彩色空间变换以及添加噪声和滤波。
3.根据权利要求1所述的基于改进Transformer的家畜图像实例分割方法,其特征在于,所述步骤S2具体包括:
步骤S21:构建多尺度可变形注意力模块,以多尺度可变形注意力替换DETR的Transformer中编码器的自注意力和解码器的交叉注意力。设多尺度可变形注意力模块的输出结果为MSDAttn,MSDAttn的计算公式如下:
其中,表示输入的多尺度特征图。具体地,l∈[1,L]表示特征图所在层数的索引,由于原始DETR仅采用单尺度特征,因此对于主干网络提取的不同尺度的图像特征图,除了位置嵌入,还额外加入了一个可学习的尺度嵌入以区分不同的特征层。与原始Transformer计算注意力时对全局位置进行密集采样不同,本模块计算注意力时仅在每个特征层的每个注意力头部采样K个位置(K<<HlWl),m∈[1,M]表示注意力头部的索引,k∈[1,K]表示采样点的索引。采样点是由参考点加上可学习的位置偏移得到的,公式中为归一化的参考点坐标,由查询嵌入qi经过可学习的线性投射层再由sigmoid函数处理后得出,i∈[1,Nq]表示查询嵌入的索引,Nq为预先设定的远大于图像中待分割的家畜目标个数的值。Δpmlki表示位置偏移,由于不同的特征层的尺寸可能不同,因此归一化的参考点坐标与位置偏移相加得出采样点坐标之前需要通过运算还原成第l层中参考点的实际坐标。Amlki表示归一化的注意力权重,Wm、W′m为多头注意力中的可学习权重。
步骤S22:构建统一查询表示模块,即在DETR的预测头部分增加一个与原有类别预测分支和定位分支相平行的掩码嵌入预测分支,从而使Transformer解码器输出的查询嵌入可以统一表征以及并行地完成分类、定位和掩码嵌入预测这三个子任务,模型在训练也可以从多任务学习中受益。掩码嵌入预测分支是一个三层的带有ReLU激活函数的多层感知机(MLP),最终输出预测的掩码嵌入。由于查询嵌入是一维的,当其直接用于表征二维的原始掩码时存在维度上的鸿沟,影响分割性能,因此新增的分支预测的是一维的掩码嵌入而非原始掩码,在模型训练时需要将原始掩码转换为掩码嵌入,预测时需要将掩码嵌入转换为原始掩码。本模块采用主成分分析(PCA)的编码方式进行掩码嵌入与原始二维掩码之间的相互转换。设掩码向量为v,v的维度为d,原始掩码为m,m的尺寸为N×N,通过PCA将m降维的计算公式如下:
f=argmin‖m-DDTm||2,s.t.DDT=I
v=mD,m=vDT
4.根据权利要求3所述的基于改进Transformer的家畜图像实例分割方法,其特征在于,基于Transformer的家畜图像实例分割模型总的损失函数公式如下:
Loss=λcls·Lcls+λbox·Lbox+λmask·Lmask
其中,λcls、λbox、λmask为分类、定位和掩码嵌入预测三个损失的不同权重,分别为1.5、3.75、2.25。
5.根据权利要求1所述的基于改进Transformer的家畜图像实例分割方法,其特征在于,所述步骤S3具体包括:
步骤S31:采用迁移学习的思想,利用网络上公开的大型数据集上预训练好的模型权重对本网络中的权重进行初始化,以加快训练时间,降低网络模型的收敛难度。
步骤S32:使用Adam优化器对模型进行训练,训练至网络收敛以获得模型的最优参数,得到训练好的基于Transformer的家畜图像实例分割模型。
步骤S33:训练完成后,使用步骤S1中的测试集样本对训练完成后的基于Transformer的家畜图像实例分割模型进行测试,验证模型的效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210537811.XA CN115115830A (zh) | 2022-05-17 | 2022-05-17 | 一种基于改进Transformer的家畜图像实例分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210537811.XA CN115115830A (zh) | 2022-05-17 | 2022-05-17 | 一种基于改进Transformer的家畜图像实例分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115115830A true CN115115830A (zh) | 2022-09-27 |
Family
ID=83326100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210537811.XA Pending CN115115830A (zh) | 2022-05-17 | 2022-05-17 | 一种基于改进Transformer的家畜图像实例分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115115830A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115953665A (zh) * | 2023-03-09 | 2023-04-11 | 武汉人工智能研究院 | 一种目标检测方法、装置、设备及存储介质 |
CN117191821A (zh) * | 2023-11-03 | 2023-12-08 | 山东宇影光学仪器有限公司 | 一种基于Deformable-DAB-DETR的高透光菲涅尔透镜实时检测方法 |
CN117372701A (zh) * | 2023-12-07 | 2024-01-09 | 厦门瑞为信息技术有限公司 | 基于Transformer的交互式图像分割方法 |
CN117830874A (zh) * | 2024-03-05 | 2024-04-05 | 成都理工大学 | 一种多尺度模糊边界条件下的遥感目标检测方法 |
-
2022
- 2022-05-17 CN CN202210537811.XA patent/CN115115830A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115953665A (zh) * | 2023-03-09 | 2023-04-11 | 武汉人工智能研究院 | 一种目标检测方法、装置、设备及存储介质 |
CN115953665B (zh) * | 2023-03-09 | 2023-06-02 | 武汉人工智能研究院 | 一种目标检测方法、装置、设备及存储介质 |
CN117191821A (zh) * | 2023-11-03 | 2023-12-08 | 山东宇影光学仪器有限公司 | 一种基于Deformable-DAB-DETR的高透光菲涅尔透镜实时检测方法 |
CN117191821B (zh) * | 2023-11-03 | 2024-02-06 | 山东宇影光学仪器有限公司 | 一种基于Deformable-DAB-DETR的高透光菲涅尔透镜实时检测方法 |
CN117372701A (zh) * | 2023-12-07 | 2024-01-09 | 厦门瑞为信息技术有限公司 | 基于Transformer的交互式图像分割方法 |
CN117372701B (zh) * | 2023-12-07 | 2024-03-12 | 厦门瑞为信息技术有限公司 | 基于Transformer的交互式图像分割方法 |
CN117830874A (zh) * | 2024-03-05 | 2024-04-05 | 成都理工大学 | 一种多尺度模糊边界条件下的遥感目标检测方法 |
CN117830874B (zh) * | 2024-03-05 | 2024-05-07 | 成都理工大学 | 一种多尺度模糊边界条件下的遥感目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | Evaluation of fish feeding intensity in aquaculture using a convolutional neural network and machine vision | |
Militante et al. | Plant leaf detection and disease recognition using deep learning | |
CN107316307B (zh) | 一种基于深度卷积神经网络的中医舌图像自动分割方法 | |
CN115115830A (zh) | 一种基于改进Transformer的家畜图像实例分割方法 | |
Huang et al. | Development and validation of a deep learning algorithm for the recognition of plant disease | |
Lin et al. | The pest and disease identification in the growth of sweet peppers using faster R-CNN and mask R-CNN | |
Joshi et al. | Ricebios: Identification of biotic stress in rice crops using edge-as-a-service | |
CN114359727A (zh) | 基于轻量级优化Yolo v4的茶叶病害识别方法及系统 | |
CN112529149B (zh) | 一种数据处理方法及相关装置 | |
Silver et al. | In vino veritas: Estimating vineyard grape yield from images using deep learning | |
CN116091786B (zh) | 猪只估重的全息体尺自编码方法、系统、设备及存储介质 | |
CN117743975A (zh) | 山坡耕地土壤环境改良方法 | |
Monigari et al. | Plant leaf disease prediction | |
Zhang et al. | Deep learning based rapid diagnosis system for identifying tomato nutrition disorders | |
Niu et al. | YOLO-plum: A high precision and real-time improved algorithm for plum recognition | |
Chaturvedi et al. | Efficient Method for Tomato Leaf Disease Detection and Classification based on Hybrid Model of CNN and Extreme Learning Machine | |
CN117789037A (zh) | 作物生长期预测方法及装置 | |
Paçal et al. | Data-efficient vision transformer models for robust classification of sugarcane | |
McLeay et al. | Deep convolutional neural networks with transfer learning for waterline detection in mussel farms | |
CN117253192A (zh) | 用于桑蚕养殖的智能系统及方法 | |
CN116977862A (zh) | 一种植物生长阶段视频检测方法 | |
Abdulla et al. | Design a mobile application to detect tomato plant diseases based on deep learning | |
Khuwaja et al. | Sustainable Agriculture: An IoT-Based Solution for Early Disease Detection in Greenhouses | |
CN116523934A (zh) | 一种基于改进Swin-Unet的图像分割模型及其训练方法和图像分割方法 | |
Wang et al. | Strawberry ripeness classification method in facility environment based on red color ratio of fruit rind |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |