CN117830788B - 一种多源信息融合的图像目标检测方法 - Google Patents

一种多源信息融合的图像目标检测方法 Download PDF

Info

Publication number
CN117830788B
CN117830788B CN202410252344.5A CN202410252344A CN117830788B CN 117830788 B CN117830788 B CN 117830788B CN 202410252344 A CN202410252344 A CN 202410252344A CN 117830788 B CN117830788 B CN 117830788B
Authority
CN
China
Prior art keywords
layer
image
target
attention
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410252344.5A
Other languages
English (en)
Other versions
CN117830788A (zh
Inventor
王学伟
刘君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weifang University of Science and Technology
Original Assignee
Weifang University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weifang University of Science and Technology filed Critical Weifang University of Science and Technology
Priority to CN202410252344.5A priority Critical patent/CN117830788B/zh
Publication of CN117830788A publication Critical patent/CN117830788A/zh
Application granted granted Critical
Publication of CN117830788B publication Critical patent/CN117830788B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/68Food, e.g. fruit or vegetables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种多源信息融合的图像目标检测方法,涉及图像目标检测技术领域,包括:S1:图像数据采集及处理;S11:复杂背景下多源信息融合的图像数据采集;S12:数据人工筛选和裁剪;S13:数据标注;S14:数据增强;S2:构建图像数据处理网络;S21:时空融合注意力网络;S22:多层编解码特征融合网络;S23:联合损失函数;S24:多源信息融合的图像目标检测方法;S3:建立评价指标。本发明综合时空融合注意力网络和多层编解码特征融合网络,形成多源信息融合的图像目标检测方法,在自建数据集上验证所提方法的有效性。

Description

一种多源信息融合的图像目标检测方法
技术领域
本发明涉及图像目标检测技术领域,具体地讲,涉及一种多源信息融合的图像目标检测方法。
背景技术
目标检测作为计算机视觉领域的研究热点,在很多工业领域和实际生活场景中发挥着重要的作用。按照网络框架的不同,目标检测算法可分为两阶段的目标检测算法和一阶段的目标检测算法。其中,两阶段的目标检测算法,如Faster R-CNN、Cascade RCNN等,其主要思想是先利用区域候选网络(RegionProposal Network, RPN)计算得到图像中的目标候选框(包含大量的前景区域和少量的背景区域),然后再对这些候选框的类别和坐标进行拟合;一阶段的目标检测算法,如YOLO、SSD、RefineDet等,其不需要区分前景区域和背景区域,而是利用预先设置好的锚框对图像中的目标进行直接预测。
无论是一阶段的目标检测算法还是两阶段的目标检测算法,在传统的做法中,只利用图像这一个模态的数据进行计算,这种做法需要收集大量的图像并对图像中物体的类别和坐标进行人工标注,数据的收集成本较高。尽管目前这种只基于图像的目标检测算法取得了良好的性能,但是随着多模态数据的出现以及基于多模态数据的研究工作的深入,这种传统的做法忽略了其他模态的数据中包含的丰富信息,造成了信息的浪费。
发明内容
本发明要解决的技术问题是提供一种多源信息融合的图像目标检测方法,针对复杂背景下多源信息融合的图像数据量不足、已有研究在复杂背景下检测效果不佳的问题,构建复杂背景下多源信息融合的图像大样本数据集,综合时空融合注意力网络和多层编解码特征融合网络,形成多源信息融合的图像目标检测方法,在自建数据集上验证所提方法的有效性。
本发明采用如下技术方案实现发明目的:
一种多源信息融合的图像目标检测方法,其特征在于,包括:S1:图像数据采集及处理;
S11:复杂背景下多源信息融合的图像数据采集;
在不同时间、不同环境、不同角度下,使用数码相机、监控摄像机或智能手机设备采集复杂背景下的图像数据,在深入分析图像文本多源信息的基础上,融合目标特征描述、目标位置信息、目标周围环节信息等知识集,构建复杂背景下多源信息融合的图像数据集;
S12:数据人工筛选和裁剪;
原始数据集中存在图像数据总样本少、不同图像数据样本分布不均衡、同种图像不同目标类型样本数量存在差距问题,因此,通过数据预处理及模型结构优化方式降低这些问题对模型性能的影响;
S13:数据标注;
在采集到的图像中,目标区域存在重叠或遮挡现象,图像标注时需要确保每个目标区域都有一个单独的标注,因此,对于重叠或遮挡的区域,使用人工经验来预估边界框应当包含的区域大小,为保证标注的正确性和权威性,图像首先被分类到其对应的一般类别,然后由不同领域的专家组分别对这些类别中的具体对象进行标注,标注完成后,由跨领域的专家组进行交叉检查,以确保标注的一致性和减少错误,这样的流程能广泛适用于多种类型的对象目标检测;
S14:数据增强;
采用水平翻转、垂直翻转、亮度变换、对比度变换和饱和度变换5种方式进行数据增强操作;
S2:构建图像数据处理网络;
S21:时空融合注意力网络;
S22:多层编解码特征融合网络;
S23:联合损失函数;
S24:多源信息融合的蔬菜病害检测方法;
S3:建立评价指标。
作为本技术方案的进一步限定,所述S21的具体流程为:
S211:以多源信息融合的图像为输入;
S212:在兼顾效率和准确性的前提下,使用骨干网络负责提取多源信息;
S213:使用两层全连接层融合多源信息特征;
S214:采用概率分类器得到图像中对象的类型。
作为本技术方案的进一步限定,所述多层编解码特征融合网络引入一个融合多层卷积的Swin-Transformer模块,使用该模块搭建多层编解码特征融合网络,设计编码器中的上采样层和解码器中的下采样层,实现对冗余信息的抑制和感兴趣特征信息的增强,为编解码序列特征提供更好的局部目标特征细节信息,其中区块聚合层在编码过程中使用,区块拓展层在解码过程中使用;
输入融合多层卷积的Swin-Transformer模块的特征前向经过由 1×1卷积、3×3卷积依次堆叠的卷积模块,每个卷积层之后都包含了BN层和ReLU激活函数;该模块通过通道维度升降操作来实现通道间信息的融合,同时保持空间维度不变;
使用多层卷积模块可充分学习复杂抽象的特征信息,提取更多的空间细节特征,并给予Swin-Transformer模块一定的结构先验;之后前向经过区块聚合层或区块拓展层,在编码和解码过程中,使用融合多层卷积的Swin-Transformer模块中的区块聚合层和区块拓展层,以实现下采样和上采样的功能;
在编码经过区块聚合层下采样或解码经过区块拓展层上采样之后将会前向输入到两层Swin-Transformer模块中,由两层Swin-Transformer Layers堆叠而成,每个STL由层归一化、局部窗口多头注意力模块、残差连接和线性层组成;在两个连续的STL中,采用基于局部窗口的多头自注意力模块,在保持全局感知力的同时,对局部区域进行更加精细的建模,从而提高模型的表达能力和性能;两个连续的STL计算公式如下:
(1)
(2)
(3)
(4)
其中:和/>表示第1个STL层的局部窗口多头注意力模块和线性层的输出;
和/>表示第2个STL层的局部窗口多头自注意力模块和线性层的输出;
WMSA(·)表示局部窗口多头注意力;
LN表示层归一化;
W(·)表示线性层;
在不重叠的局部窗口中执行多头自注意力机制,进一步提升对局部特征信息的提取,对于局部窗口多头自注意力,给定2D特征映射,其中H和W为特征的高度和宽度,C为通道数量,将X分成窗口大小为M×M的非重叠窗口,然后将每个窗口展平和转置获得特征/>,接下来,在每个非重叠窗口中,对展平特征进行多头自注意力操作,假设有k个多头自注意力,每个头的维度为/>,则计算非重叠窗口中的第k个多头自注意力计算公式如下:
(5)
其中:代表第k个多头自注意力的查询向量query;
为键向量key;
为值向量value;
为第k个多头自注意力的输出;
N代表非重叠窗口的数量;
将这k个多头注意力输出进行拼接操作之后再进行层归一化得到多头注意力输出结果,计算公式如下:
(6)
其中:Concat(·)表示拼接操作;
最后经由两层STB处理后,特征前向输入到下一阶段CSTB中,需要对特征进行整形操作:使用reshape操作将输出序列维度(1,H×W,C)转换为(H,W,C),使用transpose操作将C维度移动到第一维,得到维度为(C,H,W)的特征表示,通过这样的整形操作,将特征按照卷积层所需的格式重新排列,以便后续输入到CSTB的卷积层中。
作为本技术方案的进一步限定,所述S23的具体流程为:
S231:联合损失是分类损失、回归损失和目标感知损失的总和,计算公式如下:
(7)
其中:、/>和/>分别表示分类损失、回归损失和目标感知损失;
S232:分类损失定义为:
(8)
其中:(9)
其中:表示分类损失的归一化权重因子;
表示类别的数量;
表示第/>个先验框中待检测图像目标对象属于图像目标类别c的预测概率;
是第/>个先验框中待检测图像目标对象属于图像目标类别c的实际标签;
S233:回归损失定义为:
(10)
其中:
(11)
其中:表示平衡参数;
表示回归损失的归一化权重因子;
是第/>个先验框中待检测图像目标对象属于图像目标类别的实际标签;
表示预测的图像目标位置的坐标;
表示真实的图像目标位置的坐标;
是一个超参数;
是绝对误差值;
S234:目标感知损失定义为:
(12)
其中:表示样本总数;
代表预测的图像目标框与真实图像目标框的交并比;
表示预测置信度;
表示Sigmoid函数。
作为本技术方案的进一步限定,为了验证模型的性能,使用平均精度均值召回率、检测速度作为目标检测模型的评价指标;其中,平均精度均值使用mAP@0.5,表示在交并比阈值为0.5时,对所有类别的平均精度的平均值,检测速度表示每秒检测图像的数量,值越大检测速度越快。
与现有技术相比,本发明的优点和积极效果是:
1、摄像机捕捉到的图像目标数据包括地理信息、时间信息和环境信息等多源信息,一些与原始图像相关的辅助信息有助于图像分类,发明提出了一种时空融合注意力网络来构建多任务学习范式,通过从原始图像中提取多源信息,如时间信息、地理信息和环境信息等大量数据,同时集成纹理、颜色等特征。将提取的多源信息进行级联,并使用多层感知器来分析和推断最终的分类结果。通过大量的对比实验验证多源信息的重要性,从而提高训练模型的稳健性。利用时空融合注意力网络引入多源信息,根据图像目标类别的先验知识对图像目标进行分类。模型的输入是多源信息融合的图像,输出是图像的目标信息。这样一来,就可以选择特定图像的目标检测模型检测多源信息融合的图像中的目标位置与种类。
2、本发明提出了一种新型的多层编解码特征融合网络,该网络能够在充分提取上下文信息的同时学习明确的深层语义信息。它具有增强网络对目标特征的定位能力以及边界轮廓的提取能力的优点,更加注重保留图像原本的小尺度多源信息,与时空融合注意力网络结合,能够同时提取不同尺度的多源信息,学习到更加明确的深层语义信息。
3、本发明将融合多源信息提取超分辨特征表示的方法用于图像目标检测识别,设计检测识别模型,研究模型训练中的参数微调方法,实现目标的精准检测识别,应用领域包括工业、农业、航空等复杂背景下图像目标的检测识别,具有广泛的应用前景。
附图说明
图1为本发明的图像数据采集地示意图。
图2为本发明的数据增强效果示意图;
图2中A是原始的蔬菜病害图像,图2中B是原始的蔬菜病害图像执行水平翻转操作后的效果图;图2中C是原始的蔬菜病害图像执行垂直翻转操作后的效果图;图2中D是原始的蔬菜病害图像执行亮度变换操作后的效果图;图2中E是原始的蔬菜病害图像执行对比度变换后的效果图;图2中F是原始的蔬菜病害图像执行饱和度变换操作后的效果图。
图3为本发明的时空融合注意力网络示意图。
图4为本发明的多层编解码特征融合网络示意图;图4中(A)为融合卷积的窗口变换块流程示意图,全称为融合多层卷积的Swin Transformer Block;图4中(B)为窗口变换块的流程示意图,缩写为STB,全称为Swin Transformer Block。
图5为本发明的多源信息融合的蔬菜病害检测方法的工作流程。
图6为本发明的针对不同目标类别的检测精度对比示意图;图6中算法一、算法二和算法三分别为YOLOV7、YOLOV8和本研究提出的多源信息融合的蔬菜病害检测算法。
图7为本发明的加入时空融合注意力网络模块前后的特征注意力热图。
具体实施方式
下面结合附图,对本发明的一个具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
本发明包括:
S1:图像数据采集及处理;
S11:复杂背景下多源信息融合的图像数据采集;
图像数据的采集由潍坊科技学院计算机学院和农学院的多名研究人员和农业专家共同完成。数据采集的地点为中国山东省寿光市寨里蔬菜种植基地(坐标:东经118.782956,北纬 36.930686)。基地总面积 68万亩,种植了多种类型的蔬菜,其中包含番茄、黄瓜、苦瓜。基地的数据采集环境如图1所示。
在不同时间、不同环境、不同角度下,使用数码相机、监控摄像机或智能手机等设备采集复杂背景下的图像数据,在深入分析图像文本多源信息的基础上,融合目标特征描述、目标位置信息、目标周围环节信息等等知识集,构建复杂背景下多源信息融合的图像数据集(VDGE,Vegetable Disease for Greenhouse Environment);VDGE中的图像格式为JPEG。多源信息融合的图像记录了采集时的环境温度、拍摄位置及拍摄时间等多源信息。多源信息融合的图像背景中包含各种噪声和环境因素,如叶片、杂草和土壤等,以及不同光照情况等,适用于模型的实际应用,可为深度学习建模提供可信实验数据。
S12:数据人工筛选和裁剪;
初始采集到的数据中,存在一些重复、模糊和质量低的图像,因此,进行人工筛选和删减操作。同时,由于图像中的病斑部分只占整个图像中很小的一部分,为了减少后期处理中的数据量,以提高处理效率及尽量排除非主体部分造成的干扰,需要对图像进行人工裁剪,得到适合研究的原始数据集(表1)。
表1 原始数据集VDGE的样本分布
通过分析表1可以发现,原始数据集中存在图像数据总样本少、不同图像数据样本分布不均衡、同种图像不同目标类型样本数量存在差距等问题,因此,通过数据预处理及模型结构优化等方式降低这些问题对模型性能的影响;
S13:数据标注;
在采集到的图像中,目标区域可能存在重叠或遮挡现象,图像标注时需要确保每个目标区域都有一个单独的标注,因此,对于重叠或遮挡的区域,使用人工经验来预估边界框应当包含的区域大小,为保证标注的正确性和权威性,图像首先被分类到其对应的一般类别,例如番茄、黄瓜、苦瓜等,然后由不同领域的专家组分别对这些类别中的具体病害对象的区域进行标注,标注完成后,由跨领域的专家组进行交叉检查,以确保标注的一致性和减少错误;
S14:数据增强;
数据增强策略可以增加实验数据的丰富性,从而更有效地模拟复杂的目标检测场景,并以此提高检测模型的性能,为保证实验过程中训练集与测试集图像的独立性,提高模型的泛化能力,在数据增强操作前,按9:1的比例将数据集随机分为训练集和测试集。
图像目标检测场景中,随机裁剪、颜色变换、缩放等数据增强手段会改变目标的形状、颜色、纹理特征。因此,仅采用水平翻转、垂直翻转、亮度变换、对比度变换、饱和度变换5种方式进行数据增强操作;为增强模型训练过程中的数据随机性,同时避免数据增强过度,本研究在训练过程中将不同的数据增强方法按一定概率进行随机组合,各方法的使用概率设置见表2。增强效果见图2,其中A是原始的多源信息融合的图像,B,C,D,E和F分别为执行5种数据增强操作后的效果。
表2 不同数据增强方法的使用概率
S2:构建图像数据处理网络;
S21:时空融合注意力网络,Space-Time Fusion Attention Network (时空融合注意力网络);
所述S21的具体流程为:
由于不同种类蔬菜上的病害种类并不相同,同一种类蔬菜上的病害发生时间、周围环境、地理条件也不一致。将多源信息融合的图像的地理、环境参数和时间信息融入病害检测十分必要。首先根据多源信息对蔬菜进行分类,然后针对蔬菜类型建立相应的病害检测模型。
S211:以多源信息融合的图像为输入;
S212:在兼顾效率和准确性的前提下,使用骨干网络负责提取多源信息;
S213:使用两层全连接层融合多源信息特征;
图1中第一个分支输出图像的粗分类结果,其他分支分别输出地理信息、时间信息和环境信息。将每个分支的多源信息拼接输入进由多层感知器构成的决策网络中,即可得到最终的图像中对象的类型分类结果。
S214:采用概率分类器得到图像中对象的类型。
能够有效利用从原始图像提取的多源信息并准确分离不同类型的蔬菜数据。
S22:多层编解码特征融合网络,Multilayer Encoder-Decoder Feature FusionNetwork (多层编解码特征融合网络);
在确定了多源信息融合的图像中的蔬菜种类之后,需要确定目标的位置。然而对于大多数的卷积神经网络模型,深层卷积层中的特征图的分辨率降低为原图的1/32或1/64,这造成了病害这类小目标在深层卷积层中的特征图上无法辨认(32×32或64×64的目标在深层特征图上只占一个像素)。事实上,图像目标周围的环境信息也可以作为辅助病害检测任务的多源信息来使用。例如,病害会出现在蔬菜上,而不会无缘无故出现在天空中。因此,将浅层卷积块的小尺度多源信息(病害周围环境的纹理、颜色、形状等)整合到深层的高阶语义信息中生成超分辨率特征。这样既限制了深层特征消失的影响,又保证了感受野的大小。
所述多层编解码特征融合网络引入一个融合多层卷积的Swin-Transformer模块,(简称CSTB)如图 4(A)所示,使用该模块搭建多层编解码特征融合网络,设计编码器中的上采样层和解码器中的下采样层,实现对冗余信息的抑制和感兴趣特征信息的增强,为编解码序列特征提供更好的局部目标特征细节信息,其中区块聚合层在编码过程中使用,区块拓展层在解码过程中使用;
输入融合多层卷积的Swin-Transformer模块(简称STB)的特征前向经过由 1×1卷积、3×3 卷积依次堆叠的卷积模块,每个卷积层之后都包含了BN层和ReLU激活函数;该模块通过通道维度升降操作来实现通道间信息的融合,同时保持空间维度不变;
使用多层卷积模块可充分学习复杂抽象的特征信息,提取更多的空间细节特征,并给予Swin-Transformer模块一定的结构先验;之后前向经过区块聚合层或区块拓展层,在编码和解码过程中,使用融合多层卷积的Swin-Transformer模块中的区块聚合层和区块拓展层,以实现下采样和上采样的功能;
在编码经过区块聚合层下采样或解码经过区块拓展层上采样之后将会前向输入到两层Swin-Transformer模块中,由两层Swin-Transformer Layers堆叠而成,每个STL由层归一化、局部窗口多头注意力模块、残差连接和线性层组成;在两个连续的STL中,采用基于局部窗口的多头自注意力模块,在保持全局感知力的同时,对局部区域进行更加精细的建模,从而提高模型的表达能力和性能;两个连续的STL计算公式如下:
(1)
(2)
(3)
(4)
其中:和/>表示第1个STL层的局部窗口多头注意力模块和线性层的输出;
和/>表示第2个STL层的局部窗口多头自注意力模块和线性层的输出;
WMSA(·)表示局部窗口多头注意力;
LN表示层归一化;
W(·)表示线性层;
在不重叠的局部窗口中执行多头自注意力机制,进一步提升对局部特征信息的提取,对于局部窗口多头自注意力,给定2D特征映射,其中H和W为特征的高度和宽度,C为通道数量,将X分成窗口大小为M×M的非重叠窗口,然后将每个窗口展平和转置获得特征/>,接下来,在每个非重叠窗口中,对展平特征进行多头自注意力操作,假设有k个多头自注意力,每个头的维度为/>,则计算非重叠窗口中的第k个多头自注意力计算公式如下:
(5)
其中:代表第k个多头自注意力的查询向量query;
为键向量key;
为值向量value;
为第k个多头自注意力的输出;
N代表非重叠窗口的数量;
将这k个多头注意力输出进行拼接操作之后再进行层归一化得到多头注意力输出结果,计算公式如下:
(6)
其中:Concat(·)表示拼接操作;
最后经由两层STB处理后,特征前向输入到下一阶段CSTB中,需要对特征进行整形操作:使用reshape操作将输出序列维度(1,H×W,C)转换为(H,W,C),使用transpose操作将C维度移动到第一维,得到维度为(C,H,W)的特征表示,通过这样的整形操作,将特征按照卷积层所需的格式重新排列,以便后续输入到CSTB的卷积层中。
所述S23的具体流程为:
S231:联合损失是分类损失、回归损失和目标感知损失的总和,计算公式如下:
(7)
其中:、/>和/>分别表示分类损失、回归损失和目标感知损失;
S232:分类损失定义为:
(8)
其中:(9)
其中:表示分类损失的归一化权重因子;
表示类别的数量;
表示第/>个先验框中待检测图像目标对象属于图像目标类别c的预测概率;
是第/>个先验框中待检测图像目标对象属于图像目标类别c的实际标签;
S233:回归损失定义为:
(10)
其中:
(11)
其中:表示平衡参数;
表示回归损失的归一化权重因子;
是第/>个先验框中待检测图像目标对象属于图像目标类别的实际标签;
表示预测的图像目标位置的坐标;
表示真实的图像目标位置的坐标;
是一个超参数;
是绝对误差值;
S234:目标感知损失定义为:
(12)
其中:表示样本总数;
代表预测的蔬菜病害目标框与真实蔬菜病害目标框的交并比;
表示预测置信度;
表示Sigmoid函数。
S24:多源信息融合的蔬菜病害检测方法;
在深度学习理论基础上,分析时空融合注意力网络与多层编解码特征融合网络的关系,探究在光照不均、部分遮挡、叶片重叠等情况下的病害类型及位置的检测识别方法,提出多源信息融合的蔬菜病害检测方法(图5),提高病害检测识别的鲁棒性与准确率。
根据图5,多层编解码特征融合网络被用来检测特定的蔬菜上的病害,这意味着不同蔬菜的病害检测模型存在较大的差异。而时空融合注意力网络并不能完全保证每个实际场景的多源信息融合的图像都能够被准确地分类。因此,为了减少图像误分类地影响,提高系统地准确性和鲁棒性,利用时空融合注意力网络作为预训练模型来训练多层编解码特征融合网络,在训练过程中,多层编解码特征融合网络的分类分支需要进行微调,即每类特定蔬菜种类的多层编解码特征融合网络都需要被其他种类蔬菜的数据训练一定次数,以保证时空融合注意力网络误分类后仍能给出正确的检测结果。
S3:建立评价指标。
本方法利用Pytorch深度学习框架实现多源信息融合的蔬菜病害检测模型的开发和训练。实验所用计算机处理器为AMD Ryzen 5 5600X 6-Core Processor 3.70 GHz,显卡为NVIDIA GeForce 3060 Ti,32GB内存。模型训练参数,如,批量训练大小设为8,初始学习率设为0.01,选用动量参数为0.937的随机梯度下降(SGD)优化器,总迭代次数设为300。
为了验证模型的性能,使用平均精度均值(mAP)、召回率(Recall)、检测速度(FPS)作为目标检测模型的评价指标;其中,平均精度均值(mAP)使用mAP@0.5,表示在交并比(IOU,用来度量目标检测中预测框与真实框的重叠程度)阈值为0.5时,对所有类别的平均精度(AP)的平均值,检测速度(FPS)表示每秒检测图像的数量,值越大检测速度越快。
所述S3还包括:
对比实验
本研究选取SSD、Faster RCNN、YOLOV5、YOLOX、YOLOV6、YOLOV7、YOLOV8 在自建的VDGE 数据集上进行比较。具体结果如表3所示。
表 3算法性能比较
从表3可以看出,本研究提出的多源信息融合的蔬菜病害检测算法表现出显著优势,以较低的代价表现出优异的性能。在自建的VDGE 数据集上,相比YOLOV8,mAP提升了1.27%。相比YOLOV7,mAP提升了1.43%。值得一提的是,提出的算法相较其他算法,在模型参数和运算复杂度方面上占据明显优势。此外,为了更好地对比YOLOV7、YOLOV8算法性能,针对不同目标类别的检测精度如表4和图6所示。
表4 针对不同目标类别的检测精度
可以看出,相较于YOLOV7和YOLOV8,本研究算法对于不同类型的图像目标都取得了一定的性能提升。实验表明充分利用多源信息融合的图像多源信息的网络设计是合理的,提高了检测精度。
消融实验;
时空融合注意力网络模块、多层编解码特征融合网络模块和联合损失函数是本研究提出的多源信息融合的图像目标检测模型的3个重要结构改进,为了验证其有效性,在基于Swin-Transformer的基线网络的基础上,通过逐步添加各模块,本研究在VDGE数据集上开展了消融实验,得到各模块对算法的提升效果(表5)。实验结果表明,得益于所提模块能够更有效地选择图像目标关键特征。
表5 消融实验
从表5可以看出,实验B使用时空融合注意力网络模块后mAP提高4.27%,参数量减少1.43M;在实验C使用多层编解码特征融合网络模块后,mAP提高2.66%,参数量增加1.28M,证明该模块可以有效过滤噪声,解决深层卷积块中病害目标特征消失问题;在实验C基础上添加时空融合注意力网络模块后,与基准模型参数量持平,mAP提高4.73%,证明时空融合注意力网络可以在增加少量计算量前提下补充图像目标多源信息,并提高了图像目标检测的精度;在实验D基础上使用改进的联合损失函数损失函数后,mAP提高3.3%,并且不会带来额外参数量,证明所改进的损失函数对图像目标检测有效。最终改进的模型较基准模型mAP提高10.69%,参数量仅增加0.48M,证明了本研究所设计的各个模块的有效性。
图7是4组加入时空融合注意力网络模块前后的特征注意力热图。每组左列是原始多源信息融合的图像,中间列是加入该模块前的注意力热图,右列是经过该模块后输出的注意力热图,颜色越深代表权重越大,对检测图像目标越重要。通过该模块使网络可以关注重要的区域,提高图像目标检测的性能。
以上公开的仅为本发明的具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (3)

1.一种多源信息融合的图像目标检测方法,其特征在于,包括:
S1:图像数据采集及处理;
S11:复杂背景下多源信息融合的图像数据采集;
在不同时间、不同环境、不同角度下,使用数码相机、监控摄像机或智能手机设备采集复杂背景下的图像数据,在深入分析图像文本多源信息的基础上,融合目标特征描述、目标位置信息、目标周围环节信息的知识集,构建复杂背景下多源信息融合的图像数据集;
S12:数据人工筛选和裁剪;
原始数据集中存在图像数据总样本少、不同图像数据样本分布不均衡、同种图像不同目标类型样本数量存在差距问题,因此,通过数据预处理及模型结构优化方式降低这些问题对模型性能的影响;
S13:数据标注;
在采集到的图像中,目标区域存在重叠或遮挡现象,图像标注时需要确保每个目标区域都有一个单独的标注,因此,对于重叠或遮挡的区域,使用人工经验来预估边界框应当包含的区域大小,为保证标注的正确性和权威性,图像首先被分类到其对应的类别,然后由不同领域的专家组分别对这些类别中的具体对象进行标注,标注完成后,由跨领域的专家组进行交叉检查,以确保标注的一致性和减少错误,这样的流程能广泛适用于多种类型的对象目标检测;
S14:数据增强;
采用水平翻转、垂直翻转、亮度变换、对比度变换和饱和度变换5种方式进行数据增强操作;
S2:构建图像数据处理网络;
S21:时空融合注意力网络;
S22:多层编解码特征融合网络;
S23:联合损失函数;
S24:多源信息融合的图像目标检测方法;
S3:建立评价指标;
所述S21的具体流程为:
S211:以多源信息融合的图像为输入;
S212:在兼顾效率和准确性的前提下,使用骨干网络负责提取多源信息;
S213:使用两层全连接层融合多源信息特征;
S214:采用概率分类器得到图像中对象的类型;
所述多层编解码特征融合网络引入一个融合多层卷积的Swin-Transformer模块,使用该模块搭建多层编解码特征融合网络,设计编码器中的上采样层和解码器中的下采样层,实现对冗余信息的抑制和感兴趣特征信息的增强,为编解码序列特征提供更好的局部目标特征细节信息,其中区块聚合层在编码过程中使用,区块拓展层在解码过程中使用;
输入融合多层卷积的Swin-Transformer模块的特征前向经过由 1×1卷积、3×3 卷积依次堆叠的卷积模块,每个卷积层之后都包含了BN层和ReLU激活函数;该模块通过通道维度升降操作来实现通道间信息的融合,同时保持空间维度不变;
使用多层卷积模块可充分学习复杂抽象的特征信息,提取更多的空间细节特征,并给予Swin-Transformer模块的结构先验;之后前向经过区块聚合层或区块拓展层,在编码和解码过程中,使用融合多层卷积的Swin-Transformer模块中的区块聚合层和区块拓展层,以实现下采样和上采样的功能;
在编码经过区块聚合层下采样或解码经过区块拓展层上采样之后将会前向输入到两层Swin-Transformer模块中,由两层Swin-Transformer Layers堆叠而成,每个STL由层归一化、局部窗口多头注意力模块、残差连接和线性层组成;在两个连续的STL中,采用基于局部窗口的多头自注意力模块,在保持全局感知力的同时,对局部区域进行更加精细的建模,从而提高模型的表达能力和性能;两个连续的STL计算公式如下:
(1)
(2)
(3)
(4)
其中:和/>表示第1个STL层的局部窗口多头注意力模块和线性层的输出;
和/>表示第2个STL层的局部窗口多头自注意力模块和线性层的输出;
WMSA(·)表示局部窗口多头注意力;
LN表示层归一化;
W(·)表示线性层;
在不重叠的局部窗口中执行多头自注意力机制,进一步提升对局部特征信息的提取,对于局部窗口多头自注意力,给定2D特征映射,其中H和W为特征的高度和宽度,C为通道数量,将X分成窗口大小为M×M的非重叠窗口,然后将每个窗口展平和转置获得特征/>,接下来,在每个非重叠窗口中,对展平特征进行多头自注意力操作,假设有k个多头自注意力,每个头的维度为/>,则计算非重叠窗口中的第k个多头自注意力计算公式如下:
(5)
其中:代表第k个多头自注意力的查询向量query;
为键向量key;
为值向量value;
为第k个多头自注意力的输出;
N代表非重叠窗口的数量;
将这k个多头注意力输出进行拼接操作之后再进行层归一化得到多头注意力输出结果,计算公式如下:
(6)
其中:Concat(·)表示拼接操作;
最后经由两层STB处理后,特征前向输入到下一阶段CSTB中,需要对特征进行整形操作:使用reshape操作将输出序列维度(1,H×W,C)转换为(H,W,C),使用transpose操作将C维度移动到第一维,得到维度为(C,H,W)的特征表示,通过这样的整形操作,将特征按照卷积层所需的格式重新排列,以便后续输入到CSTB的卷积层中。
2.根据权利要求1所述的多源信息融合的图像目标检测方法,其特征在于:所述S23的具体流程为:
S231:联合损失是分类损失、回归损失和目标感知损失的总和,计算公式如下:
(7)
其中:、/>和/>分别表示分类损失、回归损失和目标感知损失;
S232:分类损失定义为:
(8)
其中:(9)
其中:表示分类损失的归一化权重因子;
表示类别的数量;
表示第/>个先验框中待检测图像目标对象属于图像目标类别c的预测概率;
是第/>个先验框中待检测图像目标对象属于图像目标类别c的实际标签;
S233:回归损失定义为:
(10)
其中:
(11)
其中:表示平衡参数;
表示回归损失的归一化权重因子;
是第/>个先验框中待检测图像目标对象属于图像目标类别的实际标签;
表示预测的图像目标位置的坐标;
表示真实的图像目标位置的坐标;
是一个超参数;
是绝对误差值;
S234:目标感知损失定义为:
(12)
其中:表示样本总数;
代表预测的图像目标框与真实图像目标框的交并比;
表示预测置信度;
表示Sigmoid函数。
3.根据权利要求2所述的多源信息融合的图像目标检测方法,其特征在于:为了验证模型的性能,使用平均精度均值召回率、检测速度作为目标检测模型的评价指标;其中,平均精度均值使用mAP@0.5,表示在交并比阈值为0.5时,对所有类别的平均精度的平均值,检测速度表示每秒检测图像的数量,值越大检测速度越快。
CN202410252344.5A 2024-03-06 2024-03-06 一种多源信息融合的图像目标检测方法 Active CN117830788B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410252344.5A CN117830788B (zh) 2024-03-06 2024-03-06 一种多源信息融合的图像目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410252344.5A CN117830788B (zh) 2024-03-06 2024-03-06 一种多源信息融合的图像目标检测方法

Publications (2)

Publication Number Publication Date
CN117830788A CN117830788A (zh) 2024-04-05
CN117830788B true CN117830788B (zh) 2024-05-10

Family

ID=90517735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410252344.5A Active CN117830788B (zh) 2024-03-06 2024-03-06 一种多源信息融合的图像目标检测方法

Country Status (1)

Country Link
CN (1) CN117830788B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118012977B (zh) * 2024-04-08 2024-06-07 莆田市数字城市互联网信息服务有限公司 一种基于ai与gis融合的二三维多模态数据处理方法
CN118349619B (zh) * 2024-06-18 2024-09-06 硕威工程科技股份有限公司 多源地理信息融合与可视化展示方法以及系统
CN118552956A (zh) * 2024-07-29 2024-08-27 济南大学 一种基于超分辨率Transformer的汽车零部件检测方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128558A (zh) * 2021-03-11 2021-07-16 重庆邮电大学 基于浅层空间特征融合与自适应通道筛选的目标检测方法
WO2022147965A1 (zh) * 2021-01-09 2022-07-14 江苏拓邮信息智能技术研究院有限公司 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统
CN116343185A (zh) * 2022-12-05 2023-06-27 北京化工大学 一种面向助盲领域的指示牌语义信息提取方法
CN116740424A (zh) * 2023-05-30 2023-09-12 华南理工大学 基于Transformer的时序点云三维目标检测
WO2023207163A1 (zh) * 2022-04-24 2023-11-02 城云科技(中国)有限公司 用于消防通道占用目标检测的目标检测模型、方法及应用
CN117079098A (zh) * 2023-07-07 2023-11-17 北京理工大学 一种基于位置编码的空间小目标检测方法
CN117238034A (zh) * 2023-10-13 2023-12-15 南昌大学 一种基于时空Transformer的人体姿态估计方法
CN117333948A (zh) * 2023-10-26 2024-01-02 浙江大学 一种融合时空注意力机制的端到端多目标肉鸡行为识别方法
WO2024000709A1 (zh) * 2022-06-30 2024-01-04 西安交通大学 一种基于自注意力机制与u型结构结合的地震相自动化识别方法
CN117392578A (zh) * 2023-10-07 2024-01-12 常州大学 基于两阶段时空注意力的动作检测方法及系统
CN117576379A (zh) * 2024-01-15 2024-02-20 南京航空航天大学 一种基于元学习组合注意力机制网络模型的目标检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114202696B (zh) * 2021-12-15 2023-01-24 安徽大学 基于上下文视觉的sar目标检测方法、装置和存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022147965A1 (zh) * 2021-01-09 2022-07-14 江苏拓邮信息智能技术研究院有限公司 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统
CN113128558A (zh) * 2021-03-11 2021-07-16 重庆邮电大学 基于浅层空间特征融合与自适应通道筛选的目标检测方法
WO2023207163A1 (zh) * 2022-04-24 2023-11-02 城云科技(中国)有限公司 用于消防通道占用目标检测的目标检测模型、方法及应用
WO2024000709A1 (zh) * 2022-06-30 2024-01-04 西安交通大学 一种基于自注意力机制与u型结构结合的地震相自动化识别方法
CN116343185A (zh) * 2022-12-05 2023-06-27 北京化工大学 一种面向助盲领域的指示牌语义信息提取方法
CN116740424A (zh) * 2023-05-30 2023-09-12 华南理工大学 基于Transformer的时序点云三维目标检测
CN117079098A (zh) * 2023-07-07 2023-11-17 北京理工大学 一种基于位置编码的空间小目标检测方法
CN117392578A (zh) * 2023-10-07 2024-01-12 常州大学 基于两阶段时空注意力的动作检测方法及系统
CN117238034A (zh) * 2023-10-13 2023-12-15 南昌大学 一种基于时空Transformer的人体姿态估计方法
CN117333948A (zh) * 2023-10-26 2024-01-02 浙江大学 一种融合时空注意力机制的端到端多目标肉鸡行为识别方法
CN117576379A (zh) * 2024-01-15 2024-02-20 南京航空航天大学 一种基于元学习组合注意力机制网络模型的目标检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Facial Expression Recognition Based on Time Series Self-Attention Feature Fusion;Fei Wu等;2023 8th International Conference on Information Systems Engineering (ICISE);20231116;全文 *
图注意力网络的场景图到图像生成模型;兰红;刘秦邑;;中国图象图形学报;20200812(08);全文 *
基于注意力机制和特征融合改进的小目标检测算法;麻森权;周克;;计算机应用与软件;20200512(05);全文 *
脑电时空多特征融合的数字图形界面认知负荷评价方法;郑瑞凌;张俊松;;计算机辅助设计与图形学学报;20200731(07);全文 *

Also Published As

Publication number Publication date
CN117830788A (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
CN112287940B (zh) 一种基于深度学习的注意力机制的语义分割的方法
CN117830788B (zh) 一种多源信息融合的图像目标检测方法
CN113052210A (zh) 一种基于卷积神经网络的快速低光照目标检测方法
CN110263705A (zh) 面向遥感技术领域两期高分辨率遥感影像变化检测方法
CN114359130B (zh) 一种基于无人机影像的道路裂缝检测方法
Chen et al. An improved Yolov3 based on dual path network for cherry tomatoes detection
US12106484B2 (en) Three-dimensional medical image segmentation method and system based on short-term and long-term memory self-attention model
CN115223063B (zh) 基于深度学习的无人机遥感小麦新品种倒伏面积提取方法及系统
CN115331183A (zh) 改进YOLOv5s的红外目标检测方法
CN116469020A (zh) 一种基于多尺度和高斯Wasserstein距离的无人机图像目标检测方法
CN114943902A (zh) 基于多尺度特征感知网络的城市植被无人机遥感分类方法
CN116524189A (zh) 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法
CN116310871A (zh) 融合空洞空间金字塔池化的内陆水体提取方法
CN114998744A (zh) 基于运动与视觉双特征融合的农机轨迹田路分割方法
CN112700476A (zh) 一种基于卷积神经网络的红外船视频跟踪方法
CN114463340B (zh) 一种边缘信息引导的敏捷型遥感图像语义分割方法
CN116740516A (zh) 基于多尺度融合特征提取的目标检测方法及系统
CN117496345A (zh) 一种基于CVCUnet的多地形多波段耕地的提取方法
CN116994164A (zh) 一种多模态航拍图像融合与目标检测联合学习方法
Wang et al. Hierarchical Kernel Interaction Network for Remote Sensing Object Counting
Yin et al. M2F2-RCNN: Multi-functional faster RCNN based on multi-scale feature fusion for region search in remote sensing images
CN114694042A (zh) 一种基于改进Scaled-YOLOv4的伪装人员目标检测方法
Yu et al. Precise segmentation of remote sensing cage images based on SegNet and voting mechanism
CN114187477A (zh) 一种基于监督自对比学习的小样本高光谱图像分类方法
CN109359574B (zh) 基于信道级联的广域视场行人检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant