CN116863286B - 一种双流目标检测方法及其模型搭建方法 - Google Patents

一种双流目标检测方法及其模型搭建方法 Download PDF

Info

Publication number
CN116863286B
CN116863286B CN202310906233.7A CN202310906233A CN116863286B CN 116863286 B CN116863286 B CN 116863286B CN 202310906233 A CN202310906233 A CN 202310906233A CN 116863286 B CN116863286 B CN 116863286B
Authority
CN
China
Prior art keywords
module
convolution
network
target detection
dual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310906233.7A
Other languages
English (en)
Other versions
CN116863286A (zh
Inventor
付民
张成朋
郑冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202310906233.7A priority Critical patent/CN116863286B/zh
Publication of CN116863286A publication Critical patent/CN116863286A/zh
Application granted granted Critical
Publication of CN116863286B publication Critical patent/CN116863286B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种双流目标检测方法及其模型搭建方法,属于计算机视觉技术领域,模型搭建方法为:获取可见光图像及其对应的红外光图像的原始数据;对获取的红外和可见光图像进行预处理构建混合模态图像数据集;基于EfficientDet网络结构,采用双流EfficientNet网络处理图像信息的同时,引入Shuffle模块和多个卷积层处理信息,并使用新设计的特征融合模块,能够有效提取两种图像的特征信息,搭建为新的网络模型DEDI;模型搭建完成后用于目标检测。本发明在精度和效率之间实现了良好的权衡,在不损失太多效率的同时,提高了模型的检测精度,使用此模型监测能准确及时发现偷盗者,避免养殖者产生损失。

Description

一种双流目标检测方法及其模型搭建方法
技术领域
本发明属于计算机视觉技术领域,尤其涉及一种双流目标检测方法及其模型搭建方法。
背景技术
在很多情况下,用于目标检测的图像都是可见光图像,包含丰富的纹理信息,但易受天气条件的影响。在弱光或恶劣天气条件下,这类图像的质量明显下降,出现许多模糊特征,会增加检测难度,导致误判。与可见光图像相比,光照条件对红外图像的影响较小。红外技术可以对白天或夜间发射红外辐射的物体进行成像。然而,这类图像存在分辨率低、可视性差、纹理信息缺失等缺点。因此,学者们将可见光图像和红外图像的信息结合起来进行检测、识别和跟踪。
现有的目标检测方法可以分为传统方法和基于深度学习的方法。传统方法的检测速度和精度都有所欠缺,在实际应用中难以推广。随着人工智能的发展,出现了性能更好的深度学习检测算法,在目标检测领域得到了广泛的应用。近年来,许多学者利用深度学习算法来提高检测精度。
基于深度学习的目标检测算法大致分为两类,一种是基于检测精度高但检测速度慢的两阶段算法;另外一种是基于精度低但是检测速度快的一阶段算法。随着深度学习的发展,一阶段算法检测精度日益增加,可以实现人们对检测精度的要求。但是一阶段算法只提取了一种图像的特征信息,提取的特征信息易受影响。一些学者使用两种类型的图像进行检测。Hovannes Kulhandjian提出了一种多传感器数据分析方法,并将其与深度学习算法相结合,用于白天和夜间的检测。Jonathan Kim使用两个EfficientNet骨干网络对KAIST数据集进行特征提取。他通过使用级联法、和法和最大融合法来解决单一频谱的问题,提高了准确性。
然而,上述方法只使用可见光和红外图像中的一种,或者进行简单的融合,并没有很好地提取两种图像的特征信息。提取它们的特征信息以提高准确性仍然是检测中的一个紧迫问题。
发明内容
针对上述问题,本发明第一方面提供了一种双流目标检测模型的搭建方法,包括以下步骤:
步骤1,获取若干组原始图像,包括可见光图像及其对应的红外光图像,所述原始图像由下载获取或直接拍摄获取;
步骤2,对步骤1中获取的原始图像进行预处理;所述预处理包括标签处理;将每张可见光图像及其对应的红外图像作为一组图像数据构建图像数据集,并划分为训练集、验证集和测试集;
步骤3,基于EfficientDet网络结构,采用两组EfficientNet网络分别处理可见光图像及其对应的红外光图像的图像信息,并引入通道混洗Shuffle模块和多个卷积层提高不同特征层的信息交流;同时使用特征融合模块有效提取两种图像的特征信息;新构建为双流混合模态EfficientDet网络模型DEDI;
步骤4,使用步骤2中所述的训练集对步骤3中所搭建的双流混合模态EfficientDet网络模型DEDI进行训练;
步骤5,使用步骤2中所述的测试集对训练后的双流混合模态EfficientDet网络模型DEDI进行测试,选取验证效果最好的模型作为最终模型。
优选的,所述步骤2中的预处理还包括以下过程:对获取的原始图像中存在重复或近似的图像进行筛选;采用等间隔抽取图像,增大不相关性。
优选的,所述搭建的双流混合模态EfficientDet网络模型DEDI的具体结构为:所述搭建的双流混合模态EfficientDet网络模型DEDI的具体结构为:包括双流主干网络、双层特征融合网络、权重特征提取网络和预测网络;所述双流主干网络包含两个并列的主干网络EfficientDet,所述双流主干网络用于实现更多层的特征提取,得到更多的特征;所述双层特征融合网络包括特征融合模块、双层卷积相加模块和池化模块,所述特征融合模块用于提取不同尺度的特征信息,所述双层卷积相加模块包括深度可分离卷积、重叠相加函数、二维卷积层和Relu激活函数,其中2个深度可分离卷积分别用于红外特征信息的提取和可见光信息的提取,并将信息经过重叠相加函数在通道上堆叠,最后经过二维卷积层和一个Relu激活函数,所述池化模块,采用全局最大池化获取全局信息;所述权重特征提取网络,采用带权重的融合机制,用于对特征的加强提取;所述预测网络,采用多个卷积模块用于获取结果。
优选的,所述双流主干网络是特征提取部分,包括两个主干网络,每个主干网络包含16个DBConvBlock模块;
所述DBConvBlock模块包括二维卷积层、归一化层、Swish激活函数、深度可分离卷积层、重叠相加函数和通道混洗Shuffle模块;输入先经过二维卷积层、归一化层和Swish激活函数,再经过深度可分离卷积层调节特征图的大小,再经过两个深度可分离卷积层、归一化层和Swish激活函数提取特征信息,使用重叠相加函数在通道维度上连接,再经过二维卷积层、归一化层和Swish激活函数来调节通道数,最后通道混洗Shuffle模块将特征层进行拼接;所述通道混洗Shuffle模块用于不同通道之间的特征信息的交流,提高通道之间的相关性。
优选的,所述特征融合模块采用空间金字塔提升池化模块SPPA,所述SPPA为多重感受野融合模块,其具体结构为:
包括全局最大池化、重叠相加函数和卷积块,能有效学习不同尺度的特征信息;
所述全局最大池化包括5×5、9×9和13×13的三个最大池化,每个最大池化都是使用最大垂直和水平池化;使用重叠相加函数将输入和池化后的部分连接,再经过卷积块,进一步提取特征信息;
所述卷积块包括三个二维卷积层、三个归一化层和三个Relu激活函数,三个二维卷积层分别是卷积核大小为1的二维卷积、卷积核大小为3步长为1填充为1的二维卷积和卷积核大小为1的二维卷积,每个二维卷积层的后面都连接一个归一化层和Relu激活函数。
优选的,所述池化模块采用全局平均池化,用于获取全局信息;原始信息通过池化模块得到最终目标,具体公式如下:
其中表示通道全局平均池化后的特征图,/>表示输入值,/>表示输入特征图的通道数,/>表示Sigmoid激活函数,/>表示输出值。
优选的,所述步骤3中所搭建的DEDI模型在训练过程中将Focal Loss损失作为训练目标,其计算公式如下:
技巧融合进Focal Loss,融合后公式如下:
其中在二分类中表示0和1,/>表示类别/>的接近程度,/>越大说明越接近类别/>,即分类越准确,/>为可调节因子,/>表示/>是1类别的接近程度,/>是一个超参数,为常数,一般类别的数量越多,/>越小。
本发明第二方面提供了一种双流目标检测方法,包括以下过程:
获取可见光图像及其对应的红外图像;
将上述两种图像输入到如第一方面所述的搭建方法所搭建的双流目标检测模型中;
输出检测后的可见光图像和红外图像。
本发明第三方面还提供了一种双流目标检测设备,所述设备包括至少一个处理器和至少一个存储器,所述处理器和存储器相耦合;所述存储器中存储有如第一方面所述的搭建方法所搭建的双流目标检测模型的计算机执行程序;所述处理器执行存储器中存储的计算机执行程序时,可以实现一种双流目标检测方
本发明第四方面还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有如第一方面所述搭建方法所搭建的双流目标检测模型的计算机执行程序,所述计算机执行程序被处理器执行时,可以实现一种双流目标检测方法。
与现有技术相比,本发明具有如下有益效果:
本发明提出使用双流混合模态EfficientDet网络模型DEDI进行图像的识别过程,并采用了发明的DBConvBlock模块和双层特征融合网络进行可见光图像和红外图像的特征提取,相比于最新的基于卷积神经网络增加了网络不同通道之间的相关性以及提取的特征信息更加丰富,充分发挥了通道冲洗Shuffle模块的泛化能力和空间金字塔提升池化模块SPPA的不同尺度池化层能捕捉多层感受野的优势;本发明在精度和效率之间实现了良好的权衡,在不损失太多效率的同时,提高了模型的检测精度。
附图说明
图1为实施例1中的标注图。
图2为本发明提出的双流目标检测模型的整体结构示意图。
图3为本发明中双流主干网络结构图。
图4为本发明中DBConvBlock模块结构图。
图5为本发明中双层特征融合网络结构图。
图6为本发明中空间金字塔提升池化模块结构图。
图7为本发明中卷积块结构图
图8为本发明中双层卷积相加模块结构图。
图9为本发明中池化模块结构图。
图10为实施例1中检测效果对比图。
图11为本发明提出的双流目标检测模型处理流程图。
图12为实施例2中双流目标检测设备的简易结构示意图。
具体实施方式
下面结合具体实施例对发明进行进一步说明。
实施例1:
本发明提出了一种高效的双流目标检测模型方法,主要包括以下步骤:
步骤1,获取若干组原始图像,包括可见光图像及其对应的红外光图像,所述原始图像由下载获取或直接拍摄获取;
步骤2,对步骤1中获取的原始图像进行预处理;所述预处理包括标签处理;将每张可见光图像及其对应的红外图像作为一组图像数据构建图像数据集,并划分为训练集、验证集和测试集;
步骤3,基于EfficientDet网络结构,采用两组EfficientNet网络分别处理可见光图像及其对应的红外光图像的图像信息,并引入通道混洗Shuffle模块和多个卷积层提高不同特征层的信息交流;同时使用特征融合模块有效提取两种图像的特征信息;新构建为双流混合模态EfficientDet网络模型DEDI;
步骤4,使用步骤2中所述的训练集对步骤3中所搭建的双流混合模态EfficientDet网络模型DEDI进行训练;
步骤5,使用步骤2中所述的测试集对训练后的双流混合模态EfficientDet网络模型DEDI进行测试,选取验证效果最好的模型作为最终模型。
本实施例在LLVIP数据集上进行实验,本发明也可以应用个人拍摄的可见光图像和红外图像,并标注拍摄的图像,对拍摄生成的数据集实验。
1.获取原始数据
本发明采用的数据集是网上下载的公开数据集,LLVIP数据集是一个用于弱光视觉的可见红外配对数据集。该数据集有30976张图像,包括15488张红外图像和15488张可见光图像,其中大部分是在非常黑暗的场景中拍摄的,并且所有图像在时间和空间上都严格;数据集中包括26个场景,其中24个黑暗场景,2个白天场景,并将图像按照不同的场景进行划分。本发明通过双目的摄像机拍摄,也可以在实际应用场景中获取可见光图像和红外图像。
2.数据预处理
对获取的30976张图像进行预处理;对原始图像中存在重复或近似的图像进行筛选,因数据集中相邻两张图像相似性较大,会造成模型过拟合,从而导致将来模型泛化能力差,本发明将不同场景的图像每隔若干张图像抽取一张,比如每隔6张图像,来减小相同场景下不同图像的相似度;并查看标签是否与图像对应,若标签存在错误标注和忘记标注,使用Labelimg重新对图像进行标注,标注成VOC格式,所述标注图如图1所示;再将不同场景的图像划分为训练集、验证集以及测试集。
3.模型搭建
本发明中,基于EfficientDet网络结构进行改进,搭建了一种双流混合模态EfficientDet网络模型DEDI,采用双流EfficientNet网络处理图像信息的同时,引入通道混洗Shuffle模块和多个卷积层提高不同特征层的信息交流,并使用新的特征融合模块,能够增大感受野以及有效提取两种图像的特征信息,双流混合模态EfficientDet网络模型DEDI具体结构如图2所示,包括双流主干网络、双层特征融合网络、权重特征提取网络和预测网络。
所述双流主干网络包含两个并列的主干网络EfficientDet,是特征提取部分,每个主干网络包含16个DBConvBlock模块;具体结构如图3所示;
DBConvBlock模块包括二维卷积层、归一化层、Swish激活函数、深度可分离卷积层,重叠相加函数和通道混洗Shuffle模块,用于提取图像中的特征信息,具体结构如图4所示;输入先经过卷积核大小为1、步长为1的二维卷积层,归一化层和Swish激活函数,再经过卷积核大小为5×5或者3×3、步长为2的深度可分离卷积层调节特征图的大小,再经过两个卷积核大小为3×3、步长为1的深度可分离卷积层提取特征信息,归一化层和Swish激活函数,使用重叠相加函数在通道维度上连接,再经过一维卷积层调节通道数,最后通道混洗Shuffle模块将特征层划分为四个组,每个组的通道为n,将其改写为(4,n),然后转置为(n,4),扁平化后分为四组,在通道上进行拼接。
双层特征融合网络具体结构如图5所示,包括特征融合模块、双层卷积相加模块和池化模块;
特征融合模块采用新设计的空间金字塔提升池化模块SPPA;空间金字塔池化模块SPPA包括全局最大池化、重叠相加函数和卷积块,能有效学习不同尺度的特征信息,具体结构如图6所示;使用三个全局最大池化,分别是5×5、9×9和13×13的最大池化,本实施例检测的目标是行人,呈矩形状,并且现实场景中大多数检测目标均为矩形状,因此本发明将全局最大池化分为两部分即垂直池化和水平池化,能有效地检测行人;使用重叠相加函数将输入和池化后的部分连接,再经过卷积块,进一步提取特征信息;所述卷积块是由三个二维卷积层、三个归一化层和三个Relu激活函数构成,三个二维卷积层分别是卷积核大小为1的二维卷积、卷积核大小为3,步长为1,填充为1的二维卷积和卷积核大小为1的二维卷积,每个二维卷积层的后面都连接一个归一化层和Relu激活函数。
双层卷积相加模块包含深度可分离卷积、重叠相加函数、二维卷积层和relu激活函数,用于将红外图像的特征信息和可见光图像的特征信息融合,具体结构如图8所示;4个卷积核大小为3、步长为1、填充为1的深度可分离卷积,其中2个卷积核用于红外特征信息的提取和可见光信息的提取,并将信息经过重叠相加函数,在通道上堆叠,最后经过一个卷积核大小为1的二维卷积和一个Relu激活函数。
池化模块包含全局平均池化和Sigmoid激活函数用于获取全局信息,具体结构如图9所示;原始信息通过池化模块得到最终目标,具体公式如下:
其中表示通道全局平均池化后的特征图,/>表示输入值,/>表示输入特征图的通道数,/>表示Sigmoid激活函数,/>表示输出值。
权重特征提取网络包括二维卷积层、最大池化,归一化层、Relu激活函数、Swish激活函数和相加函数,采用带权重的融合机制,用于对特征的加强提取。
所述预测网络包括二维卷积层、最大池化,归一化层、Sigmoid激活函数和Swish激活函数,用于获取每个类别预测结果。
4.模型训练
本实施例中双流目标检测模型的实现平台基于Linux操作系统,编程语言为Python3.7、深度学习框架是Pytorch1.11.0,CUDA版本为11.3。使用SGD作为优化器,生成器的学习率为0.0001。系统在一个拥有11GB内存的NVIDIA GTX 1080Ti GPU上训练了200轮,批次大小为8,每轮大约需要0.3小时。
所搭建的DEDI模型在训练过程中将Focal Loss损失作为训练目标,其计算公式如下:
技巧融合进Focal Loss,融合后公式如下:
其中在二分类中表示0和1,/>表示类别/>的接近程度,/>越大说明越接近类别/>,即分类越准确,/>为可调节因子,/>表示/>是1类别的接近程度,/>是一个超参数,为常数,一般类别的数量越多,/>越小。
5.实验结果
本实施例中对比了本发明双流混合模态EfficientDet网络模型DEDI与最近表现很好的检测模型在公共测试集LLVIP的检测效果,同时进行了消融实验对比本发明的双流主干网络和双层特征融合网络,验证本发明所提方案的有效性。本发明给出了采用了2种图像检测常用的评价指标分别是平均准确度均值MAP和每秒帧数FPS,平均准确度均值MAP的数值越大,表示检测越准确,每秒帧数FPS越大表示检测速度越快。在LLVIP测试集上进行实验,评价指标结果如表1所示:
表1 多种模型性能比对
在LLVIP数据集上,本文提出的DEDI模型的MAP比EfficientDet-D0和EfficientDet-D1分别提高了2.89 %和4.7 %。与其他算法相比,所提模型的MAP高于其他算法。
消融实验:
为了明确双流主干网络和双层特征融合网络在本发明中的贡献,本实施例进行了消融实验,验证不同改进对模型性能的影响。表2给出了改进的EfficientDet - D1模型的实验结果,*表示将单通道模型改为双通道模型(DC),* *表示在双通道模型中加入融合模块(R)。实验结果如表2所示:
表2消融实验结果
消融实验结果表明,与原始模型相比,*模型的精度有所降低。主要原因是直接加入了双通道骨干网提取的特征,没有对特征信息进行处理。* *模型增加了特征提取的融合模块,增加了模型的提取能力。加入它可以提高精度,但同时也会降低速度。对骨干网络进行简化后,DEDI的FPS和MAP均得到了提升。
本发明从红外图像和可见光图像的测试集中各选取一幅图像来测试不同算法的检测能力。从图10可以看出,改进前的算法存在漏检甚至误检的情况(以EfficientDet-D1和DEDI-1为例)。本发明提出的DEDI目标检测算法能够检测出所有目标,并保持良好的检测精度。
在不同的应用场景中,可以使用本发明中所搭建的双流目标检测模型进行检测,具体过程如图11所示:
获取可见光图像及其对应的红外图像;
将上述两种图像输入到本发明中的方法所搭建的双流目标检测模型中;
输出检测后的可见光图像和红外图像。
实施例2:
如图12所示,本发明同时提供了一种双流目标检测设备,设备包括至少一个处理器和至少一个存储器,同时还包括通信接口和内部总线;存储器中存储有计算机执行程序;存储器中存储有如实施例1所述的搭建方法所搭建的双流目标检测模型的计算机执行程序;所述处理器执行存储器中存储的计算机执行程序时,可以实现一种双流目标检测方法。其中内部总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(.XtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。其中存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
设备可以被提供为终端、服务器或其它形态的设备。
图12是为示例性示出的一种设备的框图。设备可以包括以下一个或多个组件:处理组件,存储器,电源组件,多媒体组件,音频组件,输入/输出(I/O)的接口,传感器组件,以及通信组件。处理组件通常控制电子设备的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件可以包括一个或多个处理器来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件可以包括一个或多个模块,便于处理组件和其他组件之间的交互。例如,处理组件可以包括多媒体模块,以方便多媒体组件和处理组件之间的交互。
存储器被配置为存储各种类型的数据以支持在电子设备的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件为电子设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。多媒体组件包括在所述电子设备和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件包括一个前置摄像头和/或后置摄像头。当电子设备处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件被配置为输出和/或输入音频信号。例如,音频组件包括一个麦克风(MIC),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中,音频组件还包括一个扬声器,用于输出音频信号。 I/O接口为处理组件和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件包括一个或多个传感器,用于为电子设备提供各个方面的状态评估。例如,传感器组件可以检测到电子设备的打开/关闭状态,组件的相对定位,例如所述组件为电子设备的显示器和小键盘,传感器组件还可以检测电子设备或电子设备一个组件的位置改变,用户与电子设备接触的存在或不存在,电子设备方位或加速/减速和电子设备的温度变化。传感器组件可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
实施例3:
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有如实施例1所述搭建方法所搭建的双流目标检测模型的计算机执行程序,所述计算机执行程序被处理器执行时,可以实现一种双流目标检测方法。
具体地,可以提供配有可读存储介质的系统、装置或设备,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统、装置或设备的计算机或处理器读出并执行存储在该可读存储介质中的指令。在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘(如 CD-ROM、CD-R、CD-RW、DVD- 20 ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带等。存储介质可以是通用或专用计算机能够存取的任何可用介质。
应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
应理解存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于终端或服务器中。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述虽然对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (9)

1.一种双流目标检测模型的搭建方法,其特征在于,包括以下步骤:
步骤1,获取若干组原始图像,包括可见光图像及其对应的红外光图像,所述原始图像由下载获取或直接拍摄获取;
步骤2,对步骤1中获取的原始图像进行预处理;所述预处理包括标签处理;将每张可见光图像及其对应的红外图像作为一组图像数据构建图像数据集,并划分为训练集、验证集和测试集;
步骤3,基于EfficientDet网络结构,采用两组EfficientNet网络分别处理可见光图像及其对应的红外光图像的图像信息,并引入通道混洗Shuffle模块和多个卷积层提高不同特征层的信息交流;同时使用特征融合模块有效提取两种图像的特征信息;新构建为双流混合模态EfficientDet网络模型DEDI;具体结构为:包括双流主干网络、双层特征融合网络、权重特征提取网络和预测网络;所述双流主干网络包含两个并列的主干网络EfficientDet,所述双流主干网络用于实现更多层的特征提取,得到更多的特征;所述双层特征融合网络包括特征融合模块、双层卷积相加模块和池化模块,所述特征融合模块用于提取不同尺度的特征信息,所述双层卷积相加模块包括深度可分离卷积、重叠相加函数、二维卷积层和Relu激活函数,其中2个深度可分离卷积分别用于红外特征信息的提取和可见光信息的提取,并将信息经过重叠相加函数在通道上堆叠,最后经过二维卷积层和一个Relu激活函数,所述池化模块,采用全局最大池化获取全局信息;所述权重特征提取网络,采用带权重的融合机制,用于对特征的加强提取;所述预测网络,采用多个卷积模块用于获取结果;
步骤4,使用步骤2中所述的训练集对步骤3中所搭建的双流混合模态EfficientDet网络模型DEDI进行训练;
步骤5,使用步骤2中所述的测试集对训练后的双流混合模态EfficientDet网络模型DEDI进行测试,选取验证效果最好的模型作为最终模型。
2.如权利要求1所述的一种双流目标检测模型的搭建方法,其特征在于,所述步骤2中的预处理还包括以下过程:对获取的原始图像中存在重复或近似的图像进行筛选;采用等间隔抽取图像,增大不相关性。
3.如权利要求1所述的一种双流目标检测模型的搭建方法,其特征在于,所述双流主干网络是特征提取部分,包括两个主干网络部分,每个主干网络部分包含16个DBConvBlock模块;
所述DBConvBlock模块包括二维卷积层、归一化层、Swish激活函数、深度可分离卷积层、重叠相加函数和通道混洗Shuffle模块;输入先经过二维卷积层、归一化层和Swish激活函数,再经过深度可分离卷积层调节特征图的大小,再经过两个深度可分离卷积层、归一化层和Swish激活函数提取特征信息,使用重叠相加函数在通道维度上连接,再经过二维卷积层、归一化层和Swish激活函数来调节通道数,最后通道混洗Shuffle模块将特征层进行拼接;所述通道混洗Shuffle模块用于不同通道之间的特征信息的交流,提高通道之间的相关性。
4.如权利要求1所述的一种双流目标检测模型的搭建方法,其特征在于,所述特征融合模块采用空间金字塔提升池化模块SPPA,所述SPPA为多重感受野融合模块,其具体结构为:
包括全局最大池化、重叠相加函数和卷积块,能有效学习不同尺度的特征信息;
所述全局最大池化包括5×5、9×9和13×13的三个最大池化,每个最大池化都是使用最大垂直和水平池化;使用重叠相加函数将输入和池化后的部分连接,再经过卷积块,进一步提取特征信息;
所述卷积块包括三个二维卷积层、三个归一化层和三个Relu激活函数,三个二维卷积层分别是卷积核大小为1的二维卷积、卷积核大小为3步长为1填充为1的二维卷积和卷积核大小为1的二维卷积,每个二维卷积层的后面都连接一个归一化层和Relu激活函数。
5.如权利要求1所述的一种双流目标检测模型的搭建方法,其特征在于,所述池化模块采用全局平均池化,用于获取全局信息;原始信息通过池化模块得到最终目标,具体公式如下:
其中表示通道全局平均池化后的特征图,/>表示输入值,/>表示输入特征图的通道数,/>表示Sigmoid激活函数,/>表示输出值。
6.如权利要求1所述的一种双流目标检测模型的搭建方法,其特征在于,所述步骤3中所搭建的DEDI模型在训练过程中将Focal Loss损失作为训练目标,其计算公式如下:
技巧融合进Focal Loss,融合后公式如下:
其中在二分类中表示0和1,/>表示类别/>的接近程度,/>越大说明越接近类别/>,即分类越准确,/>为可调节因子,/>表示/>是1类别的接近程度,/>是一个超参数,为常数,一般类别的数量越多,/>越小。
7.一种双流目标检测方法,其特征在于,包括以下过程:
获取可见光图像及其对应的红外图像;
将上述两种图像输入到如权利要求1至6任意一项所述的搭建方法所搭建的双流目标检测模型中;
输出检测后的可见光图像和红外图像。
8.一种双流目标检测设备,其特征在于:所述设备包括至少一个处理器和至少一个存储器,所述处理器和存储器相耦合;所述存储器中存储有如权利要求1至6任意一项所述的搭建方法所搭建的双流目标检测模型的计算机执行程序;所述处理器执行存储器中存储的计算机执行程序时,实现一种双流目标检测方法。
9.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有如权利要求1至6任意一项所述搭建方法所搭建的双流目标检测模型的计算机执行程序,所述计算机执行程序被处理器执行时,实现一种双流目标检测方法。
CN202310906233.7A 2023-07-24 2023-07-24 一种双流目标检测方法及其模型搭建方法 Active CN116863286B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310906233.7A CN116863286B (zh) 2023-07-24 2023-07-24 一种双流目标检测方法及其模型搭建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310906233.7A CN116863286B (zh) 2023-07-24 2023-07-24 一种双流目标检测方法及其模型搭建方法

Publications (2)

Publication Number Publication Date
CN116863286A CN116863286A (zh) 2023-10-10
CN116863286B true CN116863286B (zh) 2024-02-02

Family

ID=88223298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310906233.7A Active CN116863286B (zh) 2023-07-24 2023-07-24 一种双流目标检测方法及其模型搭建方法

Country Status (1)

Country Link
CN (1) CN116863286B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117392527B (zh) * 2023-12-11 2024-02-06 中国海洋大学 一种高精度水下目标分类检测方法及其模型搭建方法
CN117690011B (zh) * 2024-02-04 2024-04-19 中国海洋大学 适用于嘈杂水下场景的目标检测方法及其模型搭建方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114937201A (zh) * 2022-07-04 2022-08-23 中国海洋大学三亚海洋研究院 一种海洋生物目标检测算法模型的搭建方法及识别方法
CN115496971A (zh) * 2022-10-25 2022-12-20 南京航空航天大学 一种红外目标检测方法、装置、电子设备及存储介质
CN115984543A (zh) * 2022-09-26 2023-04-18 广东泰坦智能动力有限公司 一种基于红外与可见光图像的目标检测算法
CN116188999A (zh) * 2023-04-26 2023-05-30 南京师范大学 一种基于可见光和红外图像数据融合的小目标检测方法
WO2023104557A1 (en) * 2021-12-06 2023-06-15 Totalenergies Onetech Machine-learning for safety rule violation determination
CN116343330A (zh) * 2023-03-07 2023-06-27 云南电网有限责任公司玉溪供电局 一种红外-可见光图像融合的异常行为识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113837305B (zh) * 2021-09-29 2022-09-23 北京百度网讯科技有限公司 目标检测及模型训练方法、装置、设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023104557A1 (en) * 2021-12-06 2023-06-15 Totalenergies Onetech Machine-learning for safety rule violation determination
CN114937201A (zh) * 2022-07-04 2022-08-23 中国海洋大学三亚海洋研究院 一种海洋生物目标检测算法模型的搭建方法及识别方法
CN115984543A (zh) * 2022-09-26 2023-04-18 广东泰坦智能动力有限公司 一种基于红外与可见光图像的目标检测算法
CN115496971A (zh) * 2022-10-25 2022-12-20 南京航空航天大学 一种红外目标检测方法、装置、电子设备及存储介质
CN116343330A (zh) * 2023-03-07 2023-06-27 云南电网有限责任公司玉溪供电局 一种红外-可见光图像融合的异常行为识别方法
CN116188999A (zh) * 2023-04-26 2023-05-30 南京师范大学 一种基于可见光和红外图像数据融合的小目标检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DeepSeaNet: Improving Underwater Object Detection using EfficientDet;Sanyam Jain;arXiv;第1-13页 *
红外图像行人检测方法;何建辉;《中国优秀硕士学位论文全文数据库 信息科技辑》(第第04期期);第I135-111页 *
融合位置信息和上下文的水面目标检测方法;马赛 等;《小型微型计算机系统》;第1-9页 *

Also Published As

Publication number Publication date
CN116863286A (zh) 2023-10-10

Similar Documents

Publication Publication Date Title
CN116863286B (zh) 一种双流目标检测方法及其模型搭建方法
WO2022011892A1 (zh) 网络训练方法及装置、目标检测方法及装置和电子设备
CN113326768B (zh) 训练方法、图像特征提取方法、图像识别方法及装置
CN111209970A (zh) 视频分类方法、装置、存储介质及服务器
CN109040605A (zh) 拍摄引导方法、装置及移动终端和存储介质
CN113792207A (zh) 一种基于多层次特征表示对齐的跨模态检索方法
CN114937201A (zh) 一种海洋生物目标检测算法模型的搭建方法及识别方法
WO2023115911A1 (zh) 对象重识别方法及装置、电子设备、存储介质和计算机程序产品
CN116187398B (zh) 一种无人机海洋图像检测用轻量神经网络搭建方法及设备
CN110889489A (zh) 神经网络的训练方法、图像识别方法及其装置
CN114677517B (zh) 一种无人机用语义分割网络模型及图像分割识别方法
CN115641518A (zh) 一种无人机用视图感知网络模型及目标检测方法
CN111814538A (zh) 目标对象的类别识别方法、装置、电子设备及存储介质
CN113269307B (zh) 神经网络训练方法以及目标重识别方法
CN111027617A (zh) 神经网络训练及图像识别方法、装置、设备和存储介质
CN111523599B (zh) 目标检测方法及装置、电子设备和存储介质
CN116778415A (zh) 一种无人机用人群计数网络模型及计数方法
CN114943976B (zh) 模型生成的方法、装置、电子设备和存储介质
CN115331097A (zh) 图像检测模型训练方法、装置及图像检测方法
CN114358097A (zh) 基于深度神经网络dnn的入侵检测方法、装置及可读存储介质
CN112801116A (zh) 图像的特征提取方法及装置、电子设备和存储介质
CN117671473B (zh) 基于注意力和多尺度特征融合的水下目标检测模型及方法
CN117690011B (zh) 适用于嘈杂水下场景的目标检测方法及其模型搭建方法
CN117636341B (zh) 一种多帧海藻显微图像增强识别方法及其模型搭建方法
CN117392527B (zh) 一种高精度水下目标分类检测方法及其模型搭建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant