CN114529825B - 用于消防通道占用目标检测的目标检测模型、方法及应用 - Google Patents

用于消防通道占用目标检测的目标检测模型、方法及应用 Download PDF

Info

Publication number
CN114529825B
CN114529825B CN202210432925.8A CN202210432925A CN114529825B CN 114529825 B CN114529825 B CN 114529825B CN 202210432925 A CN202210432925 A CN 202210432925A CN 114529825 B CN114529825 B CN 114529825B
Authority
CN
China
Prior art keywords
transposed
features
scale
layer
residual error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210432925.8A
Other languages
English (en)
Other versions
CN114529825A (zh
Inventor
沈瑶
张香伟
毛云青
曹喆
梁艺蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCI China Co Ltd
Original Assignee
CCI China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCI China Co Ltd filed Critical CCI China Co Ltd
Priority to CN202210432925.8A priority Critical patent/CN114529825B/zh
Publication of CN114529825A publication Critical patent/CN114529825A/zh
Application granted granted Critical
Publication of CN114529825B publication Critical patent/CN114529825B/zh
Priority to PCT/CN2022/141284 priority patent/WO2023207163A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本申请提出了一种用于消防通道占用目标检测的目标检测模型、方法及应用,涉及目标检测领域,框架由三部分组成:主干网络,颈部多尺度特征融合网络和神经网络头部;主干网络包含五次降采样通过独立的切片操作、四个转置瓶颈残差模块和一个3*3卷积;颈部多尺度特征融合网络,使用1*1卷积进行特征融合和特征通道统一化,随后是一个跳跃层和交叉层提炼和融合的高层语义信息和低层空间特征的融合,最后是一个上下文感知的注意力网络;神经网络头部,分为分类预测网络和边框预测网络,可很好地检测到多尺度目标,可被应用到消防通道的占有目标检测中。

Description

用于消防通道占用目标检测的目标检测模型、方法及应用
技术领域
本申请涉及目标检测领域,特别是涉及用于消防通道占用目标检测的目标检测模型、方法及应用。
背景技术
近十年来以深度学习取得了巨大的进步和影响力,主要的驱动力是神经网络的复兴,尤其是卷积神经网络(ConvNets);在过去的十年里,计算机视觉识别领域成功地从设计特征提取器转移到设计神经网络架构,与此同时自然语言处理(NLP)的神经网络设计走了一条非常不同的道路,Transformer模型取代了RNN成为主导的主干架构。
传统卷积网络通常采用从上到下的单行结构;对于大物体而言,其语义信息将出现在较深的特征图中;而对于小物体,其语义信息出现在较浅的特征图中,随着网络的加深,其细节信息可能会完全消失。而特别是在目标检测的场景中,模型需要对不同尺度的物体都能检测出来,这要求模型对于尺度要具有鲁棒性。在多尺度的物体中,大尺度的物体由于面积大、特征丰富,通常来讲较为容易检测;难度较大的主要是小尺度的物体,而这部分小物体在实际工程中却占据了较大的比例。通常认为绝对尺寸小于32×32的物体,可以视为小物体或者物体宽高是原图宽高的1/10以下,可以视为小物体;小物体由于其尺寸较小,可利用的特征有限,这使得其检测较为困难。
当前的检测算法对于小物体并不友好,体现在以下4个方面:1、过大的下采样率:假设当前小物体尺寸为15×15,一般的物体检测中卷积下采样率为16,这样导致在特征图上过大的下采样率使得小物体连一个像素点都占据不到;2、过大的感受野:在卷积网络中,特征图上特征点的感受野比下采样率大很多,导致在特征图上的一个点中,小物体占据的特征更少,会包含大量周围区域的特征,从而影响其检测结果;3、语义与空间的矛盾:当前检测算法,如Faster RCNN,其Backbone大都是自上到下的方式,深层与浅层特征图在语义性与空间性上没有做到更好的均衡;4、SSD一阶算法缺乏特征融合:SSD虽然使用了多层特征图,但浅层的特征图语义信息不足,没有进行特征的融合,致使小物体检测的结果较差。
总结而言,目前的卷积神经网络在实际设计和使用中仍面临许多问题,主要体现在以下几个方面:
(1)对于大物体而言,其语义信息将出现在较深的特征图中;而对于小物体,其语义信息出现在较浅的特征图中,随着网络的加深,其细节信息可能会完全消失;而目标检测中,模型需要对不同尺度的物体都能检测出来,这要求模型对于尺度要具有鲁棒性。
尽管目标检测网络在架构设计、训练策略等方面变得越加强大,但检测对于大尺度变化的目标并没有改变。近期的研究仍然依赖于优越的主干设计,但这会使得高级特征与低级特征之间的信息交换不足。
(2)大多数优秀的细粒度图像识别方法通过发掘目标的局部特征来辅助识别,却没有对局部信息进行标注,而是采取弱监督或无监督的方式来定位局部特征位置。而且大部分的方法采用预训练的检测器,无法很好地捕捉目标与局部特征的关系。
发明内容
本申请实施例提供了一种用于消防通道占用目标检测的目标检测模型、方法及应用,可提高小目标检测精度,特别适用于消防通道占用目标检测的特定应用场景。
第一方面,本申请实施例提供了一种目标检测模型的构建方法,所述方法包括:
依次连接的主干网络、颈部多尺度特征融合网络以及神经网络头部,其中主干网络包括切片操作、转置瓶颈残差模块和3*3卷积,输入图像在切片操作后经过3*3卷积输入到转置瓶颈残差模块中,经上一级转置瓶颈残差模块输出的图像特征在切片操作后输入到下一级转置瓶颈残差模块,不同级转置瓶颈残差模块分别输出不同尺度的尺度特征;其中颈部多尺度特征融合网络包括数量同于转置瓶颈残差模块的1*1卷积、跳跃交叉融合模块以及上下文感知的注意力网络,不同尺度的尺度特征分别输入对应的1*1卷积中进行特征融合和特征通道统一化得到不同尺度的,不同尺度的所述初始特征经跳跃交叉融合模块进行高层语义信息和低层空间特征的融合得到不同尺度的跳跃交叉融合特征,不同尺度的跳跃交叉融合特征传入上下文感知的注意力网络得到预测特征;其中神经网络头部分为分类预测网络和边框预测网络。
第二方面,本申请实施例提供了一种目标检测模型,根据上述构建方法构建得到。
第三方面,本申请实施例提供了一种目标检测方法,包括以下步骤:
获取包含待检测目标的待检测图像;
主干网络包括独立的切片操作、转置瓶颈残差模块和3*3卷积,待检测图像在切片操作后经过3*3卷积输入到转置瓶颈残差模块中,经上一级转置瓶颈残差模块输出的图像特征在切片操作后输入到下一级转置瓶颈残差模块,不同级转置瓶颈残差模块分别输出不同尺度的尺度特征;
不同尺度的尺度特征输入颈部多尺度特征融合网络中对应层级的1*1卷积中进行特征融合和特征通道统一化得到不同层级的初始特征,不同层级的初始特征经跳跃交叉融合模块进行高层语义信息和低层空间特征的融合得到不同层级的跳跃交叉融合特征,不同层级的跳跃交叉融合特征分别输入到上下文感知的注意力网络输出预测特征;
预测特征输入神经网络头部中得到待检测目标。
第四方面,本申请实施例提供了一种消防通道占用情况检测方法,包括:获取涵盖消防通道区域的待检测图像;将待检测图像输入到消防通道占用目标检测模型中进行检测,若检测到占有目标,则判断消防通道上有占有目标,其中消防通道占用目标检测模型利用标记占有目标的消防通道的图像作为训练样本训练所述的目标检测模型得到。
第五方面,本申请实施例提供了一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以所述的目标检测方法或所述的消防通道占有目标检测方法。
第六方面,本申请实施例提供一种计算机程序产品,包括软件代码部分,当所述计算机程序产品在计算机上被运行时,所述软件代码部分用于执行所述的目标检测方法或所述的消防通道占有目标检测方法。
第七方面,本申请实施例提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据执行所述的目标检测方法或所述的消防通道占有目标检测方法。
本发明的主要贡献和创新点如下:
本申请实施例提供的目标检测模型的主干网络由独立的切片操作、转置瓶颈残差模块和3*3卷积,转置瓶颈残差模块,在浮点运算量和精度上的权衡比一般残差模块泛化性更强:转置瓶颈残差模块使用了深度可分离卷积,即分组数等于输入通道数,在单个通道内做空间信息的混合加权,且转置瓶颈残差模块中使用的7*7的深度可分离卷积放到了反瓶颈的开头仅混合空间维度中的信息;把计算复杂度比较高的深度可分离卷积层r往前移动,使得复杂的模块将有更少的通道,而高效、密集的1*1层将有更多的通道;采用小维度到大维度再到小维度的形式,这样能让信息在不同维度特征空间之间转换时避免压缩维度带来的信息损失。
颈部多尺度融合网络利用1*1的卷积进行特征融合和特征通道统一,然后是深度为7层的跳跃和交叉连接的特征融合层,最后是一个上下文感知的注意力网络。不仅包含跳跃层连接,还包含跨尺度连接,以克服多尺度的变化,考虑同层和邻层的特征,分别采用双线性插值和最大池化作为上采样和下采样函数,跳跃层和跨尺度连接的机制使得尺度目标检测模型需要具有足够的高、低层次的信息交换,跳跃层和跨尺度连接以特征拼接的方式进行堆叠;有效地解决大尺度方差问题,在跳跃层和跨尺度连接下,可以实现高级语义信息和低级空间信息的充分交换,这种方式可以有效地学习对不同尺度的特征,有助于目标检测精度的提升,特别是检测小和大的对象;有效的缓解由大尺度变化引起的问题。
上下文感知的注意力网络能够高效地编码局部特征的位置信息和外观信息,注意力网络将卷积网络输出的图像特征作为输入,学习调整特征中不同区域的重要性,从而得出局部区域的丰富的外观特征及其空间特征,进而进行准确的分类;带来可观的细粒度分类性能提升,捕捉目标或场景间的细微差别,注意力网络综合考虑像素级特征、小区域特征、大区域特征以及图片级特征的上下文信息进行分类。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请一种实施例的目标检测模型的整体框架示意图。
图2是根据本申请一种实施例的转置瓶颈残差子模块的结构示意图;
图3是根据本申请一种实施例的颈部多尺度融合网络的结构示意图;
图4是根据本申请一种实施例的上下文感知的注意力网络的结构示意图;
图5是根据本申请一种实施例的长短时记忆网络的示意图;
图6是根据本申请一种实施例的目标检测装置的框架示意图;
图7是根据本申请实施例的电子装置的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
实施例一
如图1所示,第一方面,本申请实施例提供了一种目标检测模型的构建方法,包括:
依次连接的主干网络、颈部多尺度特征融合网络以及神经网络头部,其中主干网络包括切片操作、转置瓶颈残差模块和3*3卷积,输入图像在切片操作后经过3*3卷积输入到转置瓶颈残差模块中,经上一级转置瓶颈残差模块输出的图像特征在切片操作后输入到下一级转置瓶颈残差模块,不同级转置瓶颈残差模块分别输出不同尺度的尺度特征;其中颈部多尺度特征融合网络包括数量同于转置瓶颈残差模块的1*1卷积、跳跃交叉融合模块以及上下文感知的注意力网络,不同尺度的尺度特征分别输入对应的1*1卷积中进行特征融合和特征通道统一化得到不同尺度的初始特征,不同尺度的所述初始特征经跳跃交叉融合模块进行高层语义信息和低层空间特征的融合得到不同尺度的跳跃交叉融合特征,不同尺度的跳跃交叉融合特征输入上下文感知的注意力网络得到预测特征;其中神经网络头部分为分类预测网络和边框预测网络,预测特征输入神经网络头部分进行目标预测。
其中,主干网络包括四个切片操作、四个转置瓶颈残差模块以及一个3*3卷积以实现五次降采样,每一切片操作的输出对应一转置瓶颈残差模块,其中位于首位的切片操作的输出经历3*3卷积后输入到对应的转置瓶颈残差模块,其他切片操作的输出直接输入到对应的转置瓶颈残差模块中。每一转置瓶颈残差模块的输出后输入到颈部多尺度特征融合网络中。
具体的,主干网络包括依次连接的第一级切片操作、3*3卷积、第一级转置瓶颈残差模块、第二级切片操作、第二级转置瓶颈残差模块、第三级切片操作、第三转置瓶颈残差模块、第四级切片操作、第四级转置瓶颈残差模块。其中输入图像分别在第一级切片操作、3*3卷积、第二级切片操作、第三级切片操作、第四级切片操作中进行降采样。
所述转置瓶颈残差模块包括至少一组的转置瓶颈残差子模块,不同层级的转置瓶颈残差模块包括不同数量组的转置瓶颈残差子模块。在本方案中,第一级转置瓶颈残差模块内包括三组串联的转置瓶颈残差子模块,第二级转置瓶颈残差模块包括三组串联的转置瓶颈残差子模块,第三级转置瓶颈残差模块包括九组串联的转置瓶颈残差子模块,第四级转置瓶颈残差模块包括三组串联的转置瓶颈残差子模块。如图2所示,图2为本方案的转置瓶颈残差子模块的结构示意图,每组转置瓶颈残差子模块内包括依次连接的7*7深度可分离卷积,第一1*1卷积、第二1*1卷积以及Drop_path,其中7*7深度可分离卷积和第一1*1卷积之间归一处理,第一1*1卷积和第二1*1卷积之间设置使用一层激活层,每组转置瓶颈残差子模块的输入和输出进行元素级相加。
本方案提供的转置瓶颈残差模块使用了深度可分离卷积和大的卷积核,使其在浮点运算量和精度上的权衡比一般残差模块泛化性更强。深度可分离卷积的分组数等于输入通道数,由于每个卷积核单独处理一个通道,在单个通道内做空间信息的混合加权,即仅混合空间维度中的信息,以降低浮点运算量。然而为了弥补精度损失,通道数从64增加到96,本方案随着浮点运算量的增加,网络性能增强。
值得一提的是,本方案的7*7深度可分离卷积置于转置瓶颈残差子模块的反瓶颈的开头,把计算复杂度比较高的深度可分离卷积往前移动,使得复杂的模块将有更少的通道,而高效、密集的1*1层将有更多的通道;采用小维度到大维度再到小维度的形式,这样能让信息在不同维度特征空间之间转换时避免压缩维度带来的信息损失。
考虑到太频繁地做非线性投影对于网络特征的信息传递实际上是有害的,在本方案中,7*7深度可分离卷积之后使用归一处理后输入到第一1*1卷积,第一1*1卷积和第二1*1卷积之间使用一层激活层,所述激活层可以是SUM激活函数,归一处理采用层归一化处理。从而在两个1*1卷积层之间没有使用归一化层,只做了非线性投影。
本方案提供的转置瓶颈残差模块的技术改进点有:使用SMU激活函数,更少的激活函数和归一化层,仅在1*1卷积之间使用激活函数,仅在7*7卷积和1*1卷积之间使用归一化层,将批量归一化替换为层归一化。
如图3所示,图3为本方案的颈部多尺度融合网络的结构示意图。颈部多尺度特征融合网络利用1*1卷积分别对主干网络输出的不同尺度的尺度特征进行特征融合和特征通道统一得到不同尺度的初始特征,其中不同尺度的初始特征的特征通道数一致,不同层的初始特征在跳跃交叉融合模块中进行跳跃和交叉连接得到不同尺度的跳跃交叉融合特征,不同尺度的跳跃交叉融合特征分别输入到上下文感知的注意力网络中得到预测特征。
在本方案中,低尺度的尺度特征输入到颈部多尺度特征融合网络的1*1卷积中得到低尺度的初始特征,高尺度的尺度特征输入到颈部多尺度特征融合网络的1*1卷积中得到高尺度的初始特征。图3中的初始特征M2为图2中的尺度特征C2输入到1*1卷积中处理得到,同样的,初始特征M3为尺度特征C3输入到1*1卷积中处理得到,初始特征M4为尺度特征C4输入到1*1卷积中处理得到,初始特征M5为尺度特征C5输入到1*1卷积中处理得到。初始特征M2用于检测小目标,初始特征M3,M4用于检测中目标,初始特征M5用于检测大目标。
同一层的特征图的分辨率是相同的,比如M5这一层的特征分辨率都是一样的。同一层只加深了神经网络,丰富了特征图的语义信息,为了融合不同尺度的初始特征使其能够兼备有高层语义信息和低层空间特征,本方案将不同尺度的初始特征输入到跳跃交叉融合模块中进行融合处理。本方案的跳跃交叉融合模块不仅包含跳跃层连接,还包含跨尺度连接,以克服多尺度的变化。考虑同层和邻层的特征,分别采用双线性插值和最大池化作为上采样和下采样函数,跳跃层和跨尺度连接的机制使得颈部多尺度融合网络需要具有足够的高、低层次的信息交换,跳跃层和跨尺度连接以特征拼接的方式进行堆叠;有效地解决大尺度方差问题,在跳跃层和跨尺度连接下,可以实现高级语义信息和低级空间信息的充分交换,这种方式可以有效地让不同尺度的特征互相学习,有助于目标检测精度的提升,特别是检测小和大的对象,从而有效地缓解由大尺度变化引起的问题。这种结构可进行不同空间尺度以及不同级别潜在语义的密集信息交换,并帮助检测器在网络的早期阶段以相同的优先级处理高级语义信息和低级空间信息,使其在检测任务中更有效。
具体的,由于本方案的主干网络包括四个转置瓶颈残差模块,对应的本方案的颈部多尺度特征融合网络包括四个1*1卷积,四个1*1卷积的输出分别产生四个层级的初始特征,所述初始特征输入到跳跃交叉融合模块中进行跳跃交叉融合。
具体的,本方案的跳跃交叉融合模块采用深度为7层的跳跃和交叉连接。跳跃交叉融合模块包括对应不同层级的初始特征的多层级特征融合层,每一层级特征融合层的深度为7层,同一层级特征融合层内部以及不同层级的特征融合层之间采用跳跃层连接和跨尺度连接的方式,采用双线性插值作为上采样函数,采用最大池化作为下采样函数,且跳跃层连接和跨尺度层连接之间以特征拼接的方式进行堆叠。
在一具体实施例中,同一层级的特征融合层包括依次连接的不同深度的深度层,同一层级的特征融合层的不同深度层之间跳跃连接;不同层级的特征融合层的奇数深度层采用下采样,偶数深度层采用上采样,不同层级的特征融合层之间的同一深度层采用跨尺度连接;最低尺度的特征融合层的深度层和相邻上一尺度的特征融合层的深度层采用下采样的交叉连接;最高尺度的特征融合层的深度层和相邻下一尺度的特征融合层的深度层采用上采样的交叉连接。
具体的,在“同一层级的特征融合层的不同深度层之间跳跃连接”步骤中,同一层级的特征融合层的深度层和间隔的深度层进行跳跃连接。
在“不同层级的特征融合层的奇数深度层采用下采样,偶数深度层采用上采样”中,采用双线性插值作为上采样函数,采用最大池化作为下采样函数。
在“不同层级的特征融合层之间的同一深度层采用跨尺度连接”步骤中,特征融合层的同一深度层和间隔的特征融合层的同一深度层跨尺度连接,且采用下采样的方式进行跨尺度连接。不同层级的特征融合层的最低深度的深度层不进行跨尺度连接。
具体的,本方案包括对应低尺度的第一特征融合层,对应中间尺度的第二特征融合层和第三特征融合层,以及对应高尺度的第四特征融合层,每一层特征融合层根据深度深浅依次分为第一深度层、第二深度层、第三深度层、第四深度层、第五深度层、第六深度层以及第七深度层。
则在“同一层级的特征融合层的不同深度层之间跳跃连接”步骤中,第一深度层与第三深度层、第五深度层和第七深度层跳跃连接,第二深度层与第四深度层和第六深度层跳跃连接,第三深度层与第五深度层和第七深度层跳跃连接,第四深度层和第六深度层跳跃连接,第七深度层和第九深度层跳跃连接。
在“不同层级的特征融合层之间的同一深度层采用跨尺度连接”步骤中,第一特征融合层的深度层和第三特征融合层的深度层连接,第二特征融合层和第四特征融合层的深度层连接,第一特征融合层、第二特征融合层、第三特征融合层和第四特征融合层的第一深度层不参与跨尺度连接。
在“最低尺度的特征融合层的深度层和相邻上一尺度的特征融合层的深度层采用下采样的交叉连接”步骤中,第一特征融合层的第一深度层和第二特征融合层的第二深度层之间采用下采样的交叉连接,第一特征融合层的第二深度层和第二特征融合层的第三深度层之间采用下采样的交叉连接,第一特征融合层的第三深度层和第二特征融合层的第四深度层之间采用下采样的交叉连接,第一特征融合层的第四深度层和第二特征融合层的第五深度层之间采用下采样的交叉连接,第一特征融合层的第五深度层和第二特征融合层的第六深度层之间采用下采样的交叉连接,第一特征融合层的第六深度层和第二特征融合层的第七深度层之间采用下采样的交叉连接。
在“最高尺度的特征融合层的深度层和相邻下一尺度的特征融合层的深度层采用上采样的交叉连接”步骤中,第四特征融合层的第一深度层和第三特征融合层的第二深度层之间采用上采样的交叉连接,第四特征融合层的第二深度层和第三特征融合层的第三深度层之间采用上采样的交叉连接,第四特征融合层的第三深度层和第三特征融合层的第四深度层之间采用上采样的交叉连接,第四特征融合层的第四深度层和第三特征融合层的第五深度层之间采用上采样的交叉连接,第四特征融合层的第五深度层和第三特征融合层的第六深度层之间采用上采样的交叉连接,第四特征融合层的第六深度层和第三特征融合层的第七深度层之间采用上采样的交叉连接。
本方案的初始特征在经历以上的跳跃交叉融合模块之后得到四个尺度的跳跃交叉特征,四个尺度的跳跃交叉特征分别输入到上下文感知的注意力网络中以获取更精准的感兴趣区域。
如图4所示,图4是上下文感知的注意力网络的结构图。注意力网络能够高效地编码局部特征的位置信息和外观信息,注意力网络将上文中得到的跳跃交叉特征作为输入,学习调整特征中不同区域的重要性,从而得出局部区域的丰富的外观特征及其空间特征,进而进行准确的分类;带来可观的细粒度分类性能提升,捕捉目标或场景间的细微差别。
本方案提供的注意力网络综合考虑像素级特征、小区域特征、大区域特征以及图片级特征的上下文信息进行分类,上下文感知的注意力网络将分别输入的跳跃交叉融合特征进行放大宽高衍生出系列的候选区域,所有候选区域覆盖跳跃交叉融合特征的所有区域位置,将不同大小区域的候选区域采用双线性插值表现为固定大小的特征,相似的固定大小的特征进行加权处理后得到上下文向量,上下文向量经历全局平均池化后转换为区域序列,区域序列输入到长短时记忆网络中得出对应的隐藏状态序列,该隐藏状态序列作为预测特征用于后续的头部预测。
同一跳跃交叉融合特征作为i行j列的候选区域被衍生出系统不同大小区域的候选区域rn,每一候选区域采用双线性插值的方式转换为统一大小的特征fn,不同特征fn彼此加权处理后得到系列的上下文向量cn,其中每一上下文向量对应每一候选区域,对上下文向量进行全局平均池化得到区域序列sn,多个区域序列输入到长短时记忆网络中得到对应的隐藏状态序列;其中由统一大小特征f得到上下文特征向量c的公式如下所示:
具体的公式如下:
Figure DEST_PATH_IMAGE002
(1)
Figure DEST_PATH_IMAGE004
(2)
Figure DEST_PATH_IMAGE006
(3)
Figure DEST_PATH_IMAGE008
(4)
Figure DEST_PATH_IMAGE010
(5)
该公式中参数矩阵W β W β' 用来将输入特征转换为查询项和关键项,W α 为非线性组合,b α b β 为偏置项,整体的可学习参数为W β W β' W α b α b β ,而注意力项α则代表两个特征之间的相似性上下文向量c能够代表区域统一大小特征f蕴含的上下文信息,这些信息是根据其与其它区域的相关程度获得的;上下文向量c描述了区域的关键程度和特点。
具体的,颈部多尺度特征融合网络提取到的跳跃交叉特征作为输入,其输入特征为I,宽高为w、h,为了更高效地学习上下文信息,在输入特征I上定义不同粒度级别的基本区域,粒度级别由区域的大小决定;以输入特征的i行j列为例,最小区域为(△x,△y),可通过放大宽高衍生出一系列区域(候选区域r1、r2、r3到rn),在不同的位置产生相似的区域合集R,得到最终的区域合集R,R覆盖了所有的位置的不同宽高比区域,可以提供全面的上下文信息,帮助在图像的不同层级提供细微特征;在特征图上得到R个区域,大小从最小的△x*△y*C到最大的W*H*C,采用双线性插值将不同大小区域表示为固定大小的特征(f1、f2、f3到fn);双线性池化将目标坐标映射回原图,取最近的四个点,按距离进行输出,最终得到池化后的固定特征;根据fn与其它统一大小特征的相似性进行加权输出,使得模型能够选择性的关注更相关的区域,从而产生更全面的上下文信息。
为了进一步加入空间排列相关的结构信息,将区域的上下文向量c转为区域序列输入到循环神经网络中,使用循环神经网络的隐藏状态单元h来表达结构特征;为了增加泛化能力和减少计算量,区域序列s由上下文向量c进行全局平均池化得到,最终输出区域序列s对应的隐藏状态序列h,用于后续头部预测模块中;细致地考虑从像素到目标到场景的信息,定位了局部特征或目标的位置,还从多个维度描述其丰富且互补的特征,从而得出完整图像或目标的内容;模块能够高效地编码局部特征的位置信息和外观信息,该模块将卷积网络输出的图像特征作为输入,学习调整特征中不同区域的重要性,从而得出局部区域的丰富的外观特征及其空间特征,进而进行准确的分类进而更好的定位。
如图5所示,图5为本方案的长短时记忆网络的框架示意图。由图可知,当前层的区域序列、上一层输出的隐藏状态序列以及上一层的上下文向量作为当前长短时记忆网络的输入,经过长短时记忆网络的处理后得到当前层的隐藏状态序列作为输出。具体的,上一层输出的隐藏状态序列和当前层的区域序列融合后和上一层的上下文向量进行元素级相乘,关于长短时记忆网络的公式如下所示:
具体的公式如下:
Figure DEST_PATH_IMAGE012
(6)
Figure DEST_PATH_IMAGE014
(7)
Figure DEST_PATH_IMAGE016
(8)
Figure DEST_PATH_IMAGE018
(9)
Figure DEST_PATH_IMAGE020
(10)
Figure DEST_PATH_IMAGE022
(11)
第一,其中[h r-1,S r ]表示前一序列隐藏状态序列h r-1和当前区域序列S r 的特征堆叠,f t 通过一个忘记门的σ(sigmoid)单元来处理的,它通过查看两者堆叠的特征信息来输出一个0到1之间的向量,该向量里面的0到1之间的值表示前一序列上下文向量c r-1中哪些信息保留或丢弃,0表示丢弃,1表示保留;第二,给细胞状态添加哪些新的信息,首先利用堆叠后的特征通过输入门操作决定更新哪些信息,然后再将堆叠的特征信息通过一个tanh层得到新的候选细胞信息A r i r f t 一样也是一个元素介于[0,1]区间内的向量;第三,更新旧的细胞信息c r-1,变为新的细胞信息c r ,即当前序列上下文向量。更新的规则就是通过忘记门选择忘记旧细胞信息的一部分,通过输入门选择添加候选细胞信息A r 的一部分得到新的细胞信息c r-1;第四,将输入经过一个称为输出门的sigmoid层得到判断条件,然后将细胞状态经过tanh层得到一个-1到1区间值的向量,该向量与输出门得到的判断条件相乘就得到了最终的输出。
搭建完上述目标检测模型之后,需要对其进行训练,以下阐述目标检测模型的训练方式:
根据待测目标的不同选择不同的训练样本数据,训练配置从基线模型到最终模型基本一致,在训练样本数据上训练300epoch并进行5epoch的warm-up,训练初始warm-up把学习率参数设置得很小,随着训练的进行,学习率逐渐上升,最终达到正常训练的学习率。在本方案的具体示例中,训练时选择的优化器为SGD,初始学习率为0.01,学习率变化策略为cosine decaying schedule,weight decay设置为0.05,momentum设置为0.9,batch视硬件设备而定,输入尺寸从448以步长32均匀过渡到832;随机初始化各层的连接权值w和偏置b,给定学习速率η和最小批次Batch,选定激活函数SMU,选定边框损失函数为CIOU_Loss以及当前数据下最大迭代次数进行训练。本方案训练所用的深度学习框架为PyTorch,确定以上神经网络参数之后,输入处理后的数据,反复迭代直到神经网络输出层误差达到预设精度要求或训练次数达到最大迭代次数,结束训练,保存网络结构和参数,得到训练好的神经网络模型。
值得一提的是,本专利中应用了显式正则化方法DropBlock和隐式正则化方法数据增强,以此提高模型的泛化能力。
这种引入随机变量的设计有效的克服了过拟合使模型有了更好的泛化能力。至此可训练得到检测待测目标的目标检测模型,根据训练样本不同可训练得到检测不同目标的目标检测模型。在本方案的一些实施例中,可利用标记有占有目标的消防通道作为训练样本,此时可训练得到消防通道占用目标检测模型。
测试和推理阶段通过加载模型预测图像或视频中的目标,进行最后的卷积输出结果;所述输出的结果是推理时运行非极大值抑制:对于预测层最后的特征会划分多个格子,每个特征单元格中的任何一个都会有三个预测的边界框;其次抛弃概率低的预测,即模型认为这个网格中什么都没有的边界框;在推理阶段对于多种检测目标,对于每个类别单独运行非极大值抑制,输出最后的预测边框即为本次模型加载之后预测边框的能力。
本方案提供的目标检测模型具有几大技术改进:
(1)转置瓶颈残差模块,在浮点运算量和精度上的权衡比一般残差模块泛化性更强;(2)颈部多尺度融合网络,有效地解决大尺度方差问题,在跳跃层和跨尺度连接下,可以实现高级语义信息和低级空间信息的充分交换,这种方式可以让不同尺度的特征彼此学习,有助于目标检测精度的提升,特别是检测小和大的对象从而有效的缓解由大尺度变化引起的问题;(3)上下文感知的注意力网络,细致地考虑从像素到目标到场景的信息,定位了局部特征或目标的位置,还从多个维度描述其丰富且互补的特征,从而得出完整图像或目标的内容;模块能够高效地编码局部特征的位置信息和外观信息,该模块将卷积网络输出的图像特征作为输入,学习调整特征中不同区域的重要性,从而得出局部区域的丰富的外观特征及其空间特征,进而进行准确的分类进而更好的定位。
实施例二,本申请实施例提供了一种目标检测方法,具体地,该目标检测方法借助训练过的第一方面所述的目标检测模型进行目标检测,所述目标检测模型依次连接的主干网络、颈部多尺度特征融合网络以及神经网络头部,所述方法包括:
获取包含待检测目标的待检测图像;
主干网络包括独立的切片操作、转置瓶颈残差模块和3*3卷积,待检测图像在切片操作后经过3*3卷积输入到转置瓶颈残差模块中,经上一级转置瓶颈残差模块输出的图像特征在切片操作后输入到下一级转置瓶颈残差模块,不同级转置瓶颈残差模块分别输出不同尺度的尺度特征;
不同尺度的尺度特征输入颈部多尺度特征融合网络中对应层级的1*1卷积中进行特征融合和特征通道统一化得到不同层级的初始特征,不同层级的初始特征经跳跃交叉融合模块进行高层语义信息和低层空间特征的融合得到不同层级的跳跃交叉融合特征,不同层级的跳跃交叉融合特征输入到上下文感知的注意力网络输出预测特征;
预测特征输入神经网络头部中得到待检测目标。
值得说明的是,本方案提及的所述神经网络头部已被训练,故其可基于输入的跳跃交叉融合特征预测得到待检测目标。根据训练的样本不同,神经网络头部可用于预测不同的目标。示例性,若训练样本为消防通道的占用目标,则该方案可用于预消防通道的占用目标,此时,待检测目标为消防通道的占用目标。
主干网络的每一切片操作的输出对应一转置瓶颈残差模块,其中位于首位的切片操作的输出经历3*3卷积后输入到对应的转置瓶颈残差模块,其他切片操作的输出直接输入到对应的转置瓶颈残差模块中。在一些实施例中,主干网络包括主干网络包括四个切片操作、四个转置瓶颈残差模块以及一个3*3卷积,实现五次降采样。
所述转置瓶颈残差模块包括至少一组的转置瓶颈残差子模块,不同层级的转置瓶颈残差模块包括不同数量组的转置瓶颈残差子模块。在本方案中,第一级转置瓶颈残差模块内包括三组串联的转置瓶颈残差子模块,第二级转置瓶颈残差模块包括三组串联的转置瓶颈残差子模块,第三级转置瓶颈残差模块包括九组串联的转置瓶颈残差子模块,第四级转置瓶颈残差模块包括三组串联的转置瓶颈残差子模块。每组转置瓶颈残差子模块内包括依次连接的7*7深度可分离卷积,第一1*1卷积、第二1*1卷积以及Drop_path,其中7*7深度可分离卷积和第一1*1卷积之间归一处理,第一1*1卷积和第二1*1卷积之间设置使用一层激活层,每组转置瓶颈残差子模块的输入和输出进行元素级相加。
在本方案中,7*7深度可分离卷积之后使用归一处理后输入到第一1*1卷积,第一1*1卷积和第二1*1卷积之间使用一层激活层,所述激活层可以是SUM激活函数,归一处理采用层归一化处理。从而在两个1*1卷积层之间没有使用归一化层,只做了非线性投影。
颈部多尺度特征融合网络利用1*1卷积分别对主干网络输出的不同尺度的尺度特征进行特征融合和特征通道统一得到不同尺度的初始特征,其中不同尺度的初始特征的特征通道数一致,不同层的初始特征在跳跃交叉融合模块中进行跳跃和交叉连接得到不同尺度的跳跃交叉融合特征,不同尺度的跳跃交叉融合特征分别输入到上下文感知的注意力网络中得到预测特征。
在“不同尺度跳跃交叉融合特征输入到上下文感知的注意力网络输出预测特征”步骤中,上下文感知的注意力网络将跳跃交叉融合特征进行放大宽高衍生出系列的候选区域,所有候选区域覆盖跳跃交叉融合特征的所有区域位置。将不同大小区域的候选区域采用双线性插值表现为固定大小的特征,相似的固定大小的特征进行加权处理后得到上下文向量,上下文向量经历全局平均池化后转换为区域序列,区域序列输入到长短时记忆网络中得出对应的隐藏状态序列作为预测特征。
关于颈部多尺度特征融合网络和注意力网络的特征内容参考实施例一。
实施例三,本方案提供一种消防通道占用目标检测方法,将消防通道占用目标作为训练样本对第一方面提到的目标检测模型进行训练,得到消防通道占用目标检测模型。众所周知的是,消防通道内堆积的目标尺寸可小,任何堆积在消防通道的非消防用具都可认为是占用目标,这些占用目标会影响消防通道的正常使用。而本方案提供的目标检测模型特别适用于检测不同尺度的目标,特别适合用于消防通道的占用目标的检测。
借此手段,本方案可基于城市管理已建的固定摄像头利用消防通道占用目标检测模型,自动检测监控画面中消防通道占用问题,为消防通道占用治理提供了一种方便、快捷和开放的信息化管理空间,并依托深度学习技术,实现消防通道占用智能管理和运行的高效。依据神经网络检测的结果,使消防通道占用结案更加准确和快速定位破损位置,让城市治理更加高效执行和管理。
具体的,该消防通道占用目标检测方法包括以下步骤:
获取涵盖消防通道区域的待检测图像;
所述待检测图像输入到消防通道占用目标检测模型中进行检测,若检测到占有目标,则判断消防通道上有占有目标,
其中消防通道占用目标检测模型利用标记占有目标的消防通道的图像作为训练样本训练如上所述的目标检测模型得到。
在“获取涵盖消防通道区域的待检测图像”步骤中,选取监控消防通道的摄像头的图像作为待检测图像。在一些实施例中,可对系统接口设置受摄像头地址和算法类型,回调地址等参数,接口启动一个新进程进而开始对摄像头的视频流抓取图像帧,并存入redis,同时通知监听程序;监听程序在收到通知过后从redis取出待测图像。
关于消防通道占用目标检测模型的训练,选择标记占有目标的消防通道的图像作为训练样本。在一些实施例中,可对训练样本进行数据增强,具体可选择以下技术手段:
采集的基础数据进行数据增强,增强方法为:1.颜色变换;2.旋转变换;3.添加噪声;4.锐化和模糊;5.缩放变换;6.平移变换:向上下左右四个维度移动图像;7.翻转变换;8.裁剪变换;9.仿射变换:对图像进行一次线性变换并接上一个平移变换。
利用标记占有目标的消防通道的图像训练后的消防通道占用目标检测模型在实际使用时,将待检测图像输入到消防通道占用目标检测模型中输出消防通道占用目标包围框的位置与目标的置信度。
另外,可在消防通道占用目标检测模型的使用过程中对其进行迭代处理:搜集一批新的数据,让消防通道占用目标检测模型去检测这一批数据,将检测结果划分为两大类有框图像和无框图像,有框图像又分为真正目标图像和误报目标图像,无框图像又可分为未检测目标的图像和图像中本来就没有目标的图像,其中将误报目标图像作为负样本,将含有消防通道占用目标但未检测到的图像作为训练样本,随后这些没检测到目标图像进行数据标注和数据增强,然后在原有模型的基础上在训练出一个新的消防通道占用目标检测模型,测试模型效果检查精度是否达标,如果新的消防通道占用目标检测模型未达标加入新的数据并对网络调整参数训练,如果模型精度已经达到要求并且在目前训练数据下最优时停止训练,循环这个步骤以达到消防通道占用目标检测模型适合实际环境中样本的复杂度。
为了实现对占有目标的消防通道进行管理,本消防通道占用目标检测方法还包括以下步骤:当检测到消防通道中含有占有目标,通知对应的管理部门。
实施例三
基于相同的构思,参考图6,本申请还提出了一种目标检测装置,包括:
图像获取单元301,用于获取包含待检测目标的待检测图像;
尺度特征获取单元302,用于处理待检测图像得到不同尺度的尺度特征,待检测图像在切片操作后经过3*3卷积输入到转置瓶颈残差模块中,经上一级转置瓶颈残差模块输出的图像特征在切片操作后输入到下一级转置瓶颈残差模块,不同级转置瓶颈残差模块分别输出不同尺度的尺度特征;
预测特征获取单元303,用于处理尺度特征得到预测特征,不同尺度的尺度特征输入颈部多尺度特征融合网络中对应层级的1*1卷积中进行特征融合和特征通道统一化得到不同层级的初始特征,不同层级的初始特征经跳跃交叉融合模块进行高层语义信息和低层空间特征的融合得到不同尺度的跳跃交叉融合特征,不同尺度的跳跃交叉融合特征输入分别到上下文感知的注意力网络输出预测特征;
预测单元304,用于将预测特征输入神经网络头部中得到待检测目标。
关于目标检测方法的技术特征的可详见上述实施例的介绍,为了避免重复介绍,在此不进行累赘说明。
实施例四
本实施例还提供了一种电子装置,参考图7,包括存储器404和处理器402,该存储器404中存储有计算机程序,该处理器402被设置为运行计算机程序以执行上述任一项目标检测方法或者消防通道目标检测方法的实施例中的步骤。
具体地,上述处理器402可以包括中央处理器(CPU),或者特定集成电路(ApplicationSpecificIntegratedCircuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制,存储器404可包括硬盘驱动器(HardDiskDrive,简称为HDD)、软盘驱动器、固态驱动器(SolidStateDrive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器404可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器404可在数据处理装置的内部或外部。在特定实施例中,存储器404是非易失性(Non-Volatile)存储器。在特定实施例中,存储器404包括只读存储器(Read-OnlyMemory,简称为ROM)和随机存取存储器(RandomAccessMemory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-OnlyMemory,简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory,简称为EPROM)、电可擦除PROM(ElectricallyErasableProgrammableRead-OnlyMemory,简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(StaticRandom-AccessMemory,简称为SRAM)或动态随机存取存储器(DynamicRandomAccessMemory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器404(FastPageModeDynamicRandomAccessMemory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMemory,简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamicRandom-AccessMemory,简称SDRAM)等。
存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器402所执行的可能的计算机程序指令。
处理器402通过读取并执行存储器404中存储的计算机程序指令,以实现上述实施例中的任意一种目标检测方法或者消防通道目标检测方法的。
可选地,上述电子装置还可以包括传输设备406以及输入输出设备408,其中,该传输设备406和上述处理器402连接,该输入输出设备408和上述处理器402连接。
传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中,传输设备包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备406可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
输入输出设备408用于输入或输出信息。在本实施例中,输入的信息可以是消防通道的监控视频等,输出的信息可以是占有目标等。
可选地,在本实施例中,上述处理器402可以被设置为通过计算机程序执行以下步骤:
获取包含待检测目标的待检测图像;
主干网络包括独立的切片操作、多级转置瓶颈残差模块和3*3卷积,待检测图像在切片操作后经过3*3卷积输入到转置瓶颈残差模块中,经上一级转置瓶颈残差模块输出的图像特征在切片操作后输入到下一级转置瓶颈残差模块,不同级转置瓶颈残差模块分别输出不同尺度的尺度特征;
不同尺度的尺度特征输入颈部多尺度特征融合网络中对应层级的1*1卷积中进行特征融合和特征通道统一化得到不同层级的初始特征,不同层级的初始特征经跳跃交叉融合模块进行高层语义信息和低层空间特征的融合得到不同层级的跳跃交叉融合特征,不同层级跳跃交叉融合特征分别输入到上下文感知的注意力网络输出预测特征;
步骤S104、预测特征输入神经网络头部中得到待检测目标。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
通常,各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现,而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示,但是应当理解,作为非限制性示例,本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
本发明的实施例可以由计算机软件来实现,该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行,或者由硬件来实现,或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中,并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外,在这一点上,应当注意,如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (13)

1.一种目标检测模型的构建方法,其特征在于,包括:
依次连接的主干网络、颈部多尺度特征融合网络以及神经网络头部,其中主干网络包括切片操作、转置瓶颈残差模块和3*3卷积,所述转置瓶颈残差模块包括至少一组的转置瓶颈残差子模块,不同层级的转置瓶颈残差模块包括不同数量组的转置瓶颈残差子模块,每组转置瓶颈残差子模块内包括依次连接的7*7深度可分离卷积,第一1*1卷积、第二1*1卷积以及Drop_path,每组转置瓶颈残差子模块的输入和输出进行元素级相加,输入图像在切片操作后经过3*3卷积输入到转置瓶颈残差模块中,经上一级转置瓶颈残差模块输出的图像特征在切片操作后输入到下一级转置瓶颈残差模块,不同级转置瓶颈残差模块分别输出不同尺度的尺度特征;其中颈部多尺度特征融合网络包括数量同于转置瓶颈残差模块的1*1卷积、跳跃交叉融合模块以及上下文感知的注意力网络,不同尺度的尺度特征分别输入对应的1*1卷积中进行特征融合和特征通道统一化得到不同尺度的初始特征,不同尺度的所述初始特征经跳跃交叉融合模块进行高层语义信息和低层空间特征的融合得到不同尺度的跳跃交叉融合特征,不同尺度的跳跃交叉融合特征传入上下文感知的注意力网络得到预测特征;其中神经网络头部分为分类预测网络和边框预测网络,其中跳跃交叉融合模块包括对应不同层级的初始特征的多层级特征融合层,同一层级的特征融合层包括依次连接的不同深度的深度层,同一层级的特征融合层的不同深度层之间跳跃连接;不同层级的特征融合层的奇数深度层采用下采样,偶数深度层采用上采样,不同层级的特征融合层之间的同一深度层采用跨尺度连接;最低尺度的特征融合层的深度层和相邻上一尺度的特征融合层的深度层采用下采样的交叉连接;最高尺度的特征融合层的深度层和相邻下一尺度的特征融合层的深度层采用上采样的交叉连接。
2.根据权利要求1所述的目标检测模型的构建方法,其特征在于,每一切片操作的输出对应一转置瓶颈残差模块,其中位于首位的切片操作的输出经历3*3卷积后输入到对应的转置瓶颈残差模块,其他切片操作的输出直接输入到对应的转置瓶颈残差模块中。
3.根据权利要求1所述的目标检测模型的构建方法,其特征在于,主干网络包括依层级排序的第一级转置瓶颈残差模块、第二级转置瓶颈残差模块、第三级转置瓶颈残差模块和第四级转置瓶颈残差模块,第一级转置瓶颈残差模块内包括三组串联的转置瓶颈残差子模块,第二级转置瓶颈残差模块包括三组串联的转置瓶颈残差子模块,第三级转置瓶颈残差模块包括九组串联的转置瓶颈残差子模块,第四级转置瓶颈残差模块包括三组串联的转置瓶颈残差子模块。
4.根据权利要求1所述的目标检测模型的构建方法,其特征在于,7*7深度可分离卷积和第一1*1卷积之间归一处理,第一1*1卷积和第二1*1卷积之间设置使用一层激活层。
5.根据权利要求1所述的目标检测模型的构建方法,其特征在于,采用双线性插值作为上采样函数,采用最大池化作为下采样函数,跳跃层连接和跨尺度层连接之间以特征拼接的方式进行堆叠。
6.根据权利要求1所述的目标检测模型的构建方法,其特征在于,同一跳跃交叉融合特征输入到上下文感知的注意力网络中被衍生出不同大小区域的候选区域,每一候选区域采用双线性插值的方式转换为统一大小的特征,不同特征彼此加权处理后得到系列的上下文向量,其中每一上下文向量对应每一候选区域,对上下文向量进行全局平均池化得到区域序列,多个区域序列输入到长短时记忆网络中得到对应的隐藏状态序列。
7.根据权利要求6所述的目标检测模型的构建方法,其特征在于,当前层的区域序列、上一层输出的隐藏状态序列以及上一层的上下文向量作为当前长短时记忆网络的输入,经过长短时记忆网络的处理后得到当前层的隐藏状态序列作为输出。
8.一种目标检测模型,其特征在于,根据权利要求1到7任一所述的目标检测模型的构建方法构建得到。
9.一种目标检测方法,基于依次连接的主干网络、颈部多尺度特征融合网络以及神经网络头部的目标检测模型进行目标检测,其特征在于,包括以下步骤:
获取包含待检测目标的待检测图像;
主干网络包括独立的切片操作、转置瓶颈残差模块和3*3卷积,待检测图像在切片操作后经过3*3卷积输入到转置瓶颈残差模块中,经上一级转置瓶颈残差模块输出的特征在切片操作后输入到下一级转置瓶颈残差模块,不同级转置瓶颈残差模块分别输出不同尺度的尺度特征,所述转置瓶颈残差模块包括至少一组的转置瓶颈残差子模块,不同层级的转置瓶颈残差模块包括不同数量组的转置瓶颈残差子模块,每组转置瓶颈残差子模块内包括依次连接的7*7深度可分离卷积,第一1*1卷积、第二1*1卷积以及Drop_path,每组转置瓶颈残差子模块的输入和输出进行元素级相加;
不同尺度的尺度特征输入颈部多尺度特征融合网络中对应层级的1*1卷积中进行特征融合和特征通道统一化得到不同层级的初始特征,不同层级的初始特征经跳跃交叉融合模块进行高层语义信息和低层空间特征的融合得到不同层级的跳跃交叉融合特征,不同层级的跳跃交叉融合特征分别输入到上下文感知的注意力网络输出预测特征;
预测特征输入神经网络头部中得到待检测目标,其中跳跃交叉融合模块包括对应不同层级的初始特征的多层级特征融合层,同一层级的特征融合层包括依次连接的不同深度的深度层,同一层级的特征融合层的不同深度层之间跳跃连接;不同层级的特征融合层的奇数深度层采用下采样,偶数深度层采用上采样,不同层级的特征融合层之间的同一深度层采用跨尺度连接;最低尺度的特征融合层的深度层和相邻上一尺度的特征融合层的深度层采用下采样的交叉连接;最高尺度的特征融合层的深度层和相邻下一尺度的特征融合层的深度层采用上采样的交叉连接。
10.一种消防通道占用目标检测方法,其特征在于,包括以下步骤:
获取涵盖消防通道区域的待检测图像;
将待检测图像输入到消防通道占用目标检测模型中进行检测,若检测到占有目标,则判断消防通道上有占有目标,
其中消防通道占用目标检测模型利用标记占有目标的消防通道的图像作为训练样本训练根据权利要求8所述的目标检测模型得到。
11.一种目标检测装置,其特征在于,包括:
图像获取单元,用于获取包含待检测目标的待检测图像;
尺度特征获取单元,用于处理待检测图像得到不同尺度的尺度特征,待检测图像在切片操作后经过3*3卷积输入到转置瓶颈残差模块中,经上一级转置瓶颈残差模块输出的特征在切片操作后输入到下一级转置瓶颈残差模块,不同级转置瓶颈残差模块分别输出不同尺度的尺度特征,所述转置瓶颈残差模块包括至少一组的转置瓶颈残差子模块,不同层级的转置瓶颈残差模块包括不同数量组的转置瓶颈残差子模块,每组转置瓶颈残差子模块内包括依次连接的7*7深度可分离卷积,第一1*1卷积、第二1*1卷积以及Drop_path,每组转置瓶颈残差子模块的输入和输出进行元素级相加;
预测特征获取单元,用于处理不同尺度特征得到预测特征,不同尺度的尺度特征输入颈部多尺度特征融合网络中对应层级的1*1卷积中进行特征融合和特征通道统一化得到不同层级的初始特征,不同层级的初始特征经跳跃交叉融合模块进行高层语义信息和低层空间特征的融合得到不同层级的跳跃交叉融合特征,不同层级的跳跃交叉融合特征分别输入到上下文感知的注意力网络输出预测特征,其中跳跃交叉融合模块包括对应不同层级的初始特征的多层级特征融合层,同一层级的特征融合层包括依次连接的不同深度的深度层,同一层级的特征融合层的不同深度层之间跳跃连接;不同层级的特征融合层的奇数深度层采用下采样,偶数深度层采用上采样,不同层级的特征融合层之间的同一深度层采用跨尺度连接;最低尺度的特征融合层的深度层和相邻上一尺度的特征融合层的深度层采用下采样的交叉连接;最高尺度的特征融合层的深度层和相邻下一尺度的特征融合层的深度层采用上采样的交叉连接;
预测单元,用于将预测特征输入神经网络头部中得到待检测目标。
12.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求9所述的目标检测方法或权利要求10所述的消防通道占用 目标检测方法。
13.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据执行权利要求9所述的目标检测方法或权利要求10所述的消防通道占用 目标检测方法。
CN202210432925.8A 2022-04-24 2022-04-24 用于消防通道占用目标检测的目标检测模型、方法及应用 Active CN114529825B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210432925.8A CN114529825B (zh) 2022-04-24 2022-04-24 用于消防通道占用目标检测的目标检测模型、方法及应用
PCT/CN2022/141284 WO2023207163A1 (zh) 2022-04-24 2022-12-23 用于消防通道占用目标检测的目标检测模型、方法及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210432925.8A CN114529825B (zh) 2022-04-24 2022-04-24 用于消防通道占用目标检测的目标检测模型、方法及应用

Publications (2)

Publication Number Publication Date
CN114529825A CN114529825A (zh) 2022-05-24
CN114529825B true CN114529825B (zh) 2022-07-22

Family

ID=81628154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210432925.8A Active CN114529825B (zh) 2022-04-24 2022-04-24 用于消防通道占用目标检测的目标检测模型、方法及应用

Country Status (2)

Country Link
CN (1) CN114529825B (zh)
WO (1) WO2023207163A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114529825B (zh) * 2022-04-24 2022-07-22 城云科技(中国)有限公司 用于消防通道占用目标检测的目标检测模型、方法及应用
CN114863368B (zh) * 2022-07-05 2022-09-27 城云科技(中国)有限公司 用于道路破损检测的多尺度目标检测模型、方法
CN115375999B (zh) * 2022-10-25 2023-02-14 城云科技(中国)有限公司 应用于危化品车检测的目标检测模型、方法及装置
CN115546879B (zh) * 2022-11-29 2023-02-17 城云科技(中国)有限公司 用于表情识别的细粒度识别模型及方法
CN115937655B (zh) * 2023-02-24 2023-05-23 城云科技(中国)有限公司 多阶特征交互的目标检测模型及其构建方法、装置及应用
CN116452972A (zh) * 2023-03-17 2023-07-18 兰州交通大学 一种基于Transformer端到端的遥感图像车辆目标检测方法
CN117237746B (zh) * 2023-11-13 2024-03-15 光宇锦业(武汉)智能科技有限公司 基于多交叉边缘融合小目标检测方法、系统及存储介质
CN117590761B (zh) * 2023-12-29 2024-04-19 广东福临门世家智能家居有限公司 用于智能家居的开门状态检测方法及系统
CN117593516B (zh) * 2024-01-18 2024-03-22 苏州元脑智能科技有限公司 一种目标检测方法、装置、设备及存储介质
CN117649609B (zh) * 2024-01-30 2024-04-30 中国人民解放军海军航空大学 面向跨时空尺度域的遥感图像建筑物信息提取方法
CN117739289B (zh) * 2024-02-20 2024-04-26 齐鲁工业大学(山东省科学院) 基于声图融合的泄漏检测方法及系统
CN117830788B (zh) * 2024-03-06 2024-05-10 潍坊科技学院 一种多源信息融合的图像目标检测方法
CN117894002A (zh) * 2024-03-18 2024-04-16 杭州像素元科技有限公司 一种危险物小目标检测模型的构建方法及装置

Citations (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647585A (zh) * 2018-04-20 2018-10-12 浙江工商大学 一种基于多尺度循环注意力网络的交通标识符检测方法
CN108805345A (zh) * 2018-06-01 2018-11-13 广西师范学院 一种基于深度卷积神经网络模型的犯罪时空风险预测方法
CN109492830A (zh) * 2018-12-17 2019-03-19 杭州电子科技大学 一种基于时空深度学习的移动污染源排放浓度预测方法
CN110084210A (zh) * 2019-04-30 2019-08-02 电子科技大学 基于注意力金字塔网络的sar图像多尺度舰船检测方法
CN110188863A (zh) * 2019-04-30 2019-08-30 杭州电子科技大学 一种卷积神经网络的卷积核及其压缩算法
CN110717420A (zh) * 2019-09-25 2020-01-21 中国科学院深圳先进技术研究院 一种基于遥感图像的耕地提取方法、系统及电子设备
CN111178213A (zh) * 2019-12-23 2020-05-19 大连理工大学 一种基于深度学习的航拍车辆检测方法
CN111401201A (zh) * 2020-03-10 2020-07-10 南京信息工程大学 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法
CN111461211A (zh) * 2020-03-31 2020-07-28 中国科学院计算技术研究所 一种用于轻量级目标检测的特征提取方法及相应检测方法
CN111553321A (zh) * 2020-05-18 2020-08-18 城云科技(中国)有限公司 一种流动商贩目标检测模型、检测方法及其管理方法
CN111860693A (zh) * 2020-07-31 2020-10-30 元神科技(杭州)有限公司 一种轻量级视觉目标检测方法及系统
CN112232232A (zh) * 2020-10-20 2021-01-15 城云科技(中国)有限公司 一种目标检测方法
CN112686304A (zh) * 2020-12-29 2021-04-20 山东大学 一种基于注意力机制以及多尺度特征融合的目标检测方法、设备及存储介质
CN112686276A (zh) * 2021-01-26 2021-04-20 重庆大学 一种基于改进RetinaNet网络的火焰检测方法
KR20210072504A (ko) * 2019-12-09 2021-06-17 삼성전자주식회사 뉴럴 네트워크 시스템 및 이의 동작 방법
CN113128564A (zh) * 2021-03-23 2021-07-16 武汉泰沃滋信息技术有限公司 一种基于深度学习的复杂背景下典型目标检测方法及系统
CN113313070A (zh) * 2021-06-24 2021-08-27 华雁智能科技(集团)股份有限公司 架空输电线路缺陷检测方法、装置及电子设备
CN113393469A (zh) * 2021-07-09 2021-09-14 浙江工业大学 基于循环残差卷积神经网络的医学图像分割方法和装置
CN113537013A (zh) * 2021-07-06 2021-10-22 哈尔滨理工大学 一种多尺度自注意力特征融合的行人检测方法
CN113781410A (zh) * 2021-08-25 2021-12-10 南京邮电大学 一种基于MEDU-Net+网络的医学图像分割方法和系统
CN114092820A (zh) * 2022-01-20 2022-02-25 城云科技(中国)有限公司 目标检测方法及应用其的移动目标跟踪方法
CN114118284A (zh) * 2021-11-30 2022-03-01 重庆理工大学 一种基于多尺度特征融合的目标检测方法
CN114140786A (zh) * 2021-12-03 2022-03-04 杭州师范大学 基于HRNet编码与双分支解码的场景文本识别方法
CN114170634A (zh) * 2021-12-07 2022-03-11 浙江理工大学 基于DenseNet网络改进的手势图像特征提取方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782015A (zh) * 2019-10-25 2020-02-11 腾讯科技(深圳)有限公司 神经网络的网络结构优化器的训练方法、装置及存储介质
CN111967305B (zh) * 2020-07-01 2022-03-18 华南理工大学 一种基于轻量级卷积神经网络的实时多尺度目标检测方法
US20220019843A1 (en) * 2020-07-14 2022-01-20 Flir Unmanned Aerial Systems Ulc Efficient refinement neural network for real-time generic object-detection systems and methods
CN112016511A (zh) * 2020-09-08 2020-12-01 重庆市地理信息和遥感应用中心 基于大尺度深度卷积神经网络的遥感图像蓝顶房检测方法
CN112699859B (zh) * 2021-03-24 2021-07-16 华南理工大学 目标检测方法、装置、存储介质及终端
CN114529825B (zh) * 2022-04-24 2022-07-22 城云科技(中国)有限公司 用于消防通道占用目标检测的目标检测模型、方法及应用

Patent Citations (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647585A (zh) * 2018-04-20 2018-10-12 浙江工商大学 一种基于多尺度循环注意力网络的交通标识符检测方法
CN108805345A (zh) * 2018-06-01 2018-11-13 广西师范学院 一种基于深度卷积神经网络模型的犯罪时空风险预测方法
CN109492830A (zh) * 2018-12-17 2019-03-19 杭州电子科技大学 一种基于时空深度学习的移动污染源排放浓度预测方法
CN110084210A (zh) * 2019-04-30 2019-08-02 电子科技大学 基于注意力金字塔网络的sar图像多尺度舰船检测方法
CN110188863A (zh) * 2019-04-30 2019-08-30 杭州电子科技大学 一种卷积神经网络的卷积核及其压缩算法
CN110717420A (zh) * 2019-09-25 2020-01-21 中国科学院深圳先进技术研究院 一种基于遥感图像的耕地提取方法、系统及电子设备
KR20210072504A (ko) * 2019-12-09 2021-06-17 삼성전자주식회사 뉴럴 네트워크 시스템 및 이의 동작 방법
CN111178213A (zh) * 2019-12-23 2020-05-19 大连理工大学 一种基于深度学习的航拍车辆检测方法
CN111401201A (zh) * 2020-03-10 2020-07-10 南京信息工程大学 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法
CN111461211A (zh) * 2020-03-31 2020-07-28 中国科学院计算技术研究所 一种用于轻量级目标检测的特征提取方法及相应检测方法
CN111553321A (zh) * 2020-05-18 2020-08-18 城云科技(中国)有限公司 一种流动商贩目标检测模型、检测方法及其管理方法
CN111860693A (zh) * 2020-07-31 2020-10-30 元神科技(杭州)有限公司 一种轻量级视觉目标检测方法及系统
CN112232232A (zh) * 2020-10-20 2021-01-15 城云科技(中国)有限公司 一种目标检测方法
CN112686304A (zh) * 2020-12-29 2021-04-20 山东大学 一种基于注意力机制以及多尺度特征融合的目标检测方法、设备及存储介质
CN112686276A (zh) * 2021-01-26 2021-04-20 重庆大学 一种基于改进RetinaNet网络的火焰检测方法
CN113128564A (zh) * 2021-03-23 2021-07-16 武汉泰沃滋信息技术有限公司 一种基于深度学习的复杂背景下典型目标检测方法及系统
CN113313070A (zh) * 2021-06-24 2021-08-27 华雁智能科技(集团)股份有限公司 架空输电线路缺陷检测方法、装置及电子设备
CN113537013A (zh) * 2021-07-06 2021-10-22 哈尔滨理工大学 一种多尺度自注意力特征融合的行人检测方法
CN113393469A (zh) * 2021-07-09 2021-09-14 浙江工业大学 基于循环残差卷积神经网络的医学图像分割方法和装置
CN113781410A (zh) * 2021-08-25 2021-12-10 南京邮电大学 一种基于MEDU-Net+网络的医学图像分割方法和系统
CN114118284A (zh) * 2021-11-30 2022-03-01 重庆理工大学 一种基于多尺度特征融合的目标检测方法
CN114140786A (zh) * 2021-12-03 2022-03-04 杭州师范大学 基于HRNet编码与双分支解码的场景文本识别方法
CN114170634A (zh) * 2021-12-07 2022-03-11 浙江理工大学 基于DenseNet网络改进的手势图像特征提取方法
CN114092820A (zh) * 2022-01-20 2022-02-25 城云科技(中国)有限公司 目标检测方法及应用其的移动目标跟踪方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
MFFN: An Underwater Sensing Scene Image Enhancement Method Based on Multiscale Feature Fusion Network;Renzhang Chen et al;《IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING》;20211210;第1-12页 *
Multi-Label Image Classification by Feature Attention Network;ZHENG YAN et al;《ACCESS》;20190806;第1-9页 *
Rethinking Bottleneck Structure for Efficient Mobile Network Design;Daquan Zhou et al;《arXiv:2007.02269v4》;20201130;摘要、第3.3节、图3 *
WMR-DepthwiseNet: A Wavelet Multi-Resolution Depthwise Separable Convolutional Neural Network for COVID-19 Diagnosis;Jianping Li et al;《diagnostics》;20220321;第1-23页 *
基于深度学习的自然场景文本检测与识别;吴嘉诚;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20220215;第2022年卷(第2期);第4.1节 *
非受限条件下多级残差网络人脸图像年龄估计;张珂等;《计算机辅助设计与图形学学报》;20180228;第30卷(第2期);第1.3节 *

Also Published As

Publication number Publication date
WO2023207163A1 (zh) 2023-11-02
CN114529825A (zh) 2022-05-24

Similar Documents

Publication Publication Date Title
CN114529825B (zh) 用于消防通道占用目标检测的目标检测模型、方法及应用
CN109840531B (zh) 训练多标签分类模型的方法和装置
CN112396002B (zh) 一种基于SE-YOLOv3的轻量级遥感目标检测方法
CN112232232B (zh) 一种目标检测方法
CN112329680B (zh) 基于类激活图的半监督遥感影像目标检测和分割方法
CN111968150B (zh) 一种基于全卷积神经网络的弱监督视频目标分割方法
CN114549913B (zh) 一种语义分割方法、装置、计算机设备和存储介质
JP7096431B2 (ja) ビデオ分析方法及びそれに関連するモデル訓練方法、機器、装置
CN113723366B (zh) 一种行人重识别方法、装置及计算机设备
Zhang et al. RelationNet2: Deep comparison columns for few-shot learning
Li et al. Robust deep neural networks for road extraction from remote sensing images
Ammour Continual learning using data regeneration for remote sensing scene classification
CN114419381A (zh) 一种语义分割方法及应用其的道路积水检测方法和装置
CN116310850A (zh) 基于改进型RetinaNet的遥感图像目标检测方法
CN116844041A (zh) 一种基于双向卷积时间自注意力机制的耕地提取方法
Pham Geostatistical simulation of medical images for data augmentation in deep learning
Fu et al. A case study of utilizing YOLOT based quantitative detection algorithm for marine benthos
CN111914949A (zh) 基于强化学习的零样本学习模型的训练方法及装置
CN109559345B (zh) 一种服装关键点定位系统及其训练、定位方法
CN112529025A (zh) 一种数据处理方法及装置
Gaihua et al. Instance segmentation convolutional neural network based on multi-scale attention mechanism
CN113516182B (zh) 视觉问答模型训练、视觉问答方法和装置
CN116152082A (zh) 用于图像去模糊的方法和设备
CN114462490A (zh) 图像目标的检索方法、检索设备、电子设备和存储介质
Hu et al. Theory of spatiotemporal deep analogs and their application to solar forecasting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant