CN113554125A - 结合全局与局部特征的目标检测装置、方法和存储介质 - Google Patents

结合全局与局部特征的目标检测装置、方法和存储介质 Download PDF

Info

Publication number
CN113554125A
CN113554125A CN202111096419.8A CN202111096419A CN113554125A CN 113554125 A CN113554125 A CN 113554125A CN 202111096419 A CN202111096419 A CN 202111096419A CN 113554125 A CN113554125 A CN 113554125A
Authority
CN
China
Prior art keywords
layer
network
module
feature
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111096419.8A
Other languages
English (en)
Other versions
CN113554125B (zh
Inventor
桑高丽
闫超
赵梓杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Yifei Technology Co ltd
Original Assignee
Sichuan Yifei Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Yifei Technology Co ltd filed Critical Sichuan Yifei Technology Co ltd
Priority to CN202111096419.8A priority Critical patent/CN113554125B/zh
Publication of CN113554125A publication Critical patent/CN113554125A/zh
Application granted granted Critical
Publication of CN113554125B publication Critical patent/CN113554125B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种结合全局与局部特征的目标检测装置、方法和存储介质,网络模型包括深层特征信息提取部分以及目标检测器部分,所述深层特征信息提取部分采用分‑合结构搭建,且包括卷积网络、变形多头自注意力网络、桥接融合模块,所述卷积网络、变形多头自注意力网络并列设置,且输出端分别与桥接融合模块的输入端连接。本发明通过桥接融合模块计算多种模态特征信息之间的联系,即计算全局表示和局部特征之间的相关性,从而获取特征层次上的上下文信息,充分融合全局和局部特征。本发明在全局上提高模型对图像中背景和目标的区分能力,减少噪声的干扰,同时,在局部上提升模型的表达能力,能更好的定位目标的位置,提高模型的精准度和泛化性。

Description

结合全局与局部特征的目标检测装置、方法和存储介质
技术领域
本发明属于目标检测的技术领域,具体涉及一种结合全局与局部特征的目标检测装置、方法和存储介质。
背景技术
随着国家经济的繁荣发展,城市化建设范围也不断扩大,如楼房修建、道路建设等等基础设施搭建,很大程度上便利了人们的学习生活。其中,在复杂环境下,安全帽是施工人员身上最重要的防护用品,明令要求所有人员进入施工场所时必须佩戴安全帽,因此,为了保证工作人员的人身安全,引入智能监管技术迫在眉睫。
近几年,已有的智能监控技术都是在计算机视觉技术的基础上发展得到的,而安全帽目标检测方法是这些技术中的一门研究方向。安全帽目标检测方法主要分为两类:基于传统图像处理的技术方法和基于深度学习的技术方法。随着检测方法应用的场景不断增加,基于传统图像处理的技术方法因单一的特征信息而导致泛化能力差,不能良好的适应复杂的现实场景;而基于深度学习的技术方法充分利用多种语义丰富的特征信息,学习得到能适应实际场景变化的预判能力,不负众望地取得了良好的检测精度。
目前,大多数的安全帽目标检测方法能在较为良好的场景下对人员佩戴安全帽进行检测,但是实际的监控场景中佩戴安全帽的人员像素占比较小,而且随着施工场所光线和拍摄角度的变化,安全帽表面的颜色和形状会因此引入较多的噪声干扰,导致已有的算法适用性变差,检测精准度大大退化。因此,急需提出一种对安全帽颜色和形状变化泛化性强和检测精度高的目标检测方案,能在视频监控中达到监管安全的作用,更加有效的保证工作人员的人身安全。
发明内容
本发明的目的在于提供一种结合全局与局部特征的目标检测装置、方法和存储介质,是基于全局表示和局部特征学习的目标检测技术,旨在解决上述问题。
本发明主要通过以下技术方案实现:
结合全局与局部特征的目标检测装置,包括数据处理模块、训练模块、检测模块,所述数据处理模块用于收集、标注图像样本,并得到训练集;所述训练模块用于利用训练集训练目标检测的网络模型并得到训练后的检测模型;所述检测模块用于将待测图片输入到训练后的检测模型并输出目标检测的结果;
所述网络模型包括从前至后依次连接的若干个深层特征信息提取部分以及目标检测器部分,所述深层特征信息提取部分采用分-合结构搭建,且用于提取图像样本的深层特征信息,所述目标检测器部分用于根据深层特征信息进行目标定位及分类;所述深层特征信息提取部分包括卷积网络、变形多头自注意力网络、桥接融合模块,所述卷积网络、变形多头自注意力网络并列设置,且输出端分别与桥接融合模块的输入端连接。
其中所述的分合结构中分结构是指并行使用卷积网络和变形多头自注意力提取图像样本的特征网络部分,而合结构是指利用桥接融合模块将分结构中提取的特征进行融合的网络部分。所述的桥接融合模块能更好的融合不同特性的特征信息,提高模型对目标的表达能力。本发明根据图像目标的特点构建出网络结构,从图像全局表示和目标局部特征分析理解,能更好的定位目标的位置,提高模型的精准度和泛化性。
为了更好地实现本发明,进一步地,所述桥接融合模块包括第一卷积层、第二卷积层、第一特征点乘层、第二特征点乘层、柔性最大值层、特征相加层以及特征拼接层,第一卷积层的输出端依次与批归一化层、激活函数层连接,所述变形多头自注意力网络的输出端分别与第一卷积层、第二卷积层、特征拼接层连接;所述卷积网络和第二卷积层的输出端依次连接第一特征点乘层、柔性最大值层,柔性最大值层与激活函数层的输出经第二特征点乘层处理后,并与卷积网络的输出经特征相加层处理后输入特征拼接层。
所述桥接融合模块前端的卷积层的作用是改变特征信息的通道维度,减少计算量,以及增大特征信息的感受野,从而提高表达能力。
为了更好地实现本发明,进一步地,所述卷积网络包括从前至后依次设置的第一模块和第二模块、特征相加层,所述第一模块的输出端与特征相加层连接;所述第一模块、第二模块分别包括从前至后依次设置的卷积层、批归一化层、激活函数层、深度可分离卷积层。
为了更好地实现本发明,进一步地,所述第一模块、第二模块分别由从前至后依次设置的若干个模块单元以及深度可分离卷积层、批归一化层、激活函数层、卷积层、批归一化层构成;所述模块单元由从前至后依次设置的卷积层、批归一化层、激活函数层构成。
为了更好地实现本发明,进一步地,所述变形多头自注意力网络包括从前至后依次连接的若干个注意力单元以及全连接层、神经元失活层,所述注意力单元包括从前至后依次设置的卷积层、嵌入位置向量层、重组向量层、多头自注意力机制模块、特征相加层、层归一化层以及若干个单元机构,所述单元机构包括从前至后依次设置的全连接层、高斯误差线性单元层;所述卷积层与嵌入位置向量层的输出经过特征相加层处理后分别输入重组向量层、特征相加层。
为了更好地实现本发明,进一步地,所述目标检测器部分包括从前至后依次设置的生成候选区域建议网络、感兴趣区域对齐池化层以及全连接层,所述目标检测器部分利用深层特征信息提取部分输出的特征信息生成候选区域,再对对应的特征信息进行定位、分类。
为了更好地实现本发明,进一步地,所述网络模型的损失函数采用类别分类损失函数和边界框回归损失函数,类别分类损失函数采用焦点损失函数,边界框回归损失函数采用交并比损失函数。
本发明主要通过以下技术方案实现:
结合全局与局部特征的目标检测方法,采用上述的目标检测装置进行;包括以下步骤:
步骤S100:收集并标注图像并得到训练集;
步骤S200:采用训练集训练目标检测的网络模型并得到训练后的检测模型:采用分-合结构的深层特征信息提取部分提取图像的深层特征信息,然后送入目标检测器部分定位、分类;在提取图像的深层特征信息时,将卷积网络、变形多头自注意力网络的输出分别导入桥接融合模块,卷积网络的输出特征经过第二卷积层处理后,并与变形多头自注意力网络的输出特征进行相乘,用于计算全局特征和局部特征的相关性;然后采用柔性最大值层对数值进行转换,达到归一化的效果;柔性最大值层与激活函数层的输出进行相乘,利用相关性突出局部特征信息上部分重要特征点的权重,然后使用特征相加层将处理后的局部特征信息与变形多头自注意力网络输出的全局信息相加,在保留全局表示的前提下,重点强调目标所在的局部特征,最后通过特征拼接层将卷积网络的特征信息与输入的局部信息拼接在一起;
步骤S300:将待测的图像输入到训练后的检测模型并输出目标检测结果。
为了更好地实现本发明,进一步地,所述步骤S200中随机初始化网络模型的相关权重参数,然后调整训练前需设置的相关超参数,同时选择优化器对网络模型的训练进行优化,找到最优的决策边界,最后直到训练次数达到设置的最大迭代次数时停止训练,再通过测试选择精度性能最优的模型做为训练后的检测模型。
一种计算机可读存储介质,存储有计算机程序指令,所述程序指令被处理器执行时实现上述的目标检测方法。
在深度学习技术领域中,卷积神经网络主要用于提取目标图像的局部特征,为了改善这一局限性,许多衍生方法通过扩大特征提取区域、增大感受野、引入注意力机制等方法获取上下文信息,但这些方法都具有明显的缺陷,增大感受野需要更多的下采样操作,这导致了最终的特征空间分辨率较低,大量的位置信息丢失,造成目标定位精度下降,而变形多头自注意力网络是一种处理序列数据的模型,能够利用长距离依赖的特性提取目标图像的全局特征,包含上下文信息,这一点能解决卷积神经网络的缺陷,但是这种网络为了提取全局特征,牺牲了目标图像的局部细节特征,因此,这两种网络都存在部分缺点。其次,如何将卷积神经网络的局部特征和变形多头自注意力网络的全局表示更好、更精准地相互融合、嵌入依然是需要探究的问题。
本发明中的桥接融合模块,能更好的将卷积神经网络的局部特征和变形多头自注意力网络的全局表示自适应地融合,结合了特征拼接融合、特征加权融合两种方法的优势,即利用两者的优点弥补两种方法的缺陷。如图4所示,桥接融合模块共使用两个特征点乘层、一个特征相加层、一个特征拼接层,其中第一个特征点乘层用于计算局部特征和全局表示的相关性,是因为全局表示包含部分局部特征,需先找到全局表示与局部特征哪些特征信息是相关的。第二个特征点乘层,是利用前述的相关性突出局部特征信息上部分重要特征点的权重,这种操作是因为如果全局表示上的局部信息和卷积神经网络的局部信息重合了,说明这部分的局部信息重要程度大于其余局部信息,需得到模型更多的关注。然后,桥接融合模块利用特征相加层将局部信息突出后的特征信息和全局表示互相嵌入,得到特征特性相互弥补后的全局表示信息,最后,为了防止处理后的全局表示信息出现退化现象,采用特征拼接层在通道方向上将全局表示和局部特征堆叠在一起,而且模块前端采用卷积核为1X1的卷积层降低了局部信息的维度,所以全局表示和局部特征堆叠在一起之后并没有增加模型的计算量,输出的特征信息维度与输入的局部信息维度保持一致。
本发明的有益效果:
(1)本发明通过桥接融合模块计算多种模态特征信息之间的联系,即计算全局表示和局部特征之间的相关性,从而获取特征层次上的上下文信息,充分融合全局和局部特征;
(2)本发明在全局上提高模型对图像中背景和目标的区分能力,减少噪声的干扰,同时,在局部上提升模型的表达能力,能更好的定位目标的位置,提高模型的精准度和泛化性。
附图说明
图1为本发明的网络模型的结构示意图;
图2为卷积网络的结构示意图;
图3为变形多头自注意力网络的结构示意图;
图4为桥接融合模块的结构示意图。
具体实施方式
实施例1:
结合全局与局部特征的目标检测装置,包括数据处理模块、训练模块、检测模块,所述数据处理模块用于收集、标注图像样本,并得到训练集;所述训练模块用于利用训练集训练目标检测的网络模型并得到训练后的检测模型;所述检测模块用于将待测图片输入到训练后的检测模型并输出目标检测的结果。
如图1所示,所述网络模型包括从前至后依次连接的若干个深层特征信息提取部分以及目标检测器部分,所述深层特征信息提取部分采用分-合结构搭建,且用于提取图像样本的深层特征信息,所述目标检测器部分用于根据深层特征信息进行目标定位及分类;所述深层特征信息提取部分包括卷积网络、变形多头自注意力网络、桥接融合模块,所述卷积网络、变形多头自注意力网络并列设置,且输出端分别与桥接融合模块的输入端连接。
进一步地,所述网络模型的损失函数采用类别分类损失函数和边界框回归损失函数,类别分类损失函数采用焦点损失函数,边界框回归损失函数采用交并比损失函数。
本发明在全局上提高模型对图像中背景和目标的区分能力,减少噪声的干扰,同时,在局部上提升模型的表达能力,能更好的定位目标的位置,提高模型的精准度和泛化性。
实施例2:
本实施例是在实施例1的基础上进行优化,如图4所示,所述桥接融合模块包括第一卷积层、第二卷积层、第一特征点乘层、第二特征点乘层、柔性最大值层、特征相加层以及特征拼接层,第一卷积层的输出端依次与批归一化层、激活函数层连接,所述变形多头自注意力网络的输出端分别与第一卷积层、第二卷积层、特征拼接层连接;所述卷积网络和第二卷积层的输出端依次连接第一特征点乘层、柔性最大值层,柔性最大值层与激活函数层的输出经第二特征点乘层处理后,并与卷积网络的输出经特征相加层处理后输入特征拼接层。
本发明通过桥接融合模块计算多种模态特征信息之间的联系,即计算全局表示和局部特征之间的相关性,从而获取特征层次上的上下文信息,充分融合全局和局部特征。
本实施例的其他部分与实施例1相同,故不再赘述。
实施例3:
本实施例是在实施例1或2的基础上进行优化,如图2所示,所述卷积网络包括从前至后依次设置的第一模块和第二模块、特征相加层,所述第一模块的输出端与特征相加层连接;所述第一模块、第二模块分别包括从前至后依次设置的卷积层、批归一化层、激活函数层、深度可分离卷积层。
进一步地,如图2所示,所述第一模块、第二模块分别由从前至后依次设置的若干个模块单元以及深度可分离卷积层、批归一化层、激活函数层、卷积层、批归一化层构成;所述模块单元由从前至后依次设置的卷积层、批归一化层、激活函数层构成。
本实施例的其他部分与上述实施例1或2相同,故不再赘述。
实施例4:
本实施例是在实施例1-3任一个的基础上进行优化,如图3所示,所述变形多头自注意力网络包括从前至后依次连接的若干个注意力单元以及全连接层、神经元失活层,所述注意力单元包括从前至后依次设置的卷积层、嵌入位置向量层、重组向量层、多头自注意力机制模块、特征相加层、层归一化层以及若干个单元机构,所述单元机构包括从前至后依次设置的全连接层、高斯误差线性单元层;所述卷积层与嵌入位置向量层的输出经过特征相加层处理后分别输入重组向量层、特征相加层。
本实施例的其他部分与上述实施例1-3任一个相同,故不再赘述。
实施例5:
本实施例是在实施例1-4任一个的基础上进行优化,如图1所示,所述目标检测器部分包括从前至后依次设置的生成候选区域建议网络、感兴趣区域对齐池化层以及全连接层,所述目标检测器部分利用深层特征信息提取部分输出的特征信息生成候选区域,再对对应的特征信息进行定位、分类。
本实施例的其他部分与上述实施例1-4任一个相同,故不再赘述。
实施例6:
结合全局与局部特征的目标检测方法,采用上述的目标检测装置进行;包括以下步骤:
步骤S100:收集并标注图像并得到训练集;
步骤S200:采用训练集训练目标检测的网络模型并得到训练后的检测模型:采用分-合结构的深层特征信息提取部分提取图像的深层特征信息,然后送入目标检测器部分定位、分类;在提取图像的深层特征信息时,将卷积网络、变形多头自注意力网络的输出分别导入桥接融合模块,卷积网络的输出特征经过第二卷积层处理后,并与变形多头自注意力网络的输出特征进行相乘,用于计算全局特征和局部特征的相关性;然后采用柔性最大值层对数值进行转换,达到归一化的效果;柔性最大值层与激活函数层的输出进行相乘,利用相关性突出局部特征信息上部分重要特征点的权重,然后使用特征相加层将处理后的局部特征信息与变形多头自注意力网络输出的全局信息相加,在保留全局表示的前提下,重点强调目标所在的局部特征,最后通过特征拼接层将卷积网络的特征信息与输入的局部信息拼接在一起;
步骤S300:将待测的图像输入到训练后的检测模型并输出目标检测结果。
进一步地,所述步骤S200中随机初始化网络模型的相关权重参数,然后调整训练前需设置的相关超参数,同时选择优化器对网络模型的训练进行优化,找到最优的决策边界,最后直到训练次数达到设置的最大迭代次数时停止训练,再通过测试选择精度性能最优的模型做为训练后的检测模型。
实施例7:
结合全局与局部特征的目标检测方法,适用于安全帽检测,该安全帽目标检测包括以下步骤:
收集并标注包含工人佩戴安全帽的图像,按比例划分为训练集和测试集;
目标检测模型方法的整体网络采用分-合的结构搭建,主要由卷积网络、变形多头自注意力网络以及桥接融合模块构成,核心学习过程是由分合结构的网络结构提取图像样本的深层特征信息,再送入目标检测器进行目标定位及分类;
选用合适的损失函数计算预测值与真实值之间的差异值,从而达到指导模型训练学习的目的;
随机初始化整体网络模型的相关权重参数,然后调整训练前需设置的相关超参数,同时选择优化器对模型的训练进行优化,能找到最优的决策边界,最后直到训练次数达到设置的最大迭代次数时停止训练,再通过测试选择精度性能最优的模型做为输出。
进一步地,网络模型的网络结构主要由深层特征信息提取部分和目标检测器部分构成。深层特征信息提取部分采用分-合的结构搭建,主要由卷积网络、变形多头自注意力网络以及桥接融合模块构成。
其中所述的分合结构中分结构是指并行使用卷积网络和变形多头自注意力提取图像样本的特征网络部分,而合结构是指利用桥接融合模块将分结构中提取的特征进行融合的网络部分。所述的桥接融合模块能更好的融合不同特性的特征信息,提高模型对目标的表达能力。
进一步地,桥接融合模块主要由卷积层、特征点乘层、柔性最大值层、特征相加层以及特征拼接层构成,用于计算多种模态特征信息之间的联系,即计算全局表示和局部特征之间的相关性,从而获取特征层次上的上下文信息。其中前端的卷积层的作用是改变特征信息的通道维度,减少计算量,以及增大特征信息的感受野,从而提高表达能力。
如图4所示,第一个特征点乘层的作用是计算全局特征和局部特征的相关性,但因计算出来的数值取值范围不同,需用柔性最大值层对数值进行转换,达到归一化的效果,第二个特征点乘层的作用是利用前述的相关性突出局部特征信息上部分重要特征点的权重,然后使用特征相加层将处理后的局部特征信息与全局信息相加,可以在保留全局表示的前提下,重点强调目标所在的局部特征,最后之前处理的特征信息与输入的局部信息拼接在一起,从而增加特征信息包含的上下文信息和语义信息,大大提高特征信息的泛化性和鲁棒性。特征变换映射公式如下:
Figure 339443DEST_PATH_IMAGE001
上述公式中Attention是计算出的注意力数值,Output_feature为模块最后输出的特征信息,x t 为变形多头自注意力网络输出的特征信息,x c 为卷积网络输出的特征信息,Conv 2为3X3卷积核的卷积层,Conv 1为1X1卷积核的卷积层,Conv 2处理之后需与另一分支特征信息的维度保持一致。
进一步地,如图2所示,卷积网络由卷积层、批归一化层、激活函数层、深度可分离卷积层、特征相加层组成。
进一步地,如图3所示,而变形多头自注意力网络结构由多头自注意力机制模块、前向传播网络部分构成,其中,前向传播网络主要由两个全连接层组成。
进一步地,目标检测器部分由生成候选区域建议网络、感兴趣区域对齐池化层以及全连接层构成,主要作用是利用深层特征信息提取部分输出的特征信息生成候选区域,再对对应的特征信息进行定位、分类。
综上所述,本发明构建的安全帽目标检测方法具有更强的区分能力和表达能力。由实验可得,充分利用不同特性提取的全局表示和局部特征,与已有的检测方法相比,本发明提出的方法能减弱实际应用中环境对目标造成的干扰信息,增强模型对多样环境的适应性,具有稳定的精测精度。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。

Claims (10)

1.结合全局与局部特征的目标检测装置,其特征在于,包括数据处理模块、训练模块、检测模块,所述数据处理模块用于收集、标注图像样本,并得到训练集;所述训练模块用于利用训练集训练目标检测的网络模型并得到训练后的检测模型;所述检测模块用于将待测图片输入到训练后的检测模型并输出目标检测的结果;
所述网络模型包括从前至后依次连接的若干个深层特征信息提取部分以及目标检测器部分,所述深层特征信息提取部分采用分-合结构搭建,且用于提取图像样本的深层特征信息,所述目标检测器部分用于根据深层特征信息进行目标定位及分类;所述深层特征信息提取部分包括卷积网络、变形多头自注意力网络、桥接融合模块,所述卷积网络、变形多头自注意力网络并列设置,且输出端分别与桥接融合模块的输入端连接。
2.根据权利要求1所述的结合全局与局部特征的目标检测装置,其特征在于,所述桥接融合模块包括第一卷积层、第二卷积层、第一特征点乘层、第二特征点乘层、柔性最大值层、特征相加层以及特征拼接层,第一卷积层的输出端依次与批归一化层、激活函数层连接,所述变形多头自注意力网络的输出端分别与第一卷积层、第二卷积层、特征拼接层连接;所述卷积网络和第二卷积层的输出端依次连接第一特征点乘层、柔性最大值层,柔性最大值层与激活函数层的输出经第二特征点乘层处理后,并与卷积网络的输出经特征相加层处理后输入特征拼接层。
3.根据权利要求1所述的结合全局与局部特征的目标检测装置,其特征在于,所述卷积网络包括从前至后依次设置的第一模块和第二模块、特征相加层,所述第一模块的输出端与特征相加层连接;所述第一模块、第二模块分别包括从前至后依次设置的卷积层、批归一化层、激活函数层、深度可分离卷积层。
4.根据权利要求3所述的结合全局与局部特征的目标检测装置,其特征在于,所述第一模块、第二模块分别由从前至后依次设置的若干个模块单元以及深度可分离卷积层、批归一化层、激活函数层、卷积层、批归一化层构成;所述模块单元由从前至后依次设置的卷积层、批归一化层、激活函数层构成。
5.根据权利要求1所述的结合全局与局部特征的目标检测装置,其特征在于,所述变形多头自注意力网络包括从前至后依次连接的若干个注意力单元以及全连接层、神经元失活层,所述注意力单元包括从前至后依次设置的卷积层、嵌入位置向量层、重组向量层、多头自注意力机制模块、特征相加层、层归一化层以及若干个单元机构,所述单元机构包括从前至后依次设置的全连接层、高斯误差线性单元层;所述卷积层与嵌入位置向量层的输出经过特征相加层处理后分别输入重组向量层、特征相加层。
6.根据权利要求1-5任一项所述的结合全局与局部特征的目标检测装置,其特征在于,所述目标检测器部分包括从前至后依次设置的生成候选区域建议网络、感兴趣区域对齐池化层以及全连接层,所述目标检测器部分利用深层特征信息提取部分输出的特征信息生成候选区域,再对对应的特征信息进行定位、分类。
7.根据权利要求1所述的结合全局与局部特征的目标检测装置,其特征在于,所述网络模型的损失函数采用类别分类损失函数和边界框回归损失函数,类别分类损失函数采用焦点损失函数,边界框回归损失函数采用交并比损失函数。
8.结合全局与局部特征的目标检测方法,采用权利要求1-7任一项所述的目标检测装置进行;其特征在于,包括以下步骤:
步骤S100:收集并标注图像并得到训练集;
步骤S200:采用训练集训练目标检测的网络模型并得到训练后的检测模型:采用分-合结构的深层特征信息提取部分提取图像的深层特征信息,然后送入目标检测器部分定位、分类;在提取图像的深层特征信息时,将卷积网络、变形多头自注意力网络的输出分别导入桥接融合模块,卷积网络的输出特征经过第二卷积层处理后,并与变形多头自注意力网络的输出特征进行相乘,用于计算全局特征和局部特征的相关性;然后采用柔性最大值层对数值进行转换,达到归一化的效果;柔性最大值层与激活函数层的输出进行相乘,利用相关性突出局部特征信息上部分重要特征点的权重,然后使用特征相加层将处理后的局部特征信息与变形多头自注意力网络输出的全局信息相加,在保留全局表示的前提下,重点强调目标所在的局部特征,最后通过特征拼接层将卷积网络的特征信息与输入的局部信息拼接在一起;
步骤S300:将待测的图像输入到训练后的检测模型并输出目标检测结果。
9.根据权利要求8所述的结合全局与局部特征的目标检测方法,其特征在于,所述步骤S200中随机初始化网络模型的相关权重参数,然后调整训练前需设置的相关超参数,同时选择优化器对网络模型的训练进行优化,找到最优的决策边界,最后直到训练次数达到设置的最大迭代次数时停止训练,再通过测试选择精度性能最优的模型做为训练后的检测模型。
10.一种计算机可读存储介质,存储有计算机程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求8或9所述的目标检测方法。
CN202111096419.8A 2021-09-18 2021-09-18 结合全局与局部特征的目标检测装置、方法和存储介质 Active CN113554125B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111096419.8A CN113554125B (zh) 2021-09-18 2021-09-18 结合全局与局部特征的目标检测装置、方法和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111096419.8A CN113554125B (zh) 2021-09-18 2021-09-18 结合全局与局部特征的目标检测装置、方法和存储介质

Publications (2)

Publication Number Publication Date
CN113554125A true CN113554125A (zh) 2021-10-26
CN113554125B CN113554125B (zh) 2021-12-17

Family

ID=78134665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111096419.8A Active CN113554125B (zh) 2021-09-18 2021-09-18 结合全局与局部特征的目标检测装置、方法和存储介质

Country Status (1)

Country Link
CN (1) CN113554125B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113869285A (zh) * 2021-12-01 2021-12-31 四川博创汇前沿科技有限公司 一种人群密度估计装置、方法和存储介质
CN114092833A (zh) * 2022-01-24 2022-02-25 长沙理工大学 遥感图像分类方法、装置、计算机设备和存储介质
CN114549958A (zh) * 2022-02-24 2022-05-27 四川大学 基于上下文信息感知机理的夜间和伪装目标检测方法
CN115546735A (zh) * 2022-11-28 2022-12-30 四川川锅环保工程有限公司 一种冷却塔结冰检测识别系统、方法和存储介质
CN116109932A (zh) * 2023-04-12 2023-05-12 深圳市明源云科技有限公司 房屋安全检测方法、装置、电子设备及可读存储介质
CN116256586A (zh) * 2023-05-10 2023-06-13 广东电网有限责任公司湛江供电局 电力设备过热检测方法、装置、电子设备与存储介质
CN116520277B (zh) * 2023-04-26 2023-12-08 中国人民解放军93209部队 一种基于分离式卷积网络的雷达目标识别方法和系统
CN117409328A (zh) * 2023-12-14 2024-01-16 城云科技(中国)有限公司 用于道路病害检测的无因果性目标检测模型、方法及应用

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004134946A (ja) * 2002-10-09 2004-04-30 Sony Corp 画像処理装置および方法、記録媒体、並びにプログラム
CN109032563A (zh) * 2018-07-03 2018-12-18 中国人民解放军国防科技大学 一种加速桥接融合乘加的方法及装置
CN111275066A (zh) * 2018-12-05 2020-06-12 北京嘀嘀无限科技发展有限公司 一种图像特征的融合方法、装置以及电子设备
US20200302222A1 (en) * 2019-03-18 2020-09-24 Kabushiki Kaisha Toshiba Object detection apparatus, object detection method, computer program product, and moving object
CN111709397A (zh) * 2020-07-08 2020-09-25 哈尔滨工业大学 一种基于多头自注意力机制的无人机变尺寸目标检测方法
WO2020237188A1 (en) * 2019-05-23 2020-11-26 Google Llc Fully attentional computer vision
CN112329800A (zh) * 2020-12-03 2021-02-05 河南大学 一种基于全局信息引导残差注意力的显著性目标检测方法
CN112396126A (zh) * 2020-12-02 2021-02-23 中山大学 一种基于检测主干与局部特征优化的目标检测方法及系统
CN112883896A (zh) * 2021-03-10 2021-06-01 山东大学 一种基于bert网络的微表情检测方法
CN112949673A (zh) * 2019-12-11 2021-06-11 四川大学 一种基于全局注意力的特征融合目标检测与识别方法
CN113065402A (zh) * 2021-03-05 2021-07-02 四川翼飞视科技有限公司 一种基于变形注意力机制的人脸检测方法
CN113065451A (zh) * 2021-03-29 2021-07-02 四川翼飞视科技有限公司 一种多模态融合的动作识别装置、方法和存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004134946A (ja) * 2002-10-09 2004-04-30 Sony Corp 画像処理装置および方法、記録媒体、並びにプログラム
CN109032563A (zh) * 2018-07-03 2018-12-18 中国人民解放军国防科技大学 一种加速桥接融合乘加的方法及装置
CN111275066A (zh) * 2018-12-05 2020-06-12 北京嘀嘀无限科技发展有限公司 一种图像特征的融合方法、装置以及电子设备
US20200302222A1 (en) * 2019-03-18 2020-09-24 Kabushiki Kaisha Toshiba Object detection apparatus, object detection method, computer program product, and moving object
WO2020237188A1 (en) * 2019-05-23 2020-11-26 Google Llc Fully attentional computer vision
CN112949673A (zh) * 2019-12-11 2021-06-11 四川大学 一种基于全局注意力的特征融合目标检测与识别方法
CN111709397A (zh) * 2020-07-08 2020-09-25 哈尔滨工业大学 一种基于多头自注意力机制的无人机变尺寸目标检测方法
CN112396126A (zh) * 2020-12-02 2021-02-23 中山大学 一种基于检测主干与局部特征优化的目标检测方法及系统
CN112329800A (zh) * 2020-12-03 2021-02-05 河南大学 一种基于全局信息引导残差注意力的显著性目标检测方法
CN113065402A (zh) * 2021-03-05 2021-07-02 四川翼飞视科技有限公司 一种基于变形注意力机制的人脸检测方法
CN112883896A (zh) * 2021-03-10 2021-06-01 山东大学 一种基于bert网络的微表情检测方法
CN113065451A (zh) * 2021-03-29 2021-07-02 四川翼飞视科技有限公司 一种多模态融合的动作识别装置、方法和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DENG JIANG 等: "FASSD: A Feature Fusion and Spatial Attention-Based Single Shot Detector for Small Object Detection", 《ELECTRONICS》 *
刘龙 等: "面向目标检测的多尺度运动注意力融合算法研究", 《电子与信息学报》 *
张小川: "融合多头自注意力机制的中文短文本分类模型", 《计算机应用》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113869285A (zh) * 2021-12-01 2021-12-31 四川博创汇前沿科技有限公司 一种人群密度估计装置、方法和存储介质
CN113869285B (zh) * 2021-12-01 2022-03-04 四川博创汇前沿科技有限公司 一种人群密度估计装置、方法和存储介质
CN114092833A (zh) * 2022-01-24 2022-02-25 长沙理工大学 遥感图像分类方法、装置、计算机设备和存储介质
CN114549958B (zh) * 2022-02-24 2023-08-04 四川大学 基于上下文信息感知机理的夜间和伪装目标检测方法
CN114549958A (zh) * 2022-02-24 2022-05-27 四川大学 基于上下文信息感知机理的夜间和伪装目标检测方法
CN115546735A (zh) * 2022-11-28 2022-12-30 四川川锅环保工程有限公司 一种冷却塔结冰检测识别系统、方法和存储介质
CN115546735B (zh) * 2022-11-28 2023-03-10 四川川锅环保工程有限公司 一种冷却塔结冰检测识别系统、方法和存储介质
CN116109932A (zh) * 2023-04-12 2023-05-12 深圳市明源云科技有限公司 房屋安全检测方法、装置、电子设备及可读存储介质
CN116109932B (zh) * 2023-04-12 2023-08-04 深圳市明源云科技有限公司 房屋安全检测方法、装置、电子设备及可读存储介质
CN116520277B (zh) * 2023-04-26 2023-12-08 中国人民解放军93209部队 一种基于分离式卷积网络的雷达目标识别方法和系统
CN116256586A (zh) * 2023-05-10 2023-06-13 广东电网有限责任公司湛江供电局 电力设备过热检测方法、装置、电子设备与存储介质
CN117409328A (zh) * 2023-12-14 2024-01-16 城云科技(中国)有限公司 用于道路病害检测的无因果性目标检测模型、方法及应用
CN117409328B (zh) * 2023-12-14 2024-02-27 城云科技(中国)有限公司 用于道路病害检测的无因果性目标检测模型、方法及应用

Also Published As

Publication number Publication date
CN113554125B (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN113554125B (zh) 结合全局与局部特征的目标检测装置、方法和存储介质
CN112150493A (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN112149591B (zh) 用于sar图像的ssd-aeff自动桥梁检测方法及系统
Xia et al. PANDA: Parallel asymmetric network with double attention for cloud and its shadow detection
CN113326735B (zh) 一种基于YOLOv5的多模态小目标检测方法
CN110705566A (zh) 一种基于空间金字塔池的多模态融合显著性检测方法
CN116740516A (zh) 基于多尺度融合特征提取的目标检测方法及系统
Hua et al. Underwater object detection algorithm based on feature enhancement and progressive dynamic aggregation strategy
Xie et al. An enhanced relation-aware global-local attention network for escaping human detection in indoor smoke scenarios
Baoyuan et al. Research on object detection method based on FF-YOLO for complex scenes
CN113011359B (zh) 一种基于图像的同时检测平面结构和生成平面描述的方法及应用
CN117132910A (zh) 一种用于无人机的车辆检测方法、装置及存储介质
Liu et al. Pavement Distress Detection Using Street View Images Captured via Action Camera
CN116311518A (zh) 一种基于人体交互意图信息的层级人物交互检测方法
Thampi et al. Analysis of U-Net based image segmentation model on underwater images of different species of fishes
CN115098646A (zh) 一种图文数据的多级关系分析与挖掘方法
CN112488116B (zh) 基于多模态嵌入的场景理解语义生成方法
CN114140524A (zh) 一种多尺度特征融合的闭环检测系统及方法
Xie et al. ResNet with Attention Mechanism and Deformable Convolution for Facial Expression Recognition
CN114743257A (zh) 图像目标行为的检测识别方法
Chi et al. Concrete Application of Computer Virtual Image Technology in Modern Sports Training
Li et al. Generative adversarial network based on LSTM and convolutional block attention module for industrial smoke image recognition
CN117173549B (zh) 复杂场景下合成孔径声纳图像多尺度目标检测方法及系统
CN115908952B (zh) 一种基于改进YOLOv5算法的高铁隧道卡具检测方法
Li et al. Detection of Protective Apparatus for Municipal Engineering Construction Personnel Based on Improved YOLOv5s

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant