CN113554125A

CN113554125A - 结合全局与局部特征的目标检测装置、方法和存储介质

Info

Publication number: CN113554125A
Application number: CN202111096419.8A
Authority: CN
Inventors: 桑高丽; 闫超; 赵梓杰
Original assignee: Sichuan Yifei Technology Co ltd
Current assignee: Sichuan Yifei Technology Co ltd
Priority date: 2021-09-18
Filing date: 2021-09-18
Publication date: 2021-10-26
Anticipated expiration: 2041-09-18
Also published as: CN113554125B

Abstract

本发明公开了一种结合全局与局部特征的目标检测装置、方法和存储介质，网络模型包括深层特征信息提取部分以及目标检测器部分，所述深层特征信息提取部分采用分‑合结构搭建，且包括卷积网络、变形多头自注意力网络、桥接融合模块，所述卷积网络、变形多头自注意力网络并列设置，且输出端分别与桥接融合模块的输入端连接。本发明通过桥接融合模块计算多种模态特征信息之间的联系，即计算全局表示和局部特征之间的相关性，从而获取特征层次上的上下文信息，充分融合全局和局部特征。本发明在全局上提高模型对图像中背景和目标的区分能力，减少噪声的干扰，同时，在局部上提升模型的表达能力，能更好的定位目标的位置，提高模型的精准度和泛化性。

Description

结合全局与局部特征的目标检测装置、方法和存储介质

技术领域

本发明属于目标检测的技术领域，具体涉及一种结合全局与局部特征的目标检测装置、方法和存储介质。

背景技术

随着国家经济的繁荣发展，城市化建设范围也不断扩大，如楼房修建、道路建设等等基础设施搭建，很大程度上便利了人们的学习生活。其中，在复杂环境下，安全帽是施工人员身上最重要的防护用品，明令要求所有人员进入施工场所时必须佩戴安全帽，因此，为了保证工作人员的人身安全，引入智能监管技术迫在眉睫。

近几年，已有的智能监控技术都是在计算机视觉技术的基础上发展得到的，而安全帽目标检测方法是这些技术中的一门研究方向。安全帽目标检测方法主要分为两类：基于传统图像处理的技术方法和基于深度学习的技术方法。随着检测方法应用的场景不断增加，基于传统图像处理的技术方法因单一的特征信息而导致泛化能力差，不能良好的适应复杂的现实场景；而基于深度学习的技术方法充分利用多种语义丰富的特征信息，学习得到能适应实际场景变化的预判能力，不负众望地取得了良好的检测精度。

目前，大多数的安全帽目标检测方法能在较为良好的场景下对人员佩戴安全帽进行检测，但是实际的监控场景中佩戴安全帽的人员像素占比较小，而且随着施工场所光线和拍摄角度的变化，安全帽表面的颜色和形状会因此引入较多的噪声干扰，导致已有的算法适用性变差，检测精准度大大退化。因此，急需提出一种对安全帽颜色和形状变化泛化性强和检测精度高的目标检测方案，能在视频监控中达到监管安全的作用，更加有效的保证工作人员的人身安全。

发明内容

本发明的目的在于提供一种结合全局与局部特征的目标检测装置、方法和存储介质，是基于全局表示和局部特征学习的目标检测技术，旨在解决上述问题。

本发明主要通过以下技术方案实现：

结合全局与局部特征的目标检测装置，包括数据处理模块、训练模块、检测模块，所述数据处理模块用于收集、标注图像样本，并得到训练集；所述训练模块用于利用训练集训练目标检测的网络模型并得到训练后的检测模型；所述检测模块用于将待测图片输入到训练后的检测模型并输出目标检测的结果；

所述网络模型包括从前至后依次连接的若干个深层特征信息提取部分以及目标检测器部分，所述深层特征信息提取部分采用分-合结构搭建，且用于提取图像样本的深层特征信息，所述目标检测器部分用于根据深层特征信息进行目标定位及分类；所述深层特征信息提取部分包括卷积网络、变形多头自注意力网络、桥接融合模块，所述卷积网络、变形多头自注意力网络并列设置，且输出端分别与桥接融合模块的输入端连接。

其中所述的分合结构中分结构是指并行使用卷积网络和变形多头自注意力提取图像样本的特征网络部分，而合结构是指利用桥接融合模块将分结构中提取的特征进行融合的网络部分。所述的桥接融合模块能更好的融合不同特性的特征信息，提高模型对目标的表达能力。本发明根据图像目标的特点构建出网络结构，从图像全局表示和目标局部特征分析理解，能更好的定位目标的位置，提高模型的精准度和泛化性。

为了更好地实现本发明，进一步地，所述桥接融合模块包括第一卷积层、第二卷积层、第一特征点乘层、第二特征点乘层、柔性最大值层、特征相加层以及特征拼接层，第一卷积层的输出端依次与批归一化层、激活函数层连接，所述变形多头自注意力网络的输出端分别与第一卷积层、第二卷积层、特征拼接层连接；所述卷积网络和第二卷积层的输出端依次连接第一特征点乘层、柔性最大值层，柔性最大值层与激活函数层的输出经第二特征点乘层处理后，并与卷积网络的输出经特征相加层处理后输入特征拼接层。

所述桥接融合模块前端的卷积层的作用是改变特征信息的通道维度，减少计算量，以及增大特征信息的感受野，从而提高表达能力。

为了更好地实现本发明，进一步地，所述卷积网络包括从前至后依次设置的第一模块和第二模块、特征相加层，所述第一模块的输出端与特征相加层连接；所述第一模块、第二模块分别包括从前至后依次设置的卷积层、批归一化层、激活函数层、深度可分离卷积层。

为了更好地实现本发明，进一步地，所述第一模块、第二模块分别由从前至后依次设置的若干个模块单元以及深度可分离卷积层、批归一化层、激活函数层、卷积层、批归一化层构成；所述模块单元由从前至后依次设置的卷积层、批归一化层、激活函数层构成。

为了更好地实现本发明，进一步地，所述变形多头自注意力网络包括从前至后依次连接的若干个注意力单元以及全连接层、神经元失活层，所述注意力单元包括从前至后依次设置的卷积层、嵌入位置向量层、重组向量层、多头自注意力机制模块、特征相加层、层归一化层以及若干个单元机构，所述单元机构包括从前至后依次设置的全连接层、高斯误差线性单元层；所述卷积层与嵌入位置向量层的输出经过特征相加层处理后分别输入重组向量层、特征相加层。

为了更好地实现本发明，进一步地，所述目标检测器部分包括从前至后依次设置的生成候选区域建议网络、感兴趣区域对齐池化层以及全连接层，所述目标检测器部分利用深层特征信息提取部分输出的特征信息生成候选区域，再对对应的特征信息进行定位、分类。

为了更好地实现本发明，进一步地，所述网络模型的损失函数采用类别分类损失函数和边界框回归损失函数，类别分类损失函数采用焦点损失函数，边界框回归损失函数采用交并比损失函数。

本发明主要通过以下技术方案实现：

结合全局与局部特征的目标检测方法，采用上述的目标检测装置进行；包括以下步骤：

步骤S100：收集并标注图像并得到训练集；

步骤S200：采用训练集训练目标检测的网络模型并得到训练后的检测模型：采用分-合结构的深层特征信息提取部分提取图像的深层特征信息，然后送入目标检测器部分定位、分类；在提取图像的深层特征信息时，将卷积网络、变形多头自注意力网络的输出分别导入桥接融合模块，卷积网络的输出特征经过第二卷积层处理后，并与变形多头自注意力网络的输出特征进行相乘，用于计算全局特征和局部特征的相关性；然后采用柔性最大值层对数值进行转换，达到归一化的效果；柔性最大值层与激活函数层的输出进行相乘，利用相关性突出局部特征信息上部分重要特征点的权重，然后使用特征相加层将处理后的局部特征信息与变形多头自注意力网络输出的全局信息相加，在保留全局表示的前提下，重点强调目标所在的局部特征，最后通过特征拼接层将卷积网络的特征信息与输入的局部信息拼接在一起；

步骤S300：将待测的图像输入到训练后的检测模型并输出目标检测结果。

为了更好地实现本发明，进一步地，所述步骤S200中随机初始化网络模型的相关权重参数，然后调整训练前需设置的相关超参数，同时选择优化器对网络模型的训练进行优化，找到最优的决策边界，最后直到训练次数达到设置的最大迭代次数时停止训练，再通过测试选择精度性能最优的模型做为训练后的检测模型。

一种计算机可读存储介质，存储有计算机程序指令，所述程序指令被处理器执行时实现上述的目标检测方法。

在深度学习技术领域中，卷积神经网络主要用于提取目标图像的局部特征，为了改善这一局限性，许多衍生方法通过扩大特征提取区域、增大感受野、引入注意力机制等方法获取上下文信息，但这些方法都具有明显的缺陷，增大感受野需要更多的下采样操作，这导致了最终的特征空间分辨率较低，大量的位置信息丢失，造成目标定位精度下降，而变形多头自注意力网络是一种处理序列数据的模型，能够利用长距离依赖的特性提取目标图像的全局特征，包含上下文信息，这一点能解决卷积神经网络的缺陷，但是这种网络为了提取全局特征，牺牲了目标图像的局部细节特征，因此，这两种网络都存在部分缺点。其次，如何将卷积神经网络的局部特征和变形多头自注意力网络的全局表示更好、更精准地相互融合、嵌入依然是需要探究的问题。

本发明中的桥接融合模块，能更好的将卷积神经网络的局部特征和变形多头自注意力网络的全局表示自适应地融合，结合了特征拼接融合、特征加权融合两种方法的优势，即利用两者的优点弥补两种方法的缺陷。如图4所示，桥接融合模块共使用两个特征点乘层、一个特征相加层、一个特征拼接层，其中第一个特征点乘层用于计算局部特征和全局表示的相关性，是因为全局表示包含部分局部特征，需先找到全局表示与局部特征哪些特征信息是相关的。第二个特征点乘层，是利用前述的相关性突出局部特征信息上部分重要特征点的权重，这种操作是因为如果全局表示上的局部信息和卷积神经网络的局部信息重合了，说明这部分的局部信息重要程度大于其余局部信息，需得到模型更多的关注。然后，桥接融合模块利用特征相加层将局部信息突出后的特征信息和全局表示互相嵌入，得到特征特性相互弥补后的全局表示信息，最后，为了防止处理后的全局表示信息出现退化现象，采用特征拼接层在通道方向上将全局表示和局部特征堆叠在一起，而且模块前端采用卷积核为1X1的卷积层降低了局部信息的维度，所以全局表示和局部特征堆叠在一起之后并没有增加模型的计算量，输出的特征信息维度与输入的局部信息维度保持一致。

本发明的有益效果：

（1）本发明通过桥接融合模块计算多种模态特征信息之间的联系，即计算全局表示和局部特征之间的相关性，从而获取特征层次上的上下文信息，充分融合全局和局部特征；

（2）本发明在全局上提高模型对图像中背景和目标的区分能力，减少噪声的干扰，同时，在局部上提升模型的表达能力，能更好的定位目标的位置，提高模型的精准度和泛化性。

附图说明

图1为本发明的网络模型的结构示意图；

图2为卷积网络的结构示意图；

图3为变形多头自注意力网络的结构示意图；

图4为桥接融合模块的结构示意图。

具体实施方式

实施例1：

结合全局与局部特征的目标检测装置，包括数据处理模块、训练模块、检测模块，所述数据处理模块用于收集、标注图像样本，并得到训练集；所述训练模块用于利用训练集训练目标检测的网络模型并得到训练后的检测模型；所述检测模块用于将待测图片输入到训练后的检测模型并输出目标检测的结果。

如图1所示，所述网络模型包括从前至后依次连接的若干个深层特征信息提取部分以及目标检测器部分，所述深层特征信息提取部分采用分-合结构搭建，且用于提取图像样本的深层特征信息，所述目标检测器部分用于根据深层特征信息进行目标定位及分类；所述深层特征信息提取部分包括卷积网络、变形多头自注意力网络、桥接融合模块，所述卷积网络、变形多头自注意力网络并列设置，且输出端分别与桥接融合模块的输入端连接。

进一步地，所述网络模型的损失函数采用类别分类损失函数和边界框回归损失函数，类别分类损失函数采用焦点损失函数，边界框回归损失函数采用交并比损失函数。

本发明在全局上提高模型对图像中背景和目标的区分能力，减少噪声的干扰，同时，在局部上提升模型的表达能力，能更好的定位目标的位置，提高模型的精准度和泛化性。

实施例2：

本实施例是在实施例1的基础上进行优化，如图4所示，所述桥接融合模块包括第一卷积层、第二卷积层、第一特征点乘层、第二特征点乘层、柔性最大值层、特征相加层以及特征拼接层，第一卷积层的输出端依次与批归一化层、激活函数层连接，所述变形多头自注意力网络的输出端分别与第一卷积层、第二卷积层、特征拼接层连接；所述卷积网络和第二卷积层的输出端依次连接第一特征点乘层、柔性最大值层，柔性最大值层与激活函数层的输出经第二特征点乘层处理后，并与卷积网络的输出经特征相加层处理后输入特征拼接层。

本发明通过桥接融合模块计算多种模态特征信息之间的联系，即计算全局表示和局部特征之间的相关性，从而获取特征层次上的上下文信息，充分融合全局和局部特征。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例3：

本实施例是在实施例1或2的基础上进行优化，如图2所示，所述卷积网络包括从前至后依次设置的第一模块和第二模块、特征相加层，所述第一模块的输出端与特征相加层连接；所述第一模块、第二模块分别包括从前至后依次设置的卷积层、批归一化层、激活函数层、深度可分离卷积层。

进一步地，如图2所示，所述第一模块、第二模块分别由从前至后依次设置的若干个模块单元以及深度可分离卷积层、批归一化层、激活函数层、卷积层、批归一化层构成；所述模块单元由从前至后依次设置的卷积层、批归一化层、激活函数层构成。

本实施例的其他部分与上述实施例1或2相同，故不再赘述。

实施例4：

本实施例是在实施例1-3任一个的基础上进行优化，如图3所示，所述变形多头自注意力网络包括从前至后依次连接的若干个注意力单元以及全连接层、神经元失活层，所述注意力单元包括从前至后依次设置的卷积层、嵌入位置向量层、重组向量层、多头自注意力机制模块、特征相加层、层归一化层以及若干个单元机构，所述单元机构包括从前至后依次设置的全连接层、高斯误差线性单元层；所述卷积层与嵌入位置向量层的输出经过特征相加层处理后分别输入重组向量层、特征相加层。

本实施例的其他部分与上述实施例1-3任一个相同，故不再赘述。

实施例5：

本实施例是在实施例1-4任一个的基础上进行优化，如图1所示，所述目标检测器部分包括从前至后依次设置的生成候选区域建议网络、感兴趣区域对齐池化层以及全连接层，所述目标检测器部分利用深层特征信息提取部分输出的特征信息生成候选区域，再对对应的特征信息进行定位、分类。

本实施例的其他部分与上述实施例1-4任一个相同，故不再赘述。

实施例6：

步骤S100：收集并标注图像并得到训练集；

进一步地，所述步骤S200中随机初始化网络模型的相关权重参数，然后调整训练前需设置的相关超参数，同时选择优化器对网络模型的训练进行优化，找到最优的决策边界，最后直到训练次数达到设置的最大迭代次数时停止训练，再通过测试选择精度性能最优的模型做为训练后的检测模型。

实施例7：

结合全局与局部特征的目标检测方法，适用于安全帽检测，该安全帽目标检测包括以下步骤：

收集并标注包含工人佩戴安全帽的图像，按比例划分为训练集和测试集；

目标检测模型方法的整体网络采用分-合的结构搭建，主要由卷积网络、变形多头自注意力网络以及桥接融合模块构成，核心学习过程是由分合结构的网络结构提取图像样本的深层特征信息，再送入目标检测器进行目标定位及分类；

选用合适的损失函数计算预测值与真实值之间的差异值，从而达到指导模型训练学习的目的；

随机初始化整体网络模型的相关权重参数，然后调整训练前需设置的相关超参数，同时选择优化器对模型的训练进行优化，能找到最优的决策边界，最后直到训练次数达到设置的最大迭代次数时停止训练，再通过测试选择精度性能最优的模型做为输出。

进一步地，网络模型的网络结构主要由深层特征信息提取部分和目标检测器部分构成。深层特征信息提取部分采用分-合的结构搭建，主要由卷积网络、变形多头自注意力网络以及桥接融合模块构成。

其中所述的分合结构中分结构是指并行使用卷积网络和变形多头自注意力提取图像样本的特征网络部分，而合结构是指利用桥接融合模块将分结构中提取的特征进行融合的网络部分。所述的桥接融合模块能更好的融合不同特性的特征信息，提高模型对目标的表达能力。

进一步地，桥接融合模块主要由卷积层、特征点乘层、柔性最大值层、特征相加层以及特征拼接层构成，用于计算多种模态特征信息之间的联系，即计算全局表示和局部特征之间的相关性，从而获取特征层次上的上下文信息。其中前端的卷积层的作用是改变特征信息的通道维度，减少计算量，以及增大特征信息的感受野，从而提高表达能力。

如图4所示，第一个特征点乘层的作用是计算全局特征和局部特征的相关性，但因计算出来的数值取值范围不同，需用柔性最大值层对数值进行转换，达到归一化的效果，第二个特征点乘层的作用是利用前述的相关性突出局部特征信息上部分重要特征点的权重，然后使用特征相加层将处理后的局部特征信息与全局信息相加，可以在保留全局表示的前提下，重点强调目标所在的局部特征，最后之前处理的特征信息与输入的局部信息拼接在一起，从而增加特征信息包含的上下文信息和语义信息，大大提高特征信息的泛化性和鲁棒性。特征变换映射公式如下：

上述公式中Attention是计算出的注意力数值，Output_feature为模块最后输出的特征信息，x _t为变形多头自注意力网络输出的特征信息，x _c为卷积网络输出的特征信息，Conv ₂为3X3卷积核的卷积层，Conv ₁为1X1卷积核的卷积层，Conv ₂处理之后需与另一分支特征信息的维度保持一致。

进一步地，如图2所示，卷积网络由卷积层、批归一化层、激活函数层、深度可分离卷积层、特征相加层组成。

进一步地，如图3所示，而变形多头自注意力网络结构由多头自注意力机制模块、前向传播网络部分构成，其中，前向传播网络主要由两个全连接层组成。

进一步地，目标检测器部分由生成候选区域建议网络、感兴趣区域对齐池化层以及全连接层构成，主要作用是利用深层特征信息提取部分输出的特征信息生成候选区域，再对对应的特征信息进行定位、分类。

综上所述，本发明构建的安全帽目标检测方法具有更强的区分能力和表达能力。由实验可得，充分利用不同特性提取的全局表示和局部特征，与已有的检测方法相比，本发明提出的方法能减弱实际应用中环境对目标造成的干扰信息，增强模型对多样环境的适应性，具有稳定的精测精度。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.结合全局与局部特征的目标检测装置，其特征在于，包括数据处理模块、训练模块、检测模块，所述数据处理模块用于收集、标注图像样本，并得到训练集；所述训练模块用于利用训练集训练目标检测的网络模型并得到训练后的检测模型；所述检测模块用于将待测图片输入到训练后的检测模型并输出目标检测的结果；

2.根据权利要求1所述的结合全局与局部特征的目标检测装置，其特征在于，所述桥接融合模块包括第一卷积层、第二卷积层、第一特征点乘层、第二特征点乘层、柔性最大值层、特征相加层以及特征拼接层，第一卷积层的输出端依次与批归一化层、激活函数层连接，所述变形多头自注意力网络的输出端分别与第一卷积层、第二卷积层、特征拼接层连接；所述卷积网络和第二卷积层的输出端依次连接第一特征点乘层、柔性最大值层，柔性最大值层与激活函数层的输出经第二特征点乘层处理后，并与卷积网络的输出经特征相加层处理后输入特征拼接层。

3.根据权利要求1所述的结合全局与局部特征的目标检测装置，其特征在于，所述卷积网络包括从前至后依次设置的第一模块和第二模块、特征相加层，所述第一模块的输出端与特征相加层连接；所述第一模块、第二模块分别包括从前至后依次设置的卷积层、批归一化层、激活函数层、深度可分离卷积层。

4.根据权利要求3所述的结合全局与局部特征的目标检测装置，其特征在于，所述第一模块、第二模块分别由从前至后依次设置的若干个模块单元以及深度可分离卷积层、批归一化层、激活函数层、卷积层、批归一化层构成；所述模块单元由从前至后依次设置的卷积层、批归一化层、激活函数层构成。

5.根据权利要求1所述的结合全局与局部特征的目标检测装置，其特征在于，所述变形多头自注意力网络包括从前至后依次连接的若干个注意力单元以及全连接层、神经元失活层，所述注意力单元包括从前至后依次设置的卷积层、嵌入位置向量层、重组向量层、多头自注意力机制模块、特征相加层、层归一化层以及若干个单元机构，所述单元机构包括从前至后依次设置的全连接层、高斯误差线性单元层；所述卷积层与嵌入位置向量层的输出经过特征相加层处理后分别输入重组向量层、特征相加层。

6.根据权利要求1-5任一项所述的结合全局与局部特征的目标检测装置，其特征在于，所述目标检测器部分包括从前至后依次设置的生成候选区域建议网络、感兴趣区域对齐池化层以及全连接层，所述目标检测器部分利用深层特征信息提取部分输出的特征信息生成候选区域，再对对应的特征信息进行定位、分类。

7.根据权利要求1所述的结合全局与局部特征的目标检测装置，其特征在于，所述网络模型的损失函数采用类别分类损失函数和边界框回归损失函数，类别分类损失函数采用焦点损失函数，边界框回归损失函数采用交并比损失函数。

8.结合全局与局部特征的目标检测方法，采用权利要求1-7任一项所述的目标检测装置进行；其特征在于，包括以下步骤：

步骤S100：收集并标注图像并得到训练集；

9.根据权利要求8所述的结合全局与局部特征的目标检测方法，其特征在于，所述步骤S200中随机初始化网络模型的相关权重参数，然后调整训练前需设置的相关超参数，同时选择优化器对网络模型的训练进行优化，找到最优的决策边界，最后直到训练次数达到设置的最大迭代次数时停止训练，再通过测试选择精度性能最优的模型做为训练后的检测模型。

10.一种计算机可读存储介质，存储有计算机程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求8或9所述的目标检测方法。