CN115601625A - 一种适用于目标检测网络的双检测头结构 - Google Patents
一种适用于目标检测网络的双检测头结构 Download PDFInfo
- Publication number
- CN115601625A CN115601625A CN202110766112.8A CN202110766112A CN115601625A CN 115601625 A CN115601625 A CN 115601625A CN 202110766112 A CN202110766112 A CN 202110766112A CN 115601625 A CN115601625 A CN 115601625A
- Authority
- CN
- China
- Prior art keywords
- scale
- feature map
- cls2
- cls1
- reg2
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开的一种适用于目标检测网络的双检测头结构,属于深度学习中的计算机视觉领域。本发明的内容为:设计了一种双检测头结构,适用于通用的目标检测网络,可以提高目标检测网络的检测精度。本发明的实现方法为:将待检图片输入至目标检测网络,经过骨干网络和特征金字塔,得到不同尺度的特征图;分别将不同尺度的特征图输入双检测头结构,输出图片中的目标的类别和边界框。本发明要解决的技术问题是设计更有效的目标检测网络的检测头结构,提高目标检测网络的检测精度。
Description
技术领域
本发明属于深度学习中的计算机视觉领域,尤其涉及一种适用于目标检测网络的双检测头结构。
背景技术
随着卷积神经网络的兴起,现有的主流的目标检测方法都基于卷积神经网络,被称为目标检测网络。相比于传统的基于图像匹配的目标检测方法,目标检测网络具有较高的检测精度,被广泛应用与生产生活的方方面面。目标检测网络由骨干网络、特征金字塔和检测头三部分组成,其中骨干网络和特征金字塔已经得到了广泛的研究,而关于检测头的研究却知之甚少。检测头主要用于在特征金字塔输出的特征图上检测是否存在目标,现有的检测头结构简单,对于所有尺度的特征均使用3x3卷积,无法高效的利用特征图中的多尺度信息检测目标,因此对于高效检测头的研究很有必要。
发明内容
本发明的目的是提供一种适用于目标检测网络的双检测头结构,该方法通过使用不同膨胀率的膨胀卷积构造具有不同感受野的检测头,结合两种具有不同感受野的检测头,生成预测多目标的类别和边界框。通过结合不同感受野的信息,检测头从特征金字塔输出特征图中提取到了更有效的信息,从而可以提高目标检测精度。
本发明是通过下述技术方案实现的。
本发明公开的一种适用于目标检测网络的双检测头结构,包括如下步骤:
步骤1:输入待检图片至网络,经过骨干网络和特征金字塔,得到多尺度特征图;
步骤2:构建两个具有不同感受野(使用不同膨胀率的膨胀卷积层)的检测头;
步骤3:多尺度特征图分别输入两个具有不同感受野的检测头,得到在不同感受野下的多尺度增强特征图;
步骤4:采用逐元素求均值的方法融合两类具有不同感受野的多尺度增强特征图;
步骤5:使用融合后的多尺度增强特征图预测多目标的类别和边界框。
步骤1的实现方法为:
将输入图片缩放至网络要求要求的大小并标准化。标准化后的图片经过骨干网络提取多阶段特征图{C3,C4,C5,C6,C7},多阶段特征经过特征金字塔进行特征融合,生成多尺度特征图{P3,P4,P5,P6,P7}。
进一步地,步骤2的实现方法为:
步骤2.1:构建一个由4层卷积核大小为3×3,膨胀率为1的2D卷积层构成的分类分支Cls1;
步骤2.2:构建一个由4层卷积核大小为3×3,膨胀率为1的2D卷积层构成的回归分支Reg1;
步骤2.1:构建一个由4层卷积核大小为3×3,膨胀率为2的2D卷积层构成的分类分支Cls2;
步骤2.2:构建一个由4层卷积核大小为3×3,膨胀率为2的2D卷积层构成的回归分支Reg2。
进一步地,步骤3的实现方法为:
步骤3.1:在多尺度特征图{P3,P4,P5,P6,P7}四围填充宽度为1值为0的像素,输入分类分支Cls1,输出多尺度增强特征图{F3_cls1,F4_cls1,F5_cls1,F6_cls1,F7_cls1};
步骤3.2:在多尺度特征图{P3,P4,P5,P6,P7}四围填充宽度为1值为0的像素,输入回归分支Reg1,输出多尺度增强特征图{F3_reg1,F4_reg1,F5_reg1,F6_reg1,F7_reg1};
步骤3.3:在多尺度特征图{P3,P4,P5,P6,P7}四围填充宽度为2值为0的像素,输入分类分支Cls2,输出多尺度增强特征图{F3_cls2,F4_cls2,F5_cls2,F6_cls2,F7_cls2};
步骤3.4:在多尺度特征图{P3,P4,P5,P6,P7}四围填充宽度为2值为0的像素,输入回归分支Reg2,输出多尺度增强特征图{F3_reg2,F4_reg2,F5_reg2,F6_reg2,F7_reg2}。
进一步地,步骤4的实现方法为:
步骤4.1:使用公式
融合具有不同感受的多尺度增强特征图{F3_cls1,F4_cls1,F5_cls1,F6_cls1,F7_cls1}和{F3_cls2,F4_cls2,F5_cls2,F6_cls2,F7_cls2},生成多尺度分类增强特征图{F3_cls,F4_cls,F5_cls,F6_cls,F7_cls};
步骤4.2:使用公式
融合具有不同感受的多尺度增强特征图{F3_reg1,F4_reg1,F5_reg1,F6_reg1,F7_reg1}和{F3_reg2,F4_reg2,F5_reg2,F6_reg2,F7_reg2},生成多尺度回归增强特征图{F3_reg,F4_reg,F5_reg,F6_reg,F7_reg}。
进一步地,步骤5的实现方法为:
步骤5.1:使用多尺度分类增强特征图{F3_cls,F4_cls,F5_cls,F6_cls,F7_cls}预测多目标的类别;
步骤5.2:使用多尺度回归增强特征图{F3_reg,F4_reg,F5_reg,F6_reg,F7_reg}预测多目标的边界框。
本发明取得的技术效果有:
1.本发明公开的一种适用于目标检测网络的双检测头结构,重新设计了目标检测网络的检测头结构,与现有的但检测头结构相比,本发明公开的双检测头结构稳定提升了目标检测网络的检测精度;
2.本发明公开的双检测头结构可以应用在单阶段目标检测网络和双阶段目标检测网络,结构简单,即插即用。
附图说明
下面结合附图与实施例对本发明进一步说明,附图中:
图1是本发明的一种适用于目标检测网络的双检测头结构图。其中方块代表特征图,检测头有两个分支:分类分支和回归分支,分别检测目标类别和边界框。每个分支包括两个使用不同膨胀率卷积的子检测头,x4表示每个子检测头有4层卷积。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图和实例对发明内容做进一步说明。
如图1所示,本实施例公开的一种适用于目标检测网络的双检测头结构,具体实施步骤如下:
步骤1:缩放输入图片使其最短边不小于800,最长边不大于1333,使用ImageNet数据集的均值[0.485,0.456,0.406]和方差[0.229,0.224,0.225]对缩放后的图片进行逐元素标准化;标准化后的图片经过骨干网络提取多阶段特征图{C3,C4,C5,C6,C7},多阶段特征经过特征金字塔进行特征融合,生成多尺度特征图{P3,P4,P5,P6,P7},其中多尺度特征图{P3,P4,P5,P6,P7}的大小分别为输入图片大小的{1/23,1/24,1/25,1/26,1/27}。
步骤2:构建两个具有不同感受野(使用不同膨胀率的膨胀卷积层)的检测头。
步骤2.1:构建一个由4层卷积核大小为3×3,膨胀率为1的2D卷积层构成的分类分支Cls1;
步骤2.2:构建一个由4层卷积核大小为3×3,膨胀率为1的2D卷积层构成的回归分支Reg1;
步骤2.1:构建一个由4层卷积核大小为3×3,膨胀率为2的2D卷积层构成的分类分支Cls2;
步骤2.2:构建一个由4层卷积核大小为3×3,膨胀率为2的2D卷积层构成的回归分支Reg2。
步骤3:多尺度特征图分别输入两个具有不同感受野的检测头,得到在不同感受野下的多尺度增强特征图。
步骤3.1:在多尺度特征图{P3,P4,P5,P6,P7}四围填充宽度为1值为0的像素,输入分类分支Cls1,输出多尺度增强特征图{F3_cls1,F4_cls1,F5_cls1,F6_cls1,F7_cls1};
步骤3.2:在多尺度特征图{P3,P4,P5,P6,P7}四围填充宽度为1值为0的像素,输入回归分支Reg1,输出多尺度增强特征图{F3_reg1,F4_reg1,F5_reg1,F6_reg1,F7_reg1};
步骤3.3:在多尺度特征图{P3,P4,P5,P6,P7}四围填充宽度为2值为0的像素,输入分类分支Cls2,输出多尺度增强特征图{F3_cls2,F4_cls2,F5_cls2,F6_cls2,F7_cls2};
步骤3.4:在多尺度特征图{P3,P4,P5,P6,P7}四围填充宽度为2值为0的像素,输入回归分支Reg2,输出多尺度增强特征图{F3_reg2,F4_reg2,F5_reg2,F6_reg2,F7_reg2}。
步骤4:采用逐元素求均值的方法融合两类具有不同感受野的多尺度增强特征图。
步骤4.1:使用公式
融合具有不同感受的多尺度增强特征图{F3_cls1,F4_cls1,F5_cls1,F6_cls1,F7_cls1}和{F3_cls2,F4_cls2,F5_cls2,F6_cls2,F7_cls2},生成多尺度分类增强特征图{F3_cls,F4_cls,F5_cls,F6_cls,F7_cls};
步骤4.2:使用公式
融合具有不同感受的多尺度增强特征图{F3_reg1,F4_reg1,F5_reg1,F6_reg1,F7_reg1}和{F3_reg2,F4_reg2,F5_reg2,F6_reg2,F7_reg2},生成多尺度回归增强特征图{F3_reg,F4_reg,F5_reg,F6_reg,F7_reg}。
步骤5:使用融合后的多尺度增强特征图预测多目标的类别和边界框。
步骤5.1:使用多尺度分类增强特征图{F3_cls,F4_cls,F5_cls,F6_cls,F7_cls}预测多目标的类别;
步骤5.2:使用多尺度回归增强特征图{F3_reg,F4_reg,F5_reg,F6_reg,F7_reg}预测多目标的边界框。
本发明通过以上实施例的设计,可以提高通用目标检测网络的精度。本发明的一种双检测头结构单独成为一个模块,可以方便地应用在各种目标检测网络中。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种适用于目标检测网络的双检测头结构,其特征在于:包括如下步骤,
步骤1:输入待检图片至网络,经过骨干网络和特征金字塔,得到多尺度特征图;
步骤2:构建两个具有不同感受野(使用不同膨胀率的膨胀卷积层)的检测头;
步骤3:多尺度特征图分别输入两个具有不同感受野的检测头,得到在不同感受野下的多尺度增强特征图;
步骤4:采用逐元素求均值的方法融合两类具有不同感受野的多尺度增强特征图;
步骤5:使用融合后的多尺度增强特征图预测多目标的类别和边界框。
2.如权利要求1所述的一种适用于目标检测网络的双检测头结构,其特征在于:步骤1的实现方法为,将输入图片缩放至网络要求要求的大小并标准化。标准化后的图片经过骨干网络提取多阶段特征图{C3,C4,C5,C6,C7},多阶段特征经过特征金字塔进行特征融合,生成多尺度特征图{P3,P4,P5,P6,P7}。
3.如权利要求1所述的一种适用于目标检测网络的双检测头结构,其特征在于:步骤2的实现方法为,
步骤2.1:构建一个由4层卷积核大小为3×3,膨胀率为1的2D卷积层构成的分类分支Cls1;
步骤2.2:构建一个由4层卷积核大小为3×3,膨胀率为1的2D卷积层构成的回归分支Reg1;
步骤2.1:构建一个由4层卷积核大小为3×3,膨胀率为2的2D卷积层构成的分类分支Cls2;
步骤2.2:构建一个由4层卷积核大小为3×3,膨胀率为2的2D卷积层构成的回归分支Reg2。
4.如权利要求1所述的一种适用于目标检测网络的双检测头结构,其特征在于:步骤3的实现方法为,
步骤3.1:在多尺度特征图{P3,P4,P5,P6,P7}四围填充宽度为1值为0的像素,输入分类分支Cls1,输出多尺度增强特征图{F3_cls1,F4_cls1,F5_cls1,F6_cls1,F7_cls1};
步骤3.2:在多尺度特征图{P3,P4,P5,P6,P7}四围填充宽度为1值为0的像素,输入回归分支Reg1,输出多尺度增强特征图{F3_reg1,F4_reg1,F5_reg1,F6_reg1,F7_reg1};
步骤3.3:在多尺度特征图{P3,P4,P5,P6,P7}四围填充宽度为2值为0的像素,输入分类分支Cls2,输出多尺度增强特征图{F3_cls2,F4_cls2,F5_cls2,F6_cls2,F7_cls2};
步骤3.4:在多尺度特征图{P3,P4,P5,P6,P7}四围填充宽度为2值为0的像素,输入回归分支Reg2,输出多尺度增强特征图{F3_reg2,F4_reg2,F5_reg2,F6_reg2,F7_reg2}。
5.如权利要求1所述的一种适用于目标检测网络的双检测头结构,其特征在于:步骤4的实现方法为,
步骤4.1:使用公式
融合具有不同感受的多尺度增强特征图{F3_cls1,F4_cls1,F5_cls1,F6_cls1,F7_cls1}和{F3_cls2,F4_cls2,F5_cls2,F6_cls2,F7_cls2},生成多尺度分类增强特征图{F3_cls,F4_cls,F5_cls,F6_cls,F7_cls};
步骤4.2:使用公式
融合具有不同感受的多尺度增强特征图{F3_reg1,F4_reg1,F5_reg1,F6_reg1,F7_reg1}和{F3_reg2,F4_reg2,F5_reg2,F6_reg2,F7_reg2},生成多尺度回归增强特征图{F3_reg,F4_reg,F5_reg,F6_reg,F7_reg}。
6.如权利要求1所述的一种适用于目标检测网络的双检测头结构,其特征在于:步骤5的实现方法为,
步骤5.1:使用多尺度分类增强特征图{F3_cls,F4_cls,F5_cls,F6_cls,F7_cls}预测多目标的类别;
步骤5.2:使用多尺度回归增强特征图{F3_reg,F4_reg,F5_reg,F6_reg,F7_reg}预测多目标的边界框。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110766112.8A CN115601625A (zh) | 2021-07-07 | 2021-07-07 | 一种适用于目标检测网络的双检测头结构 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110766112.8A CN115601625A (zh) | 2021-07-07 | 2021-07-07 | 一种适用于目标检测网络的双检测头结构 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115601625A true CN115601625A (zh) | 2023-01-13 |
Family
ID=84840291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110766112.8A Pending CN115601625A (zh) | 2021-07-07 | 2021-07-07 | 一种适用于目标检测网络的双检测头结构 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115601625A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116229336A (zh) * | 2023-05-10 | 2023-06-06 | 江西云眼视界科技股份有限公司 | 视频移动目标识别方法、系统、存储介质及计算机 |
-
2021
- 2021-07-07 CN CN202110766112.8A patent/CN115601625A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116229336A (zh) * | 2023-05-10 | 2023-06-06 | 江西云眼视界科技股份有限公司 | 视频移动目标识别方法、系统、存储介质及计算机 |
CN116229336B (zh) * | 2023-05-10 | 2023-08-18 | 江西云眼视界科技股份有限公司 | 视频移动目标识别方法、系统、存储介质及计算机 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10839543B2 (en) | Systems and methods for depth estimation using convolutional spatial propagation networks | |
CN108549893B (zh) | 一种任意形状的场景文本端到端识别方法 | |
CN109886066B (zh) | 基于多尺度和多层特征融合的快速目标检测方法 | |
JP6547069B2 (ja) | 物体検出のためのサブカテゴリ認識機能付き畳み込みニューラルネットワーク | |
Zhang et al. | Deep hierarchical guidance and regularization learning for end-to-end depth estimation | |
US7706603B2 (en) | Fast object detection for augmented reality systems | |
CN110414344B (zh) | 一种基于视频的人物分类方法、智能终端及存储介质 | |
US20070185946A1 (en) | Method and apparatus for matching portions of input images | |
Wang et al. | Multifocus image fusion using convolutional neural networks in the discrete wavelet transform domain | |
CN110751154B (zh) | 一种基于像素级分割的复杂环境多形状文本检测方法 | |
Zhou et al. | BCINet: Bilateral cross-modal interaction network for indoor scene understanding in RGB-D images | |
Xue et al. | Learning regional attraction for line segment detection | |
CN113642571B (zh) | 一种基于显著性注意力机制的细粒度图像识别方法 | |
Zheng et al. | A two-stage CNN for automated tire defect inspection in radiographic image | |
Zhang et al. | Deep salient object detection by integrating multi-level cues | |
CN111127516A (zh) | 无搜索框的目标检测和跟踪方法及系统 | |
CN111274981A (zh) | 目标检测网络构建方法及装置、目标检测方法 | |
Moriya et al. | Unsupervised pathology image segmentation using representation learning with spherical k-means | |
Zhang et al. | Fine localization and distortion resistant detection of multi-class barcode in complex environments | |
CN111199558A (zh) | 一种基于深度学习的图像匹配方法 | |
Dong et al. | EGFNet: Edge-aware guidance fusion network for RGB–thermal urban scene parsing | |
Xiang et al. | License plate detection based on fully convolutional networks | |
Azaza et al. | Context proposals for saliency detection | |
Yang et al. | Increaco: incrementally learned automatic check-out with photorealistic exemplar augmentation | |
CN115601625A (zh) | 一种适用于目标检测网络的双检测头结构 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |