CN114972860A - 一种基于注意增强的双向特征金字塔网络的目标检测方法 - Google Patents
一种基于注意增强的双向特征金字塔网络的目标检测方法 Download PDFInfo
- Publication number
- CN114972860A CN114972860A CN202210567741.2A CN202210567741A CN114972860A CN 114972860 A CN114972860 A CN 114972860A CN 202210567741 A CN202210567741 A CN 202210567741A CN 114972860 A CN114972860 A CN 114972860A
- Authority
- CN
- China
- Prior art keywords
- attention
- feature
- pyramid network
- bidirectional
- target detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/245—Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/72—Data preparation, e.g. statistical preprocessing of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于注意增强的双向特征金字塔网络的目标检测方法,属于目标检测技术领域,用于解决传统SSD检测算法对小目标检测精度低、漏检率高等问题。本发明基于SSD目标检测算法,在特征提取网络VGG输出特征分支之后增加了注意增强双向特征金字塔网络。注意增强双向特征金字塔网络由双向特征金字塔网络和坐标注意力组成。双向特征金字塔网络通过自上而下和自下而上的路径分支来聚合不同分辨率的特征图,以至于在所有尺度特征图上都可以获得丰富的语义信息和细节信息。坐标注意力通过将位置信息嵌入到通道注意力中可以使网络把注意力集中在特征图中那些与目标相关的通道和位置,而这些包含丰富的语义信息和细节信息的特征图有助于坐标注意力更快地把注意力集中在与目标相关的通道和位置上,从而提升SSD目标检测算法对小目标的检测能力。
Description
技术领域
本发明涉及目标检测的技术领域,特别是指一种基于注意增强双向特征金字塔网络的目标检测方法。
背景技术
目标检测主要是对输入图像中的物体类别和位置进行判断,实质上是图像分类和目标定位的结合,是计算机视觉领域中的一个重要研究方向。目标检测在人脸识别、无人驾驶等领域取得了广泛的应用。近年来,由于卷积得经网名的发展和硬件算力的提升,基于深度学习的目标检测取得了突破性的进展。
虽然在目标检测方面已经取得了很大的进展,但是在实际生产中广泛应用的小目标检测问题一直没有得到很好的解决。这主要是因为小物体占用的空间少,像素有限。另外,经过多次卷积和池化后,特征图中的小目标的特征信息损失严重,导致检测器无法准确检测到小目标。因此,Liu等人在SSD中提出了的典型金字塔结构。典型的金字塔层次结构创造性地使用较低层次的特征用于较小的目标检测,较高层次的特征用于较大的目标检测。但我们知道,浅层特征包含丰富的细节信息,而深层特征包含更多的语义信息。因此,SSD方法不能在单个特征映射中获得足够的小目标细节和语义信息,难以实现对小目标的良好检测性能。为了解决这一问题,许多研究开发了多尺度特征融合以获得更丰富的特征表示。除了融合不同尺度的特征外,注意机制对于小目标的检测也有很大的提高。注意机制可以学习根据不同通道和位置代表目标的能力生成有区别的权值,并局部增强重要通道和位置,有利于小物体的定位和识别。
发明内容
针对上述背景技术中存在的不足,本发明提出了一种基于注意增强双向特征金字塔网络的目标检测方法,首先利用双向特征金字塔网络融合不同尺度的特征以至于输出特征可以获得丰富的语义信息和细节信息,其次坐标注意力可以使网络把注意力聚焦在特征图中那些与目标相关的通道和位置上,进而提高目标检测算法对小目标的检测性能。
本发明的技术方案是这样实现的:
步骤四、把坐标注意力输出的四层注意特征图Y3、Y4、Y5、和Y6送入预测模块进行分类和定位
步骤五、最后通过非最大抑制算法对冗余预测框进行过滤,形成最终的预测结果。
在所述的步骤二中,不同层特征的加权融合方式为:
采用快速规范化的融合去融合不同层特征,加权特征融合计算如下:
wi≥0是通过在每个wi后使用整流线性单元(ReLU)来保证的,∈用于避免数值的不确定性,其值为0.0001,Ii表示第i个输入特征的值。
在所述的步骤二中,双向特征金字塔网络融合不同层特征的融合过程为:
在所述的步骤三中,坐标注意力对融合后的特征处理过程为:
S3.1、当输入X的大小为(C×H×W)时,设置大小为(H,1)和(1,W)的池化核,对水平方向和垂直方向上不同通道的信息进行编码。对于特征中的第c通道,池化高度为h的特征的输出计算如下:
将宽度为B的特征池化的输出可以表示为:
S3.2、在水平方向和垂直方向上池化后,从C×W×H传输到C×W×1和C×1×H。为了把它们整合到一起,需要将C×W×1转换为C×1×H;
S3.3、在第三维度(H+H=2H)层次上实现连接,得到注意特征图C×1×2H;
S3.4、注意特征图经过1×1卷积层后通道数变成C/r,注意特征图变为C/r×1×2H;
S3.5、然后将C/r×1×2H的注意特征图沿空间维度分解为两个独立的张量:fh∈RC/r×H)和fw∈RC/r×w);
S3.6、接下来,通过两个1×1卷积层Fh和Fw恢复两个张量的通道数至C,随后利用sigmoid激活函数进行处理得到权值矩阵gf和gw;
gh=σ(Fh(fh))
gw=σ(Fw(fw))
S3.7、将输入特征X乘以权值矩阵,即可得到坐标注意块的最终输出Y。
与现有技术相比,本发明的有益效果为:注意增强的双向特征金字塔网络利用自顶向下和自底向上的路径聚合不同尺度的特征,使所有尺度的特征都包含丰富的语义和细节信息。并且每个特征输出分支经过协调注意处理,使网络能够轻松地聚焦在特征图中与物体相关的通道和位置上,从而实现对目标的精准分类和定位。
附图说明
图1为本发明的网络结构图;
图2(a)为坐标注意力模型-坐标注意力网络结构图;
图2(b)为坐标注意力模型-坐标注意力流程图;
图3为本发明与原始SSD算法在NWPU VHR-10数据集上的检测结果对比图-原始SSD算法检测结果;
图4为本发明与原始SSD算法在NWPU VHR-10数据集上的检测结果对比图-改进后的SSD检测结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种基于注意增强的双向特征金字塔网络的目标检测方法,其步骤如下:
不同层特征的加权融合方式为:
采用快速规范化的融合去融合不同层特征,加权特征融合计算如下:
wi≥0是通过在每个wi后使用整流线性单元(ReLU)来保证的,∈用于避免数值的不确定性,其值为0.0001,Ii表示第i个输入特征的值。
双向特征金字塔网络融合不同层特征的融合过程为:
S3.1、当的尺寸为(256×10×10)时,设置尺寸为(10,1)和(1,10)的poolingkernel,用于编码水平和垂直方向上不同通道的信息;对于特征中的第c通道,池化高度为h的特征的输出计算如下:
将宽度为w的特征池化的输出可以表示为:
S3.2、在水平方向和垂直方向上池化后,从256×10×10传输到256×10×1和256×1×10。为了把它们整合到一起,需要将256×10×1转换为256×1×10;
S3.3、在第三维度(10+10=20)层次上实现连接,得到注意特征图256×1×20;
S3.4、注意特征图经过1×1卷积层后通道数变成8,注意特征图变为8×1×20;
S3.5、然后将8×1×20的注意特征图沿空间维度分解为两个独立的张量:fh∈RC /r×H)和Fw∈RC/r×w);
S3.6、接下来,通过两个1×1卷积层Fh和Fw恢复两个张量的通道数至256,随后利用sigmoid激活函数进行处理得到权值矩阵gf和gw;
gh=σ(Fh(fh))
gw=σ(Fw(fw))
S4:把坐标注意力输出的四层注意特征图Y3、Y4、Y5、和Y6送入预测模块进行分类和定位
S5:最后通过非最大抑制算法对冗余预测框进行过滤,形成最终的预测结果。
如图3-4所示,在NWPU VHR-10数据集上,图3为原始SSD目标检测算法检测效果与本发明提供的基于注意增强的双向特征金字塔网络检测算法检测效果对比,效果提升7.92%。本发明实例是在Intel Platinum 8163CPU(2.50GHz),256GB RAM和NVIDIA TITANRTX的计算机上使用python3.6实现的。本发明选用NWPU VHR-10数据集作为实验材料,使用平均精度MAP为评价指标,该数据集包含10种不同类别的目标,分别为air、planes、ships、storage tanks、baseball diamonds、tennis courts、basketball courts、ground trackfields、harbors、bridges和vehicles,其中有520个训练样本和280个测试样本。训练样本对目标检测模型进行训练,测试样本对模型检测效果进行评估。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
4.根据权利要求3所述的所述的基于注意增强双向特征金字塔网络的目标检测方法,其特征在于,在步骤S3中,坐标注意力对融合后的特征处理过程为:
S3.1、当输入X的大小为C×H×W时,设置大小为(H,1)和(1,W)的池化核,对水平方向和垂直方向上不同通道的信息进行编码;对于特征中的第c通道,池化高度为h的特征的输出计算如下:
将宽度为B的特征池化的输出表示为:
S3.2、在水平方向和垂直方向上池化后,从C×W×H传输到c×W×1和C×1×H;将C×W×1转换为C×1×H;
S3.3、在第三维度层次上实现连接,得到注意特征图C×1×2H;
S3.4、注意特征图经过1×1卷积层后通道数变成C/r,注意特征图变为C/r×1×2H;
S3.5、然后将C/r×1×2H的注意特征图沿空间维度分解为两个独立的张量:fh∈RC/r×H)和fw∈RC/r×w);
S3.6、接下来,通过两个1×1卷积层Fh和Fw恢复两个张量的通道数至C,随后利用sigmoid激活函数进行处理得到权值矩阵gf和gw;
gh=σ(Fh(fh))
gw=σ(Fw(fw))
S3.7、将输入特征X乘以权值矩阵,即可得到坐标注意块的最终输出Y
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210567741.2A CN114972860A (zh) | 2022-05-23 | 2022-05-23 | 一种基于注意增强的双向特征金字塔网络的目标检测方法 |
GB2217717.4A GB2614954B (en) | 2022-05-23 | 2022-11-25 | Object detection method based on attention-enhanced bidirectional feature pyramid network (A-BiFPN) |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210567741.2A CN114972860A (zh) | 2022-05-23 | 2022-05-23 | 一种基于注意增强的双向特征金字塔网络的目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114972860A true CN114972860A (zh) | 2022-08-30 |
Family
ID=82984798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210567741.2A Pending CN114972860A (zh) | 2022-05-23 | 2022-05-23 | 一种基于注意增强的双向特征金字塔网络的目标检测方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114972860A (zh) |
GB (1) | GB2614954B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115565077A (zh) * | 2022-09-29 | 2023-01-03 | 哈尔滨天枢问道技术有限公司 | 一种基于空间特征整合的遥感图像小目标检测算法 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116189021B (zh) * | 2023-02-27 | 2024-04-09 | 中国人民解放军国防科技大学 | 多分支互交叉注意力增强的无人机多光谱目标检测方法 |
CN117315458B (zh) * | 2023-08-18 | 2024-07-12 | 北京观微科技有限公司 | 遥感图像的目标检测方法、装置、电子设备及存储介质 |
CN117351359B (zh) * | 2023-10-24 | 2024-06-21 | 中国矿业大学(北京) | 基于改进Mask R-CNN的矿区无人机影像沙棘识别方法及系统 |
CN117636172B (zh) * | 2023-12-06 | 2024-06-21 | 中国科学院长春光学精密机械与物理研究所 | 面向遥感图像弱小目标的目标检测方法及系统 |
CN117876831A (zh) * | 2024-01-15 | 2024-04-12 | 国家粮食和物资储备局科学研究院 | 目标检测识别方法、装置、电子设备和存储介质 |
CN118314335B (zh) * | 2024-06-11 | 2024-09-13 | 西安邮电大学 | 一种基于多层注意力融合的小目标检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401201A (zh) * | 2020-03-10 | 2020-07-10 | 南京信息工程大学 | 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法 |
CN111914917A (zh) * | 2020-07-22 | 2020-11-10 | 西安建筑科技大学 | 一种基于特征金字塔网络和注意力机制的目标检测改进算法 |
WO2021208726A1 (zh) * | 2020-11-23 | 2021-10-21 | 平安科技(深圳)有限公司 | 基于注意力机制的目标检测方法、装置及计算机设备 |
CN114332620A (zh) * | 2021-12-30 | 2022-04-12 | 杭州电子科技大学 | 基于特征融合和注意力机制的机载图像车辆目标识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591648B (zh) * | 2021-07-22 | 2024-06-28 | 北京工业大学 | 无锚点实时图像目标检测方法、系统、设备及介质 |
-
2022
- 2022-05-23 CN CN202210567741.2A patent/CN114972860A/zh active Pending
- 2022-11-25 GB GB2217717.4A patent/GB2614954B/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111401201A (zh) * | 2020-03-10 | 2020-07-10 | 南京信息工程大学 | 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法 |
CN111914917A (zh) * | 2020-07-22 | 2020-11-10 | 西安建筑科技大学 | 一种基于特征金字塔网络和注意力机制的目标检测改进算法 |
WO2021208726A1 (zh) * | 2020-11-23 | 2021-10-21 | 平安科技(深圳)有限公司 | 基于注意力机制的目标检测方法、装置及计算机设备 |
CN114332620A (zh) * | 2021-12-30 | 2022-04-12 | 杭州电子科技大学 | 基于特征融合和注意力机制的机载图像车辆目标识别方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115565077A (zh) * | 2022-09-29 | 2023-01-03 | 哈尔滨天枢问道技术有限公司 | 一种基于空间特征整合的遥感图像小目标检测算法 |
Also Published As
Publication number | Publication date |
---|---|
GB202217717D0 (en) | 2023-01-11 |
GB2614954A (en) | 2023-07-26 |
GB2614954B (en) | 2024-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114972860A (zh) | 一种基于注意增强的双向特征金字塔网络的目标检测方法 | |
CN112733749B (zh) | 融合注意力机制的实时行人检测方法 | |
CN109522966B (zh) | 一种基于密集连接卷积神经网络的目标检测方法 | |
CN110287960A (zh) | 自然场景图像中曲线文字的检测识别方法 | |
CN115063573B (zh) | 一种基于注意力机制的多尺度目标检测方法 | |
CN111209921A (zh) | 基于改进的YOLOv3网络的车牌检测模型及构建方法 | |
CN110738697A (zh) | 基于深度学习的单目深度估计方法 | |
CN110929577A (zh) | 一种基于YOLOv3的轻量级框架改进的目标识别方法 | |
CN110414344B (zh) | 一种基于视频的人物分类方法、智能终端及存储介质 | |
CN114119638A (zh) | 一种融合多尺度特征和注意力机制的医学图像分割方法 | |
CN110782420A (zh) | 一种基于深度学习的小目标特征表示增强方法 | |
CN113313082B (zh) | 一种基于多任务损失函数的目标检测方法及系统 | |
CN112163520B (zh) | 一种基于改进损失函数的mdssd人脸检测方法 | |
CN113592007B (zh) | 一种基于知识蒸馏的不良图片识别系统、方法、计算机及存储介质 | |
CN114936605A (zh) | 基于知识蒸馏的神经网络训练方法、设备及存储介质 | |
CN115496928A (zh) | 基于多重特征匹配的多模态图像特征匹配方法 | |
CN112784756B (zh) | 人体识别跟踪方法 | |
CN112070040A (zh) | 一种用于视频字幕的文本行检测方法 | |
CN113239753A (zh) | 基于YOLOv4改进的交通标志检测与识别方法 | |
Fan et al. | A novel sonar target detection and classification algorithm | |
CN110517270A (zh) | 一种基于超像素深度网络的室内场景语义分割方法 | |
CN118196536A (zh) | 并行特征提取和渐进特征融合的主板装配缺陷检测算法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN117456480B (zh) | 一种基于多源信息融合的轻量化车辆再辨识方法 | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |