CN114037888A - 基于联合注意力和自适应nms的目标检测方法和系统 - Google Patents
基于联合注意力和自适应nms的目标检测方法和系统 Download PDFInfo
- Publication number
- CN114037888A CN114037888A CN202111309083.9A CN202111309083A CN114037888A CN 114037888 A CN114037888 A CN 114037888A CN 202111309083 A CN202111309083 A CN 202111309083A CN 114037888 A CN114037888 A CN 114037888A
- Authority
- CN
- China
- Prior art keywords
- feature
- attention
- adaptive
- image
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 115
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 40
- 230000007246 mechanism Effects 0.000 claims abstract description 78
- 238000012545 processing Methods 0.000 claims abstract description 32
- 238000000605 extraction Methods 0.000 claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000012805 post-processing Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 13
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000001629 suppression Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000002238 attenuated effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000008094 contradictory effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及基于联合注意力和自适应NMS的目标检测方法和系统,方法包括:获取待检测图像并对待检测图像进行预处理;利用嵌入联合注意力机制的YOLOv3模型对预处理后的待检测图像进行特征提取,得到待检测图像上目标实例对象的特征信息;联合注意力机制包括嵌入YOLOv3模型的特征金字塔网络的通道注意力机制层和位置注意力机制层;对特征信息进行分类回归处理;采用根据目标实例对象的密集度或稀疏性自适应调整NMS阈值的策略,对分类回归处理后的待检测图像进行后处理,得到待检测图像对应的目标检测输出图像。实现了有效提升目标检测性能的目的。
Description
技术领域
本申请涉及图像识别与检测技术领域,特别是涉及一种基于联合注意力和自适应NMS的目标检测方法和系统。
背景技术
目标检测已在计算机视觉任务中得到了广泛的研究,其主要依赖于目标类别和分类置信度的检测框。大量研究表明基于卷积神经网络(CNN)的目标检测取得了令人满意的性能,其中最有影响力的方法主要包括YOLO系列、R-CNN系列、SSD系列以及FPN系列。虽然这些方法极大推进了目标检测技术的发展,但这些方法对小尺度实例目标和密集实例目标的检测仍存在较大的挑战。针对图像中存在许多尺度急剧变化的实例目标的问题,近年来,多层特征融合(低级特征拼接融合模块、多尺度语义信息融合模块、注意力模块和特征复用模块)被提出来。
此外,非极大值抑制算法(NMS)是目标检测任务中必不可少的一部分,其作用是去除冗余的检测框。目前,传统的目标检测技术中,已经出现了多层特征融合与基于固定IoU(Intersection over Union,交并比)阈值的NMS方法在目标检测方面有良好的结果。然而,在实现本发明过程中,发明人发现前述传统的目标检测技术,仍然存在着检测性能不足的技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种基于联合注意力和自适应NMS的目标检测方法以及一种基于联合注意力和自适应NMS的目标检测系统,能够有效提升目标检测性能。
为了实现上述目的,本发明实施例采用以下技术方案:
一方面,本发明实施例提供一种基于联合注意力和自适应NMS的目标检测方法,包括步骤:
获取待检测图像并对待检测图像进行预处理;
利用嵌入联合注意力机制的YOLOv3模型对预处理后的待检测图像进行特征提取,得到待检测图像上目标实例对象的特征信息;联合注意力机制包括嵌入YOLOv3模型的特征金字塔网络的通道注意力机制层和位置注意力机制层;
对特征信息进行分类回归处理;
采用根据目标实例对象的密集度或稀疏性自适应调整NMS阈值的策略,对分类回归处理后的待检测图像进行后处理,得到待检测图像对应的目标检测输出图像。
另一方面,还提供一种基于联合注意力和自适应NMS的目标检测系统,包括:
预处理模块,用于获取待检测图像并对待检测图像进行预处理;
特征提取模块,用于利用嵌入联合注意力机制的YOLOv3模型对预处理后的待检测图像进行特征提取,得到待检测图像上目标实例对象的特征信息;联合注意力机制包括嵌入YOLOv3模型的特征金字塔网络的通道注意力机制层和位置注意力机制层;
分类回归模块,用于对特征信息进行分类回归处理;
后处理模块,用于采用根据目标实例对象的密集度或稀疏性自适应调整NMS阈值的策略,对分类回归处理后的待检测图像进行后处理,得到待检测图像对应的目标检测输出图像。
上述技术方案中的一个技术方案具有如下优点和有益效果:
上述基于联合注意力和自适应NMS的目标检测方法和系统,通过对预处理后的待检测图像,利用嵌入联合注意力机制的YOLOv3模型进行特征提取,由于YOLOv3模型的特征金字塔网络嵌入了通道注意力机制层和位置注意力机制层,从而添加了通道注意力,使具有注意力效果的梯度信息覆盖了所有尺度特征;此外,位置注意力机制层也增加了对特征映射的位置注意力,以获得更多的上下文特征信息以丰富低层信息和高层语义信息的特征,增强特征表示,从而实现关注重要的特征并抑制不必要的特征,对目标实例对象区域中的特征信息进行加权选择,提高检测框的定位性能。
完成特征提取以及分类回归处理后,最终采用根据目标实例对象的密集度或稀疏性自适应调整NMS阈值的策略进行后处理,得到目标检测输出图像。由于自适应调整NMS阈值的策略属于动态抑制策略,采用的是无监督自适应设置IoU阈值的方式,使非常接近的相邻检测框被抑制为假阳性,提升目标对象的检测框去重精确度。如此,实现有效提升目标检测性能的目的。
附图说明
图1为一个实施例中基于联合注意力和自适应NMS的目标检测方法的流程示意图;
图2为一个实施例中联合注意力机制嵌入三级特征金字塔的示意图;
图3为一个实施例中通道注意力机制层的信息结构示意图;
图4为一个实施例中位置注意力机制层的信息结构示意图;
图5为一个实施例中空间注意力机制层的信息结构示意图;
图6为一个实施例中自注意力机制层的信息结构示意图;
图7为一个实施例中基于联合注意力和自适应NMS的目标检测系统的模块结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
理想情况下,多层特征的融合可以弥补异构特征之间互补性的不足。然而,低层特征通过多次卷积不可避免地会丢失一些有效信息,而高层语义特征缺乏空间位置信息,使得特征的表征能力低于预期。特别是,对于注意力机制,单通道注意力或位置注意力很难充分利用多层特征之间潜在的互补(异构)信息。
另一方面需要关注的问题是,非极大值抑制算法(NMS)是目标检测任务中必不可少的一部分,其作用是去除冗余的检测框。首先人工设定一个IoU阈值,将同一类的所有检测框按照分类置信度排序,选取分类置信度得分最高的检测结果,去除那些与之IoU值超过阈值的相邻结果,使网络模型在召回率和精度之间取得较好的平衡。然而,采用固定IoU阈值的NMS算法会导致漏检情况发生,为了解决这个问题,近年来提出了许多改进的NMS方法,这些方法不是直接去除那些超过IoU阈值的相邻检测框,而是采用线性加权或者高斯加权的方式衰减相邻检测框的分类置信度值,再选取合适的置信度阈值进行检测框去重,对模型的漏检有了很好的改善。虽然这些改进的NMS方法在目标检测方面有良好的结果,但是设置固定常数的IoU阈值总有一些局限性。
综上,本发明针对传统的目标检测技术,仍然存在着检测性能不足的技术问题,提供了基于联合注意力和自适应NMS的目标检测方法,采用联合注意力模块旨在加强目标实例对象的多尺度特征之间的上下文关系,以丰富低层信息和高层语义信息的特征,同时采用无监督自适应的方式设置IoU阈值,实验结果表明,改进的目标检测方法可以获得优越的性能。
请参阅图1,一方面,本发明提供一种基于联合注意力和自适应NMS的目标检测方法,包括如下步骤S12至S18:
S12,获取待检测图像并对待检测图像进行预处理。
可以理解,待检测图像可以但不限于通过在线拍摄、手动上传、数据库下载或网络采集等方式获取,对待检测图像进行的预处理可以是本领域中常进行的图像预处理手段,例如但不限于图像尺寸压缩、归一化和去雾处理,以及其他图像降噪等操作,只要能够使得待检测图像适应YOLOv3模型的神经网络输入要求即可。
S14,利用嵌入联合注意力机制的YOLOv3模型对预处理后的待检测图像进行特征提取,得到待检测图像上目标实例对象的特征信息;联合注意力机制包括嵌入YOLOv3模型的特征金字塔网络的通道注意力机制层和位置注意力机制层。
可以理解,注意力机制是对应过滤器的检测特征映射,因此,注意力可以被看作是基于上下文全局信息的任务需求,自动学习不同通道(或位置)特征的重要性。嵌入联合注意力机制的YOLOv3模型,也即将通道注意力和位置注意力(由空间注意力和自注意力组成)顺序组合并嵌入到本领域原有YOLOv3模型中,从而产生的改进型YOLOv3模型,本申请采用的前述联合注意力机制是一种One-Stage算法的目标检测的联合注意力机制。
具体的,关于特征提取的主干(Backbone)网络部分,本申请以YOLOv3目标检测的卷积网络模型为基准,其最显著的特点是具有三个层的特征金字塔网络。原有YOLOv3提取的卷积特征不会权衡卷积核中每个位置的信息,即认为每个区域对最终检测结果的贡献相同。然而,在现实应用的情况下,待检测图像的目标实例对象的背景信息复杂并且周围有较多上下文噪声;因此,对目标实例对象区域中的特征信息进行加权选择可以提高检测框的定位性能。嵌入了联合注意力机制的三级特征金字塔网络的模型如图2所示。
基于上述考虑,本申请修改了FPN(Feature Pyramid Networks,特征金字塔网络)-Darknet-53网络,设计了一个将通道注意力和位置注意力集成到特征金字塔网络中的联合注意力机制层。通过跨全局和局部特征的自适应缩放,为特征金字塔网络添加了通道注意力,使具有注意力效果的梯度信息覆盖了所有尺度特征。此外,也增加了对特征映射的位置注意力,以获得更多的上下文特征信息,增强特征表示。
在一些实施方式中,关于上述步骤S14,在特征提取的过程中,通道注意力机制层实现的处理步骤,具体可以包括如下:
对每个层次的特征图进行全局平均池化,得到每个通道的全局信息;
利用激活函数和两个完整的连接层,对通道之间的相关性进行自适应建模,得到自适应学习模型;
利用自适应学习模型对输入通道的特征信息和权重进行加权,对特征响应进行权重校准。
可以理解,通过在图像的特征提取过程中,对特征映射中的通道关系进行建模和加权,通道注意力机制层(模块)选择所需的特征,以提高图像的显著特征的表示能力。因此,通道注意力可以选择性地关注重要特征并通过上述特征金字塔网络结构抑制不必要的特征。通道注意力模块的详细信息如图3所示,通道注意力模块主要校准信道重要性的权重,以使每个特征可以通过加权来增强或削弱。
在一些实施方式中,激活函数采用的激活参数M为:
M=S(FC2×R(FC1×Z)) (1)
通道注意力机制层的通道注意力映射Ec为:
具体的,给定一组卷积聚集金字塔的局部特征响应A=[A1,A2,...,AC],其中,是在(i,j)位置上最大尺度的特征映射。而每个尺度的aij特征映射都包含了来自多个层次的特征信息。本实施采用全局平均池(压缩和激励)以生成通道统计信息Z=[z1,z2,...,zC]∈RC。同时,将通过Sigmoid激活函数捕获通道依赖关系,则激活操作的激活参数如上式(1)所示。
此外,A通过引导模块(由两个Darknet-53卷积核组成)生成卷积核输出集合N∈RC ×H×W,如此可反过来使低层特征能够指导高层特征的权重。然后通过用激活参数M重新加权输入N:
在一些实施方式中,位置注意力机制层包括空间注意力机制层和自注意力机制层。
可以理解,通道注意力模块对通道维度进行加权,以提高其检测性能。然而,在现实应用的情况下,待检测图像上一些目标实例对象比较拥挤,这会产生本领域所说的假阳性。因此,将位置注意力嵌入到模型中,以弥补通道注意力无法获得位置细节的限制,从而丰富上下文信息,增强特征映射表示。由空间注意力和自注意力组成的位置注意力机制层(模块),如图4所示。这两种注意力可以在空间维度中过滤和增强特征映射,因此两者组成的注意力可以称为位置注意力。
一方面,关于上述步骤S14,在特征提取的过程中,空间注意力机制层实现的处理步骤,具体可以包括如下:
沿通道轴采用平均池化和最大池将通道注意力机制层的通道信息连接,生成有效的特征描述符;
通过卷积对串联的特征描述符进行编码,生成空间注意力映射。
可以理解,与通道注意力不同,空间注意力更关注目标实例对象“在哪里”。沿通道轴采用池化操作可有效互补通道注意力信息突出的区域。首先,沿着通道轴采用本领域已有的平均池化和最大池处理手段,并且将两者的输出合并连接起来,生成一个有效的特征描述符。然后,通过卷积对串联的特征描述符进行编码,生成空间注意力映射。空间注意力机制层(模块)的详细信息如图5所示,与通道注意力不同,空间注意力模块更关注“inwhere”,其沿通道轴集中,以突出有效信息的区域,从而补充通道注意力。
在一些实施方式中,空间注意力机制层的空间注意力映射Es为:
Es=C3×3(Fcon)×A (3)
其中,C3×3表示具有3×3核大小的卷积,Fcon∈R1×1×2C表示沿通道维度方向进行的特征权重,R表示ReLU函数,C表示特征通道的数量,A表示卷积聚集特征金字塔的局部特征响应。
具体的,给定一组卷积聚合金字塔局部特征响应A=[A1,A2,...,AC],通过使用两个池化操作生成两个映射来聚合特征响应的通道信息。同样,Favg和Fmax分别用来表示两个池化的输出,Favg和Fmax可以选择全局背景信息并突出显示目标实例对象的显著特征。然后沿着通道维度连接这些特征映射,以获得沿通道维度方向进行的特征权重Fcon。采用卷积减小了维度,得到了特征权值,使C3×3表示具有3×3核大小的卷积。最后,基于元素求和的方式合并了所有的输出特征向量。简而言之,空间注意力映射Es可以定义如上式(3)所示。在空间注意力映射中,目标实例对象区域的特征具有高响应,抑制周围信息特征的存在。因此,这些特性将会变得更加鲁棒。
另一方面,关于上述步骤S14,在特征提取的过程中,自注意力机制层实现的处理步骤,具体可以包括如下:
计算注意空间特征向量之间的相似度;
根据相似度的分数,生成与输入特征具有相同维度的权值图;
将输入特征乘以空间注意力机制映射并将所有加权特征向量求和,更新原始向量。
可以理解,上下文信息是丰富目标实例对象特征的一项重要内容。因此,为了量化特征映射中任意一对像素之间的依赖关系,本实施例将自注意力嵌入到位置注意力模块中。自注意力将计算注意空间特征向量和其他特征向量之间的相似度分数,这些相似度分数将生成与输入特征具有相同维度的权值图。同时,将输入特征乘以映射并将所有加权特征向量求和,得到一个新的向量,从而更新原始向量。自注意力机制层(模块)的细节如图6所示,自注意力模块可以量化特征映射中任意一对长距离像素之间的依赖关系,以丰富目标实例对象特征的上下文信息。
自注意力机制的一般过程是三个向量、计算得分、得分除以特定值、将输出通过softmax函数标准化;softmax函数又称归一化指数函数,用于将多分类的结果以概率的形式展现出来。具体的,给定卷积聚合特征金字塔局部特征A=[A1,A2,...,AC]∈RC×H×W,自注意力模块首先将其馈入卷积层以生成三个特征B、C和D,{B,C,D}∈RC×H×W。然后,分别将该三个特征的矩阵形状重构为RC×N,其中N=H×W表示当前输入特征的像素数。然后对B和C的转置进行矩阵乘法,采用softmax函数计算注意空间特征图Fs为:
其中,Fsji表示衡量第i位置对第j位置的影响,Bi表示卷积层生成的第i位置的特征B,Cj表示卷积层生成的第j位置的特征C。如果第i位置和第j位置这两个位置的特征表示更相似,那么这可以促进该两个位置之间的相关性,从而丰富特征映射的信息。
与此同时,将D和Fs的转置之间进行矩阵乘法,并将两者的矩阵形状重构为RC×N。最后,将上述结果乘以尺度参数α,用输入特征映射A进行元素和,获得最终输出,也即自注意力机制层的特征映射Fout为:
根据式(5)可知,每个位置的特征变化是所有位置和输入特征的加权和。因此,特征映射Fout具有全局接受域并选择性地聚合上下文信息。
S16,对特征信息进行分类回归处理。
可以理解,对于特征提取后的分类回归处理过程,具体可以参照本领域基于YOLOv3目标检测中的分类回归处理过程同理理解,本说明书中不再展开赘述。
S18,采用根据目标实例对象的密集度或稀疏性自适应调整NMS阈值的策略,对分类回归处理后的待检测图像进行后处理,得到待检测图像对应的目标检测输出图像。
可以理解,NMS(非极大值抑制算法)是目前基于CNN目标检测的重要的后处理步骤。本领域现有技术中,Greedy-NMS算法以分数S的检测框B开始,然后选择最大分数M的检测,从B移到最终检测集合D中。Greedy-NMS算法还将删除任何重叠大于阈值Nt的检测框,对集合中的所有剩余检测框重复此过程。
如果高度重叠,只有在设置一个大的阈值Nt时才能检测到两个检测框是匹配,以确保置信度分数较低的检测框不会被抑制。然而,这是矛盾的:在现实应用场景中,目标实例对象的密度差异很大,而较高的NMS阈值可能会增加目标实例对象稀疏区域的假阳性。为了解决该问题,本领域已经提出的Soft-NMS算法并没有丢弃周围所有分数低于阈值的检测框,而是通过添加一个与较高置信度检测框重叠的惩罚函数来降低相邻检测框的置信度分数。Soft-NMS算法上抑制步骤可写为:
对于Soft-NMS算法,如果bi包含另一个不被M所覆盖的对象,则将不会在较低的检测阈值处增加假阳性。然而,作为一个惩罚函数,其仍然为高度重叠的盒子(Box)分配一个更大的惩罚,类似于Greedy-NMS惩罚。本领域已提出的Adaptive-NMS算法则优化了Soft-NMS在行人检测特殊场景中的应用,该算法给出了一种判断目标实例对象密度的预测方法,可以动态增加或减小IoU阈值的Nt。然而,尽管Adaptive-NMS算法提高了IoU阈值的自适应性,但其所采用的惩罚函数仍然是传统的f(iou(M,bi))=(1-iou(M,bi))或者惩罚函数。
对于前者,f(iou(M,bi))=(1-iou(M,bi))所带来的惩罚很粗糙,特别是在目标实例对象密度较高(重叠的IoU更大,但较密集的情况下)。对于虽然σ具有更好的衰减性能,但其是一个需要人工设置的变量参数,缺乏一定的自适应性。
基于Soft-NMS和Adaptive-NMS的局限,本申请设计了无监督自适应NMS方法,即惩罚函数的衰减趋势和IoU阈值的衰减趋势都可以自适应调整。在一些实施方式中,自适应调整NMS阈值的策略中,设置的惩罚函数的衰减权重Wi为:
其中,iou(M,bi)表示置信度最高的M与bi之间的重叠交并比,bi表示第i位置的待处理Box框,M表示分类置信度最高的检测框,k表示重叠的所有检测框的数量;
检测框的置信度分数si为:
具体的,可以从式(7)中看到置信度分数的衰减权重与iou(M,bi)正相关,即较小的检测框不会受到影响,较大的检测框会受到更大的处罚。这与本申请所设定的趋势相同:与M重叠较高的检测框的置信度分数应该更加衰减,因为这些检测框出现假阳性的可能性更高。根据上述定义,本申请采用如式(8)所示的策略更新衰减度。
关于式(8)所示的策略,有三个方面值得关注:(1)阈值是自适应的,可以根据M和相邻检测框之间的距离自适应地调整衰减,使非常接近的检测框被抑制为假阳性。该策略还保持了两个检测框之间的相关性。此外,如果检测远离M的检测框,阈值将保留与原来的NMS相同,即NM=Nt。(2)f(iou(M,bi))是一个基于重叠的加权惩罚函数,与Greedy-NMS算法和Soft-NMS算法具有相同的计算复杂度。(3)与Soft-NMS算法和Adaptive-NMS算法相比,本申请还改善了IoU阈值Nt及σ在高斯惩罚函数中的自适应性,实现了无监督的自适应。如此,经过上述后处理,即可获得目标检测输出图像,输出图像中的目标实例对象的检测精度更高。
上述基于联合注意力和自适应NMS的目标检测方法,通过对预处理后的待检测图像,利用嵌入联合注意力机制的YOLOv3模型进行特征提取,由于YOLOv3模型的特征金字塔网络嵌入了通道注意力机制层和位置注意力机制层,从而添加了通道注意力,使具有注意力效果的梯度信息覆盖了所有尺度特征;此外,位置注意力机制层也增加了对特征映射的位置注意力,以获得更多的上下文特征信息以丰富低层信息和高层语义信息的特征,增强特征表示,从而实现关注重要的特征并抑制不必要的特征,对目标实例对象区域中的特征信息进行加权选择,提高检测框的定位性能。
完成特征提取以及分类回归处理后,最终采用根据目标实例对象的密集度或稀疏性自适应调整NMS阈值的策略进行后处理,得到目标检测输出图像。由于自适应调整NMS阈值的策略属于动态抑制策略,采用的是无监督自适应设置IoU阈值的方式,使非常接近的相邻检测框被抑制为假阳性,提升目标对象的检测框去重精确度。如此,实现有效提升目标检测性能的目的。
应该理解的是,虽然图1流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且图1的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
请参阅图7,在一个实施例中,还提供了一种基于联合注意力和自适应NMS的目标检测系统100,包括预处理模块11、特征提取模块13、分类回归模块15和后处理模块17。其中,预处理模块11用于获取待检测图像并对待检测图像进行预处理。特征提取模块13用于利用嵌入联合注意力机制的YOLOv3模型对预处理后的待检测图像进行特征提取,得到待检测图像上目标实例对象的特征信息;联合注意力机制包括嵌入YOLOv3模型的特征金字塔网络的通道注意力机制层和位置注意力机制层。分类回归模块15用于对特征信息进行分类回归处理。后处理模块17用于采用根据目标实例对象的密集度或稀疏性自适应调整NMS阈值的策略,对分类回归处理后的待检测图像进行后处理,得到待检测图像对应的目标检测输出图像。
上述基于联合注意力和自适应NMS的目标检测系统100,通过各模块的协作,对预处理后的待检测图像,利用嵌入联合注意力机制的YOLOv3模型进行特征提取,由于YOLOv3模型的特征金字塔网络嵌入了通道注意力机制层和位置注意力机制层,从而添加了通道注意力,使具有注意力效果的梯度信息覆盖了所有尺度特征;此外,位置注意力机制层也增加了对特征映射的位置注意力,以获得更多的上下文特征信息以丰富低层信息和高层语义信息的特征,增强特征表示,从而实现关注重要的特征并抑制不必要的特征,对目标实例对象区域中的特征信息进行加权选择,提高检测框的定位性能。
完成特征提取以及分类回归处理后,最终采用根据目标实例对象的密集度或稀疏性自适应调整NMS阈值的策略进行后处理,得到目标检测输出图像。由于自适应调整NMS阈值的策略属于动态抑制策略,采用的是无监督自适应设置IoU阈值的方式,使非常接近的相邻检测框被抑制为假阳性,提升目标对象的检测框去重精确度。如此,实现有效提升目标检测性能的目的。
在一个实施例中,特征提取模块包括通道池化子模块、通道学习子模块和权重校准子模块。其中,通道池化子模块用于对每个层次的特征图进行全局平均池化,得到每个通道的全局信息。通道学习子模块用于利用激活函数和两个完整的连接层,对通道之间的相关性进行自适应建模,得到自适应学习模型。权重校准子模块用于利用自适应学习模型对输入通道的特征信息和权重进行加权,对特征响应进行权重校准。
关于基于联合注意力和自适应NMS的目标检测系统100的具体限定,可以参见上文中基于联合注意力和自适应NMS的目标检测方法的相应限定,在此不再赘述。上述基于联合注意力和自适应NMS的目标检测系统100中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于具体数据处理功能的设备中,也可以软件形式存储于前述设备的存储器中,以便于处理器调用执行以上各个模块对应的操作,前述设备可以是但不限于本领域已有的各型数据处理设备。
又一方面,还提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时可以实现以下步骤:获取待检测图像并对待检测图像进行预处理;利用嵌入联合注意力机制的YOLOv3模型对预处理后的待检测图像进行特征提取,得到待检测图像上目标实例对象的特征信息;联合注意力机制包括嵌入YOLOv3模型的特征金字塔网络的通道注意力机制层和位置注意力机制层;对特征信息进行分类回归处理;采用根据目标实例对象的密集度或稀疏性自适应调整NMS阈值的策略,对分类回归处理后的待检测图像进行后处理,得到待检测图像对应的目标检测输出图像。
在一个实施例中,处理器执行计算机程序时还可以实现上述基于联合注意力和自适应NMS的目标检测方法各实施例中增加的步骤或者子步骤。
再一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待检测图像并对待检测图像进行预处理;利用嵌入联合注意力机制的YOLOv3模型对预处理后的待检测图像进行特征提取,得到待检测图像上目标实例对象的特征信息;联合注意力机制包括嵌入YOLOv3模型的特征金字塔网络的通道注意力机制层和位置注意力机制层;对特征信息进行分类回归处理;采用根据目标实例对象的密集度或稀疏性自适应调整NMS阈值的策略,对分类回归处理后的待检测图像进行后处理,得到待检测图像对应的目标检测输出图像。
在一个实施例中,计算机程序被处理器执行时,还可以实现上述基于联合注意力和自适应NMS的目标检测方法各实施例中增加的步骤或者子步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线式动态随机存储器(Rambus DRAM,简称RDRAM)以及接口动态随机存储器(DRDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可做出若干变形和改进,都属于本申请保护范围。因此本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于联合注意力和自适应NMS的目标检测方法,其特征在于,包括步骤:
获取待检测图像并对所述待检测图像进行预处理;
利用嵌入联合注意力机制的YOLOv3模型对预处理后的所述待检测图像进行特征提取,得到所述待检测图像上目标实例对象的特征信息;所述联合注意力机制包括嵌入所述YOLOv3模型的特征金字塔网络的通道注意力机制层和位置注意力机制层;
对所述特征信息进行分类回归处理;
采用根据所述目标实例对象的密集度或稀疏性自适应调整NMS阈值的策略,对所述分类回归处理后的所述待检测图像进行后处理,得到所述待检测图像对应的目标检测输出图像。
2.根据权利要求1所述的基于联合注意力和自适应NMS的目标检测方法,其特征在于,在所述特征提取的过程中,所述通道注意力机制层实现的处理步骤包括:
对每个层次的特征图进行全局平均池化,得到每个通道的全局信息;
利用激活函数和两个完整的连接层,对通道之间的相关性进行自适应建模,得到自适应学习模型;
利用所述自适应学习模型对输入通道的特征信息和权重进行加权,对特征响应进行权重校准。
4.根据权利要求1至3任一项所述的基于联合注意力和自适应NMS的目标检测方法,其特征在于,所述位置注意力机制层包括空间注意力机制层和自注意力机制层;
在所述特征提取的过程中,所述空间注意力机制层实现的处理步骤包括:
沿通道轴采用平均池化和最大池将通道注意力机制层的通道信息连接,生成有效的特征描述符;
通过卷积对串联的所述特征描述符进行编码,生成空间注意力映射;
在所述特征提取的过程中,所述自注意力机制层实现的处理步骤包括:
计算注意空间特征向量之间的相似度;
根据所述相似度的分数,生成与输入特征具有相同维度的权值图;
将输入特征乘以空间注意力机制映射并将所有加权特征向量求和,更新原始向量。
5.根据权利要求4所述的基于联合注意力和自适应NMS的目标检测方法,其特征在于,所述空间注意力机制层的空间注意力映射Es为:
Es=C3×3(Fcon)×A
其中,C3×3表示具有3×3核大小的卷积,Fcon∈R1×1×2C表示沿通道维度方向进行的特征权重,R表示ReLU函数,C表示特征通道的数量,A表示卷积聚集特征金字塔的局部特征响应。
9.一种基于联合注意力和自适应NMS的目标检测系统,其特征在于,包括:
预处理模块,用于获取待检测图像并对所述待检测图像进行预处理;
特征提取模块,用于利用嵌入联合注意力机制的YOLOv3模型对预处理后的所述待检测图像进行特征提取,得到所述待检测图像上目标实例对象的特征信息;所述联合注意力机制包括嵌入所述YOLOv3模型的特征金字塔网络的通道注意力机制层和位置注意力机制层;
分类回归模块,用于对所述特征信息进行分类回归处理;
后处理模块,用于采用根据所述目标实例对象的密集度或稀疏性自适应调整NMS阈值的策略,对所述分类回归处理后的所述待检测图像进行后处理,得到所述待检测图像对应的目标检测输出图像。
10.根据权利要求9所述的基于联合注意力和自适应NMS的目标检测系统,其特征在于,所述特征提取模块包括:
通道池化子模块,用于对每个层次的特征图进行全局平均池化,得到每个通道的全局信息;
通道学习子模块,用于利用激活函数和两个完整的连接层,对通道之间的相关性进行自适应建模,得到自适应学习模型;
权重校准子模块,用于利用所述自适应学习模型对输入通道的特征信息和权重进行加权,对特征响应进行权重校准。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111309083.9A CN114037888B (zh) | 2021-11-05 | 2021-11-05 | 基于联合注意力和自适应nms的目标检测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111309083.9A CN114037888B (zh) | 2021-11-05 | 2021-11-05 | 基于联合注意力和自适应nms的目标检测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114037888A true CN114037888A (zh) | 2022-02-11 |
CN114037888B CN114037888B (zh) | 2024-03-08 |
Family
ID=80143110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111309083.9A Active CN114037888B (zh) | 2021-11-05 | 2021-11-05 | 基于联合注意力和自适应nms的目标检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114037888B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114723939A (zh) * | 2022-04-12 | 2022-07-08 | 国网四川省电力公司营销服务中心 | 基于注意力机制的非极大值抑制方法、系统、设备和介质 |
CN114943903A (zh) * | 2022-05-25 | 2022-08-26 | 广西财经学院 | 一种针对无人机航空图像的自适应分簇目标检测方法 |
CN115272250A (zh) * | 2022-08-01 | 2022-11-01 | 深圳技术大学 | 确定病灶位置方法、装置、计算机设备和存储介质 |
CN115908298A (zh) * | 2022-11-10 | 2023-04-04 | 苏州慧维智能医疗科技有限公司 | 内窥镜图像中息肉的目标预测方法、模型及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210117737A1 (en) * | 2019-10-18 | 2021-04-22 | Korea University Research And Business Foundation | Earthquake event classification method using attention-based convolutional neural network, recording medium and device for performing the method |
CN113065558A (zh) * | 2021-04-21 | 2021-07-02 | 浙江工业大学 | 一种结合注意力机制的轻量级小目标检测方法 |
CN113158738A (zh) * | 2021-01-28 | 2021-07-23 | 中南大学 | 一种基于注意力机制的港口环境下目标检测方法、系统、终端及可读存储介质 |
CN113420729A (zh) * | 2021-08-23 | 2021-09-21 | 城云科技(中国)有限公司 | 多尺度目标检测方法、模型、电子设备及其应用 |
-
2021
- 2021-11-05 CN CN202111309083.9A patent/CN114037888B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210117737A1 (en) * | 2019-10-18 | 2021-04-22 | Korea University Research And Business Foundation | Earthquake event classification method using attention-based convolutional neural network, recording medium and device for performing the method |
CN113158738A (zh) * | 2021-01-28 | 2021-07-23 | 中南大学 | 一种基于注意力机制的港口环境下目标检测方法、系统、终端及可读存储介质 |
CN113065558A (zh) * | 2021-04-21 | 2021-07-02 | 浙江工业大学 | 一种结合注意力机制的轻量级小目标检测方法 |
CN113420729A (zh) * | 2021-08-23 | 2021-09-21 | 城云科技(中国)有限公司 | 多尺度目标检测方法、模型、电子设备及其应用 |
Non-Patent Citations (1)
Title |
---|
陈睿龙等: "基于深度学习的实时吸烟检测算法", 计算机科学与探索, no. 2021 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114723939A (zh) * | 2022-04-12 | 2022-07-08 | 国网四川省电力公司营销服务中心 | 基于注意力机制的非极大值抑制方法、系统、设备和介质 |
CN114723939B (zh) * | 2022-04-12 | 2023-10-31 | 国网四川省电力公司营销服务中心 | 基于注意力机制的非极大值抑制方法、系统、设备和介质 |
CN114943903A (zh) * | 2022-05-25 | 2022-08-26 | 广西财经学院 | 一种针对无人机航空图像的自适应分簇目标检测方法 |
CN115272250A (zh) * | 2022-08-01 | 2022-11-01 | 深圳技术大学 | 确定病灶位置方法、装置、计算机设备和存储介质 |
CN115272250B (zh) * | 2022-08-01 | 2024-06-04 | 深圳技术大学 | 确定病灶位置方法、装置、计算机设备和存储介质 |
CN115908298A (zh) * | 2022-11-10 | 2023-04-04 | 苏州慧维智能医疗科技有限公司 | 内窥镜图像中息肉的目标预测方法、模型及存储介质 |
CN115908298B (zh) * | 2022-11-10 | 2023-10-10 | 苏州慧维智能医疗科技有限公司 | 内窥镜图像中息肉的目标预测方法、模型及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114037888B (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112052886B (zh) | 基于卷积神经网络的人体动作姿态智能估计方法及装置 | |
CN114037888B (zh) | 基于联合注意力和自适应nms的目标检测方法和系统 | |
CN111080628A (zh) | 图像篡改检测方法、装置、计算机设备和存储介质 | |
CN111260055B (zh) | 基于三维图像识别的模型训练方法、存储介质和设备 | |
CN114897779B (zh) | 基于融合注意力的宫颈细胞学图像异常区域定位方法及装置 | |
CN113066017B (zh) | 一种图像增强方法、模型训练方法及设备 | |
CN113674191B (zh) | 一种基于条件对抗网络的弱光图像增强方法和装置 | |
CN110807362A (zh) | 一种图像检测方法、装置和计算机可读存储介质 | |
CN111738270B (zh) | 模型生成方法、装置、设备和可读存储介质 | |
US11619593B2 (en) | Methods and systems for detecting a defect of a film | |
Ren et al. | Enhanced non-local total variation model and multi-directional feature prediction prior for single image super resolution | |
CN111899203B (zh) | 基于标注图在无监督训练下的真实图像生成方法及存储介质 | |
CN114549913A (zh) | 一种语义分割方法、装置、计算机设备和存储介质 | |
Zheng et al. | T-net: Deep stacked scale-iteration network for image dehazing | |
CN116453232A (zh) | 人脸活体检测方法、人脸活体检测模型的训练方法和装置 | |
CN112950505B (zh) | 一种基于生成对抗网络的图像处理方法、系统和介质 | |
CN113763417B (zh) | 一种基于孪生网络和残差结构的目标跟踪方法 | |
CN117115632A (zh) | 一种水下目标检测方法、装置、设备及介质 | |
CN116246138A (zh) | 基于全卷积神经网络的红外-可见光图像目标级融合方法 | |
CN112634176B (zh) | 基于多感知对抗生成网络的手机拍摄图像去噪方法 | |
CN115273202A (zh) | 一种人脸比对方法、系统、设备及存储介质 | |
CN112686320A (zh) | 图像分类方法、装置、计算机设备及存储介质 | |
CN117786682B (zh) | 基于增强框架的物理对抗攻击方法、装置、设备及介质 | |
CN111783935B (zh) | 卷积神经网络构建方法、装置、设备及介质 | |
CN114662614B (zh) | 图像分类模型的训练方法、图像分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |