CN114037888A

CN114037888A - 基于联合注意力和自适应nms的目标检测方法和系统

Info

Publication number: CN114037888A
Application number: CN202111309083.9A
Authority: CN
Inventors: 蔡志平; 马文涛; 周桐庆; 郑腾飞; 刘强
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-02-11
Anticipated expiration: 2041-11-05
Also published as: CN114037888B

Abstract

本申请涉及基于联合注意力和自适应NMS的目标检测方法和系统，方法包括：获取待检测图像并对待检测图像进行预处理；利用嵌入联合注意力机制的YOLOv3模型对预处理后的待检测图像进行特征提取，得到待检测图像上目标实例对象的特征信息；联合注意力机制包括嵌入YOLOv3模型的特征金字塔网络的通道注意力机制层和位置注意力机制层；对特征信息进行分类回归处理；采用根据目标实例对象的密集度或稀疏性自适应调整NMS阈值的策略，对分类回归处理后的待检测图像进行后处理，得到待检测图像对应的目标检测输出图像。实现了有效提升目标检测性能的目的。

Description

基于联合注意力和自适应NMS的目标检测方法和系统

技术领域

本申请涉及图像识别与检测技术领域，特别是涉及一种基于联合注意力和自适应NMS的目标检测方法和系统。

背景技术

目标检测已在计算机视觉任务中得到了广泛的研究，其主要依赖于目标类别和分类置信度的检测框。大量研究表明基于卷积神经网络(CNN)的目标检测取得了令人满意的性能，其中最有影响力的方法主要包括YOLO系列、R-CNN系列、SSD系列以及FPN系列。虽然这些方法极大推进了目标检测技术的发展，但这些方法对小尺度实例目标和密集实例目标的检测仍存在较大的挑战。针对图像中存在许多尺度急剧变化的实例目标的问题，近年来，多层特征融合(低级特征拼接融合模块、多尺度语义信息融合模块、注意力模块和特征复用模块)被提出来。

此外，非极大值抑制算法(NMS)是目标检测任务中必不可少的一部分，其作用是去除冗余的检测框。目前，传统的目标检测技术中，已经出现了多层特征融合与基于固定IoU(Intersection over Union，交并比)阈值的NMS方法在目标检测方面有良好的结果。然而，在实现本发明过程中，发明人发现前述传统的目标检测技术，仍然存在着检测性能不足的技术问题。

发明内容

基于此，有必要针对上述技术问题，提供一种基于联合注意力和自适应NMS的目标检测方法以及一种基于联合注意力和自适应NMS的目标检测系统，能够有效提升目标检测性能。

为了实现上述目的，本发明实施例采用以下技术方案：

一方面，本发明实施例提供一种基于联合注意力和自适应NMS的目标检测方法，包括步骤：

获取待检测图像并对待检测图像进行预处理；

利用嵌入联合注意力机制的YOLOv3模型对预处理后的待检测图像进行特征提取，得到待检测图像上目标实例对象的特征信息；联合注意力机制包括嵌入YOLOv3模型的特征金字塔网络的通道注意力机制层和位置注意力机制层；

对特征信息进行分类回归处理；

采用根据目标实例对象的密集度或稀疏性自适应调整NMS阈值的策略，对分类回归处理后的待检测图像进行后处理，得到待检测图像对应的目标检测输出图像。

另一方面，还提供一种基于联合注意力和自适应NMS的目标检测系统，包括：

预处理模块，用于获取待检测图像并对待检测图像进行预处理；

特征提取模块，用于利用嵌入联合注意力机制的YOLOv3模型对预处理后的待检测图像进行特征提取，得到待检测图像上目标实例对象的特征信息；联合注意力机制包括嵌入YOLOv3模型的特征金字塔网络的通道注意力机制层和位置注意力机制层；

分类回归模块，用于对特征信息进行分类回归处理；

后处理模块，用于采用根据目标实例对象的密集度或稀疏性自适应调整NMS阈值的策略，对分类回归处理后的待检测图像进行后处理，得到待检测图像对应的目标检测输出图像。

上述技术方案中的一个技术方案具有如下优点和有益效果：

上述基于联合注意力和自适应NMS的目标检测方法和系统，通过对预处理后的待检测图像，利用嵌入联合注意力机制的YOLOv3模型进行特征提取，由于YOLOv3模型的特征金字塔网络嵌入了通道注意力机制层和位置注意力机制层，从而添加了通道注意力，使具有注意力效果的梯度信息覆盖了所有尺度特征；此外，位置注意力机制层也增加了对特征映射的位置注意力，以获得更多的上下文特征信息以丰富低层信息和高层语义信息的特征，增强特征表示，从而实现关注重要的特征并抑制不必要的特征，对目标实例对象区域中的特征信息进行加权选择，提高检测框的定位性能。

完成特征提取以及分类回归处理后，最终采用根据目标实例对象的密集度或稀疏性自适应调整NMS阈值的策略进行后处理，得到目标检测输出图像。由于自适应调整NMS阈值的策略属于动态抑制策略，采用的是无监督自适应设置IoU阈值的方式，使非常接近的相邻检测框被抑制为假阳性，提升目标对象的检测框去重精确度。如此，实现有效提升目标检测性能的目的。

附图说明

图1为一个实施例中基于联合注意力和自适应NMS的目标检测方法的流程示意图；

图2为一个实施例中联合注意力机制嵌入三级特征金字塔的示意图；

图3为一个实施例中通道注意力机制层的信息结构示意图；

图4为一个实施例中位置注意力机制层的信息结构示意图；

图5为一个实施例中空间注意力机制层的信息结构示意图；

图6为一个实施例中自注意力机制层的信息结构示意图；

图7为一个实施例中基于联合注意力和自适应NMS的目标检测系统的模块结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时，应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

理想情况下，多层特征的融合可以弥补异构特征之间互补性的不足。然而，低层特征通过多次卷积不可避免地会丢失一些有效信息，而高层语义特征缺乏空间位置信息，使得特征的表征能力低于预期。特别是，对于注意力机制，单通道注意力或位置注意力很难充分利用多层特征之间潜在的互补(异构)信息。

另一方面需要关注的问题是，非极大值抑制算法(NMS)是目标检测任务中必不可少的一部分，其作用是去除冗余的检测框。首先人工设定一个IoU阈值，将同一类的所有检测框按照分类置信度排序，选取分类置信度得分最高的检测结果，去除那些与之IoU值超过阈值的相邻结果，使网络模型在召回率和精度之间取得较好的平衡。然而，采用固定IoU阈值的NMS算法会导致漏检情况发生，为了解决这个问题，近年来提出了许多改进的NMS方法，这些方法不是直接去除那些超过IoU阈值的相邻检测框，而是采用线性加权或者高斯加权的方式衰减相邻检测框的分类置信度值，再选取合适的置信度阈值进行检测框去重，对模型的漏检有了很好的改善。虽然这些改进的NMS方法在目标检测方面有良好的结果，但是设置固定常数的IoU阈值总有一些局限性。

综上，本发明针对传统的目标检测技术，仍然存在着检测性能不足的技术问题，提供了基于联合注意力和自适应NMS的目标检测方法，采用联合注意力模块旨在加强目标实例对象的多尺度特征之间的上下文关系，以丰富低层信息和高层语义信息的特征，同时采用无监督自适应的方式设置IoU阈值，实验结果表明，改进的目标检测方法可以获得优越的性能。

请参阅图1，一方面，本发明提供一种基于联合注意力和自适应NMS的目标检测方法，包括如下步骤S12至S18：

S12，获取待检测图像并对待检测图像进行预处理。

可以理解，待检测图像可以但不限于通过在线拍摄、手动上传、数据库下载或网络采集等方式获取，对待检测图像进行的预处理可以是本领域中常进行的图像预处理手段，例如但不限于图像尺寸压缩、归一化和去雾处理，以及其他图像降噪等操作，只要能够使得待检测图像适应YOLOv3模型的神经网络输入要求即可。

S14，利用嵌入联合注意力机制的YOLOv3模型对预处理后的待检测图像进行特征提取，得到待检测图像上目标实例对象的特征信息；联合注意力机制包括嵌入YOLOv3模型的特征金字塔网络的通道注意力机制层和位置注意力机制层。

可以理解，注意力机制是对应过滤器的检测特征映射，因此，注意力可以被看作是基于上下文全局信息的任务需求，自动学习不同通道(或位置)特征的重要性。嵌入联合注意力机制的YOLOv3模型，也即将通道注意力和位置注意力(由空间注意力和自注意力组成)顺序组合并嵌入到本领域原有YOLOv3模型中，从而产生的改进型YOLOv3模型，本申请采用的前述联合注意力机制是一种One-Stage算法的目标检测的联合注意力机制。

具体的，关于特征提取的主干(Backbone)网络部分，本申请以YOLOv3目标检测的卷积网络模型为基准，其最显著的特点是具有三个层的特征金字塔网络。原有YOLOv3提取的卷积特征不会权衡卷积核中每个位置的信息，即认为每个区域对最终检测结果的贡献相同。然而，在现实应用的情况下，待检测图像的目标实例对象的背景信息复杂并且周围有较多上下文噪声；因此，对目标实例对象区域中的特征信息进行加权选择可以提高检测框的定位性能。嵌入了联合注意力机制的三级特征金字塔网络的模型如图2所示。

基于上述考虑，本申请修改了FPN(Feature Pyramid Networks，特征金字塔网络)-Darknet-53网络，设计了一个将通道注意力和位置注意力集成到特征金字塔网络中的联合注意力机制层。通过跨全局和局部特征的自适应缩放，为特征金字塔网络添加了通道注意力，使具有注意力效果的梯度信息覆盖了所有尺度特征。此外，也增加了对特征映射的位置注意力，以获得更多的上下文特征信息，增强特征表示。

在一些实施方式中，关于上述步骤S14，在特征提取的过程中，通道注意力机制层实现的处理步骤，具体可以包括如下：

对每个层次的特征图进行全局平均池化，得到每个通道的全局信息；

利用激活函数和两个完整的连接层，对通道之间的相关性进行自适应建模，得到自适应学习模型；

利用自适应学习模型对输入通道的特征信息和权重进行加权，对特征响应进行权重校准。

可以理解，通过在图像的特征提取过程中，对特征映射中的通道关系进行建模和加权，通道注意力机制层(模块)选择所需的特征，以提高图像的显著特征的表示能力。因此，通道注意力可以选择性地关注重要特征并通过上述特征金字塔网络结构抑制不必要的特征。通道注意力模块的详细信息如图3所示，通道注意力模块主要校准信道重要性的权重，以使每个特征可以通过加权来增强或削弱。

在一些实施方式中，激活函数采用的激活参数M为：

M＝S(F_C2×R(F_C1×Z)) (1)

其中，S表示Sigmoid激活函数，R表示ReLU函数，

和

表示两个全连接层，C表示特征通道的数量，r表示全连接层的降维衰减比，Z表示全局平均池化生成的通道统计信息；

通道注意力机制层的通道注意力映射E_c为：

其中，A表示卷积聚集特征金字塔的局部特征响应，

表示通过加权操作的特征向量。

具体的，给定一组卷积聚集金字塔的局部特征响应A＝[A¹,A²,...,A^C]，其中，

是在(i,j)位置上最大尺度的特征映射。而每个尺度的a_ij特征映射都包含了来自多个层次的特征信息。本实施采用全局平均池(压缩和激励)以生成通道统计信息Z＝[z₁,z₂,...,z_C]∈R^C。同时，将通过Sigmoid激活函数捕获通道依赖关系，则激活操作的激活参数如上式(1)所示。

此外，A通过引导模块(由两个Darknet-53卷积核组成)生成卷积核输出集合N∈R^C ^×H×W，如此可反过来使低层特征能够指导高层特征的权重。然后通过用激活参数M重新加权输入N：

其中，

最后，获得了通道注意力映射如上式(2)所示，也即是说，每个特征都通过通道注意力加权而增强或削弱。

在一些实施方式中，位置注意力机制层包括空间注意力机制层和自注意力机制层。

可以理解，通道注意力模块对通道维度进行加权，以提高其检测性能。然而，在现实应用的情况下，待检测图像上一些目标实例对象比较拥挤，这会产生本领域所说的假阳性。因此，将位置注意力嵌入到模型中，以弥补通道注意力无法获得位置细节的限制，从而丰富上下文信息，增强特征映射表示。由空间注意力和自注意力组成的位置注意力机制层(模块)，如图4所示。这两种注意力可以在空间维度中过滤和增强特征映射，因此两者组成的注意力可以称为位置注意力。

一方面，关于上述步骤S14，在特征提取的过程中，空间注意力机制层实现的处理步骤，具体可以包括如下：

沿通道轴采用平均池化和最大池将通道注意力机制层的通道信息连接，生成有效的特征描述符；

通过卷积对串联的特征描述符进行编码，生成空间注意力映射。

可以理解，与通道注意力不同，空间注意力更关注目标实例对象“在哪里”。沿通道轴采用池化操作可有效互补通道注意力信息突出的区域。首先，沿着通道轴采用本领域已有的平均池化和最大池处理手段，并且将两者的输出合并连接起来，生成一个有效的特征描述符。然后，通过卷积对串联的特征描述符进行编码，生成空间注意力映射。空间注意力机制层(模块)的详细信息如图5所示，与通道注意力不同，空间注意力模块更关注“inwhere”，其沿通道轴集中，以突出有效信息的区域，从而补充通道注意力。

在一些实施方式中，空间注意力机制层的空间注意力映射E_s为：

E_s＝C_3×3(F_con)×A (3)

其中，C_3×3表示具有3×3核大小的卷积，F_con∈R^1×1×2C表示沿通道维度方向进行的特征权重，R表示ReLU函数，C表示特征通道的数量，A表示卷积聚集特征金字塔的局部特征响应。

具体的，给定一组卷积聚合金字塔局部特征响应A＝[A¹,A²,...,A^C]，通过使用两个池化操作生成两个映射来聚合特征响应的通道信息。同样，F_avg和F_max分别用来表示两个池化的输出，F_avg和F_max可以选择全局背景信息并突出显示目标实例对象的显著特征。然后沿着通道维度连接这些特征映射，以获得沿通道维度方向进行的特征权重F_con。采用卷积减小了维度，得到了特征权值，使C_3×3表示具有3×3核大小的卷积。最后，基于元素求和的方式合并了所有的输出特征向量。简而言之，空间注意力映射E_s可以定义如上式(3)所示。在空间注意力映射中，目标实例对象区域的特征具有高响应，抑制周围信息特征的存在。因此，这些特性将会变得更加鲁棒。

另一方面，关于上述步骤S14，在特征提取的过程中，自注意力机制层实现的处理步骤，具体可以包括如下：

计算注意空间特征向量之间的相似度；

根据相似度的分数，生成与输入特征具有相同维度的权值图；

将输入特征乘以空间注意力机制映射并将所有加权特征向量求和，更新原始向量。

可以理解，上下文信息是丰富目标实例对象特征的一项重要内容。因此，为了量化特征映射中任意一对像素之间的依赖关系，本实施例将自注意力嵌入到位置注意力模块中。自注意力将计算注意空间特征向量和其他特征向量之间的相似度分数，这些相似度分数将生成与输入特征具有相同维度的权值图。同时，将输入特征乘以映射并将所有加权特征向量求和，得到一个新的向量，从而更新原始向量。自注意力机制层(模块)的细节如图6所示，自注意力模块可以量化特征映射中任意一对长距离像素之间的依赖关系，以丰富目标实例对象特征的上下文信息。

自注意力机制的一般过程是三个向量、计算得分、得分除以特定值、将输出通过softmax函数标准化；softmax函数又称归一化指数函数，用于将多分类的结果以概率的形式展现出来。具体的，给定卷积聚合特征金字塔局部特征A＝[A¹,A²,...,A^C]∈R^C×H×W，自注意力模块首先将其馈入卷积层以生成三个特征B、C和D，{B,C,D}∈R^C×H×W。然后，分别将该三个特征的矩阵形状重构为R^C×N，其中N＝H×W表示当前输入特征的像素数。然后对B和C的转置进行矩阵乘法，采用softmax函数计算注意空间特征图F_s为：

其中，F_sji表示衡量第i位置对第j位置的影响，B_i表示卷积层生成的第i位置的特征B，C_j表示卷积层生成的第j位置的特征C。如果第i位置和第j位置这两个位置的特征表示更相似，那么这可以促进该两个位置之间的相关性，从而丰富特征映射的信息。

与此同时，将D和F_s的转置之间进行矩阵乘法，并将两者的矩阵形状重构为R^C×N。最后，将上述结果乘以尺度参数α，用输入特征映射A进行元素和，获得最终输出，也即自注意力机制层的特征映射F_out为：

其中，

表示第j位置的特征映射，α表示尺度参数，是指初始化为0的变量，在网络训练中逐渐学习为不同位置特征分配最优权重。D_i表示卷积层生成的第i位置的特征D。

根据式(5)可知，每个位置的特征变化是所有位置和输入特征的加权和。因此，特征映射F_out具有全局接受域并选择性地聚合上下文信息。

S16，对特征信息进行分类回归处理。

可以理解，对于特征提取后的分类回归处理过程，具体可以参照本领域基于YOLOv3目标检测中的分类回归处理过程同理理解，本说明书中不再展开赘述。

S18，采用根据目标实例对象的密集度或稀疏性自适应调整NMS阈值的策略，对分类回归处理后的待检测图像进行后处理，得到待检测图像对应的目标检测输出图像。

可以理解，NMS(非极大值抑制算法)是目前基于CNN目标检测的重要的后处理步骤。本领域现有技术中，Greedy-NMS算法以分数S的检测框B开始，然后选择最大分数M的检测，从B移到最终检测集合D中。Greedy-NMS算法还将删除任何重叠大于阈值N_t的检测框，对集合中的所有剩余检测框重复此过程。

如果高度重叠，只有在设置一个大的阈值N_t时才能检测到两个检测框是匹配，以确保置信度分数较低的检测框不会被抑制。然而，这是矛盾的：在现实应用场景中，目标实例对象的密度差异很大，而较高的NMS阈值可能会增加目标实例对象稀疏区域的假阳性。为了解决该问题，本领域已经提出的Soft-NMS算法并没有丢弃周围所有分数低于阈值的检测框，而是通过添加一个与较高置信度检测框重叠的惩罚函数来降低相邻检测框的置信度分数。Soft-NMS算法上抑制步骤可写为：

对于Soft-NMS算法，如果b_i包含另一个不被M所覆盖的对象，则将不会在较低的检测阈值处增加假阳性。然而，作为一个惩罚函数，其仍然为高度重叠的盒子(Box)分配一个更大的惩罚，类似于Greedy-NMS惩罚。本领域已提出的Adaptive-NMS算法则优化了Soft-NMS在行人检测特殊场景中的应用，该算法给出了一种判断目标实例对象密度的预测方法，可以动态增加或减小IoU阈值的N_t。然而，尽管Adaptive-NMS算法提高了IoU阈值的自适应性，但其所采用的惩罚函数仍然是传统的f(iou(M,b_i))＝(1-iou(M,b_i))或者

惩罚函数。

对于前者，f(iou(M,b_i))＝(1-iou(M,b_i))所带来的惩罚很粗糙，特别是在目标实例对象密度较高(重叠的IoU更大，但较密集的情况下)。对于

虽然σ具有更好的衰减性能，但其是一个需要人工设置的变量参数，缺乏一定的自适应性。

基于Soft-NMS和Adaptive-NMS的局限，本申请设计了无监督自适应NMS方法，即惩罚函数的衰减趋势和IoU阈值的衰减趋势都可以自适应调整。在一些实施方式中，自适应调整NMS阈值的策略中，设置的惩罚函数的衰减权重W_i为：

其中，iou(M,b_i)表示置信度最高的M与b_i之间的重叠交并比，b_i表示第i位置的待处理Box框，M表示分类置信度最高的检测框，k表示重叠的所有检测框的数量；

检测框的置信度分数s_i为：

其中，

N_M表示M的自适应NMS阈值，其自适应调整机制类似于Adaptive-NMS算法的调整机制，即根据目标实例对象的密度进行动态调整。

具体的，可以从式(7)中看到置信度分数的衰减权重与iou(M,b_i)正相关，即较小的检测框不会受到影响，较大的检测框会受到更大的处罚。这与本申请所设定的趋势相同：与M重叠较高的检测框的置信度分数应该更加衰减，因为这些检测框出现假阳性的可能性更高。根据上述定义，本申请采用如式(8)所示的策略更新衰减度。

关于式(8)所示的策略，有三个方面值得关注：(1)阈值是自适应的，可以根据M和相邻检测框之间的距离自适应地调整衰减，使非常接近的检测框被抑制为假阳性。该策略还保持了两个检测框之间的相关性。此外，如果检测远离M的检测框，阈值将保留与原来的NMS相同，即N_M＝N_t。(2)f(iou(M,b_i))是一个基于重叠的加权惩罚函数，与Greedy-NMS算法和Soft-NMS算法具有相同的计算复杂度。(3)与Soft-NMS算法和Adaptive-NMS算法相比，本申请还改善了IoU阈值N_t及σ在高斯惩罚函数中的自适应性，实现了无监督的自适应。如此，经过上述后处理，即可获得目标检测输出图像，输出图像中的目标实例对象的检测精度更高。

上述基于联合注意力和自适应NMS的目标检测方法，通过对预处理后的待检测图像，利用嵌入联合注意力机制的YOLOv3模型进行特征提取，由于YOLOv3模型的特征金字塔网络嵌入了通道注意力机制层和位置注意力机制层，从而添加了通道注意力，使具有注意力效果的梯度信息覆盖了所有尺度特征；此外，位置注意力机制层也增加了对特征映射的位置注意力，以获得更多的上下文特征信息以丰富低层信息和高层语义信息的特征，增强特征表示，从而实现关注重要的特征并抑制不必要的特征，对目标实例对象区域中的特征信息进行加权选择，提高检测框的定位性能。

应该理解的是，虽然图1流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且图1的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

请参阅图7，在一个实施例中，还提供了一种基于联合注意力和自适应NMS的目标检测系统100，包括预处理模块11、特征提取模块13、分类回归模块15和后处理模块17。其中，预处理模块11用于获取待检测图像并对待检测图像进行预处理。特征提取模块13用于利用嵌入联合注意力机制的YOLOv3模型对预处理后的待检测图像进行特征提取，得到待检测图像上目标实例对象的特征信息；联合注意力机制包括嵌入YOLOv3模型的特征金字塔网络的通道注意力机制层和位置注意力机制层。分类回归模块15用于对特征信息进行分类回归处理。后处理模块17用于采用根据目标实例对象的密集度或稀疏性自适应调整NMS阈值的策略，对分类回归处理后的待检测图像进行后处理，得到待检测图像对应的目标检测输出图像。

上述基于联合注意力和自适应NMS的目标检测系统100，通过各模块的协作，对预处理后的待检测图像，利用嵌入联合注意力机制的YOLOv3模型进行特征提取，由于YOLOv3模型的特征金字塔网络嵌入了通道注意力机制层和位置注意力机制层，从而添加了通道注意力，使具有注意力效果的梯度信息覆盖了所有尺度特征；此外，位置注意力机制层也增加了对特征映射的位置注意力，以获得更多的上下文特征信息以丰富低层信息和高层语义信息的特征，增强特征表示，从而实现关注重要的特征并抑制不必要的特征，对目标实例对象区域中的特征信息进行加权选择，提高检测框的定位性能。

在一个实施例中，特征提取模块包括通道池化子模块、通道学习子模块和权重校准子模块。其中，通道池化子模块用于对每个层次的特征图进行全局平均池化，得到每个通道的全局信息。通道学习子模块用于利用激活函数和两个完整的连接层，对通道之间的相关性进行自适应建模，得到自适应学习模型。权重校准子模块用于利用自适应学习模型对输入通道的特征信息和权重进行加权，对特征响应进行权重校准。

关于基于联合注意力和自适应NMS的目标检测系统100的具体限定，可以参见上文中基于联合注意力和自适应NMS的目标检测方法的相应限定，在此不再赘述。上述基于联合注意力和自适应NMS的目标检测系统100中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于具体数据处理功能的设备中，也可以软件形式存储于前述设备的存储器中，以便于处理器调用执行以上各个模块对应的操作，前述设备可以是但不限于本领域已有的各型数据处理设备。

又一方面，还提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时可以实现以下步骤：获取待检测图像并对待检测图像进行预处理；利用嵌入联合注意力机制的YOLOv3模型对预处理后的待检测图像进行特征提取，得到待检测图像上目标实例对象的特征信息；联合注意力机制包括嵌入YOLOv3模型的特征金字塔网络的通道注意力机制层和位置注意力机制层；对特征信息进行分类回归处理；采用根据目标实例对象的密集度或稀疏性自适应调整NMS阈值的策略，对分类回归处理后的待检测图像进行后处理，得到待检测图像对应的目标检测输出图像。

在一个实施例中，处理器执行计算机程序时还可以实现上述基于联合注意力和自适应NMS的目标检测方法各实施例中增加的步骤或者子步骤。

再一方面，还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取待检测图像并对待检测图像进行预处理；利用嵌入联合注意力机制的YOLOv3模型对预处理后的待检测图像进行特征提取，得到待检测图像上目标实例对象的特征信息；联合注意力机制包括嵌入YOLOv3模型的特征金字塔网络的通道注意力机制层和位置注意力机制层；对特征信息进行分类回归处理；采用根据目标实例对象的密集度或稀疏性自适应调整NMS阈值的策略，对分类回归处理后的待检测图像进行后处理，得到待检测图像对应的目标检测输出图像。

在一个实施例中，计算机程序被处理器执行时，还可以实现上述基于联合注意力和自适应NMS的目标检测方法各实施例中增加的步骤或者子步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线式动态随机存储器(Rambus DRAM，简称RDRAM)以及接口动态随机存储器(DRDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可做出若干变形和改进，都属于本申请保护范围。因此本申请专利的保护范围应以所附权利要求为准。