CN114092820B

CN114092820B - 目标检测方法及应用其的移动目标跟踪方法

Info

Publication number: CN114092820B
Application number: CN202210063010.4A
Authority: CN
Inventors: 叶海涛; 张香伟; 毛云青; 金仁杰
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-04-22
Anticipated expiration: 2042-01-20
Also published as: WO2023138300A1; CN114092820A

Abstract

本申请提出了一种目标检测方法，包括：将待检测图像输入主干网络提取出初始特征图；将初始特征图输入颈部网络的增强层提取出至少一增强特征图，其中，颈部网络的每一增强层中设置依次连接的FPN结构、PAN结构、目标特征特指的注意力模块；目标特征特指的注意力模块包括空间注意力分支和特征特指分支,将空间注意力分支与特征特指特分支的输出进行元素级别相乘后进行归一化，再与对应的融合特征图依次进行元素级别相乘和元素级别相加得到对应的增强特征图；将每一增强特征图输入头部预测网络以获取预测结果。该方法中目标特征特指的注意力模块通过两个分支的结合使用，能够有效感知不同类别物体所占据的空间区域，提高目标检测的准确度和效率。

Description

目标检测方法及应用其的移动目标跟踪方法

技术领域

本申请涉及目标检测技术领域，特别是涉及一种目标检测方法及应用其的移动目标跟踪方法。

背景技术

计算机视觉在人们的生活中逐渐变得越发重要，它广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域，通过计算机视觉减少对人力资本的消耗，具有重要的现实意义；目标检测与目标跟踪是计算机视觉和数字图像处理的一个热门方向，它是计算机视觉和图像处理的重要分支，还是智能监控系统的核心部分；由于人工智能与摄像头的结合得到进一步的发展，智能监控系统也慢慢开始进入大家的视线。

虽然在目标检测领域中已经取得了一定进展，但是在实际设计和使用中的目标检测方法和目标检测模型还存在许多问题。一方面，目标检测模型中的注意力模块中，卷积神经网络会堆积许多卷积层和池化层来获取上下文语义信息，增加了时间和空间的复杂度，并且现有的空间注意力模块或者通道注意力会忽略待检测图像中的底层特征，特别的是，常见的空间注意力模块和通道注意力模块也不能有效地感知不同类别物体所占据的空间区域。另一方面，在单阶段的目标检测中，往往是通过优化目标分类和目标定位来实现的，但常规目标分类和目标定位是并行的，可能导致一定程度上空间不对齐的问题。

发明内容

本申请实施例提供了一种目标检测方法及应用其的移动目标跟踪方法。

第一方面，本实施例提供的目标检测方法，通过关注不同物体类别在不同位置的分类得分，实现了能够有效感知不同类别物体所占据的空间区域，提高目标检测的检测准确度和检测效率。

该目标检测方法包括以下步骤：

获取待检测图像；

将所述待检测图像输入主干网络提取出初始特征图；

将所述初始特征图输入颈部网络提取出至少一增强特征图，其中，所述颈部网络包括至少一增强层，每一所述增强层中设置依次连接的FPN结构、PAN结构、目标特征特指的注意力模块；所述颈部网络中第一个增强层的输入为所述初始特征图，第一个增强层之后的每一个增强层的输入均为将上一个增强层输入的特征图进行下采样得到初始特征子图，每一所述FPN结构结合所述PAN结构用于根据输入该增强层的所述初始特征图或所述初始特征子图提取出对应的融合特征图，所述目标特征特指的注意力模块包括空间注意力分支、特征特指分支，对每一所述融合特征图进行卷积得到融合特征子图后，将每一所述融合特征子图输入所述空间注意力分支得到空间注意力特征图，以及将每一所述融合特征子图输入特征特指分支得到特征特指特征图，将对应同一所述融合特征图的所述空间注意力特征图与所述特征特指特征图进行元素级别相乘得到第一特征图，采用任一激活函数将每一所述第一特征图归一化得到第二特征图，并将每一所述第二特征图与对应的所述融合特征图依次进行元素级别相乘和元素级别相加得到对应的增强特征图；

将每一所述增强特征图输入头部预测网络以获取预测结果。

第二方面，本申请实施例提供了一种移动目标跟踪方法，通过使用第一方面所述的目标检测方法来检测移动目标结合DeepSort算法对每一移动目标进行跟踪。

该移动目标跟踪方法包括以下步骤：

根据如上任一所述的目标监测方法从视频流中检测到至少一移动目标；

使用DeepSort算法为每一所述移动目标分配移动目标唯一标识并进行跟踪。

第三方面，本申请实施例提供了一种目标检测装置，用于实现第一方面中的目标检测方法，包括以下模块：

获取模块，用于获取待检测图像；

主干网络模块，用于将所述待检测图像输入主干网络提取出初始特征图；

颈部网络模块，用于将所述初始特征图输入颈部网络提取出至少一增强特征图，其中，所述颈部网络包括至少一增强层，每一所述增强层中设置依次连接的FPN结构、PAN结构、目标特征特指的注意力模块；所述颈部网络中第一个增强层的输入为所述初始特征图，第一个增强层之后的每一个增强层的输入均为将上一个增强层输入的特征图进行下采样得到初始特征子图，每一所述FPN结构结合所述PAN结构用于根据输入该增强层的所述初始特征图或所述初始特征子图提取出对应的融合特征图，所述目标特征特指的注意力模块包括空间注意力分支、特征特指分支，对每一所述融合特征图进行卷积得到融合特征子图后，将每一所述融合特征子图输入所述空间注意力分支得到空间注意力特征图，以及将每一所述融合特征子图输入特征特指分支得到特征特指特征图，将对应同一所述融合特征图的所述空间注意力特征图与所述特征特指特征图进行元素级别相乘得到第一特征图，采用任一激活函数将每一所述第一特征图归一化得到第二特征图，并将每一所述第二特征图与对应的所述融合特征图依次进行元素级别相乘和元素级别相加得到对应的增强特征图；

预测网络模块，用于将每一所述增强特征图输入头部预测网络以获取预测结果。

第四方面，本申请实施例提供了一种目标检测装置，用于实现第一方面中的目标检测方法，包括以下模块：

检测模块：用于如上任一所述的目标监测方法从视频流中检测到至少一移动目标；

跟踪模块：用于使用DeepSort算法为每一所述移动目标分配移动目标唯一标识并进行跟踪。

第五方面，本申请实施例提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以如上任意申请实施例所述的目标检测方法或者如上任意申请实施例的移动目标跟踪方法。

第六方面，本申请实施例提供了一种可读存储介质，可读存储介质中存储有计算机程序，计算机程序包括用于控制过程以执行过程的程序代码，过程包括根据如上任意申请实施例的目标检测方法或者如上任意申请实施例的移动目标跟踪方法。

本申请的主要贡献和创新点如下：

1.改进颈部网络。本申请的实施例中颈部网络包括至少一增强层，对应每一增强层设置连接的FPN结构、PAN结构、目标特征特指的注意力模块。特别的是目标特征特指的注意力模块包括空间注意力分支和特征特指分支，通过两个分支的结合使用，可以关注不同物体类别在不同位置的分类得分，实现了能够有效感知不同类别物体所占据的空间区域，使其注意力更多地关注在前景目标特征上，使提取的特征语义信息更加精准，边缘信息细粒度更加清晰。

2.改进头部预测网络。本申请的另一些实施例中在头部预测网络中加入任务对齐的头部结构，使目标分类和目标定位在空间上进行对齐。特别的是，该任务对齐的头部结构中使用特征提取器中卷积层从目标特征特指的注意力模块输出的增强特征图中学习多级任务交互特征，加强了目标分类与目标定位的任务交互，并使用边框对齐分支和分类对齐分支从增强特征图中获得丰富的多尺度特征，以获得更加精确的目标定位和目标分类。

3.改进主干网络。本申请的另一些实施例中将主干网络的结构设计成包括依次连接的卷积层、Ghost瓶颈模块、Ghost瓶颈下采样模块、连续两次Ghost瓶颈模块以及Ghost瓶颈下采样模块。其中，Ghost瓶颈模块包括两个分支，第一分支包括两个串联的Ghost模块，第二分支是将该Ghost瓶颈模块的输入与最后一个Ghost模块的输出进行元素级相加得到最终的输出特征图，相当于通过一系列成本低廉的线性变换来生成许多可以完全揭示固有特征信息的重影特征图，这样做的好处是可以用更少的参数来生成更多特征图，减少计算量的同时提高检测效率。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的目标检测模型的结构示意图；

图2是根据本申请实施例的的主干网络的结构示意图；

图3是根据本申请实施例的的Ghost瓶颈模块的结构示意图；

图4是根据本申请实施例的的Ghost瓶颈下采样模块的结构示意图；

图5是根据本申请实施例的目标检测方法模型的目标特征特指的注意力模块的结构示意图；

图6是根据本申请实施例的目标检测方法模型的任务对齐的头部结构的结构示意图；

图7是根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

实施例一

本申请旨在提出一种在减少时间复杂度和空间复杂度的同时，保留图像的底层特征，并且可以有效感知不同类别物体占据的空间区域的目标检测方法。

该目标检测方法借助如图1所示的目标检测模型实现，具体的，该目标检测模型包括依次连接的主干网络、颈部网络以及头部预测网络。需要说明的是，该头部预测网络已被训练，根据针对不同目标的训练样本，从待检测图像中检测到不同的目标，也就是获取包裹目标的预测框。

在本实施例中，所述目标检测方法包括以下步骤：

获取待检测图像；

将所述待检测图像输入主干网络提取出初始特征图；

将每一所述增强特征图输入头部预测网络以获取预测结果。

首先，获取到待检测图像，将该待检测图像输入到本实施例中提及的目标检测模型的主干网络中。

该主干网络用于根据待检测图像提取出初始特征图。

在一些实施例中，主干网络的结构如图2所示，包括依次连接的卷积层、Ghost瓶颈模块、Ghost瓶颈下采样模块、连续两次Ghost瓶颈模块以及Ghost瓶颈下采样模块。具体的，将所述待检测图像输入所述主干网络的第一个卷积层进行特征提取和空间维度降维后，使用Ghost瓶颈模块和Ghost瓶颈下采样模块提取更深的语义信息特征得到所述初始特征图。

其中，主干网络的第一个卷积层是3*3的卷积层。所述Ghost瓶颈模块如图3所示包括第一分支和第二分支，所述第一分支为两个串联的Ghost模块，所述第二分支将该Ghost瓶颈模块的输入与最后一个Ghost模块的输出进行元素级相加得到该Ghost瓶颈模块的输出。

所述Ghost瓶颈下采样模块如图4所示，在所述Ghost瓶颈模块的第一分支串联的两个Ghost模块之间增加下采样操作。

特别的是，Ghost瓶颈模块首先利用较少的计算量通过传统的卷积生成channel较小的特征图，然后在此特征图的基础上，通过廉价的操作生成更多的特征图，再进一步利用较少的计算量生成新的特征图，最后将两组特征图拼接到一起，得到最终的输出特征图。这样做的好处是可以通过一系列成本低廉的线性变换来生成许多可以完全揭示固有特征信息的重影特征图，并且可以以更少的参数来生成更多特征图，使得该Ghost瓶颈轻量高效。

然后，将主干网络输出的初始特征图输入到该目标检测模型的颈部网络。

该颈部网络包括至少一增强层，每一所述增强层中设置依次连接的FPN结构、PAN结构、目标特征特指的注意力模块。

具体的，颈部网络中的第一个增强层的输入为初始特征图，第一个增强层之后的每一个增强层的输入都是将上一个增强层输入的特征图进行下采样后得到的初始特征子图，每一所述FPN结构结合所述PAN结构用于根据输入该增强层的初始特征图或初始特征子图提取出对应的融合特征图，其中第一个增强层中的FPN结构结合PAN结构输入的是初始特征图，第一个增强层之后的每一个增强层中的FPN结构结合PAN结构输入都是初始特征子图。所述目标特征特指的注意力模块包括空间注意力分支、特征特指分支，对每一所述融合特征图进行卷积得到融合特征子图后，将每一所述融合特征子图输入所述空间注意力分支得到空间注意力特征图，以及将每一所述融合特征子图输入特征特指分支得到特征特指特征图，将对应同一所述融合特征图的所述空间注意力特征图与所述特征特指特征图进行元素级别相乘得到第一特征图，采用任一激活函数将每一所述第一特征图归一化得到对应的第二特征图，并将每一所述第二特征图与对应的所述融合特征图依次进行元素级别相乘和元素级别相加得到对应的增强特征图。

需要说明的是，下采样会缩小图像尺寸，意味着初始特征图依次进行多次下采样得到的初始特征子图的尺寸逐渐变小。每一增强层中采用FPN结构结合PAN结构的方法从初始特征图或初始特征子图中提取出对应的融合特征图。FPN结构在自顶向下的过程中可以保留强语义特征，将不同尺寸的特征图进行融合，以便于可以针对不同尺度的目标进行预测，PAN结构在自底向上的过程中，将浅层的定位信息传导到深层中，增强在不同尺度上的定位能力。FPN结构结合PAN结构在目标检测中已经成熟应用，在此不过多介绍其结构。

特别的是，目标特征特指的注意力模块如图5所示，包括空间注意力分支和特征特指分支。先将融合特征图进行1*1的卷积得到对应的融合特征子图Fs和Fc，再将融合特征子图Fs输入到空间注意力分支得到和空间注意力特征图，以及将融合特征子图Fc输入到征特指分支得到特征特指特征图。

空间注意力分支对每一所述融合特征子图采用并联多个不同空洞率的空洞卷积提取出第三特征子图，堆叠对应同一所述融合特征子图的所述第三特征子图后再卷积得到对应的空间注意力特征图。

具体的，并联不同空洞率的空洞卷积结构可以提取上下文语义信息，融合特征子图经过每一空洞卷积都可以得到对应的包含上下文语义信息的第三特征子图；然后堆叠所有第三特征子图就得到包含了多尺度上下文语义信息的第三特征图，最后再使用1*1的卷积对第三特征图进行特征融合以及降维操作，得到空间注意力特征图。在一些实施例里，采用的是三个并联的空洞卷积，且空洞率分别为2、4、6。

其中，第三特征子图的通道数是融合特征子图的通道数的四分之三，第三特征图的通道数是融合特征子图的四分之一，随着通道数的逐渐降低，缓和了相邻步骤之前特征的差异性过大的问题。

值得一提的是，第三特征图还包括了联合原始尺度和扩大尺度的感受野，一方面，随着感受野扩大更加便于检测大目标，另一方面，随着分辨率的提高可以更加精准定位目标的位置。

所述特征特指分支对每一所述融合特征子图进行卷积得到对应的第四特征图，对每一所述第四特征图进行空间池化得到对应的第五特征图，以及对每一所述第四特征图进行平均池化得到对应的第六特征图，将对应同一所述第四特征图的所述第五特征图和所述第六特征图进行元素级别相加得到对应的特征特指特征图。“将每一所述第二特征图与对应的所述融合特征图依次进行元素级别相乘和元素级别相加得到对应的增强特征图”具体包括：将每一所述第二特征图与对应的所述融合特征图进行元素界别相乘得到对应的第七特征图，并将每一所述第七特征图与对应的所述融合特征图进行元素级别相加得到对应的增强特征图。

具体的，先对融合特征子图再进行一次1*1的卷积得到第四特征图，其中，第四特征图的通道数是融合特征子图的通道数的四分之一。然后对第四特征图进行空间池化得到第五特征图，同时对第四特征图进行平均池化得到第六特征图。

第四特征图的像素尺寸为w*h，空间池化就是每个像素在空间上计算一个S权重值，并且保证所有像素S权重值的总和为1，因此空间池化的计算公式为：

，

，

m_i为第i类分类器的参数，S_j ⁱ代表第i类在第j个位置上出现的概率。

那么，第五特征图为：

，

第六特征图为：

，

最后将第五特征图与第六特征图进行元素级别相加，得到可以有效地感知到不同类别物体所占据的空间区域的特征特指特征图C_s=M_s+M_a。

特别的是，本实施例采用空间池化和平均池化并行的方式，将两者的输出结果进行融合得到特征特指特征图，相比常规的单一池化可以保留更多的信息，用于后续的特征提取和目标识别都具有更好的表现效果。值得一提的是，特征特指特征图可以有效地感知不同类别物体所占据的空间区域，使其注意力更多地关注在前景目标特征上，使提取的特征语义信息更加精准，边缘信息细粒度更加清晰。

在输出空间注意力特征图和特征特指特征图后，将两者进行元素级别相乘，得到第一特征图，再采用任一激活函数将第一特征图归一化得到第二特征图，将第二特征图与使用到的融合特征图进行元素相乘得到第七特征图，再将第七特征图与融合特征图进行元素级别相加得到增强特征图。其中，激活函数采用的是sigmoid激活函数。

这样做的好处是可以得到全局上下文信息并且使底层特征也能得到上下文信息，以及再次利用了输入的特征图较高的分辨率和语义信息，较高的分辨率可以精确定位目标，语义信息是这里是深层网络提取的特征图；将较高的分辨率和丰富的语义信息结合，使得到的特征目标定位准确的同时，特征更加丰富，有利于整个神经网络的预测准确性。

最后，将每一增强特征图输入到已经训练的头部预测网络获取预测结果。

所述头部预测模块每一所述增强层中设置任务对齐的头部结构以及并行设置于所述任务对齐的头部结构之后的分类子网络和边框回归子网络，将每一所述增强特征图输入对应的任务对齐的头部结构使目标分类和目标定位在空间上对齐后采用分类子网络和边框回归子网络获取最终的预测结果。

其中，分类子网络用于预测目标分类，回归子网络用于预测目标定位，也就是预测目标边框，在神经网络浅层输出预测小目标的分支，在神经网络中层输出预测中等目标的分支，在神经网络深层输出预测大目标的分支，最后通过非极大值抑制选出和标签损失最小的预测框。

值得一提的是，常规单阶段目标检测的优化方式往往是通过优化目标定位和目标分类这两个子任务进行实现的，两者采用两个分支并行，可能会导致一定程度上空间不对齐的问题。对此，本实施例为了加强两个子任务的交互，在分类子网络和边框回归子网络前设置了用于任务对齐的头部结构。

任务对齐的头部结构如图6所示，包括特征提取器和并行设置于所述特征提取器之后的分类对齐分支和边框对齐分支；将所述增强特征图输入所述特征提取器进行任务对齐学习获得多尺度感受野的多级任务交互特征；将所述多级任务交互特征输入所述边框对齐分支学习得到空间偏置量图、每一目标对齐的候选边框和每一所述候选边框的分类得分，根据所述对齐的候选边框和所述空间偏置量图获取每一所述目标的目标定位；将所述多级任务交互特征输入所述分类对齐分支计算得到空间概率图，根据所述空间概率图和每一所述候选边框的分类得分调节每一所述候选边框对应的目标分类；将每一所述目标的目标定位输入所述边框回归子网络以及将每一所述目标的目标分类输入所述分类子网络获取最终的预测结果。

具体的，使用特征提取器从增强特征图中提取出多级任务交互特征：

，

其中k∈{1,2,…,N}，然后将该多级任务交互特征分别输入分类对齐分支和边框对齐分支。

在边框对齐分支中，多级任务交互特征首先经过层注意力模块加大目标的权重，其实就是计算每个X_1~N的权重之后相乘，然后把特征堆叠起来做卷积，得到特征T_1~N=L_bX_k，其中k∈{1,2,…,N}，对特征T_1~N进行1*1的卷积得到特征Z=conv₂(δ(conv₁(T_1~N)))，其中couv₁是逐点卷积，couv₂是混合深度可分离卷积。具体的，X_1~N的权重的计算方式为：多级任务交互特征先进行全局最大池化，然后经过全连接层和激活函数得到的L_a，L_a再经过全连接层和激活函数得到的L_b，其中L_b=δ(fc₂(δ(fc₁（X_1~N）)))。

随后根据分类得分P来调整预测框B：

B=(i+O(i,j,2*c),j+O(i,j,2*c+1),c) ，

其中c是特征通道，上式是通过双线性差值实现的；P是根据特征T_1~N卷积提取的结果。

在分类对齐分支中，使用空间概率图M∈R^H×W×1来调节分类预测，其中M 是从多级任务交互特征中计算得到的，使得 M 能够学习这两个任务在每个空间位置上的一致性的梯度，M=δ(conv₂(δ(conv₁(X_1~N))))，其中couv₁是逐点卷积，couv₂是混合深度可分离卷积。具体的，预测对齐在预测的时候，也就是预测之前，需要显式的做一次对齐。并且，在分类对齐分支中，还从多级任务交互特征中学习空间偏置量图 O∈R^H×W×8，来对每个位置上的预测边框进行调整，O=conv₄(δ(conv₃(X_1~N)))，其中couv₃是逐点卷积，couv₄是混合深度可分离卷积，这些学习到的空间偏置量能够使得对齐的候选边框点识别出其周围最好的预测框。

其中，空间概率图M和空间偏置量图O是自动学习出来的，每个通道的偏置量的学习都是独立的，也就是说每个边界框都能学到自己的偏置量；这就能使得4条边界线都能学的准确，因为它们都是独立从离它们近的候选边框点学习到的；所以本实施例的头部预测模块头部预测网络不仅仅能够对齐目标分类和目标定位的这两个任务，还能提升定位准确性。

关于本实施例中的多级任务交互特征，具体的学习方法对实例的候选边框分配应该满足以下规则：对齐好的候选边框应该能够同时预测得到高的分类得分和准确的定位；误对齐的候选边框应该有一个低的分类得分，而且逐渐被抑制；基于上述两个目标，设计了一个新的候选边框对齐度量来在候选级别上衡量任务对齐的水平；并且对其度量被集成在了样本分配和损失函数里边，来动态的优化每个候选边框的预测；候选边框对齐度量：分类得分和IoU（交并比）表示了这两个任务的预测效果，所以使用分类得分和IoU的高阶组合来衡量任务对齐的程度。

并且计算候选边框级别的对齐程度的公式为t=S^α*U^β，其中，S和U分别为分类得分和IoU值；α和β分别为权重；从上边的公式可以看出来，t可以同时控制分类得分和IoU值的优化来实现任务对齐，可以引导网络动态的关注于高质量的锚点框；训练样本的分配：对每个实例选取前m个大于t的值作为正样本；任务对齐分类损失为二元交叉熵，定位损失为DIOU_nms。

进一步的，可以将该目标检测方法应用于移动目标的检测以及跟踪，因此，本实施例还提供了一种移动目标跟踪方法，包括：根据上述目标检测方法从视频流中检测到至少一移动目标，使用DeepSort算法为每一所述移动目标分配移动目标唯一标识并进行跟踪。

以行人作为移动目标为例，先要使用行人图像样本训练目标检测模型。随机初始化各层的连接权值w和偏置b,给定学习速率η和最小批次Batch，选定激活函数RELU，选定损失函数Loss以及当前数据下最大迭代次数（代数）；利用k-means算法生成9个候选框，根据大中小目标每层依次分配四个尺寸的候选框，即在每层的最后输出特征图上进行单元格划分，利用特征金字塔其中一层输出特征图尺寸大小为W*H，根据当前数据聚类结果，如果当前数据下聚类结果显示大目标数据多，我们就在输出特征图上分配大于3个候选框使其在输出特征图上逐单元格去遍历特征图，其次根据聚类结果在中目标特征图上分配小于3个候选框，同理在小目标特征图上分配小于3个候选框，使其三个预测头部上分配的候选框个数为9个；确定好以上各个参数之后将标注图像按批次输入网络模型的体系结构神经网络，通过一层一层新的残差块，然后通过交叉双向特征金字塔模块，通过头部预测网络预测一个和目标对应的候选框，进行最后的卷积输出结果；输入数据反复迭代直到神经网络输出层误差达到预设精度要求或训练次数达到最大迭代次数，结束训练，保存网络结构和参数，得到训练好的神经网络模型。

然后搜集一批新的视频图像，让模型去检测这一批视频图像数据，将检测结果划分为两大类：有行人图像和无行人图像，有行人图像又分为真正有行人视频图像和误报有行人视频图像，无行人图像又可分为未检测目标的视频图像和视频中本来就没有目标的视频图像，其中将误报目标视频作为负样本，将含有行人视频的但未检测到的视频作为训练样本，随后这些没检测到行人的视频进行数据标注，然后在原有模型的基础上再训练出一个新的模型，测试模型效果检查精度是否达标，如果新的模型未达标加入新的数据并对网络调整参数训练，如果模型精度已经达到要求并且在目前训练数据下最优时停止训练，循环这个步骤以达到模型适合实际环境中样本的复杂度。

在具体的应用场景中，摄像头安装在无遮挡物的地方，负责监控所在区域的行人；一种基于深度学习的人群距离监测及其预警的方法，输入实时视频流地址，根据实际情况设置好阈值和交并比的值，加载模型预测行人检测和利用DeepSORT对检测到的行人进行跟踪和ID分配。

本实施例提供的目标检测方法适用于行人监测的应用场景，在实际应用中，应用场景为行人检测系统，包括行人检测设备和图像采集设备；行人检测设备可以是任意能够检测感应范围内的热红外信号的红外信号采集设备。需要说明的是，本实施例提供的方法还可以进一步的扩展到其它合适的应用环境中，而不限于行人监测的应用环境，在实际的应用过程中，该应用环境还可以包括更多或者更少的行人视频采集设备和行人视频检测和跟踪设备。

本实施例提供的行人检测和跟踪方法能够检测和跟踪行人；在本实施例提供的行人检测和跟踪的确定方法中，获取指定区域的目标在不同时刻对应的目标视频数据用于模型训练，需要说明的是，在实际场景中，单路摄像头往往不能覆盖高度较高、宽度较宽的区域以及还有一些遮挡物影响实际检测效果，本实施例采用多个摄像头对指定区域的目标四周进行监测，每路摄像头负责监控指定区域的不同区域，每路摄像头必须安装在空旷的位置以防止周围有遮挡物或者运动目标；本实施例在实施应用中获取多个摄像头ID，加载神经网络模型，对行人进行检测和跟踪，且每个行人都移动目标唯一标识，对每个目标ID进行跟踪，跟踪特性是利用DeepSORT输出预测，DeepSORT是在SORT目标追踪基础上的改进，引入了在行人重识别数据集上离线训练的深度学习模型，在实时目标追踪过程中，提取目标的表观特征进行最近邻匹配，可以改善有遮挡情况下的目标追踪效果；同时，也减少了目标ID跳变的问题；DeepSORT算法的核心思想还使用了一个传统的单假设追踪方法，该单假设追踪方法使用了递归的卡尔曼滤波和逐帧的数据关联。

实施例二

本实施例提供了一种目标检测装置，用于实现实施例一中的目标检测方法，该装置包括以下模块：

获取模块，用于获取待检测图像；

本实施例还提供了一种移动目标跟踪装置，用于实现实施例一中的移动目标跟踪方法，该装置包括以下模块：

检测模块：用于根据上述任意一种目标监测方法从视频流中检测到至少一移动目标；

实施例三

本实施例还提供了一种电子装置，参考图7，包括存储器404和处理器402，该存储器404中存储有计算机程序，该处理器402被设置为运行计算机程序以执行上述实施例中的任意一种目标检测方法或移动目标跟踪方法的步骤。

具体地，上述处理器402可以包括中央处理器（CPU），或者特定集成电路（Application Specific Integrated Circuit，简称为ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制，存储器404可包括硬盘驱动器（Hard Disk Drive，简称为HDD）、软盘驱动器、固态驱动器（Solid State Drive，简称为SSD）、闪存、光盘、磁光盘、磁带或通用串行总线（UniversalSerial Bus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器404可在数据处理装置的内部或外部。在特定实施例中，存储器404是非易失性（Non-Volatile）存储器。在特定实施例中，存储器404包括只读存储器（Read-Only Memory，简称为ROM）和随机存取存储器（Random Access Memory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（Programmable Read-Only Memory，简称为PROM）、可擦除PROM（Erasable Programmable Read-Only Memory，简称为EPROM）、电可擦除PROM（Electrically Erasable Programmable Read-Only Memory，简称为EEPROM）、电可改写ROM（Electrically Alterable Read-Only Memory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（StaticRandom-Access Memory，简称为SRAM）或动态随机存取存储器（Dynamic Random AccessMemory，简称为DRAM），其中，DRAM可以是快速页模式动态随机存取存储器404（Fast PageMode Dynamic Random Access Memory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（Extended Date Out Dynamic Random Access Memory，简称为EDODRAM）、同步动态随机存取内存（Synchronous Dynamic Random-Access Memory，简称SDRAM）等。

存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器402所执行的可能的计算机程序指令。

处理器402通过读取并执行存储器404中存储的计算机程序指令，以实现上述实施例中的任意一种目标检测方法或移动目标跟踪方法。

可选地，上述电子装置还可以包括传输设备406以及输入输出设备408，其中，该传输设备406和上述处理器402连接，该输入输出设备408和上述处理器402连接。

传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备406可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

输入输出设备408用于输入或输出信息。在本实施例中，输入的信息可以是当前数据表例如疫情流调文档、特征数据、模板表等，输出的信息可以是特征指纹、指纹模板、文本分类推荐信息、文件模板配置映射表、文件模板配置信息表等。

可选地，在本实施例中，上述处理器402可以被设置为通过计算机程序执行以下步骤：

获取待检测图像；

将所述待检测图像输入主干网络提取出初始特征图；

将每一所述增强特征图输入头部预测网络以获取预测结果。

或者：

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

另外，结合上述实施例一中的任意一种目标检测方法或移动目标跟踪方法，本申请实施例可一种计算机程序产品来实现。该计算机程序产品该计算机程序产品包括软件代码部分，当所述计算机程序产品在计算机上被运行时，所述软件代码部分用于执行实现上述实施例一中的任意一种目标检测方法或移动目标跟踪方法。

并且，结合上述实施例一中的任意一种目标检测方法，本申请实施例可提供一种可读存储介质来实现。该可读存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种目标检测方法或移动目标跟踪方法。

通常，各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现，而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应当理解，作为非限制性示例，本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。

本发明的实施例可以由计算机软件来实现，该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行，或者由硬件来实现，或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中，并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外，在这一点上，应当注意，如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.目标检测方法，其特征在于，所述方法包括以下步骤：

获取待检测图像；

将所述待检测图像输入主干网络提取出初始特征图；

将所述初始特征图输入颈部网络提取出至少一增强特征图，其中，所述颈部网络包括至少一增强层，每一所述增强层中设置依次连接的FPN结构、PAN结构、目标特征特指的注意力模块；

所述颈部网络中第一个增强层的输入为所述初始特征图，第一个增强层之后的每一个增强层的输入均为将上一个增强层输入的特征图进行下采样得到初始特征子图，每一所述FPN结构结合所述PAN结构用于根据输入该增强层的所述初始特征图或所述初始特征子图提取出对应的融合特征图，所述目标特征特指的注意力模块包括空间注意力分支、特征特指分支，对每一所述融合特征图进行卷积得到融合特征子图后，将每一所述融合特征子图输入所述空间注意力分支得到空间注意力特征图，以及将每一所述融合特征子图输入特征特指分支，所述特征特指分支对每一所述融合特征子图进行卷积得到对应的第四特征图，对每一所述第四特征图进行空间池化得到对应的第五特征图，以及对每一所述第四特征图进行平均池化得到对应的第六特征图，将对应同一所述第四特征图的所述第五特征图和所述第六特征图进行元素级别相加得到对应的特征特指特征图，将对应同一所述融合特征图的所述空间注意力特征图与所述特征特指特征图进行元素级别相乘得到第一特征图，采用任一激活函数将每一所述第一特征图归一化得到第二特征图，并将每一所述第二特征图与对应的所述融合特征图进行元素级别相乘得到对应的第七特征图，并将每一所述第七特征图与对应的所述融合特征图进行元素级别相加得到对应的增强特征图；

将每一所述增强特征图输入头部预测网络以获取预测结果。

2.根据权利要求1所述的目标检测方法，其特征在于，“将每一所述增强特征图输入头部预测网络以获取预测结果”包括：所述头部预测网络对应每一所述增强层设置任务对齐的头部结构以及并行设置于所述任务对齐的头部结构之后的分类子网络和边框回归子网络，将每一所述增强特征图输入对应的任务对齐的头部结构使目标分类和目标定位在空间上对齐后采用分类子网络和边框回归子网络获取最终的预测结果。

3.根据权利要求2所述的目标检测方法，其特征在于，“将每一所述增强特征图输入对应的任务对齐的头部结构使目标分类和目标定位在空间上对齐后采用分类子网络和边框回归子网络获取最终的预测结果”包括：所述任务对齐的头部结构包括特征提取器和并行设置于所述特征提取器之后的分类对齐分支和边框对齐分支；将所述增强特征图输入所述特征提取器进行任务对齐学习获得多尺度感受野的多级任务交互特征；将所述多级任务交互特征输入所述边框对齐分支学习得到空间偏置量图、每一目标对齐的候选边框和每一所述候选边框的分类得分，根据所述对齐的候选边框和所述空间偏置量图获取每一所述目标的目标定位；将所述多级任务交互特征输入所述分类对齐分支计算得到空间概率图，根据所述空间概率图和每一所述候选边框的分类得分调节每一所述候选边框对应的目标分类；将每一所述目标的目标定位输入所述边框回归子网络以及将每一所述目标的目标分类输入所述分类子网络获取最终的预测结果。

4.根据权利要求1所述的目标检测方法，其特征在于，“将所述待检测图像输入主干网络提取出初始特征图”包括：所述主干网络包括依次连接的卷积层、Ghost瓶颈模块、Ghost瓶颈下采样模块、连续两次Ghost瓶颈模块以及Ghost瓶颈下采样模块；将所述待检测图像输入所述主干网络的第一个卷积层进行特征提取和空间维度降维后，使用Ghost瓶颈模块和Ghost瓶颈下采样模块提取更深的语义信息特征得到所述初始特征图。

5.根据权利要求4所述的目标检测方法，其特征在于，所述Ghost瓶颈模块包括第一分支和第二分支，所述第一分支为两个串联的Ghost模块，所述第二分支将该Ghost瓶颈模块的输入与最后一个Ghost模块的输出进行元素级相加得到该Ghost瓶颈模块的输出；所述Ghost瓶颈下采样模块为在所述Ghost瓶颈模块的第一分支串联的两个Ghost模块之间增加下采样操作。

6.根据权利要求1所述的目标检测方法，其特征在于，“将每一所述融合特征子图输入所述空间注意力分支得到空间注意力特征图”包括：所述空间注意力分支对每一所述融合特征子图采用并联多个不同空洞率的空洞卷积提取出第三特征子图，堆叠对应同一所述融合特征子图的所述第三特征子图后再卷积得到对应的空间注意力特征图。

7.移动目标跟踪方法，其特征在于，包括以下步骤：

根据权利要求1-6任一所述的目标监测方法从视频流中检测到至少一移动目标；

8.目标检测装置，其特征在于，包括以下模块：

获取模块，用于获取待检测图像；

颈部网络模块，用于将所述初始特征图输入颈部网络提取出至少一增强特征图，其中，所述颈部网络包括至少一增强层，每一所述增强层中设置依次连接的FPN结构、PAN结构、目标特征特指的注意力模块；所述颈部网络中第一个增强层的输入为所述初始特征图，第一个增强层之后的每一个增强层的输入均为将上一个增强层输入的特征图进行下采样得到初始特征子图，每一所述FPN结构结合所述PAN结构用于根据输入该增强层的所述初始特征图或所述初始特征子图提取出对应的融合特征图，所述目标特征特指的注意力模块包括空间注意力分支、特征特指分支，对每一所述融合特征图进行卷积得到融合特征子图后，将每一所述融合特征子图输入所述空间注意力分支得到空间注意力特征图，以及将每一所述融合特征子图输入特征特指分支，所述特征特指分支对每一所述融合特征子图进行卷积得到对应的第四特征图，对每一所述第四特征图进行空间池化得到对应的第五特征图，以及对每一所述第四特征图进行平均池化得到对应的第六特征图，将对应同一所述第四特征图的所述第五特征图和所述第六特征图进行元素级别相加得到对应的特征特指特征图，将对应同一所述融合特征图的所述空间注意力特征图与所述特征特指特征图进行元素级别相乘得到第一特征图，采用任一激活函数将每一所述第一特征图归一化得到第二特征图，并将每一所述第二特征图与对应的所述融合特征图进行元素级别相乘得到对应的第七特征图，并将每一所述第七特征图与对应的所述融合特征图进行元素级别相加得到对应的增强特征图；

9.移动目标跟踪装置，其特征在于，包括以下步骤：

检测模块：用于根据权利要求1-6任一所述的目标监测方法从视频流中检测到至少一移动目标；

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至6任一所述的目标检测方法或者权利要求7所述的移动目标跟踪方法。

11.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括根据权利要求1至6任一项所述的目标检测方法或者权利要求7所述的移动目标跟踪方法。