CN113096159A

CN113096159A - 目标检测、轨迹跟踪方法、模型及其电子设备

Info

Publication number: CN113096159A
Application number: CN202110622443.4A
Authority: CN
Inventors: 李圣权; 毛云青; 盛小娟; 张香伟; 王国梁
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2021-07-09
Anticipated expiration: 2041-06-04
Also published as: CN113096159B

Abstract

本发明提供一种目标检测、轨迹跟踪方法、模型及其电子设备，该方法通过改进目标检测模型的结构，增加空洞编码模块使得模型检测到的目标可覆盖更多的感受野，进而提高小尺寸目标或者低分辨特征图中目标的检测效率，且通过头部预测模块改善目标检测的误报率，提高视频中目标检测的精度，可特别应用于视频中小目标的检测。

Description

目标检测、轨迹跟踪方法、模型及其电子设备

技术领域

本发明涉及目标检测领域，特别涉及一种目标检测、轨迹跟踪方法、模型及其电子设备。

背景技术

计算机视觉在人们的生活中逐渐变得越发重要，它广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域，通过计算机视觉可减少对人力资本的消耗，具有重要的现实意义。而在计算机视觉中，目标检测和目标跟踪计算机视觉和数字图像处理的一个热门方向，也是智能监控系统的核心部分，通过对智能监控图像进行目标检测和目标跟踪可实现各种实际场景的监控需求。

目标检测是指利用计算机视觉技术从图像中准确地检测到需求目标，然而目前应用于计算机视觉领域的目标检测的方式主要存在以下问题：1.在对多帧视频帧进行目标检测时，经常会出现目标检测误报的情况，也就是说目前的卷积神经网络难以抑制来自较差识别位置的误报。而造成误报的原因主要有：①视频中检测的目标尺寸过小，②在主干卷积神经网络中提取的特征不太丰富；③在网络预测模块预测结果没有更好的精练对目标类别的识别。 2. 监控视频下中的小目标检测难度大，若需要检测小目标则需要生成一个高分辨率的特征图来进行小目标检测，而一般的网络结构最终得到的特征图分辨率很低，损失了空间结构，导致无法精准地检测到小目标。

另外，目标跟踪指的是根据序列图像或者一个视频的上下文信息，对目标的运动信息和外观进行建模，从而对动态目标的运动状态进行预测并标定位置的技术，实现目标跟踪的基础是实现特定目标的目标检测。如上所述，目标检测存在诸多的技术问题，进而导致应用于计算机视觉的目标跟踪表现不佳。也就是说，目标检测的精度直接影响着目标跟踪的效果。

然而在实际生活中，监控视频内动态目标的检测和跟踪是具有广泛意义的。比如高空抛物的监控为例，若能利用计算机视觉技术及时地对监控视频中高空抛掷的物体进行检测和跟踪的话，则可从源头上出发找到责任人，将很大程度地提高社区安全管理能力。具体的，以高空抛物或者高空坠物的情境为例进行说明：以一包250克重的衣服从15米高空自由落体来做实验，结果表明衣物可以使得3-5毫米厚的钢化玻璃四分五裂，由此可见高空抛物或高空坠物的社会危害性极高；而目前的高空抛物或高空坠物的判别往往面临着调查取证难、无法确定具体侵权人等问题，且目前的监控技术由于无法精准地识别高空中的运动的小目标，也无法很好地应用于高空抛物场景的监控。

发明内容

本发明的目的在于提供一种目标检测、轨迹跟踪方法、模型及其电子设备，该方法通过改进目标检测模型的结构，增加空洞编码模块使得模型检测到的目标可覆盖更多的感受野，进而提高小尺寸目标或者低分辨特征图中目标的检测效率，且通过头部预测模块改善目标检测的误报率，提高视频中目标检测的精度。

为实现以上目的，本技术方案提供一种目标检测方法，包括以下步骤：

获取待处理视频帧，提取所述待处理视频帧的第一特征图；

所述第一特征图作为空洞编码模块中的输入，通过所述空洞编码模块的投影层进行卷积处理获得第二特征图，其中所述第二特征图的特征通道数被降低；

将所述第二特征图通过堆叠所述空洞编码模块的不同扩张因子的多个残差块生成具有多感受野的第三特征图，其中每一所述残差块包括一个用于减少特征通道的1*1卷积核、一个用于增大感受野的3*3空洞卷积核和一个用于扩充特征通道数的1*1卷积核，经每个所述残差块处理后的特征通道数不变，且每一所述残差块中的3*3空洞卷积核的空洞率不同；

所述第三特征图作为对应的预测网络的输入，输出预测结果。

第二方面，本方案提供一种目标轨迹跟踪方法，包括以下步骤：

获取待处理视频流，提取对应所述待处理视频帧的第一特征图；

将所述第二特征图通过堆叠所述空洞编码模块的不同扩张因子的多个残差块生成具有多感受野的第三特征图，其中每一所述残差块包括一个用于减少特征通道的1*1卷积核、一个用于增大感受野的3*3空洞卷积核和一个用于扩充特征通道数的1*1卷积核，经每个残差块处理后的特征通道数，且每一所述残差块中的3*3空洞卷积核的空洞率不同；

将所述第三特征图输入LSTM模块中，标记跟踪目标得到对应的第四特征图；

将所述第四特征图输入预测网络中输出预测结果，其中所述预测结果至少包括目标运动轨迹。

第三方面，本方案提供一种目标检测模型，包括：

特征提取网络，以及依次连接的空洞编码模块和头部预测模块；其中所述特征提取网络提取输入的视频帧得到第一特征图；所述空洞编码模块至少包括投影层和堆叠的至少一残差块，所述投影层卷积处理所述第一特征图得到第二特征图，所述第二特征图的特征通道数被降低；所述残差块具有不同扩张因子，每一所述残差块包括一个用于减少特征通道的1*1卷积核、一个用于增大感受野的3*3空洞卷积核和一个用于扩充特征通道数的1*1卷积核，经每个所述残差块处理后的特征通道数不变，且每一所述残差块中的3*3空洞卷积核的空洞率不同；所述头部预测网络处理所述第三特征图，输出预测结果。

第四方面，本方案提供一种目标检测装置，包括：

特征图提取单元，用于获取待处理视频帧并提取所述待处理视频帧的第一特征图；

视频处理单元，用于将所述第一特征图通过空洞编码模块的投影层进行卷积处理获得第二特征图，其中所述第二特征图的特征通道数被降低；将所述第二特征图通过堆叠所述空洞编码模块的不同扩张因子的多个残差块生成具有多感受野的第三特征图，其中每一所述残差块包括一个用于减少特征通道的1*1卷积核、一个用于增大感受野的3*3空洞卷积核和一个用于扩充特征通道数的1*1卷积核，经每个所述残差块处理后的特征通道数，且每一所述残差块中的3*3空洞卷积核的空洞率不同；

目标预测单元，用于将所述第三特征图输入预测网络中输出预测结果。

第五方案，本方案提供一种目标轨迹跟踪装置，包括：

特征图提取单元，用于获取待处理视频帧，提取所述待处理视频帧的第一特征图；

跟踪单元，用于将所述第三特征图输入LSTM模块中，标记跟踪目标得到对应的第四特征图；

目标预测单元，用于将所述第四特征图输入预测网络中输出预测结果。

第六方面，本方案提供一种目标检测方法的应用，其特征在于，采用任一所述的一种目标检测方法，应用于检测图像中的目标。

第七方面，本方案提供一种目标轨迹跟踪方法，其特征在于，采用以上所述的一种目标轨迹跟踪方法，应用检测连续视频帧中的动态物体的运动轨迹。

第八方面，本方案提供一种运行上述目标检测方法和目标轨迹跟踪方法的电子设备和计算机可读存储介质。

相较现有技术，本技术方案具有以下特点和有益效果：在主干网络后增加空洞编码模块，空洞编码模块将主干网络输出的特征作为输入生成多感受野的输出特征，该输出特征可覆盖所有的目标尺度，这样的设计方式具有以下效果：其一可捕获到更丰富和更复杂的特征；其二获得到的特征感受野覆盖不同尺寸的目标，使目标尺度与感受野尺度匹配提高检测性能，可以生成具有可变感受野的输出特征，补偿了特征的损失；其三空洞编码模块用来提取多尺寸感受野的特征，去掉了特征金字塔网络中不同输出层的特征融合方式，减小了模型复杂度和计算量；此外，配合网络预测部分的目标性得分可有效抑制来自较差位置的误报；

为了获得高分辨率特征图，本专利采用不同分辨率的特征图进行并联，在并联基础上添加不同分辨率特征图之间的交互，通过这种方式得到的高分率特征图提高了对小目标的检测的性能，其中不同分辨率特征图的串联交互采用空洞编码模块，达到降低分辨率的作用的同时通过学习的方式降低信息的损耗，取代了Maxpool或者组合池化。

附图说明

图1是根据本方案提供的目标检测模型的整体框架示意图。

图2是根据本方案提供的目标轨迹跟踪模型的整体框架示意图。

图3是根据本方案提供的另一方面的目标检测模型的整体框架示意图。

图4是根据本方案的目标检测模型的空洞编码模块的结构示意图。

图5是根据本方案的目标检测模型的头部预测模块的结构示意图。

图6是基于图2的本方案的目标轨迹跟踪模型的LSTM模块的结构示意图。

图7是基于图2的本方案的目标轨迹跟踪模型的LSTM模块的原理示意图。

图8是根据本方案提供的目标检测方法的流程示意图。

图9是根据本方案的第二实施例提供的是目标轨迹跟踪方法的流程示意图。

图10是根据本方案的目标检测装置的结构示意图。

图11是根据本方案的第二方面的目标轨迹跟踪装置的结构示意图。

图12是根据本方案的目标检测方法应用于高空坠物运动轨迹预测的场景。

图13是运行目标检测、轨迹跟踪方法的电子设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

本方案提供一种目标检测、轨迹跟踪方法、模型及电子设备，该目标检测模型具有全新搭设的模型架构，并经过训练样本的充分训练得到，该目标检测方法可从输入的检测视频中精准地检测到小目标，在一些实施例中，可追踪特定目标的运动轨迹，以检测动态目标的动态过程。具体的，该基于深度学习的目标检测模型在主干网络后增设空洞编码模块，利用空洞编码模块对不同分辨率的特征图进行处理，提高小目标检测效率；结合头部预测模块的目标性得分减少较差位置的误报。

第一方面，本方案提供一种目标检测模型，该目标检测模型的总体架构如图1所示，包括：特征提取网络，以及依次连接的空洞编码模块以及头部预测模块，其中特征提取网络提取输入视频帧的特征并生成特征图，特征图分别进入对应路的空洞编码模块和头部预测模块中被处理，至少得到目标的目标位置以及目标得分。

具体的，其中所述特征提取网络提取输入的视频帧得到第一特征图；所述空洞编码模块至少包括投影层和堆叠的至少一残差块，所述投影层卷积处理所述第一特征图得到第二特征图，所述第二特征图的特征通道数被降低；所述残差块具有不同扩张因子，每一所述残差块包括一个用于减少特征通道的1*1卷积核、一个用于增大感受野的3*3空洞卷积核和一个用于扩充特征通道数的1*1卷积核，经每个所述残差块处理后的特征通道数不变，且每一所述残差块中的3*3空洞卷积核的空洞率不同；所述头部预测网络处理所述第三特征图，输出预测结果。

值得说明的是，空洞编码模块卷积对应分辨率的特征图得到覆盖不同目标尺寸的感受野的当前输出特征，也就是说，空洞编码模块可使得当前输出特征感受所有目标尺寸的感受野，以提高目标检测的精准度。头部预测模块对输入的当前输出特征进行目标分类和回归，且计算结果作为基于深度学习的目标检测模型反向传播的输入起点，进行权重更迭后训练得到优化的基于深度学习的目标检测模型。

在本方案中，基于深度学习的目标检测模型最终得到的目标的目标位置用目标的标记框限制，标记框（x,y,w,h）为边框的左上角坐标位置和预测边框的宽和高；目标得分用于评估该目标的检测精准度；目标类别显示目标的种类。

在另一些实施例中，如图3所示，图3提供了另一方面的目标检测模型的整体框架示意图，所述目标检测模块包括多层空洞编码模块和头部预测模块，位于上层的空洞编码模块输出的输出特征图作为位于神经网络下层的空洞编码模块的输入特征图，对应每层的预测网络输出对应的预测结果，所述预测结果包括至少一目标框。

此时，由于不同层提取的特征深度不同，故不同层对应处理的是不同分辨率的特征图。其中第一层卷积的深度浅，故得到的特征图的分辨率高，可用于预测小目标；而依次类推，越向下卷积的深度高，得到的特征图的分辨率低，但是特征语义信息丰富，可用于预测大目标。

如图1所示，以该目标检测模型用于对输入的视频帧进行视频中目标检测时，输入图像输入特征提取网络（对应图中的CNN主干网络和SPP模块的组合）后经过初步提取后，特征图进入空洞编码模块后生成多感受野的当前输出特征，当前输出特征进入头部预测模块中被预测得到对应的目标。

如图2所示，以该目标检测模型用于对输入的视频帧进行视频中目标检测时，输入的视频帧输入特征提取网络（对应图中的CNN主干网络和SPP模块的组合）后经过初步提取后，特征图进入第一层空洞编码模块后生成多感受野的当前输出特征，当前输出特征进入头部预测模块中被预测得到对应的目标；且该层的输出特征作为下一层空洞编码模块的输入进行相同的处理，不同层的头部预测模块输出不同的预测结果，通过非极大值抑制选出和标签损失最小的预测框，并确定最终的检测目标。

为了更详尽地知晓该目标检测模型的架构，以下将对特征提取网络、空洞编码模块以及头部预测模块一一进行详尽的描述：

特征提取网络：

本方案提供的特征提取网络选用常规的主干网络，在本方案中选用CNN主干网络，但这并不作为限制。主干网络用于对输入的连续视频帧进行常规卷积、切片、残差操作和SPP操作，故在此不对其进行展开说明。输入的视频帧经过特征提取网络后获取目标的初步特征，初步特征以特征图的形式进行传递。

空洞编码模块：

本方案提供的空洞编码模块的结构示意图如图4所示，空洞编码模块包括

连接的投影层和残差块，投影层对输入的特征图中的特征进行降维和卷积后降低所述特征图的特征通道数，并提取所述特征图的上下语义信息；依次序堆叠连续不同扩张因子的残差块，其中残差块的空洞卷积的空洞率依次序增加，输出覆盖不同目标尺寸的感受野的输出特征。

在本方案中，空洞编码模块的投影层采用第一层卷积将特征图中的特征通道数减少，再利用第二层卷积提取特征图内的上下语义信息，随后利用连续的不同扩张因子的残差块提取输出特征，低扩张因子的残差块处理完的数据进入高扩张因子的残差块中处理，每个残差块包括降数卷积、空洞卷积以及扩充卷积，每个残差块的空洞卷积依次增加，每个残差块的降数卷积降低特征通道数，扩充卷积扩充特征卷积数，经过每个残差块处理后的特征通道数不变。这种联合原始尺度和扩大尺度的感受野，能够像多尺度感受野一样覆盖所有的目标。

以初步特征的特征通道数为4C为例，投影层包括1*1卷积和3*3卷积，首先使用1*1卷积将初步特征的特征通道数降低为1/4，且设定下采样倍率为32，随后采用3*3卷积提取初步特征的上下语义信息。随后使用4个连续不同扩张因子的残差块提取能够生成多感受野的输出特征，其中输出特征覆盖所有的目标尺度。在每个残差块内，首先使用1*1卷积将特征通道数减少至原来1/4，然后使用3*3的空洞卷积增大感受野，最后使用1*1卷积将特征通道数扩充4倍。4个残差块中空洞卷积的空洞率分别为2、4、6、8。

值得说明的是，空洞编码模块的设计具有非常大的有益效果：通过该方案可使得空洞编码模块捕获到更丰富和更复杂的输出特征，另外获得到的特征感受野覆盖不同尺寸的目标尺度，使目标尺度与感受野尺度匹配提高检测性能，进而可以生成具有可变感受野的输出特征，补偿了特征在降维卷积时出现的损失。且，空洞编码模块用来提取多尺寸感受野的输出特征，去掉了特征提取网络中不同输出层的特征融合方式，减小了模型复杂度和计算量。

且为了获得高分辨率特征图，本专利采用不同分辨率的特征图进行并联，在并联基础上添加不同分辨率特征图之间的交互，只有开始的时候不同分辨率特征图之间进行了交互，这样做的目的在于：进行降采样以及获取获得不同感受野更加丰富的语义信息，去掉特征提取网络的多尺度特征交互，这种方式得到的高分率特征图提高了对小目标的检测的性能；而针对每个特定分辨率的特征图采用串联交互的方式，串联交互采用空洞编码模块，空洞编码模块中将3*3常规卷积替换为跨步3*3卷积，以此达到降低分辨率的作用，且可弥补卷积在降维的时候出现的信息损失，另外使用跨步3*3卷积是为了通过学习的方式，降低信息的损耗，可取代了Maxpool或者组合池化。

头部预测模块：

本方案的头部预测模块的结构如图5所示，头部预测模块包括分类子网络和边框回归子网络，其中分类子网络用于预测类别，此处的预测类别指的是对目标的种类进行分类，回归子网络用于对边框进行预测，此处的边框预测指的是对边框位置进行预测，该头部预测模块在神经网络浅层输出预测小目标的分支，在神经网络中层输出预测中等目标的分支，在神经网络深层输出预测大目标的分支，最后通过非极大值抑制选出和标签损失最小的预测框。

具体的，检测到目标分别进入回归子网络和分类子网络，在回归子网络中耐性处理后得到目标性得分，在分类子网络中进行操作后，并结合目标性得分得到预测框的分类得分，最后通过非极大值抑制选出和标签损失最小的预测框。

回归子网络中包含4个Conv-BN-ReLU操作，在分类子网络中包含2个Conv-BN-ReLU操作，回归子网络中的每个锚点框都有一个目标性得分预测，最终的预测框的分类得分由分类回归子网络的输出乘以目标性预测得分得到，头部预测模块这样的设计有效的抑制来自较差位置的误报。

在本方案中，对应三个不同分辨率的特征图而言，头部预测模块每一层一共有9个anchor（锚点框），不同层能覆盖的大小范围根据输入神经网络中的特征图大小决定，对每一个anchor，都对应一个K维的one-hot向量（K是类别数）和4维的位置回归向量，同时分类子网络对A个anchor，每个anchor中的K个类别，都预测一个存在概率，对于头部预测模块的每一层输出，对分类子网络来说，加上两层3*3*N卷积的FCN网络，最后一层的卷积稍有不同，用3*3*KA，最后一层维度变为KA表示，对于每个anchor，都是一个K维向量，表示每一类的概率，然后因为one-hot属性，选取概率得分最高的设为1，其余k-1为归0。传统的RPN在分类子网用的是1*1*18，只有一层，而在RetinaNet中，用的是更深的卷积，总共有5层，实验证明，这种卷积层的加深，对结果有帮助，与分类子网络并行，对每一层FPN输出接上一个位置回归子网络，该子网络的本质也是FCN网络，预测的是anchor和它对应的一个GT（标签框）位置的偏移量；首先也是4层N维卷积，最后一层是4A维度，即对每一个anchor，回归一个（x,y,w,h）四维向量，此时的位置回归是类别无关的。

关于该目标检测模型的模型架构如上所述，该模型结构需要被训练后才能对视频中的目标检测检测，以获取目标框的位置、置信度以及目标类型。具体的，该目标检测模型的训练方法如下：

标记训练和测试样本：

在本方案中选用标记有目标的图像为训练样本和测视样本，且可选用不同场景环境的图像，并标记目标对应的标记框位置和类别，其中训练样本和测试样本二八分，80%作为训练集，20%作为测试集。在此说明选用不同环境场景的图像是更好地减少环境场景对检测造成的干扰。

关于目标的标记框的标记：若在Windows操作系统、linux操作系统或者MAC操作系统配置python和xml环境之后，使用LabelImg标注工具得到目标图像标签框，对于在监控环境下满足这些条件的，要求标注人员对其进行边界框标注，将标注图像数据信息存为XML格式文件，生成的 XML 文件是遵循 PASCAL VOC 的格式的，根据训练模型框架的不同，把XML标注数据格式转化为和框架匹配的标签数据格式。

训练该目标检测模型的架构：

随机初始化整个神经网络各层的连接权值w和偏置b,给定学习速率η和最小批次Batch，选定激活函数RELU，选定损失函数Loss以及当前数据下最大迭代次数（代数）；利用k-means算法生成9个候选框，根据大中小目标对预测模块的不同神经网络依次分配四个尺寸的候选框，即在每层的最后输出特征图上进行单元格划分；利用特征金字塔其中一层输出的特征图尺寸大小为W*H，根据当前数据聚类结果进行候选框的分配，当前数据聚类结果表示根据聚类得到的9个候选框的框大小，如果当前数据下聚类结果显示大目标数据多，就在输出的特征图上分配大于3个候选框使其在输出特征图上逐单元格去遍历特征图，其次根据聚类结果在中目标特征图上分配小于3个候选框，同理在小目标特征图上分配小于3个候选框，使其三个预测头部上分配的候选框个数为9个；

确定好以上各个参数之后将标注的训练图像按批次输入网络模型的体系结构神经网络，通过一层一层新的残差块，然后通过一层一层卷积操作，然后通过空洞编码模块对输入特征进行进一步提取，通过头部预测模块预测一个和目标对应的候选框，进行最后的卷积输出结果；输入数据反复迭代直到神经网络输出层误差达到预设精度要求或训练次数达到最大迭代次数，结束训练，保存网络结构和参数，得到训练好的神经网络模型。

第二方面，本方案提供一种目标轨迹跟踪模型，该目标轨迹跟踪模型不仅可对视频中的目标进行检测，同时还可获取动态目标的运动轨迹。对应的，该目标轨迹跟踪模型的其他结构和第一方面提供的目标检测模型相同，不同之处在于，该目标轨迹跟踪模型在头部预测模块和空洞编码模块之间设有LSTM模块，该LSTM模块基于当前图像的上下语义信息，结合上一视频帧的上下语义信息，获取所述当前视频帧的跟踪特征，此时，多视频帧输入到该目标轨迹跟踪模型中对视频的目标进行检测的同时，获取动态目标的运动轨迹。

具体的，LSTM模块：

如图6所示，本方案提供的LSTM模块带有一个指向自身的环，用来表示其可以传递当前时刻处理的信息给下一时刻使用，也就是说，通过LSTM模块可将当前图像的上下语义信息传递给其他图像，利用不同视频帧的上下语义信息之间的关系进行目标的跟踪。在本发明中神经网络中使用的LSTM模块如图5所示，LSTM模块可依据当前时刻的时序信息来预测下一时刻的输出，LSTM模块在本发明中的作用是实现跟踪目标。具体的，LSTM模块对空洞编码模块输出的特征，是对同一个目标特征提取增强，利用LSTM对上一帧信息有记忆的功能。

图7展示了LSTM结构和原理，具体的，LSTM结构具有遗忘门、输入门和输出门，LSTM记忆单元拥有长短时记忆机制，LSTM的关键是细胞状态，表示细胞状态的这条线水平的穿过图的顶部，细胞的状态类似于输送带，细胞的状态在整个链上运行，只有一些小的线性操作作用其上，信息很容易保持不变的流过整个链，LSTM确实具有删除或添加信息到细胞状态的能力，这个能力是由被称为门(Gate)的结构所赋予的，门(Gate)是一种可选地让信息通过的方式，它由一个Sigmoid神经网络层和一个点乘法运算组成，Sigmoid神经网络层输出0和1之间的数字，这个数字描述每个组件有多少信息可以通过，0表示不通过任何信息，1表示全部通过，LSTM有三个门，用于保护和控制细胞的状态；LSTM的第一步是决定我们要从细胞状态中丢弃什么信息，该决定由被称为“忘记门”的Sigmoid层实现，它查看ht-1(前一个输出)和Xt(当前输入)，并为单元格状态Ct-1(上一个状态)中的每个数字输出0和1之间的数字，1代表完全保留，而0代表彻底删除；下一步是决定我们要在细胞状态中存储什么信息，这部分分为两步，首先称为“输入门层”的Sigmoid层决定了我们将更新哪些值，接下来一个tanh层创建候选向量Ct,该向量将会被加到细胞的状态中，在下一步中，将结合这两个向量来创建更新值，随后更新上一个状态值Ct−1了，将其更新为Ct，将上一个状态值乘以ft，以此表达期待忘记的部分，之后将得到的值加上it∗Ãt，这个得到的是新的候选值，按照情况更新每个状态值的多少来衡量，最后决定要输出什么，此输出将基于细胞状态，但将是一个过滤版本；首先运行一个sigmoid层，它决定了要输出的细胞状态的哪些部分，然后将单元格状态通过tanh（将值规范化到-1和1之间），并将其乘以Sigmoid门的输出，至此输出了决定的那些部分。

另外，当目标轨迹跟踪模型的架构被改变后，对应该目标检测模块的训练数据也有所变动，此时：

选用训练和测试样本：

在本方案中选用包含动态目标的监控视频为训练样本和测视样本，具体的，在监控视频中找出多段不同环境场景的动态目标的监控视频，并标记动态目标对应的标记框，其中训练样本和测试样本二八分，80%作为训练集，20%作为测试集。在此说明选用不同环境场景的图像是更好地减少环境场景对检测造成的干扰。也就是说，训练样本可Vi表示第i段视频，Vi中共有Ni帧视频图像，Ni是包含有运动状态目标的连续视频帧，Ni帧视频图像作为训练和测试样本。示例性的，若本方案的动态目标为：高空抛掷的物品，则选用不同地点不同时间不同天气的含有高空抛物的视频作为监控视频。

另外，该目标检测模型在被训练后还可通过模型迭代的步骤来提高模型的精度。包括以下步骤：

本方案通过搜集一批新的视频数据，让目标检测及轨迹预测去检测这一批视频数据，将检测结果划分为两大类：有目标跟踪轨迹视频和无目标跟踪轨迹视频，有跟踪轨迹视频又分为真正有跟踪轨迹视频和误报有跟踪轨迹视频，无目标跟踪轨迹视频又可分为未检测目标的视频和视频中本来就没有目标的视频，并人为地选定误报目标视频作为负样本，将含有动态目标的但未检测到的视频作为训练样本，随后对训练样本进行数据标注，然后在原有模型的基础上再训练出一个新的模型，测试模型效果检查精度是否达标，如果新的模型未达标，则加入新的数据并对网络调整参数训练，如果模型精度已经达到要求并且在目前训练数据下最优时停止训练，循环这个步骤以达到模型适合实际环境中样本的复杂度，以此方式优化提高目标检测及轨迹预测的预测和检测精度。

第三方面，如图8所示，图8提供了一种目标检测方法的流程示意图，本方案提供一种目标检测方法，对视频帧进行处理，包括以下步骤：

获取待处理视频帧，提取所述待处理视频帧的第一特征图；

在本方案中，预测结果至少包括目标预测框，在一些实施例中，预测结果包括目标类别，通过目标预测框可确认目标的位置，通过目标类别确认目标的种类。

在该方案中，将3*3常规卷积替换为跨步3*3卷积，以此达到降低分辨率的作用，且可弥补卷积在降维的时候出现的信息损失，另外使用跨步3*3卷积是为了通过学习的方式，降低信息的损耗，可取代了Maxpool或者组合池。且经过该步骤处理过后的第三特征图的特征覆盖多感受野。

“将所述第一特征图通过所述空洞编码模块的投影层进行卷积处理获得第二特征图”中，所述投影层对所述第一特征图进行降维后再卷积，提取所述第一特征图的上下语义信息。在一些实施例中，所述投影层包括依次相连的1*1卷积和3*3卷积，1*1卷积处理所述第一特征图后将特征通道数降低为1/4，设定下采样倍率为32；采用3*3卷积提取初步特征的上下语义信息。

“将所述第二特征图通过堆叠所述空洞编码模块不同扩张因子的多个残差块生成具有多感受野的第三特征图”中，不同扩张因子的多个残差块依次堆叠，且残差块的空洞卷积的空洞率依次序增加，具体的，低空洞率的残差块输出的特征进入高空洞率的残差块。在一些实施例中，堆叠4个连续不同扩张因子的多个残差块，4个残差块中空洞卷积的空洞率分别为2、4、6、8。

“将所述第三特征图输入预测网络中输出预测结果”中，预测网络包括分类子网络和边框子网络，所述回归子网络生成目标框及目标性预测得分，所述目标性预测得分乘以所述分类子网络的输出得到所述目标框的分类得分。以此方式有效的抑制来自较差位置的误报。

另外，为了获得高分辨率特征图，以检测小目标图。

本方案的目标检测方法进一步包括步骤：由多层空洞编码模块和预测网络组成，位于上层的空洞编码模块输出的输出特征图作为位于神经网络下层的空洞编码模块的输入特征图，对应每层的预测网络输出对应的预测结果，所述预测结果包括至少一目标框，多层预测网络的预测结果通过非极大值抑制选出和标签损失最小的目标框。

“多层预测网络的预测结果通过非极大值抑制选出和标签损失最小的目标预测框”包括：根据不同尺寸的目标在每层所述预测网络的所述第三特征图上进行单元格划分，根据当前数据聚类结果进行候选框的分配，如果所述当前数据聚类结果显示大尺寸的目标数据多，在所述第三特征图上分配大于标准数量的所述候选框，在所述第三特征图上逐所述单元格去遍历所述第三特征图，最终得到所述目标框。

值得说明的是，以上投影层和残差块的模块介绍可参见其上关于空洞编码模块的介绍，预测网络可参考其上关于头部预测模块的介绍。在此不对内容进行重复描述。

另外，以上都是关于单张视频帧的处理，而本方案提供的目标检测方法还可用于跟踪检测动态目标，此时，预测结果包括动态目标的运动轨迹、目标预测框以及目标类别。

如图9所示，图9提供了另一实施例的目标检测方法的流程示意图，此时，该目标轨迹跟踪方法包括步骤：

此时，预测结果包括目标运动轨迹以及目标预测框。在一些实施例中，预测结果另外包括目标类别。关于其他步骤都同于单张视频帧检测的过程，唯一不同之处：在本方案的检测方法中利用LSTM模块对视频帧进行跟踪，关于LSTM模块的内容可参见其上关于模型的介绍。也就是说，LSTM模块根据连续处理视频帧之间的上下语义信息确定后一处理视频帧中的目标。

第四方面，本方案提供一种目标检测方法的应用，该目标检测方法可应用于检测单张视频帧中的小目标。另外，该方法还可用于检测动态目标的运动轨迹。

在本方案的一实施例中，该目标检测方法以及目标轨迹跟踪方法用于检测高空抛物，此时，如图12所示，可将图像采集设备和高空坠物目标视频采集设备安装在无遮挡物的地方且镜头向上设置，以用于监控对应建筑物的高空抛物目标；在检测时，向目标轨迹跟踪模型输入监控视频，其中监控视频可通过实时视频流地址输入，预设好预测类别的可能性和预测目标之间的交并比后，检测高空抛物（图12中的方框）和预测高空抛物的运动轨迹（图12中的线条）。在一些实施例中，图像采集设备和高空坠物目标视频采集设备可以是任意能够检测感应范围内的热红外信号的红外信号采集设备，例如可以为星光级相机与红外补光灯的组合，或者红外相机。

在实际的应用过程中，该目标检测方法以及目标轨迹跟踪方法的应用环境还可以包括更多或者更少的高空坠物目标视频采集设备和高空抛物动目标视频检测设备。比如本方案可通过获取建筑物的目标四周在不同时刻对应的目标视频，得到含有高空抛物目标的视频。本发明的模型可能够检测和跟踪高空抛物起始点和落地点，起始点用于确定高空坠物责任人，落地点用于确定高空抛物所造成危害的位置，并未限定动目标的具体种类，但常见能够识别的有花盆、水瓶、衣物、烟蒂、其他窗户和阳台上的生活用品等。获取建筑物的目标四周在不同时刻对应的目标是视频图像，得到多个视频。

在本申请实施例中，获取建筑物的目标四周在不同时刻对应的目标视频，得到含有高空抛物目标的视频包括：在目标时刻采用多个摄像头分别对建筑物的目标四周进行拍摄。需要说明的是，在实际场景中，单路摄像头往往不能覆盖高度较高、宽度较宽的建筑物以及还有一些遮挡物影响实际检测效果，本申请采用多个摄像头对建筑物的目标四周进行拍摄，每路摄像头负责监控建筑物的不同区域，每路摄像头必须安装在空旷的位置以防止周围有遮挡物或者运动目标，同时自下往上的监控方法也保护了住户的隐私。

本申请在实施应用中获取建筑物四周数据，获取多段目标视频数据，对多段视频进行拼接，接着对拼接好的视频按每秒25帧截取视频帧，对这些连续的视频帧进行标注，获得神经网络所需的训练数据和验证数据，经几百轮迭代之后获得当前数据下最优模型；实际场景应用中获取多个摄像头ID，加载神经网络模型，对高空抛物目标进行检测，且每个目标都有一个唯一的id，对每个目标id进行跟踪，所述跟踪特性是利用神经网络LSTM残差模块中当前帧的输出预测，利用了前面一帧的特征，所以对目标id具有跟踪作用，根据跟踪的多个目标，即多个id进行轨迹预测，所述运动轨迹就是目标框的中心连成的线路。

另外，当通过该目标检测方法确定高空抛物的运动轨迹，则可确定该高空抛物的责任人，并采用相应的措施对该责任人进行管控，以明确高空抛物的惩罚对象，并减少后续高空抛物现象的再出现。

第五方面，如图10所示，本方案提供一种目标检测装置，包括：

关于该目标检测装置的模块结构的运行方法参见本方案的第一方面提及的目标检测方法的内容介绍。

第六方面，如图11所示，本方案提供一种目标轨迹跟踪装置，包括：

如图13所示，本实施例还提供了一种电子装置，包括存储器304和处理器302，该存储器304中存储有计算机程序，该处理器302被设置为运行计算机程序以执行上述任一项目标检测、轨迹跟踪方法的实施例中的步骤。

具体地，上述处理器302可以包括中央处理器（CPU），或者特定集成电路（ApplicationSpecificIntegratedCircuit，简称为ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中存储器304可以包括用于数据或指令的大容量存储器304。举例来说而非限制，存储器304可包括硬盘驱动器（HardDiskDrive，简称为HDD）、软盘驱动器、固态驱动器（SolidStateDrive，简称为SSD）、闪存、光盘、磁光盘、磁带或通用串行总线（UniversalSerialBus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器304可包括可移除或不可移除（或固定）的介质。在合适的情况下，存储器304可在数据处理装置的内部或外部。在特定实施例中，存储器304是非易失性（Non-Volatile）存储器。在特定实施例中，存储器304包括只读存储器（Read-OnlyMemory，简称为ROM）和随机存取存储器（RandomAccessMemory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（ProgrammableRead-OnlyMemory，简称为PROM）、可擦除PROM（ErasableProgrammableRead-OnlyMemory，简称为EPROM）、电可擦除PROM（ElectricallyErasableProgrammableRead-OnlyMemory，简称为EEPROM）、电可改写ROM（ElectricallyAlterableRead-OnlyMemory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（StaticRandom-AccessMemory，简称为SRAM）或动态随机存取存储器（DynamicRandomAccessMemory，简称为DRAM），其中DRAM可以是快速页模式动态随机存取存储器304（FastPageModeDynamicRandomAccessMemory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（ExtendedDateOutDynamicRandomAccessMemory，简称为EDODRAM）、同步动态随机存取内存（SynchronousDynamicRandom-AccessMemory，简称SDRAM）等。

存储器304可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器302所执行的可能的计算机程序指令。

处理器302通过读取并执行存储器304中存储的计算机程序指令，以实现上述实施例中的任意目标检测、轨迹跟踪方法。

可选地，上述电子装置还可以包括传输设备306以及输入输出设备308，其中该传输设备306和上述处理器302连接，该输入输出设备308和上述处理器302连接。

传输设备306可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备306可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

输入输出设备308用于输入或输出信息。例如，上述输入输出设备可以是显示屏、鼠标、键盘或其他设备。在本实施例中，输入设备用于输入采集得到的信息，输入的信息可以是图像和视频，输出的信息可以是被标记的目标或者目标运动轨迹。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种目标检测方法，其特征在于，包括以下步骤：

获取待处理视频帧，提取所述待处理视频帧的第一特征图；

2.根据权利要求1所述的目标检测方法，其特征在于，“将所述第一特征图通过投影层进行卷积处理获得第二特征图”中，所述投影层对所述第一特征图进行降维后再卷积，提取所述第一特征图的上下语义信息，所述投影层包括依次相连的1*1卷积和3*3卷积。

3.根据权利要求1所述的目标检测方法，其特征在于，“将所述第二特征图通过堆叠所述空洞编码模块的不同扩张因子的多个残差块生成具有多感受野的第三特征图，”中，不同扩张因子的多个所述残差块依次堆叠，且所述残差块的空洞卷积的空洞率依次序增加。

4.根据权利要求1所述的目标检测方法，其特征在于，“所述第三特征图作为对应的预测网络的输入，输出预测结果”中，所述预测网络包括分类子网络和边框子网络，所述回归子网络生成目标框及目标性预测得分，所述目标性预测得分乘以所述分类子网络的输出得到所述目标框的分类得分。

5.根据权利要求1所述的目标检测方法，其特征在于，包括多层空洞编码模块和预测网络，位于上层的空洞编码模块输出的输出特征图作为位于神经网络下层的空洞编码模块的输入特征图，对应每层的预测网络输出对应的预测结果，所述预测结果包括至少一目标框，多层预测网络的预测结果通过非极大值抑制选出和标签损失最小的目标框。

6.根据权利要求5所述的目标检测方法，其特征在于，“多层预测网络的预测结果通过非极大值抑制选出和标签损失最小的目标预测框”包括：根据不同尺寸的目标在每层所述预测网络的所述第三特征图上进行单元格划分，根据当前数据聚类结果进行候选框的分配，如果所述当前数据聚类结果显示大尺寸的目标数据多，在所述第三特征图上分配大于标准数量的所述候选框，在所述第三特征图上逐所述单元格去遍历所述第三特征图，最终得到所述目标框。

7.一种目标轨迹跟踪方法，其特征在于，包括以下步骤：

获取待处理视频帧，提取所述待处理视频帧的第一特征图；

8.一种目标检测模型，其特征在于，包括：

特征提取网络，以及依次连接的空洞编码模块和头部预测模块；

其中所述特征提取网络提取输入的视频帧得到第一特征图；

所述空洞编码模块至少包括投影层和堆叠的至少一残差块，所述投影层卷积处理所述第一特征图得到第二特征图，所述第二特征图的特征通道数被降低；所述残差块具有不同扩张因子，每一所述残差块包括一个用于减少特征通道的1*1卷积核、一个用于增大感受野的3*3空洞卷积核和一个用于扩充特征通道数的1*1卷积核，经每个所述残差块处理后的特征通道数不变，且每一所述残差块中的3*3空洞卷积核的空洞率不同；

所述头部预测网络处理所述第三特征图，输出预测结果。

9.根据权利要求8所述的目标检测模型，其特征在于，包括多层空洞编码模块和头部预测模块，位于上层的空洞编码模块输出的输出特征图作为位于神经网络下层的空洞编码模块的输入特征图，对应每层的预测网络输出对应的预测结果，所述预测结果包括至少一个目标框。

10.根据权利要求8所述的目标检测模型，其特征在于，所述头部预测模块和所述空洞编码模块之间设有LSTM模块，所述LSTM模块基于当前视频帧的上下语义信息，结合上一视频帧的上下语义信息，获取所述当前视频帧的跟踪特征，所述预测结果包括目标的目标运动轨迹。

11.一种目标检测装置，其特征在于，包括：

12.一种目标轨迹跟踪装置，其特征在于，包括：

13.一种目标检测方法的应用，其特征在于，采用权利要求1到6任一所述的一种目标检测方法，应用于检测视频中的目标。

14.一种目标轨迹跟踪方法的应用，其特征在于，采用权利要求7所述的一种目标轨迹跟踪方法，应用检测连续视频帧中的动态物体的运动轨迹。

15.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以上权利要求1到6任一所述提到的目标检测方法或权利要求7所述的目标轨迹跟踪方法。

16.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现以上权利要求1到6任一所述提到的目标检测方法或权利要求7所述的目标轨迹跟踪方法。