CN115861891B

CN115861891B - 视频目标检测方法、装置、设备及介质

Info

Publication number: CN115861891B
Application number: CN202211627510.2A
Authority: CN
Inventors: 蒋鹏; 余婷婷; 周翊超; 张燕; 胡晰远
Original assignee: Beijing Duowei Shitong Technology Co ltd
Current assignee: Beijing Duowei Shitong Technology Co ltd
Priority date: 2022-12-16
Filing date: 2022-12-16
Publication date: 2023-09-29
Anticipated expiration: 2042-12-16
Also published as: CN115861891A

Abstract

本公开提供了一种视频目标检测方法、装置、设备及介质，涉及图像处理领域。该方法包括：获取待检测视频，待检测视频包括多帧图像序列，多帧图像中包括目标对象；针对每帧图像，提取得到多个特征图，多个特征图具有不同的特征尺度；基于多帧图像序列的帧间时序信息，校准多个特征图，得到帧间加权特征图；基于每帧图像对应的帧内通道和空间注意力信息，校准多个特征图，得到帧内加权特征图；基于帧间加权特征图和帧内加权特征图，确定多帧图像中的目标对象。根据本公开实施例，能够在保障检测速度的同时进一步提升了检测精度。

Description

视频目标检测方法、装置、设备及介质

技术领域

本公开涉及图像处理技术领域，尤其涉及一种视频目标检测方法、装置、设备及介质。

背景技术

随着人工智能和计算机技术的迅速发展，目标检测也取得了持续性的进展。视频目标检测是通用目标检测的一个重要分支，相关技术有通过背景建模或基于光流的方法来利用帧间时序信息，以及通过帧内的结构信息或场景布局来细化检测结果，但是，相关技术在视频场景中检测效果不佳，在检测精度和检测速度上仍需进一步改进。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开提供一种视频目标检测方法、装置、设备及介质，至少在一定程度上改善相关技术中在视频场景中检测效果不佳的问题，在保障检测速度的同时进一步提升了检测精度。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供了一种视频目标检测方法，包括：

获取待检测视频，待检测视频包括多帧图像序列，多帧图像中包括目标对象；

针对每帧图像，提取得到多个特征图，多个特征图具有不同的特征尺度；

基于多帧图像序列的帧间时序信息，校准多个特征图，得到帧间加权特征图；

基于每帧图像对应的帧内通道和空间注意力信息，校准多个特征图，得到帧内加权特征图；

基于帧间加权特征图和帧内加权特征图，确定多帧图像中的目标对象。

根据本公开的另一个方面，提供一种视频目标检测装置，包括：

视频获取模块，用于获取待检测视频，待检测视频包括多帧图像，多帧图像中包括目标对象；

特征提取模块，用于针对每帧图像，提取得到多个特征图，多个特征图具有不同的特征尺度；

帧间注意力模块，用于基于多帧图像序列的帧间时序信息，校准多个特征图，得到帧间加权特征图；

帧内注意力模块，用于基于每帧图像对应的帧内通道和空间注意力信息，校准多个特征图，得到帧内加权特征图；

检测模块，用于基于帧间加权特征图和帧内加权特征图，确定多帧图像中的目标对象。

根据本公开的又一个方面，提供一种电子设备，包括：存储器，用于存储指令；处理器，用于调用所述存储器中存储的指令，实现上述的视频目标检测方法。

根据本公开的又一个方面，提供一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时实现上述的视频目标检测方法。

根据本公开的又一个方面，提供一种计算机程序产品，计算机程序产品存储有指令，所述指令在由计算机执行时，使得计算机实施上述的视频目标检测方法。

根据本公开的又一个方面，提供一种芯片，包括至少一个处理器和接口；

接口，用于为至少一个处理器提供程序指令或者数据；

至少一个处理器用于执行程序指令，以实现上述的视频目标检测方法。

本公开实施例所提供的视频目标检测方法、装置、设备及介质，从待检测视频的每帧图像，提取得到多个特征图，其中，多个特征图具有不同的特征尺度；然后，分别利用帧间信息和帧内信息校准特征图，进而能够更好地利用帧间的时序信息，以及帧内通道和空间注意力信息，来辅助检测每帧图像中低质量的目标对象和较小的目标对象，在保障检测速度的同时进一步提升了检测精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本公开实施例中一种视频目标检测方法流程图；

图2示出本公开实施例中一种视频目标检测系统的架构示意图；

图3示出本公开实施例中确定多帧图像中的目标对象的流程图；

图4示出本公开实施例中确定帧间加权特征图的流程图；

图5示出本公开实施例中一种视频目标检测装置示意图；

图6示出本公开实施例中一种特征聚合的架构示意图；

图7示出本公开实施例中帧间时序建模示意图；

图8示出本公开实施例中帧内加权示意示意图；

图9示出本公开实施例中一种电子设备的结构框图。

具体实施方式

下面将参考附图更全面地描述示例实施方式。

需要说明的是，示例实施方式能够以多种形式实施，不应被理解为限于在此阐述的范例。

视频目标检测是通用目标检测的一个重要分支，尽管基于深度学习的目标检测模型在图像和视频领域都取得了重大进展，但在视频场景中检测对象在精度和检测速度上的高要求仍是不小的挑战。

视频目标检测具有一些额外的先验信息：视频序列中相对稳定的背景和连续帧中存在的相同目标，这些信息可以用来提高检测网络的性能。

发明人发现，相关技术有通过背景建模或基于光流的方法来利用帧间时序信息，以及通过帧内的结构信息或场景布局来细化检测结果。但是，没有同时高效的利用帧间和帧内信息，并在检测精度上取得更好效果的视频检测方法。

为解决上述问题，本公开实施例提供了一种视频目标检测方法、装置、设备及介质，在一定程度上改善了弱小目标的检测，并平衡了检测精度与速度。

下面结合附图及实施例对本示例实施方式进行详细说明。

首先，本公开实施例中提供了一种视频目标检测方法，该方法可以由任意具备计算处理能力的电子设备执行，该电子设备中可以内置有预先训练的目标检测网络，本公开实施例的执行主体也可以为该目标检测网络。

图1示出本公开实施例中一种视频目标检测方法流程图，如图1所示，本公开实施例中提供的视频目标检测方法包括步骤S110-S150。

在S110中，获取待检测视频，待检测视频包括多帧图像序列，多帧图像中包括目标对象。

上述待检测视频可以是通过视频采集设备直接采集的，也可以是从视频采集设备或其他设备导入的，该视频中包含待检测的一个或多个目标对象。

在一个实施例中，如图2所示，执行该视频目标检测方法的电子设备201，连接视频采集设备202，其中，视频采集设备202用于采集待检测视频，并传输至电子设备201。视频采集设备202可以是摄像头、照相机等具有视频采集功能的专用设备，也可以是手机、平板电脑等具有摄像或拍照功能的终端设备。电子设备201可以是手机、计算机、笔记本电脑等具有信息处理功能的终端设备，也可以是服务器或服务器集群。该电子设备201中可以内置有预先训练的目标检测网络。

在一个实施例中，目标对象可以是人、动物、车辆等任意一种待检测的目标物体。

在一个实施例中，在获取待检测视频后，还可以对视频的图像进行分帧、筛选和预处理。

在一个实施例中，上述视频分帧、筛选和预处理可以包括：对视频按每帧切分成图像序列，在网络训练阶段，每10帧选取1帧作为目标训练图像，其前后连续帧作为辅助训练图像；对于图片的输入尺寸，按输入要求的不同分为：原图、压缩图像，若为压缩图像，则图像中目标的中心点、边界框宽高真值也要做相应的压缩；网络训练阶段，对输入图像进行随机缩放、随机裁剪、随机翻转等操作，以增强训练网络的鲁棒性。

需要说明的是，上述图像序列在时序上具有相关性，图像序列可以是连续的多帧图像序列，也可以是间隔一帧或多帧的图像序列。

在S120中，针对每帧图像，提取得到多个特征图，多个特征图具有不同的特征尺度。

在一个实施例中，可以通过特征提取网络从每帧图像中提取得到多个特征尺度不同的特征图。特征提取网络可以是对相关数据集进行单幅图像训练过的预训练网络。特征尺度不同，可以是图像的通道数和分辨率不同。

在一个实施例中，多帧图像可以包括目标图像及与目标图像相邻的辅助图像，可以将目标图像及辅助图像输入至特征提取网络来得到特征图。

在S130中，基于多帧图像序列的帧间时序信息，校准多个特征图，得到帧间加权特征图。

上述步骤中，对于连续的多帧图像序列，利用它们时序上的相关性来改进每一帧图像的特征，进而得到帧间加权特征图。

在一个实施例中，S130中校准多个特征图，可以是校准S120中多个特征图中的4种特征尺度的特征图。需要说明的是，本公开中对特征图的特征尺度数量不作限定。

在一个实施例中，通过特征提取网络从每帧图像中提取得到多个特征尺度不同的特征图，然后输入至帧间时序网络得到帧间加权特征图。特征提取网络可以是对相关数据集进行单幅图像训练过的预训练网络，在使用预训练权重后，可以有效提高帧间时序网络输入特征的准确性，进而加快训练速度。通过该实施例，能够有效对视频时序信息进行建模，提高模型对低质量目标预测的准确率。

在S140中，基于每帧图像对应的帧内通道和空间注意力信息，校准多个特征图，得到帧内加权特征图。

对于目标图像，利用空间和通道上的注意力机制使目标检测网络更关注于可能存在目标的区域。

由于单帧图像上包含空间和通道上下文信息，一般的，网络仅通过卷积层对图片的全局信息加以利用，而没有过多关注到单一的空间和通道信息隐含的信息。因此，在目标图像上，对空间和通道维度信息分别进行卷积计算，获得特征图每个元素对应的不同权重，确定目标图像中存在的重点关注区域。

需要说明的是，本公开中对特征图的特征尺度数量不作限定，S140中使用的特征尺度数量可以大于S130中使用的特征尺度数量。

在具体实施时，可以对6种尺度目标图像特征图分别加权，既能在大尺度特征图上学习图像细节信息，又能在小尺度特征图上学习图像全局信息，大大提高小目标检测的准确率。

在S150中，基于帧间加权特征图和帧内加权特征图，确定多帧图像中的目标对象。

在一个实施例中，可以将帧间加权特征图和帧内加权特征图进行聚合，然后通过聚合后的特征图确定图像中的目标对象，也就是说，本公开中可将帧间时序信息与帧内信息聚合，得到在时间、空间、通道三个维度的注意力加成特征图，对检测精度有较大的提升。

在一些实施例中，如图3所示，上述S150，可以是针对每帧图像对应的帧间加权特征图和帧内加权特征图，执行如下步骤：

在S301中，将帧间加权特征图和帧内加权特征图进行特征聚合，得到图像的中心点热力图、中心点偏移量和目标对象边界相对于中心点的距离。

在S302中，基于图像的中心点热力图、中心点偏移量和目标对象边界相对于中心点的距离，标记图像中目标对象的边界框。

需要说明的是，帧间和帧内获得两个关注点不同的特征图(即帧间加权特征图和帧内加权特征图)，采用逐元素求和的方法进行聚合，再基于聚合后的特征图，经过卷积操作，得到图像的中心点热力图、中心点偏移量和目标对象边界相对于中心点的距离。在一些实施例中，帧间加权特征图生成过程中使用的特征图和帧内加权特征图生成过程中使用的特征图可以有重叠，即目标图像在帧间加权特征图生成过程中使用的4种尺度特征图与帧内加权特征图生成过程中使用的6种尺度的特征图中的4种可以相同。

通过上述实施例，可将帧间时序信息与帧内信息聚合，得到在时间、空间、通道三个维度的注意力加成特征图，对检测精度有大的提升。

在一个实施例中，确定视频中目标物体边界框，可以包括特征图层面的相关坐标按比例调整到原图中，在原图上按坐标绘制目标框以及目标预测置信度，其中，置信度为中心点热力图数值；将图片序列拼接成视频，作为检测结果，网络预测阶段，可实时展示每帧检测图片。

在一些实施例中，上述S301可以是将帧间加权特征图和帧内加权特征图逐元素求和，得到聚合特征图；基于聚合特征图，经过卷积操作，得到图像的中心点热力图、中心点偏移量和目标对象边界相对于中心点的距离。通过帧间和帧内共同作用的注意力机制，生成图像的中心点热力图、中心点偏移量和目标边界相对于中心点的距离。

在一些实施例中，S302在每帧图像上确定目标对象的边界框之后，可以将多帧图像合成连续的视频，达到在视频上进行目标检测的目的。

需要说明的是，对于输入图像为原图或压缩后图像，具有不同大小的特征图输出。网络训练阶段，在图片预处理时将对应坐标真值调整至输出特征图比例，此处会产生一定的误差，利用中心点偏移量来调整。网络预测阶段，记录下原图与特征图比例，对输出特征图进行调整，使输出的数据对应原图坐标。

在一些实施例中，上述S302中在标记图像中目标对象的边界框时，特征图层面的相关坐标按比例调整到原图中，在原图上按坐标绘制目标对象的边界框以及目标预测置信度，其中，目标对象的预测置信度，可以基于图像的中心点热力图确定。

通过上述实施例，在得到图像的中心点热力图、中心点偏移量和目标对象边界相对于中心点的距离后，确定图像中目标对象的边界框，能够实现像素级的目标检测，从而获得准确的检测结果。

在一些实施例中，如图4所示，上述步骤S130，可以包括：

S401，将多帧图像对应的多个特征图中尺度相同的特征图叠加后，输入时序注意力网络，以使时序注意力网络根据多帧图像对应的局部时间上下文和全局时间上下文，确定目标图像对应的卷积权重。

同一尺度多帧特征图叠加，输入时序注意力网络，根据局部和全局时间上下文校准每个帧的卷积权重，赋予空间卷积时序建模能力。

S402，根据目标图像对应的局部时间上下文，通过目标图像的空间维度上的全局平均池化，获得帧描述子。

根据前文的局部上下文，通过每帧的空间维度上的全局平均池化获得帧描述子，再对特征进行ReLU和批标准化。

S403，根据全局时间上下文，对叠加后的多帧特征图做线性映射，获得全局描述子。

S404，将全局描述子叠加到帧描述子上。

根据前文的全局上下文，对多帧特征图做线性映射，获得全局描述子，叠加到帧描述子上，以进一步补充全局时间信息；

S405，基于叠加了全局描述子的帧描述子，和目标图像对应的卷积权重，在时间维度上进行1D(一维)卷积，得到卷积后的加权目标特征图。

叠加了全局描述子和帧描述子的多帧特征，在时间维度上进行1D卷积、ReLU和批标准化操作。

S406，针对卷积后的加权目标特征图，经过上采样操作到最大尺度，再通过可变形卷积叠加到同一特征图上，得到帧间加权特征图。

4个不同尺度的加权目标特征图，经过上采样操作到最大尺度，再通过可变形卷积叠加到同一特征图上，得到帧间加权特征图。

在一些实施例中，上述步骤S140，可以是在通道注意力方面，压缩空间维度信息，通过共享权重的多层感知机网络，生成不同的通道注意力权重，再逐元素求和，得到通道维度的加权特征图。在空间注意力方面，压缩通道维度信息，将串联的特征描述子送入卷积层，得到空间维度的加权特征图。聚合通道维度的加权特征图和空间维度的加权特征图，得到帧内加权特征图。

本公开的实施例利用视频时序信息和图片空间、通道信息，改善深度学习目标检测模型上对低质量目标和小目标检测的不足，确定能覆盖每个目标最小矩形框。本公开实施例中，由于辅助图片上存在的相同运动目标和固定背景，以及目标图片上空间和通道上下文信息，能够获得更加准确的物体边界框并缓解漏检、误检问题，从而有助于目标检测准确度的提高。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。

在一些实施例中，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

需要说明的是，本公开实施例提供的视频目标检测方法，执行主体还可以为视频目标检测装置，或者该视频目标检测装置中的用于执行视频目标检测方法的控制模块。下文实施例中以视频目标检测装置执行视频目标检测方法为例，说明本公开实施例提供的视频目标检测装置。

图5示出本公开实施例中一种视频目标检测装置示意图，如图5所示，该视频目标检测装置，包括视频获取模块510、特征提取模块520、帧间注意力模块530、帧内注意力模块540、检测模块550。

视频获取模块510，用于获取待检测视频，待检测视频包括多帧图像，多帧图像中包括目标对象；

特征提取模块520，用于针对每帧图像，提取得到多个特征图，多个特征图具有不同的特征尺度；

帧间注意力模块530，用于基于多帧图像序列的帧间时序信息，校准多个特征图，得到帧间加权特征图；

帧内注意力模块540，用于基于每帧图像对应的帧内通道和空间注意力信息，校准多个特征图，得到帧内加权特征图；

检测模块550，用于基于帧间加权特征图和帧内加权特征图，确定多帧图像中的目标对象。

在一些实施例中，视频获取模块510，还可以用于对视频按每帧切分成图像序列，在网络训练阶段，每10帧选取1帧作为目标训练图像，其前后连续帧作为辅助训练图像；对于图片的输入尺寸，按输入要求的不同分为：原图、压缩图像，若为压缩图像，则图像中目标的中心点、边界框宽高真值也要做相应的压缩；网络训练阶段，对输入图像进行随机缩放、随机裁剪、随机翻转等操作，以增强训练网络的鲁棒性。

在一些实施例中，多帧图像包括目标图像及与目标图像相邻的辅助图像，帧间注意力模块530，可以具体用于将多帧图像对应的多个特征图中尺度相同的特征图进行叠加后，输入时序注意力网络，以使时序注意力网络根据多帧图像对应的局部时间上下文和全局时间上下文，确定目标图像对应的卷积权重；根据目标图像对应的局部时间上下文，通过目标图像的空间维度上的全局平均池化，获得帧描述子；根据全局时间上下文，对多帧特征图做线性映射，获得全局描述子，将全局描述子叠加到帧描述子上；基于叠加了全局描述子的帧描述子，和目标图像对应的卷积权重，在时间维度上进行1D卷积，得到卷积后的加权目标特征图；针对卷积后的加权目标特征图，经过上采样操作到最大尺度，再通过可变形卷积叠加到同一特征图上，得到帧间加权特征图。

在一些实施例中，特征尺度，包括图像的通道数和分辨率。

在一些实施例中，帧内注意力模块540，可以具体用于压缩空间维度信息，通过共享权重的多层感知机网络，生成不同的通道注意力权重，再逐元素求和，得到通道维度的加权特征图；压缩通道维度信息，将串联的特征描述子送入卷积层，得到空间维度的加权特征图；聚合通道维度的加权特征图和空间维度的加权特征图，得到帧内加权特征图。

在一些实施例中，帧内注意力模块540，还可以用于将6个不同尺度特征图，作为帧内注意力网络的输入；在通道注意力方面，压缩空间维度信息，通过共享权重的多层感知机网络，生成不同的通道注意力权重，再逐元素求和；在空间注意力方面，压缩通道维度信息，将串联的特征描述子送入卷积层，得到空间维度的加权特征图；6个不同尺度的加权目标特征图，经过上采样或下采样操作得到与第4层尺度相同的维度，再聚合特征图，作为帧内注意力模块的输出。

在一些实施例中，检测模块550，包括：

特征聚合单元551，用于将帧间加权特征图和帧内加权特征图进行特征聚合，得到图像的中心点热力图、中心点偏移量和目标对象边界相对于中心点的距离；

预测单元552，用于基于图像的中心点热力图、中心点偏移量和目标对象边界相对于中心点的距离，标记图像中目标对象的边界框。

在一些实施例中，特征聚合单元551，可以具体用于将帧间加权特征图和帧内加权特征图逐元素求和，得到聚合特征图；基于聚合特征图，经过卷积操作，得到图像的中心点热力图、中心点偏移量和目标对象边界相对于中心点的距离。

在一些实施例中，该视频目标检测装置，还可以包括：

置信度模块，用于基于图像的中心点热力图，确定目标对象的预测置信度。

在一些实施例中，特征聚合单元551用于将帧间注意力模块530和帧内注意力模块540的两个注意力加权特征图逐元素求和，作为网络预测模块的输入；经过卷积操作获得3个不同的输出分支，分别为：中心点热力图、中心点偏移量，即中心点相对于原图产生的偏移、目标边界相对于中心点的距离；网络训练阶段，3个分支的输出与图片目标真实值对比计算，反向传播更新网络参数；网络预测阶段，3个分支可确定目标边界框。

在一些实施例中，检测模块550还用于特征图层面的相关坐标按比例调整到原图中，在原图上按坐标绘制目标框以及目标预测置信度，其中，置信度为中心点热力图数值；将图片序列拼接成视频，作为检测结果，网络预测阶段，可实时展示每帧检测图片。

通过上述实施例，在得到各个目标图像的3个分支输出后，确定目标图像上各个目标物体的边界位置，能够实现像素级的目标检测，从而获得准确的检测结果。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。

实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图6示出本公开实施例中一种特征聚合模块示意图，如图6所示，C1-C6表示6种尺度的特征图，在6个不同尺度特征图上选取4个实现特征的时序建模，6个特征图分别完成帧内空间和通道加权，再进行特征的聚合，获得最终输出特征图。下面结合附图6说明本公开实施例提供的视频目标检测方法及装置。

输入视频拆分成图像序列，每帧图像其中，/>表示实数集，H表示高，W表示宽。经过特征提取模块后获得6个不同尺度特征图，假设图6所示C3层特征图R为特征图相对于原图分辨率降低倍数。

对于帧间注意力模块，可将目标图像和辅助图像输入特征提取模块提取特征图，目标图像特征图{X_n}_{n＝1，2，3，4}，辅助图像特征图{T*X′_n}_{n＝1，2，3，4}，T代表辅助图像的帧数，一般的，T＝2或4。如图7所示，在每种尺度特征图上的时序建模操作如下：

其中，代表额外时间权重α的映射函数，Conv代表1D卷积，v和g分别代表上文中的帧描述子和全局描述子，其中v＝GAP(X₃)，g＝GAP(X₃，X′₃)，GAP代表全局平均池化。ρ代表ReLU和批标准化操作，FC代表线性映射。

通过上述步骤，可获得相对于目标图像特征图的时间校正权重α，那么帧间加权特征图，也就是目标特征图时序建模特征可表示为：

其中*代表卷积运算，·代表元素相乘，W_b为原目标特征图的基础权重，W_n代表校准后权重，X代表特征图，α代表加权向量，下标n为n帧特征图。

对于帧内注意力模块，可分为通道加权和空间加权两步，如图8所示，可解释如下：

目标图像输入特征提取模块进行特征提取，获得6个不同尺度特征图，作为帧内注意力网络的输入。在通道注意力方面，首先使用平均池化和最大池化压缩目标特征图的空间维度，生成2个不同的空间上下文描述子。将2个描述子输入到共享权重的多层感知机网络(图8中用MLP表示)，生成不同的通道注意力权重，经过线性映射后逐元素求和，获得最终的通道注意力权重，公式表示如下：

F_c＝MLP(AvgPool(X_n))+MLP(MaxPool(X_n)) (3)

其中F_c表示通道加权特征图，MLP表示共享权重的多层感知机网络，AvgPool和MaxPool分别表示平均池化和最大池化。

在空间注意力方面，使用平均池化和最大池化压缩目标特征图的通道维度，将生成的两个特征图串联起来作为一个特征描述子，将串联的特征描述子送入卷积核为7×7的卷积层，得到空间维度的加权特征图，公式表示如下：

FS＝f^7×7[AvgPool(F_c*X_l)；MaxPool(F_c*X_l)] (4)

其中F_S表示空间加权特征图，f^7×7表示卷积核大小为7×7的卷积运算。

将帧间注意力模块和帧内注意力模块的两个注意力加权特征图逐元素求和，具体操作如图6特征聚合单元所示，此模块输出作为预测单元的输入，预测单元经过多层卷积，可有如下3个输出：

1、目标中心点热力图(Class，h，w)，其中Class为目标类别数，每个像素点取值范围为[0,1]，其中，像素点取值若大于或等于其周围8个近邻点，则认为该像素为目标中心点，且像素点为该点的预测置信度。使用如下损失函数对模型进行训练：

其中，L_FHM表示特征聚合的中心点热力图损失，表示每个像素的预测值，Y_xy＝1代表该像素是目标的中心点，α和β为损失的超参数，通常的，设置为2和4。

2、中心点偏移量(1，h，w)，即中心点相对于原图产生的偏移，由于输出的特征图是原始输入尺寸的1/R，造成了求取中心点时存在一定的精度损失。针对这种情况，给出了中心点偏置损失，使用L1 loss对模型进行训练：

其中代表预测偏移量，/>是原图下采样后的坐标位置，/>是中心点预测值。

3、目标边界相对于中心点的距离(2，h，w)，维度2分别为宽、高。有了目标中心点，再结合目标宽高后，目标就能被唯一确定，使用L1 loss对模型进行训练：

其中表示预测的尺寸，S_k表示真实边界框尺寸。

综上所述，总体训练损失函数为：

L＝L_FHM+λ_sizeL_size+λ_offL_off (8)

λ_size和λ_off为超参数，分别设置为0.1和1，表示L_size和L_off的损失所占权重。

相关技术中的视频检测器大多使用光流或背景建模方法来获取时序信息或学习动态目标，忽略了特征图的时序信息以及视频中的静止目标，因此检测准确度较低。本公开实施例中提供的视频目标检测方法，通过学习特征图时序信息，以及目标图像空间和通道上下文信息，对目标检测的准确度有很大的提升。

将本公开实力提供的视频检测方法，在交通场景的视频数据集UA-DETRAC和UAVDT上进行实验，实验结果表明了本公开实施例提供的视频目标检测的方法，在多种检测场景下效果均有提升，如表1和表2所示：

表1在UA-DETRAC数据集上实验结果

检测场景	全部	简单	中等	困难	阴天	晚上	雨天	晴天
									基线方法	84.19	96.75	89.59	73.16	87.31	85.71	78.18	89.86
本公开	87.52	97.77	92.34	78.34	91.31	88.07	82.1	91.37

表2在UAVDT数据集上实验结果

检测场景	全部
		基线方法	51.18
本公开	56.63

下面参照图9来描述本公开实施例提供的电子设备。图9显示的电子设备900仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

图9示出本本公实施例提供的一种电子设备900的架构示意图。如图9所示，该电子设备900包括但不限于：至少一个处理器910、至少一个存储器920。

存储器920，用于存储指令。

在一些实施例中，存储器920可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)9201和/或高速缓存存储单元9202，还可以进一步包括只读存储单元(ROM)9203。

在一些实施例中，存储器920还可以包括具有一组(至少一个)程序模块9205的程序/实用工具9204，这样的程序模块9205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

在一些实施例中，存储器920可存储操作系统。该操作系统可以是实时操作系统(Real Time eXecutive，RTX)、LINUX、UNIX、WINDOWS或OS X之类的操作系统。

在一些实施例中，存储器920中还可以存储有数据。

作为一个示例，处理器910可以读取存储器920中存储的数据，该数据可以与指令存储在相同的存储地址，该数据也可以与指令存储在不同的存储地址。

处理器910，用于调用存储器920中存储的指令，实现本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理器910可以执行上述方法实施例描述的视频目标检测方法的各步骤。

需要说明的是，上述处理器910可以是通用处理器或者专用处理器。处理器910可以包括一个或者一个以上处理核心，处理器910通过运行指令执行各种功能应用以及数据处理。

在一些实施例中，处理器910可以包括中央处理器(central processing unit，CPU)和/或基带处理器。

在一些实施例中，处理器910可以根据各个控制指令中携带的优先级标识和/或功能类别信息确定一个指令。

本公开中，处理器910和存储器920可以单独设置，也可以集成在一起。

作为一个示例，处理器910和存储器920可以集成在单板或者系统级芯片(systemon chip，SOC)上。

如图9所示，电子设备900以通用计算设备的形式表现。电子设备900还可以包括总线930。

总线930可以为表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

电子设备900也可以与一个或多个外部设备940(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备900交互的设备通信，和/或与使得该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口950进行。

并且，电子设备900还可以通过网络适配器960与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。

如图9所示，网络适配器960通过总线930与电子设备900的其它模块通信。

应当明白，尽管图中未示出，可以结合电子设备900使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

可以理解的是，本公开实施例示意的结构并不构成对电子设备900的具体限定。在本公开另一些实施例中，电子设备900可以包括比图9所示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图9所示的部件可以以硬件，软件或软件和硬件的组合实现。

本公开还提供了一种计算机可读存储介质，其上存储有计算机指令，计算机指令被处理器执行时实现上述方法实施例描述的视频目标检测方法。

本公开实施例中计算机可读存储介质，为可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的计算机指令。

作为一个示例，计算机可读存储介质是非易失性存储介质。

在一些实施例中，本公开中的计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、U盘、移动硬盘或者上述的任意合适的组合。

本公开实施例中，计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机指令(可读程序代码)。

这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。

在一些示例中，计算机可读存储介质上包含的计算指令可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

本公开实施例还提供一种计算机程序产品，计算机程序产品存储有指令，指令在由计算机执行时，使得计算机实施上述方法实施例描述的视频目标检测方法。

上述指令可以是程序代码。在具体实施时，程序代码可以由一种或多种程序设计语言的任意组合来编写。

程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。

程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本公开实施例还提供了一种芯片，包括至少一个处理器和接口；

接口，用于为至少一个处理器提供程序指令或者数据；

至少一个处理器用于执行程序指令，以实现上述方法实施例描述的视频目标检测方法。

在一些实施例中，该芯片还可以包括存储器，该存储器，用于保存程序指令和数据，存储器位于处理器之内或处理器之外。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。

本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

Claims

1.一种视频目标检测方法，其特征在于，包括：

获取待检测视频，所述待检测视频包括多帧图像序列，多帧图像中包括目标对象；

针对每帧图像，提取得到多个特征图，所述多个特征图具有不同的特征尺度；

基于所述多帧图像序列的帧间时序信息，校准所述多个特征图，得到帧间加权特征图；

基于每帧图像对应的帧内通道和空间注意力信息，校准所述多个特征图，得到帧内加权特征图；

基于所述帧间加权特征图和所述帧内加权特征图，确定所述多帧图像中的所述目标对象；

所述基于所述帧间加权特征图和所述帧内加权特征图，确定所述多帧图像中的所述目标对象，包括：

针对每帧图像对应的所述帧间加权特征图和所述帧内加权特征图，执行如下步骤：

将所述帧间加权特征图和所述帧内加权特征图进行特征聚合，得到所述图像的中心点热力图、中心点偏移量和目标对象边界相对于中心点的距离；

基于所述图像的中心点热力图、中心点偏移量和目标对象边界相对于中心点的距离，标记所述图像中目标对象的边界框；

所述多帧图像包括目标图像及与所述目标图像相邻的辅助图像，所述基于所述多帧图像序列的帧间时序信息，校准所述多个特征图，得到帧间加权特征图，包括：

将所述多帧图像对应的多个特征图中尺度相同的特征图叠加后，输入时序注意力网络，以使所述时序注意力网络根据所述多帧图像对应的局部时间上下文和全局时间上下文，确定所述目标图像对应的卷积权重；

根据所述目标图像对应的局部时间上下文，通过所述目标图像的空间维度上的全局平均池化，获得帧描述子；

根据所述全局时间上下文，对叠加后的所述多帧特征图做线性映射，获得全局描述子；

将所述全局描述子叠加到所述帧描述子上；

基于叠加了全局描述子的所述帧描述子，和所述目标图像对应的卷积权重，在时间维度上进行1D卷积，得到卷积后的加权目标特征图；

针对所述卷积后的加权目标特征图，经过上采样操作到最大尺度，再通过可变形卷积叠加到同一特征图上，得到帧间加权特征图。

2.根据权利要求1所述的方法，其特征在于，将所述帧间加权特征图和所述帧内加权特征图进行特征聚合，得到所述图像的中心点热力图、中心点偏移量和目标对象边界相对于中心点的距离，包括：

将所述帧间加权特征图和所述帧内加权特征图逐元素求和，得到聚合特征图；

基于所述聚合特征图，经过卷积操作，得到所述图像的中心点热力图、中心点偏移量和目标对象边界相对于中心点的距离。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述图像的中心点热力图，确定所述目标对象的预测置信度。

4.根据权利要求1所述的方法，其特征在于，所述特征尺度，包括图像的通道数和分辨率。

5.根据权利要求1所述的方法，其特征在于，所述基于每帧图像对应的帧内通道和空间注意力信息，校准所述多个特征图，得到帧内加权特征图，包括：

压缩空间维度信息，通过共享权重的多层感知机网络，生成不同的通道注意力权重，再逐元素求和，得到通道维度的加权特征图；

压缩通道维度信息，将串联的特征描述子送入卷积层，得到空间维度的加权特征图；

聚合所述通道维度的加权特征图和所述空间维度的加权特征图，得到帧内加权特征图。

6.一种视频目标检测装置，其特征在于，包括：

视频获取模块，用于获取待检测视频，所述待检测视频包括多帧图像，多帧图像中包括目标对象；

特征提取模块，用于针对每帧图像，提取得到多个特征图，所述多个特征图具有不同的特征尺度；

帧间注意力模块，用于基于所述多帧图像序列的帧间时序信息，校准所述多个特征图，得到帧间加权特征图；

帧内注意力模块，用于基于每帧图像对应的帧内通道和空间注意力信息，校准所述多个特征图，得到帧内加权特征图；

检测模块，用于基于所述帧间加权特征图和所述帧内加权特征图，确定所述多帧图像中的所述目标对象；

检测模块，包括特征聚合单元和预测单元；特征聚合单元，用于将帧间加权特征图和帧内加权特征图进行特征聚合，得到图像的中心点热力图、中心点偏移量和目标对象边界相对于中心点的距离；预测单元，用于基于图像的中心点热力图、中心点偏移量和目标对象边界相对于中心点的距离，标记图像中目标对象的边界框；

多帧图像包括目标图像及与目标图像相邻的辅助图像，帧间注意力模块，具体用于将多帧图像对应的多个特征图中尺度相同的特征图进行叠加后，输入时序注意力网络，以使时序注意力网络根据多帧图像对应的局部时间上下文和全局时间上下文，确定目标图像对应的卷积权重；根据目标图像对应的局部时间上下文，通过目标图像的空间维度上的全局平均池化，获得帧描述子；根据全局时间上下文，对多帧特征图做线性映射，获得全局描述子，将全局描述子叠加到帧描述子上；基于叠加了全局描述子的帧描述子，和目标图像对应的卷积权重，在时间维度上进行1D卷积，得到卷积后的加权目标特征图；针对卷积后的加权目标特征图，经过上采样操作到最大尺度，再通过可变形卷积叠加到同一特征图上，得到帧间加权特征图。

7.一种电子设备，其特征在于，包括：

存储器，用于存储指令；

处理器，用于调用所述存储器中存储的指令，实现如权利要求1-5任一项所述视频目标检测方法。

8.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1-5中任意一项所述视频目标检测方法。