CN113191318A

CN113191318A - 目标检测方法、装置、电子设备及存储介质

Info

Publication number: CN113191318A
Application number: CN202110558156.1A
Authority: CN
Inventors: 何路; 周千寓; 李祥泰; 程光亮; 李逍; 马利庄
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2021-07-30

Abstract

本公开提供了一种目标检测方法、装置、电子设备及存储介质，该方法包括：获取目标视频中的待测视频帧和待测视频帧之前的历史视频帧；将历史视频帧与待测视频帧进行特征聚合处理，生成第一聚合特征数据；以及分别对待测视频帧和历史视频帧进行目标检测，确定待测视频帧对应的目标数量的第一特征数据，和历史视频帧对应的目标数量的第二特征数据；并将第一特征数据和第二特征数据进行特征聚合处理，生成第二聚合特征数据；基于第一聚合特征数据和第二聚合特征数据，确定待测视频帧对应的检测结果。

Description

目标检测方法、装置、电子设备及存储介质

技术领域

本公开涉及图像处理技术领域，具体而言，涉及一种目标检测方法、装置、电子设备及存储介质。

背景技术

视频目标检测是计算机视觉领域、智能视频分析领域的新兴问题。其中，视频目标检测的任务是旨在对一段视频序列进行逐帧检测，确定视频序列中每帧图像的检测结果。一般的，视频目标检测可以应用于监控设备、机动车辆、可穿戴设备等等智能设备中。

但是，由于采集的视频中可能存在图像模糊、目标遮挡、目标姿态异常等问题，使得视频目标检测结果的准确程度较低。

发明内容

有鉴于此，本公开至少提供一种目标检测方法、装置、电子设备及存储介质。

第一方面，本公开提供了一种目标检测方法，包括：

获取目标视频中的待测视频帧和所述待测视频帧之前的历史视频帧；

将所述历史视频帧与所述待测视频帧进行特征聚合处理，生成第一聚合特征数据；以及

分别对所述待测视频帧和所述历史视频帧进行目标检测，确定所述待测视频帧对应的目标数量的第一特征数据，和所述历史视频帧对应的目标数量的第二特征数据；并将所述第一特征数据和所述第二特征数据进行特征聚合处理，生成第二聚合特征数据；

基于所述第一聚合特征数据和所述第二聚合特征数据，确定所述待测视频帧对应的检测结果。

上述方法中，通过获取待测视频帧和历史视频帧，将历史视频帧和待测视频帧进行特征聚合处理，生成第一聚合特征数据，使得第一聚合特征数据中可以包括待测视频帧和历史视频帧在时序上的图像特征信息；以及可以分别对待测视频帧和历史视频帧进行目标检测，生成第一特征数据和第二特征数据，并将第一特征数据和第二特征数据进行特征聚合处理，生成第二聚合特征数据，使得生成的第二聚合特征数据中包含有待测视频帧和历史视频帧中目标的空间特征，进而基于第一聚合特征数据和第二聚合特征数据，能够较准确的确定待测视频帧的检测结果，提高了目标视频检测的准确性。

一种可能的实施方式中，获取目标视频中的待测视频帧和所述待测视频帧之前的历史视频帧之后，还包括：

对所述待测视频帧进行特征提取，得到第一图像特征数据；以及，对所述历史视频帧进行特征提取，得到第二图像特征数据；

所述将所述历史视频帧与所述待测视频帧进行特征聚合处理，生成第一聚合特征数据，包括：

将所述第二图像特征数据与所述第一图像特征数据进行特征聚合处理，生成第一聚合特征数据；

分别对所述待测视频帧和所述历史视频帧进行目标检测，包括：

利用所述第一图像特征数据和所述第二图像特征数据，进行所述目标检测。

一种可能的实施方式中，根据以下步骤确定待处理视频帧对应的待处理图像特征数据：

对所述待处理视频帧进行特征提取，生成所述待处理视频帧对应的中间特征图；

对所述中间特征图中的各特征数据进行特征融合处理，生成所述待处理视频帧对应的所述待处理图像特征数据；

其中，当所述待处理视频帧为所述待测视频帧时，所述待处理图像特征数据为所述第一图像特征数据；当所述待处理视频帧为所述历史视频帧时，所述待处理图像特征数据为所述第二图像特征数据。

这里，可以先对待处理视频帧进行特征提取，生成中间特征图；再对中间特征图中的各特征数据进行特征融合处理，生成待处理图像特征数据，增强了提取到的图像特征，即可以使得生成的第一图像特征数据和第二图像特征数据具有较为丰富的图像特征。

一种可能的实施方式中，在所述历史视频帧包括多帧的情况下，所述将所述第二图像特征数据与所述第一图像特征数据进行特征聚合处理，生成第一聚合特征数据，包括：

根据每帧历史视频帧的采集时间顺序，将各帧历史视频帧对应的所述第二图像特征数据进行级联，生成级联后的第二图像特征数据；

将所述级联后的第二图像特征数据与所述第一图像特征数据进行特征聚合处理，生成第一聚合特征数据。

采用上述方法，根据每帧历史视频帧对应的采集时间顺序，将各帧历史视频帧对应的第二图像特征数据进行级联，生成级联后的第二图像特征数据，可以使得图像特征按照时序进行连接，进而可以将级联后的第二图像特征数据与第一图像特征数据进行特征聚合处理，生成第一聚合特征数据，使得第一聚合特征数据中包括历史视频帧和待测视频帧中的图像特征和时序特征。

一种可能的实施方式中，所述将所述级联后的第二图像特征数据与所述第一图像特征数据进行特征聚合处理，生成第一聚合特征数据，包括：

基于确定的数量参数，从所述级联后的第二图像特征数据中确定目标图像特征数据；以及

对所述第一图像特征数据中的各中间图像特征数据进行特征融合处理，生成融合后的第一图像特征数据；

将所述目标图像特征数据和所述融合后的第一图像特征数据进行特征聚合，生成所述第一聚合特征数据。

这里，通过基于确定的数量参数，从级联后的第二图像特征数据中确定目标图像特征数据，实现了对第二图像特征数据的筛选，进而在将目标图像特征数据和融合后的第一图像特征数据进行特征聚合，生成第一聚合特征数据时，可以降低计算量，提高了视频检测的效率。

一种可能的实施方式中，所述将所述第一特征数据和所述第二特征数据进行特征聚合处理，生成第二聚合特征数据，包括：

确定每个所述第二特征数据对应的置信度；其中，所述目标数量用于表征所述历史视频帧或所述待测视频帧中包括的预设目标的数量，所述置信度用于表征所述第二特征数据对应的所述预设目标在所述历史视频帧中存在的概率；

基于所述第二特征数据对应的所述置信度，将所述第一特征数据和所述第二特征数据进行特征聚合处理，生成第二聚合特征数据。

这里，第二特征数据对应的置信度用于表征第二特征数据对应的预设目标在历史视频帧中存在的概率，置信度越大，则该第二特征数据的特征信息越可信，进而在基于第二特征数据对应的置信度，将第一特征数据和第二特征数据进行特征聚合处理时，生成的第二聚合特征数据的特征信息更加丰富和准确。

一种可能的实施方式中，所述基于所述第二特征数据对应的所述置信度，将所述第一特征数据和所述第二特征数据进行特征聚合处理，生成第二聚合特征数据，包括：

按照置信度从大到小的顺序，从所述历史视频帧对应的多个第二特征数据中选择N₁个目标第二特征数据；并将所述N₁个目标第二特征数据与所述第一特征数据进行特征聚合处理，生成中间特征数据；其中N₁为正整数；

重复执行M-1次下述特征聚合过程：按照置信度从大到小的顺序，从所述历史视频帧对应的多个第二特征数据中选择N_i个目标第二特征数据；并将所述N_i个目标第二特征数据和最新的中间特征数据进行特征聚合处理，生成更新后的中间特征数据；其中N_i为小于N_i-1的正整数；i＝2、3、…、M；M为正整数；

将第M次特征聚合过程生成的中间特征数据，作为所述第二聚合特征数据。

这里，采用由粗到细的筛选机制，在多次特征融合过程中，选取的目标第二特征数据的数量在逐次递减，通过多次特征聚合过程，可以使得生成的第二聚合特征数据的特征较为丰富。

一种可能的实施方式中，所述基于所述第一聚合特征数据和所述第二聚合特征数据，确定所述待测视频帧对应的检测结果，包括：

对所述第一聚合特征数据进行特征融合处理，生成融合后的第一聚合特征数据；

将所述融合后的第一聚合特征数据和所述第二聚合特征数据进行特征聚合，生成第三聚合特征数据；

对所述第三聚合特征数据进行特征提取，生成所述目标特征数据；

基于所述目标特征数据，确定所述待测视频帧对应的检测结果。

一种可能的实施方式中，在所述目标视频包括行驶装置在行驶过程中采集的视频数据的情况下，在确定所述待测视频帧对应的检测结果之后，还包括：

基于所述待测视频帧对应的检测结果，控制所述行驶装置。

这里，通过对待测视频帧进行检测，能够得到较为准确的检测结果，进而基于待测视频帧对应的检测结果，可以对行驶装置进行较为精准的控制，保障行驶装置的安全行驶。

一种可能的实施方式中，在所述目标视频包括行驶道路对应的视频数据的情况下，在确定所述待测视频帧对应的检测结果之后，还包括：

基于所述目标视频中各个待测视频帧对应的检测结果，确定所述行驶道路的道路拥堵状态；

基于所述行驶道路的道路拥堵状态，生成针对所述行驶道路的通行策略。

这里，在得到较为准确的检测结果之后，可以基于目标视频中各个待测视频帧的检测结果，较为准确的确定行驶道路的道路拥堵状态，进一步可以生成较为有效的通行策略，保障行驶道路的通畅行驶。

以下装置、电子设备等的效果描述参见上述方法的说明，这里不再赘述。

第二方面，本公开提供了一种目标检测装置，包括：

获取模块，用于获取目标视频中的待测视频帧和所述待测视频帧之前的历史视频帧；

第一生成模块，用于将所述历史视频帧与所述待测视频帧进行特征聚合处理，生成第一聚合特征数据；以及

第二生成模块，用于分别对所述待测视频帧和所述历史视频帧进行目标检测，确定所述待测视频帧对应的目标数量的第一特征数据，和所述历史视频帧对应的目标数量的第二特征数据；并将所述第一特征数据和所述第二特征数据进行特征聚合处理，生成第二聚合特征数据；

确定模块，用于基于所述第一聚合特征数据和所述第二聚合特征数据，确定所述待测视频帧对应的检测结果。

第三方面，本公开提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述第一方面或任一实施方式所述的目标检测方法的步骤。

第四方面，本公开提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述第一方面或任一实施方式所述的目标检测方法的步骤。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种目标检测方法的流程示意图；

图2示出了本公开实施例所提供的一种目标检测方法中，生成第一聚合特征数据的具体方式的流程示意图；

图3示出了本公开实施例所提供的一种目标检测方法中，目标神经网络的架构示意图；

图4示出了本公开实施例所提供的一种目标检测装置的架构示意图；

图5示出了本公开实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

视频目标检测的任务是旨在对一段视频序列进行逐帧检测，确定视频序列中每帧图像的检测结果。其中，视频目标检测可以应用于监控设备、机动车辆、可穿戴设备等等智能设备中。但是，由于采集的视频中可能存在图像模糊、目标遮挡、目标姿态异常等问题，使得视频目标检测结果的准确程度较低。

一般的，在对待检测视频进行目标检测时，可以首先对待检测视频中的每帧待检测图像进行目标检测，得到每帧待检测图像的检测结果；然后使用后处理方法，将各帧待检测图像的检测结果进行链接，得到待检测视频的检测结果。但是使用上述方法，在待检测图像模糊或待检测图像中的目标对象被遮挡时，待检测图像的检测结果的准确性较低，这会降低待检测视频的检测结果的准确性。同时，将各帧待检测图像的检测结果进行链接，得到待检测视频的检测结果的方式，会使得待检测视频的检测较为繁琐，检测效率较低。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案，都应该是发明人在本公开过程中对本公开做出的贡献。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本公开实施例进行理解，首先对本公开实施例所公开的一种目标检测方法进行详细介绍。本公开实施例所提供的目标检测方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该目标检测方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

参见图1所示，为本公开实施例所提供的目标检测方法的流程示意图，该方法包括S101-S104，其中：

S101，获取目标视频中的待测视频帧和待测视频帧之前的历史视频帧；

S102，将历史视频帧与待测视频帧进行特征聚合处理，生成第一聚合特征数据；

S103，分别对待测视频帧和历史视频帧进行目标检测，确定待测视频帧对应的目标数量的第一特征数据，和历史视频帧对应的目标数量的第二特征数据；并将第一特征数据和第二特征数据进行特征聚合处理，生成第二聚合特征数据；

S104，基于第一聚合特征数据和第二聚合特征数据，确定待测视频帧对应的检测结果。

针对S101：

目标视频可以为任一待检测视频，比如，在自动驾驶场景中，目标视频可以为车辆上设置的摄像头采集的道路视频；在增强现实(Augmented Reality，AR)场景中，目标视频可以为AR设备在移动过程中实时采集的场景视频。

待测视频帧为目标视频中的任一帧待检测图像，以及历史视频帧为采集时间位于待测视频帧之前的历史图像，其中，历史视频帧的数量可以为一帧，也可以为多帧。

在S101获取目标视频中的待测视频帧和待测视频帧之前的历史视频帧之后，该方法还包括：对待测视频帧进行特征提取，得到第一图像特征数据；以及，对历史视频帧进行特征提取，得到第二图像特征数据。

进而在得到第一图像特征数据和第二图像特征数据之后，可以将第二图像特征数据与第一图像特征数据进行特征聚合处理，生成第一聚合特征数据。以及可以分别对第一图像特征数据和第二图像特征数据进行目标检测，确定与待测视频帧中第一预设目标对应的第一特征数据，和与历史视频帧中第二预设目标对应的第二特征数据。

一种可选实施方式中，根据下述步骤A1和步骤A2确定待处理视频帧对应的待处理图像特征数据：

步骤A1，对待处理视频帧进行特征提取，生成待处理视频帧对应的中间特征图。

步骤A2，对中间特征图中的各特征数据进行特征融合处理，生成待处理视频帧对应的待处理图像特征数据。其中，当待处理视频帧为待测视频帧时，待处理图像特征数据为第一图像特征数据；当待处理视频帧为历史视频帧时，待处理图像特征数据为第二图像特征数据。

以待处理视频帧为待测视频帧，待处理图像特征数据为第一图像特征数据为例进行说明，可以利用特征提取模块(比如卷积神经网络)，对待测视频帧进行特征提取，生成待测视频帧对应的中间特征图。再可以利用transformer结构中的编码器，对中间特征图中各特征数据进行特征融合处理，生成待测视频帧对应的第一图像特征数据。其中，历史视频帧对应的第二图像特征数据的确定过程可参考上述第一图像特征数据的确定过程，此处不再详述。

该方法中的S102和S103的执行顺序不分先后，可以并行执行。

针对S102：

在生成了历史视频帧对应的第二图像特征数据和待测视频帧对应的第一图像特征数据之后，可以将第一图像特征数据和第二图像特征数据进行特征聚合处理，生成第一聚合特征数据。

一种可选实施方式中，参见图2所示，在历史视频帧包括多帧的情况下，将第二图像特征数据与第一图像特征数据进行特征聚合处理，生成第一聚合特征数据，可以包括：

S201，根据每帧历史视频帧的采集时间顺序，将各帧历史视频帧对应的第二图像特征数据进行级联，生成级联后的第二图像特征数据；

S202，将级联后的第二图像特征数据与第一图像特征数据进行特征聚合处理，生成第一聚合特征数据。

在S201中，假设历史视频帧的数量为3帧，即包括第一历史视频帧、第二历史视频帧、第三历史视频帧，每帧历史视频帧对应的第二图像特征数据包括16个特征向量，可以按照每帧历史视频帧对应的采集时间，生成级联后的第二图像特征数据，该级联后的第二图像特征数据中包括48个特征向量，其中，48个特征向量的前面16个特征向量对应于第一历史视频帧；中间16个特征向量对应于第二历史视频帧；后面16个特征向量对应于第三历史视频帧。

进而，可以使用transformer结构中的编码器，将级联后的第二图像特征数据与第一图像特征数据进行特征聚合处理，生成第一聚合特征数据。示例性的，步骤b1、可利用自注意力Self-Attention网络，对最新的第一图像特征数据进行特征融合处理，生成融合后的第一图像特征数据。步骤b2、可以利用交叉注意力网络Cross-Attention Network，对级联后的第二图像特征数据和融合后的第一图像特征数据进行特征融合处理，生成融合后的第二图像特征数据。步骤b3、可以利用前馈神经网络Feed-Forword Network对融合后的第二图像特征数据进行特征提取，生成更新后的第一图像特征数据。重复X次上述步骤b1至步骤b3的过程，将最后一次生成的更新后的第一图像特征数据，作为第一聚合特征数据。其中，X的值可以根据实际需要进行设置，比如X可以为3、5、8等。

示例性的，可以使用注意力网络层、卷积网络层等特征处理层，对特征数据进行特征融合处理，生成融合后的特征数据。以及可以使用编码器或解码器等网络结构对特征数据进行特征聚合处理，生成聚合后的特征数据。

在S202中，将级联后的第二图像特征数据与第一图像特征数据进行特征聚合处理，生成第一聚合特征数据，包括：

S2021，基于确定的数量参数，从级联后的第二图像特征数据中确定目标图像特征数据。

S2022，对第一图像特征数据中的各中间图像特征数据进行特征融合处理，生成融合后的第一图像特征数据。

S2023，将目标图像特征数据和融合后的第一图像特征数据进行特征聚合，生成第一聚合特征数据。

其中，S2021和S2022的执行顺序不分先后，可以并行执行。

在S2021中，数量参数的值小于每帧历史视频帧对应的第二图像特征数据的维度。比如，在每帧历史视频帧对应的第二图像特征数据包括16个特征向量时，数量参数的值可以为小于16的正整数。

实施时，在该目标检测方法由训练后的目标神经网络执行时，该数量参数可以作为目标神经网络的一个可学习的网络参数，在训练得到目标神经网络后，可以得到该数量参数。

在确定了数量参数之后，可以根据下述步骤从级联后的第二图像特征数据中确定目标图像特征数据：针对级联后的第二图像特征数据指示的每帧历史视频帧分别对应的候选第二图像特征数据，从候选第二图像特征数据中选取与数量参数一致的局部图像特征数据；进而可以得到各个历史视频帧分别对应的局部图像特征数据，将各个历史视频帧分别对应的局部图像特征数据按照采集时间的顺序再次级联，得到目标图像特征数据。

承接S201的示例继续说明，在级联后的第二图像特征数据中包括48个特征向量，且48个特征向量的前面16个特征向量对应于第一历史视频帧；中间16个特征向量对应于第二历史视频帧；后面16个特征向量对应于第三历史视频帧时，若数量参数的值为9，则针对前面16个特征向量(即针对第一历史视频帧对应的候选第二图像特征数据)，利用设置的全连接网络，得到9个序号(每个序号对应一个特征向量)，根据得到的9个序号从前面16个特征向量中选取9个特征向量，作为第一历史视频帧对应的局部图像特征数据；利用相同的方式，从中间16个特征向量中选取9个特征向量，作为第二历史视频帧对应的局部图像特征数据；以及利用相同的方式，从后面16个特征向量中选取9个特征向量，作为第三历史视频帧对应的局部图像特征数据。

最后将第一历史视频帧对应的局部图像特征数据、第二历史视频帧对应的局部图像特征数据、和第三历史视频帧对应的局部图像特征数据进行级联，生成目标图像特征数据，即该目标图像特征数据中包括选取的27个特征向量。

在S2022中，示例性的，可利用自注意力Self-Attention网络，对第一图像特征数据中的各中间图像特征数据进行特征融合处理，生成融合后的第一图像特征数据。

在S2023中，可以利用注意力机制网络，将目标图像特征数据和融合后的第一图像特征数据进行特征聚合，生成融合后的目标图像特征数据。再可以利用前馈神经网络Feed-Forword Network对融合后的目标图像特征数据进行特征提取，生成更新后的第一图像特征数据。再可以利用更新后的第一图像特征数据，重复执行多次S2021至S2023，并将最后一次过程生成的更新后的第一图像特征数据，作为第一聚合特征数据。

针对S103：

在生成了历史视频帧对应的第二图像特征数据和待测视频帧对应的第一图像特征数据之后，可以分别对第一图像特征数据和第二图像特征数据进行目标检测，确定与待测视频帧中第一预设目标对应的第一特征数据，和与历史视频帧中第二预设目标对应的第二特征数据。

实施时，可以将目标数量的初始特征向量和第一图像特征数据，输入至transformer结构中的解码器中，生成待测视频帧对应的目标数量的第一特征数据。其中，目标数量可以根据具体场景进行设置，目标数量可以用于表征待测视频帧或历史视频帧中包括的预设目标的数量，待测视频帧中的每个预设目标对应一个第一特征数据。比如，目标数量为10时，则可以生成10个第一特征数据。

在历史视频帧为多帧时，针对每帧历史视频帧，可以将目标数量的初始特征向量和该历史视频帧对应的第二图像特征数据，输入至transformer结构中的解码器中，生成该历史视频帧对应的目标数量的第二特征数据，该历史视频帧中的每个预设目标对应一个第二特征数据。进而可以得到多帧历史视频帧中每帧历史视频帧对应的第二特征数据。

一种可选实施方式中，在S103中，将第一特征数据和第二特征数据进行特征聚合处理，生成第二聚合特征数据，可以包括：

S1031，确定每个第二特征数据对应的置信度；其中，置信度用于表征第二特征数据对应的预设目标在历史视频帧中存在的概率。

S1032，基于第二特征数据对应的置信度，将第一特征数据和第二特征数据进行特征聚合处理，生成第二聚合特征数据。

在S1031中，示例性的，可以使用全连接神经网络，确定每个预设目标对应的第二特征数据的置信度。其中，该置信度可以用于表征第二特征数据对应的预设目标在历史视频帧中存在的概率。

一种可选实施方式中，在S1032中，基于第二特征数据对应的置信度，将第一特征数据和第二特征数据进行特征聚合处理，生成第二聚合特征数据，可以包括：

步骤C1，按照置信度从大到小的顺序，从历史视频帧对应的多个第二特征数据中选择N₁个目标第二特征数据；并将N₁个目标第二特征数据与第一特征数据进行特征聚合处理，生成中间特征数据；其中N₁为正整数；

步骤C2，重复执行M-1次下述特征聚合过程：按照置信度从大到小的顺序，从历史视频帧对应的多个第二特征数据中选择N_i个目标第二特征数据；并将N_i个目标第二特征数据和最新的中间特征数据进行特征聚合处理，生成更新后的中间特征数据；其中N_i为小于N_i-1的正整数；i＝2、3、…、M；M为正整数；

步骤C3，将第M次特征聚合过程生成的中间特征数据，作为第二聚合特征数据。

在步骤C1中，在历史视频帧为多帧时，多个第二特征数据包括多帧历史视频帧分别对应的第二特征数据。比如，若历史视频帧为k帧，每帧历史视频帧对应有j个第二特征数据(即目标数量为j)，则历史视频帧对应的多个第二特征数据包括k×j个第二特征数据。即可以按照置信度从大到小的顺序，从k×j个第二特征数据中选择N₁个目标第二特征数据。其中N₁的值可以为任一小于或等于多个第二特征数据的数量的正整数(即N₁≤k×j)。

示例性的，在N₁的数量等于多个第二特征数据的数量(即多个第二特征数据被全部选择)时，可以利用自注意力Self-Attention网络，对多个第一特征数据进行特征融合处理，生成融合后的第一特征数据；在第二预设目标为16个时，则可以将16个目标第二特征数据按照置信度排序，并可以利用交叉注意力网络Cross-Attention Network，对排序后的N₁个(即16个)目标第二特征数据和融合后的第一特征数据进行特征融合处理，生成融合后的第二特征数据；进而可以利用前馈神经网络Feed-Forword Network，对融合后的第二特征数据进行特征提取，生成中间特征数据。

在步骤C2和C3中，M次特征聚合过程中，N_i的值小于N_i-1，即特征融合过程中，目标第二特征数据会依次减少。实施时，在第一次(即i＝2时)特征聚合过程中，可以按照置信度从大到小的顺序，从各个第二特征数据中选择N₂个目标第二特征数据；以及可以利用Self-Attention网络，对多个中间特征数据进行特征融合处理，生成融合后的中间特征数据，在可以利用Cross-Attention Network，对排序后的N₂个目标第二特征数据和融合后的中间特征数据进行特征融合处理，生成融合后的第二特征数据；进而可以利用Feed-ForwordNetwork，对融合后的第二特征数据进行特征提取，生成更新后的中间特征数据。并利用更新后的中间特征数据，执行第二次(即i＝3)特征聚合过程；在执行M次后，可以将第M次特征聚合过程生成的中间特征数据，作为第二聚合特征数据。

这里，采用由粗到细的筛选机制，在多次特征聚合过程中，选取的目标第二特征数据的数量在逐次递减，通过多次特征聚合过程，可以使得生成的第二聚合特征数据的特征较为丰富。

针对S104：

可以将第一聚合特征数据和第二聚合特征数据进行特征聚合处理，生成目标特征数据，再基于目标特征数据，确定待测视频帧对应的检测结果。比如，检测结果可以包括待检测视频中包括的目标对应的类别、位置信息等。其中，目标对象可以为目标视频中出现的任一对象，比如，目标对象可以为行人、车辆、动物、交通标识等等。

一种可选实施方式中，在S104中，基于第一聚合特征数据和第二聚合特征数据，确定待测视频帧对应的检测结果，可以包括：

S1041，对第一聚合特征数据进行特征融合处理，生成融合后的第一聚合特征数据；

S1042，将融合后的第一聚合特征数据和第二聚合特征数据进行特征聚合，生成第三聚合特征数据；

S1043，对第三聚合特征数据进行特征提取，生成目标特征数据；

S1044，基于目标特征数据，确定待测视频帧对应的检测结果。

示例性的，可利用Self-Attention网络对第一聚合特征数据进行特征融合处理，生成融合后的第一聚合特征数据。再可以利用Cross-Attention Network将融合后的第一聚合特征数据和第二聚合特征数据进行特征聚合，生成第三聚合特征数据。再可以利用Feed-Forword Network对第三聚合特征数据进行特征提取，生成目标特征数据。进而对目标特征数据进行特征处理，确定待测视频帧对应的检测结果。

一种可选实施方式中，在目标视频包括行驶装置在行驶过程中采集的视频数据的情况下，在确定待测视频帧对应的检测结果之后，还包括：基于待测视频帧对应的检测结果，控制行驶装置。

在该应用场景中，待测视频帧对应的检测结果可以包括目标对象的类别和位置信息，该目标对象可以为行驶装置在行驶过程中遇到的任一障碍物，比如目标对象可以包括行人、车辆、交通道路路标、栅栏等。行驶装置例如但不限于下述任一种：自动驾驶车辆、装有高级驾驶辅助系统(Advanced Driving Assistance System，ADAS)的车辆、或者机器人等。

实施时，可以根据目标对象的类别和/或位置信息，控制行驶装置，例如包括控制行驶装置加速、减速、转向、制动等，或者可以播放语音提示信息，以提示驾驶员控制行驶装置加速、减速、转向、制动等。

这里，通过对待测视频帧进行检测，能够得到较为准确的检测结果，进而基于待测视频帧中包括的目标对象的检测结果，可以对行驶装置进行较为精准的控制，保障行驶装置的安全行驶。

一种可选实施方式中，在目标视频包括行驶道路对应的视频数据的情况下，在确定待测视频帧对应的检测结果之后，还包括：基于目标视频中各个待测视频帧的检测结果，确定行驶道路的道路拥堵状态；基于行驶道路的道路拥堵状态，生成针对行驶道路的通行策略。

示例性的，可以基于目标视频中各个待测视频帧对应的检测结果，确定该行驶道路上存在的车辆数量、以及单位时间内通过路口的车辆数等车辆通行信息；再根据车辆通行信息，确定行驶道路的道路拥堵状态，比如，若该行驶道路上存在的车辆数量大于设置的第一车辆阈值，和/或单位时间内通过路口的车辆数小于设置的第二车辆阈值，则确定该行驶道路拥堵，进而可以基于行驶道路的道路拥堵状态，生成针对行驶道路的通行策略，比如，可以控制工作人员进行车辆疏通，或者，生成拥堵预警，以避免其他车辆行驶该行驶道路等。

这里，在得到较为准确的检测结果之后，可以基于目标视频中各个待测视频帧分别对应的目标对象的检测结果，较为准确的确定行驶道路的道路拥堵状态，进一步可以生成较为有效的通行策略，保障行驶道路的通畅行驶。

具体实施时，该目标检测方法可以由训练后的目标神经网络进行执行，参见图3所示的一种目标检测方法中，目标神经网络的架构示意图，该图3中的目标神经网络包括卷积神经网络(Convolutional Neural Networks，CNN)、空间自注意力编码器(SpatialTransformer Encoder，STE)、空间自注意力解码器(Spatial Transformer Decoder，STD)、时序目标查询编码器(Temporal QueryEncoder，TQE)、时序可变形自注意力编码器(Temporal Deformable Transformer Encoder，TDTE)、时序可变形自注意力解码器(Temporal Deformable Transformer Decoder，TDTD)、前馈神经网络(FeedforwardNeural Network，FNN)。其中，CNN、STE、和STD可以共享权重参数，比如可以使用同一个CNN分别对待测视频帧和历史视频帧进行特征提取。

下述结合图3所述的目标神经网络，对目标检测方法的执行过程进行示例性说明。可以将待测视频帧和历史视频帧输入至目标神经网络中，目标神经网络中的CNN分别对待测视频帧和历史视频帧进行特征提取，生成待测视频帧对应的待测中间特征图、历史视频帧对应的历史中间特征图；然后再使用STE分别对待测中间特征图和历史中间特征图进行特征融合处理，生成待测视频帧对应的第一图像特征数据、和历史视频帧对应的第二图像特征数据。

一方面，可以利用TDTE中包括的Self-Attention网络对第一图像特征数据进行特征融合处理，生成融合后的第一图像特征数据；以及可以根据每帧历史视频帧的采集时间顺序，将各帧历史视频帧分别对应的第二图像特征数据进行级联，生成级联后的第二图像特征数据；并使用TDTE中的时序变形注意力Temporal Deformable Attention网络，基于确定的数量参数，从级联后的第二图像特征数据中确定目标图像特征数据；并将目标图像特征数据和融合后的第一图像特征数据进行特征聚合，生成融合后的目标图像特征数据。再利用TDTE中的Feed-Forword Network对融合后的目标图像特征数据进行特征提取，生成更新后的第一图像特征数据。再对更新后的第一图像特征数据，重复执行多次上述过程，并将最后生成的更新后的第一图像特征数据，作为第一聚合特征数据。

另一方面，可以使用STD分别对第一图像特征数据和第二图像特征数据进行目标检测，确定与待测视频帧中第一预设目标对应的第一特征数据，和与历史视频帧中第二预设目标对应的第二特征数据。具体的，可以将目标数量的初始特征向量和第一图像特征数据输入至STD中，生成待测视频帧对应的目标数量的第一特征数据。以及可以将目标数量的初始特征向量和第二图像特征数据输入至STD中，生成历史视频帧对应的目标数量的第二特征数据。

其中，目标数量用于表征历史视频帧或待测视频帧中包括的预设目标的数量，以及待测视频帧中的每个预设目标对应一个第一特征数据、历史视频帧中的每个预设目标对应一个第二特征数据。

TQE中的Self-Attention网络对多个第一特征数据进行特征融合处理，生成融合后的第一特征数据；以及TQE中包括的全连接网络可以确定每个第二预设目标对应的第二特征数据的置信度，并可以按照置信度从大到小的顺序，将各个第二特征数据进行排序。进而可以从排序后的多个第二特征数据中选择N₁个目标第二特征数据，TQE中的Cross-Attention Network将N₁个目标第二特征数据与融合后的第一特征数据进行特征融合处理，生成中间特征数据。再可以利用更新的中间特征数据、和选取的N_i个目标第二特征数据，重复执行M次上述特征融合过程，并可以将第M次特征融合过程生成的中间特征数据，作为第二聚合特征数据。

接着，TDTD中的Self-Attention网络可以对第一聚合特征数据进行特征融合处理，生成融合后的第一聚合特征数据。再可以利用Cross-Attention Network将融合后的第一聚合特征数据和第二聚合特征数据进行特征聚合，生成第三聚合特征数据。再可以利用Feed-Forword Network对第三聚合特征数据进行特征提取，生成目标特征数据。

最后，可以使用FNN对目标特征数据进行特征处理，确定待测视频帧中包括的目标对象的检测结果，比如可以使用FNN1确定目标对象的类别，使用FNN2确定目标对象的检测框的位置信息。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于相同的构思，本公开实施例还提供了一种目标检测装置，参见图4所示，为本公开实施例提供的目标检测装置的架构示意图，包括获取模块401、第一生成模块402、第二生成模块403、确定模块404，具体的：

获取模块401，用于获取目标视频中的待测视频帧和所述待测视频帧之前的历史视频帧；

第一生成模块402，用于将所述历史视频帧与所述待测视频帧进行特征聚合处理，生成第一聚合特征数据；以及

第二生成模块403，用于分别对所述待测视频帧和所述历史视频帧进行目标检测，确定所述待测视频帧对应的目标数量的第一特征数据，和所述历史视频帧对应的目标数量的第二特征数据；并将所述第一特征数据和所述第二特征数据进行特征聚合处理，生成第二聚合特征数据；

确定模块404，用于基于所述第一聚合特征数据和所述第二聚合特征数据，确定所述待测视频帧对应的检测结果。

一种可能的实施方式中，获取目标视频中的待测视频帧和所述待测视频帧之前的历史视频帧之后，还包括：提取模块405，用于：对所述待测视频帧进行特征提取，得到第一图像特征数据；以及，对所述历史视频帧进行特征提取，得到第二图像特征数据；

所述第一生成模块402，在将所述历史视频帧与所述待测视频帧进行特征聚合处理，生成第一聚合特征数据时，用于：将所述第二图像特征数据与所述第一图像特征数据进行特征聚合处理，生成第一聚合特征数据；

所述第二生成模块403，在分别对所述待测视频帧和所述历史视频帧进行目标检测时，用于：利用所述第一图像特征数据和所述第二图像特征数据，进行所述目标检测。

一种可能的实施方式中，提取模块405，用于根据以下步骤确定待处理视频帧对应的待处理图像特征数据：

一种可能的实施方式中，在所述历史视频帧包括多帧的情况下，所述第一生成模块402，在将所述第二图像特征数据与所述第一图像特征数据进行特征聚合处理，生成第一聚合特征数据时，用于：

一种可能的实施方式中，所述第一生成模块402，在将所述级联后的第二图像特征数据与所述第一图像特征数据进行特征聚合处理，生成第一聚合特征数据，包括：

一种可能的实施方式中，所述第二生成模块403，在将所述第一特征数据和所述第二特征数据进行特征聚合处理，生成第二聚合特征数据时，用于：

确定每个所述第二特征数据对应的置信度；其中，所述目标数量用于表征所述历史视频帧或所述待测视频帧中包括的预设目标的数量，所述置信度用于表征所述第二特征数据对应的预设目标在所述历史视频帧中存在的概率；

一种可能的实施方式中，在所述第一预设目标和所述第二预设目标为多个的情况下，所述第二生成模块403，在基于所述第二特征数据对应的所述置信度，将所述第一特征数据和所述第二特征数据进行特征聚合处理，生成第二聚合特征数据时，用于：

一种可能的实施方式中，所述确定模块404，在基于所述第一聚合特征数据和所述第二聚合特征数据，确定所述待测视频帧对应的检测结果时，用于：

一种可能的实施方式中，在所述目标视频包括行驶装置在行驶过程中采集的视频数据的情况下，在确定所述待测视频帧对应的检测结果之后，还包括：控制模块406，用于：

基于所述待测视频帧对应的检测结果，控制所述行驶装置。

一种可能的实施方式中，在所述目标视频包括行驶道路对应的视频数据的情况下，在确定所述待测视频帧对应的检测结果之后，还包括：第三生成模块407，用于：

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模板可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

基于同一技术构思，本公开实施例还提供了一种电子设备。参照图5所示，为本公开实施例提供的电子设备的结构示意图，包括处理器501、存储器502、和总线503。其中，存储器502用于存储执行指令，包括内存5021和外部存储器5022；这里的内存5021也称内存储器，用于暂时存放处理器501中的运算数据，以及与硬盘等外部存储器5022交换的数据，处理器501通过内存5021与外部存储器5022进行数据交换，当电子设备500运行时，处理器501与存储器502之间通过总线503通信，使得处理器501在执行以下指令：

此外，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的目标检测方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的目标检测方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种目标检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，获取目标视频中的待测视频帧和所述待测视频帧之前的历史视频帧之后，还包括：

3.根据权利要求2所述的方法，其特征在于，根据以下步骤确定待处理视频帧对应的待处理图像特征数据：

4.根据权利要求2或3所述的方法，其特征在于，在所述历史视频帧包括多帧的情况下，所述将所述第二图像特征数据与所述第一图像特征数据进行特征聚合处理，生成第一聚合特征数据，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述级联后的第二图像特征数据与所述第一图像特征数据进行特征聚合处理，生成第一聚合特征数据，包括：

6.根据权利要求1～5任一所述的方法，其特征在于，所述将所述第一特征数据和所述第二特征数据进行特征聚合处理，生成第二聚合特征数据，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述第二特征数据对应的所述置信度，将所述第一特征数据和所述第二特征数据进行特征聚合处理，生成第二聚合特征数据，包括：

8.根据权利要求1～7任一所述的方法，其特征在于，所述基于所述第一聚合特征数据和所述第二聚合特征数据，确定所述待测视频帧对应的检测结果，包括：

9.根据权利要求1～8任一所述的方法，其特征在于，在所述目标视频包括行驶装置在行驶过程中采集的视频数据的情况下，在确定所述待测视频帧对应的检测结果之后，还包括：

基于所述待测视频帧对应的检测结果，控制所述行驶装置。

10.根据权利要求1～9任一所述的方法，其特征在于，在所述目标视频包括行驶道路对应的视频数据的情况下，在确定所述待测视频帧对应的检测结果之后，还包括：

11.一种目标检测装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至10任一所述的目标检测方法的步骤。

13.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至10任一所述的目标检测方法的步骤。