CN112307872A

CN112307872A - 用于检测目标对象的方法的和装置

Info

Publication number: CN112307872A
Application number: CN202010536869.3A
Authority: CN
Inventors: 潘滢炜; 姚霆; 梅涛
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2021-02-02
Anticipated expiration: 2040-06-12
Also published as: CN112307872B

Abstract

本申请公开了用于检测目标对象的方法和装置，涉及人工智能、图像处理领域。该方法包括：获取视频中的图像帧序列；采用基于图像帧之间的光流估计的第一特征聚合网络提取图像帧序列的第一聚合特征；采用基于对图像帧进行时空采样的第二特征聚合网络提取图像帧序列的第二聚合特征；基于图像帧序列的第一聚合特征和第二聚合特征，基于预先训练的检测网络检测视频中的目标对象。采用本方法可以提高目标检测的准确性。

Description

用于检测目标对象的方法的和装置

技术领域

本公开的实施例涉及计算机技术领域，具体涉及人工智能和图像处理领域，尤其涉及用于检测目标对象的方法和装置。

背景技术

图像中的目标检测是计算机视觉的基本任务之一。近来目标检测的方法基于区域的检测模式来进行设计。而针对由连续图像帧形成的视频中的目标对象的检测任务，需要考虑目标对象在时空中的连续性来提升检测结果的准确性。目标对象的检测问题包括检测目标对象的位置以及确定目标对象的类别。目前的一些视频检测技术采用逐帧提取图像特征并检测目标对象可能的区域，在相邻帧之间根据目标对象的移动连续特性定位目标对象可能出现的区域，然后对可能的区域内的目标对象进行分类识别。

发明内容

本公开提供了一种用于检测目标对象的方法、装置、电子设备以及计算机可读存储介质。

根据本公开的第一方面，提供了一种用于检测目标对象的方法，包括：获取视频中的图像帧序列；采用基于图像帧之间的光流估计的第一特征聚合网络提取图像帧序列的第一聚合特征；采用基于对图像帧进行时空采样的第二特征聚合网络提取图像帧序列的第二聚合特征；基于图像帧序列的第一聚合特征和第二聚合特征，采用预先训练的检测网络检测视频中的目标对象。

在一些实施例中，上述采用基于图像帧之间的光流估计的第一特征聚合网络提取图像帧序列的第一聚合特征，包括：采用第一特征聚合网络将图像帧序列中的各非目标帧的特征与图像帧序列中的目标帧的特征聚合为第一聚合特征，第一特征聚合网络采用光流估计方法对非目标帧与目标帧进行运动补偿；上述采用基于对图像帧进行时空采样的第二特征聚合网络提取图像帧序列的第二聚合特征，包括：基于自学习的偏移量预测网络预测图像帧序列中的各非目标帧相对于图像帧序列中的目标帧的偏移量，以及基于偏移量将各非目标帧的特征与目标帧的特征聚合为第二聚合特征。

在一些实施例中，上述基于偏移量将各非目标帧的特征与目标帧的特征聚合为第二聚合特征，包括：基于各非目标帧与目标帧的偏移量，对各非目标帧进行采样，基于采样结果生成目标帧的第二聚合特征。

在一些实施例中，上述第一特征聚合网络还包括第一特征金字塔网络，第二特征聚合网络还包括第二特征金字塔网络；上述采用基于图像帧之间的光流估计的第一特征聚合网络提取图像帧序列的第一聚合特征，还包括：采用第一特征金字塔网络提取图像帧序列中各图像帧的第一多尺度特征；上述采用基于对图像帧进行时空采样的第二特征聚合网络提取图像帧序列的第二聚合特征，还包括：采用第二特征金字塔网络提取图像帧序列中各图像帧的第二多尺度特征。

在一些实施例中，上述将图像帧序列中的各非目标帧的特征与图像帧序列中的目标帧的特征聚合为第一聚合特征，包括：将各非目标帧的第一多尺度特征映射至目标帧，并对各目标帧映射至目标帧的各尺度的特征进行聚合得到第一多尺度聚合特征；以及上述基于自学习的偏移量预测网络预测图像帧序列中的各非目标帧相对于图像帧序列中的目标帧的偏移量，以及基于偏移量将各非目标帧的特征与目标帧的特征聚合为第二聚合特征，包括：基于各图像帧的第二多尺度特征，采用第二特征聚合网络中的偏移量预测网络预测各非目标帧相对于目标帧在各尺度的偏移量，并基于非目标帧相对于目标帧在各尺度的偏移量对各非目标帧的第二多尺度特征在对应的尺度上进行采样，对各尺度的采样结果进行聚合得到第二多尺度聚合特征。

在一些实施例中，上述基于图像帧序列的第一聚合特征和第二聚合特征，采用预先训练的检测网络检测视频中的目标对象，包括：对第一聚合特征和第二聚合特征进行融合得到融合特征，将融合特征输入至预先训练的检测网络，得到视频中的目标对象的检测结果；或者分别基于第一聚合特征和第二聚合特征检测视频中的目标对象，对基于第一聚合特征的检测结果和基于第二聚合特征的检测结果进行融合，得到视频中的目标对象的检测结果。

在一些实施例中，上述对第一聚合特征和第二聚合特征进行融合得到融合特征，包括：将第一聚合特征和第二聚合特征拼接为融合特征；或者基于第一聚合特征对第二聚合特征进行校正，得到融合特征。

在一些实施例中，上述目标帧包括图像帧序列中的中间帧。

根据本公开的第二方面，提供了一种用于检测目标对象的装置，包括：获取单元，被配置为获取视频中的图像帧序列；第一聚合单元，被配置为采用基于图像帧之间的光流估计的第一特征聚合网络提取图像帧序列的第一聚合特征；第二聚合单元，被配置为采用基于对图像帧进行时空采样的第二特征聚合网络提取图像帧序列的第二聚合特征；检测单元，被配置为基于图像帧序列的第一聚合特征和第二聚合特征，采用预先训练的检测网络检测视频中的目标对象。

在一些实施例中，上述第一聚合单元包括：第一特征聚合子单元，被配置为采用第一特征聚合网络将图像帧序列中的各非目标帧的特征与图像帧序列中的目标帧的特征聚合为第一聚合特征，第一特征聚合网络采用光流估计方法对非目标帧与目标帧进行运动补偿；上述第二聚合单元包括：第二特征聚合子单元，被配置为基于自学习的偏移量预测网络预测图像帧序列中的各非目标帧相对于图像帧序列中的目标帧的偏移量，以及基于偏移量将各非目标帧的特征与目标帧的特征聚合为第二聚合特征。

在一些实施例中，上述第二特征聚合子单元，被配置为按照如下方式生成第二聚合特征：基于各非目标帧与目标帧的偏移量，对各非目标帧进行采样，基于采样结果生成目标帧的第二聚合特征。

在一些实施例中，上述第一特征聚合网络还包括第一特征金字塔网络，第二特征聚合网络还包括第二特征金字塔网络；上述第一聚合单元还包括：第一多尺度特征提取单元，被配置为采用第一特征金字塔网络提取图像帧序列中各图像帧的第一多尺度特征；上述第二聚合单元还包括：第二多尺度特征提取单元，被配置为采用第二特征金字塔网络提取图像帧序列中各图像帧的第二多尺度特征。

在一些实施例中，上述第一聚合单元被进一步配置为：将各非目标帧的第一多尺度特征映射至目标帧，并对各目标帧映射至目标帧的各尺度的特征进行聚合得到第一多尺度聚合特征；以及上述第二聚合单元被进一步配置为：基于各图像帧的第二多尺度特征，采用第二特征聚合网络中的偏移量预测网络预测各非目标帧相对于目标帧在各尺度的偏移量，并基于非目标帧相对于目标帧在各尺度的偏移量对各非目标帧的第二多尺度特征在对应的尺度上进行采样，对各尺度的采样结果进行聚合得到第二多尺度聚合特征。

在一些实施例中，上述检测单元被被配置为基于图像帧序列的第一聚合特征和第二聚合特征，按照如下方式检测视频中的目标对象：对第一聚合特征和第二聚合特征进行融合得到融合特征，将融合特征输入至预先训练的检测网络，得到视频中的目标对象的检测结果；或者分别基于第一聚合特征和第二聚合特征检测视频中的目标对象，对基于第一聚合特征的检测结果和基于第二聚合特征的检测结果进行融合，得到视频中的目标对象的检测结果。

在一些实施例中，上述检测单元进一步被配置为按照如下方式对第一聚合特征和第二聚合特征进行融合得到融合特征：将第一聚合特征和第二聚合特征拼接为融合特征；或者基于第一聚合特征对第二聚合特征进行校正，得到融合特征。

在一些实施例中，上述目标帧包括图像帧序列中的中间帧。

根据本公开的第三方面，提供了一种电子设备，包括：一个或多个处理器：存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面提供的用于检测目标对象的方法。

根据本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其中，程序被处理器执行时实现第一方面提供的用于检测目标对象的方法。

根据本公开的方法、装置、电子设备和计算机可读存储介质可以聚合视频中不同图像帧的特征，提升了基于视频的目标对象的检测结果的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请的实施例可以应用于其中的示例性系统架构图；

图2是根据本申请的用于检测目标对象的方法的一个实施例的流程图；

图3是根据本申请的用于检测目标对象的方法的另一个实施例的流程图；

图4是根据本申请的用于检测目标对象的方法的一个架构图；

图5是根据本申请的用于检测目标对象的装置的一个实施例的结构示意图；

图6是用来实现本申请实施例的用于检测目标对象的方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1示出了可以应用本申请的用于检测目标对象的方法或用于检测目标对象的装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

终端设备101、102、103可以是具有摄像装置并且支持与接收服务器消息交互的各种电子设备，包括但不限于独立的摄像装置，如监控摄像头、或者带有摄像装置的功能性设备，如智能手机、平板电脑等等。终端设备101、102、103可以采集视频数据，并且将视频数据发送至服务器105进行处理。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各种电子设备，当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以运行基于深度学习的神经网络模型以解决目标检测问题。服务器105可以从终端设备101、102、103获取采集到的视频数据，解码为连续的图像帧序列，并基于图像帧序列执行目标对象检测任务。服务器105可以采用经过训练的神经网络模型来执行目标对象检测任务，或者还可以获取样本数据并训练用于执行目标对象检测任务的神经网络模型，并且可以进一步将训练完成的神经网络模型的配置文件(包括模型结构和参数)发送至终端设备101、102、103。终端设备101、102、103可以在本地运行神经网络模型，执行目标对象检测任务。

服务器105可以是硬件，也可以是软件。当服务器105是软件时，0可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本公开的实施例所提供用于检测目标对象的方法可以由终端设备101、102、103或服务器105执行，相应地，用于检测目标对象的装置可以设置于终端设备101、102、103或服务器105中。

在一些实际场景中，服务器105可以从本地读取待检测目标对象的视频数据，这时，示例性的架构中可以不包含终端设备101、102、103和网络104。或者，在一些实际场景中，终端设备101、102、103可以在获取视频数据后，本地运行用于执行目标检测任务的神经网络模型，得到目标对象的检测结果，这时，示例性的系统架构中可以不包含网络104和服务器105。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，其示出了根据本公开的用于检测目标对象的方法的一个实施例的流程200。该用于检测目标对象的方法，包括以下步骤：

步骤201，获取视频中的图像帧序列。

在本实施例中，用于检测目标对象的方法的执行主体可以首先获取待检测目标对象的视频。该视频可以是针对特定场景采集的，该特定场景是目标对象可能出现的场景，例如特定场景是候车厅，目标对象是人；或者特定场景道路，目标对象是车辆。上述执行主体可以从网络上获取视频，或者直接向视频采集端请求获取视频。

在获取视频之后，可以将视频解析为单个图像帧，根据图像帧在视频中的时间顺序形成图像帧序列。

通常视频是由连续的图像帧形成的。可以直接将视频中的连续图像帧作为上述图像帧序列，或者通过对视频中的连续图像帧进行均匀或非均匀的采样来形成上述图像帧序列，以减少待处理的图像帧的数量，加快目标检测速度。

步骤202，采用基于图像帧之间的光流估计的第一特征聚合网络提取图像帧序列的第一聚合特征。

第一特征聚合网络是预先训练的用于聚合不同图像帧的特征的神经网络。第一特征聚合网络可以包括预先训练的基于光流估计的卷积神经网络，如FlowNet(光流网络)，该基于光流估计的卷积神经网络可以预先基于检测视频中的目标对象的任务训练。第一特征聚合网络可以根据光流估计结果对两个图像帧之间的运动偏差进行补偿，从而实现运动矫正，并基于矫正后的图像帧提取特征，得到两个图像帧的聚合特征。

在本实施例中，可以将图像帧序列中的一个图像帧作为目标帧，其他图像帧作为非目标帧。第一特征聚合网络可以分别针对各个非目标帧与目标帧进行光流估计和运动补偿，并将各个非目标帧的特征聚合到目标帧，得到图像帧序列的第一聚合特征。

步骤203，采用基于对图像帧进行时空采样的第二特征聚合网络提取图像帧序列的第二聚合特征。

第二特征聚合网络可以基于对图像帧的时空信息的采样来提取图像帧的特征。第二特征聚合网络可以基于图像帧之间潜在的时空关联进行特征提取，例如可以提取在时间上连续的图像帧之间在空间位置上具有一定关联的区域的特征，这里的空间位置上的关联是指空间区域的位置具有预设范围内的差异。第二特征聚合网络可以根据图像帧序列之间的时空关联性对各图像帧进行空间位置关联的信息采样，并对采样到的信息进行聚合，得到第二聚合特征。

上述第二特征聚合网络可以基于卷积神经网络构建，并且基于视频中目标对象检测的任务训练。第二特征聚合网络可以与本实施例的用于检测目标对象的方法中使用的其他网络一并训练，通过在训练中自学习图像帧之间的时空采样方法。

步骤204，基于图像帧序列的第一聚合特征和第二聚合特征，采用预先训练的检测网络检测视频中的目标对象。

在提取出图像帧序列的第一聚合特征和第二聚合特征之后，可以将第一聚合特征和第二聚合特征输入至预先训练的检测网络，该检测网络可以通过分类和回归的方式确定出图像帧序列中目标对象的类别和位置，从而实现视频中的目标对象的检测。

在一些实施例中，可以对第一聚合特征和第二聚合特征进行融合得到融合特征，将融合特征输入至预先训练的检测网络，得到视频中的目标对象的检测结果。融合特征可以通过对第一聚合特征和第二聚合特征进行归一化后在对应的维度上加权求和等处理得到。预先训练的检测网络可以基于融合特征识别出目标对象的类别和检测出目标对象的位置。

进一步地，可以通过拼接(诸如一些深度神经网络中的add操作或concat操作)第一聚合特征和第二聚合特征获得融合特征。或者，可以基于第一聚合特征对第二聚合特征进行校正得到融合特征，例如可以采用校正子网络实现第二聚合特征的校正。该校正子网络可以与第一特征聚合网络和第二特征聚合网络一并训练得出。

在一些实施例中，可以分别基于第一聚合特征和第二聚合特征检测视频中的目标对象，对基于第一聚合特征的检测结果和基于第二聚合特征的检测结果进行融合，得到视频中的目标对象的检测结果。也即，可以采用两个检测子网络分别基于第一聚合特征和第二聚合特征进行目标对象检测，并对两个检测子网络的检测结果进行融合得到最终的目标对象的检测结果。

本实施例的用于检测目标对象的方法，通过将基于第一特征聚合网络提取的特征和基于第二特征聚合网络提取的特征融合，能够将多个图像帧的特征聚合，提炼有效的特征，能够提升视频中目标对象检测结果的准确性。并且，该方法可以通过一个阶段完成目标对象的位置检测和分类，提升了目标对象检测的效率。

继续参考图3，其示出了本公开的用于检测目标对象的方法的另一个实施例的流程示意图。如图3所示，本实施例的用于检测目标对象的方法的流程300，包括以下步骤：

步骤301，获取视频中的图像帧序列。

步骤301的具体实现方式与前述实施例的步骤201一致，此处不再赘述。

步骤302，采用第一特征聚合网络将图像帧序列中的各非目标帧的特征与图像帧序列中的目标帧的特征聚合为第一聚合特征。

在本实施例中，第一特征聚合网络可以是特征提取网络，可以基于卷积神经网络构建。第一特征聚合网络可以采用光流估计方法对非目标帧与目标帧进行运动补偿。具体地，第一特征聚合网络首先可以基于光流估计的方法估计非目标帧相对于目标帧的运动偏差，例如第一特征聚合网络可以包括用于估计基于光流的运动偏差的光流学习网络PWC-Net，该光流学习网络可以提取出表征非目标帧与目标帧的运动偏差的流场向量。可选地，该光流学习网络可以预先训练，或者可以利用已经在其他非目标对象检测场景中训练完成的PWC-Net来实现第一特征聚合网络中的光流学学习网络。然后，第一特征聚合网络可以根据各非目标帧与目标帧的运动偏差进行运动矫正并将矫正后的非目标帧的特征聚合到目标帧的特征中，得到第一聚合特征。

步骤303，基于自学习的偏移量预测网络预测图像帧序列中的各非目标帧相对于图像帧序列中的目标帧的偏移量，以及基于偏移量将各非目标帧的特征与目标帧的特征聚合为第二聚合特征。

与第一特征聚合网络类似地，第二特征聚合网络可以基于卷积神经网络构建。在本实施例中，第二特征聚合网络包括偏移量预测网络，该偏移量预测网络可以是自学习的神经网络，即可以基于目标对象检测任务与用于检测目标对象的方法中的检测网络等子网络一同训练。偏移量预测网络可以预测图像帧序列中的非目标帧相对于图像帧序列中的目标帧的偏移量，该偏移量表征两个图像帧之间的时间相关性的偏移量，可以作为目标对象的运动偏移的表征。

目标帧可以是图像帧序列中的任意一个帧，例如可以是首帧或末尾帧。进一步地，目标帧可以包括图像帧序列中的中间帧。当图像帧序列包含2K+1个图像帧时，目标帧可以是第K帧；当图像帧序列包含2K帧时，目标帧可以是第K帧或第K+1帧。图像帧序列中除目标帧之外的其他帧为非目标帧。当目标帧是图像序列的中间帧时，各非目标帧与目标帧的运动偏差不会超过预定的范围，且可以避免图像帧序列中首帧与末尾帧的运动偏差较大、甚至多个目标对象未共同出现在首帧和末尾帧中而导致第一特征聚合网络和第二特征聚合网络聚合得到的特征不准确。

第二特征聚合网络可以基于各非目标帧与目标帧之间的偏移，将各非目标帧的特征按照对应的偏移进行转换后映射至目标帧中，并与从目标帧提取的特征聚合，形成第二聚合特征。

可选地，上述偏移量预测网络偏移量预测网络用于预测表征非目标帧与目标帧之间的时间相关性的偏移量。两个图像帧的采集时间之间越接近，对应的时间相关性越强，反之时间相关性越弱。进一步地，可以基于偏移量预测网络对各非目标帧与目标帧的偏移量进行预测。

偏移量预测网络可以包括三个卷积组，在给定目标帧和非目标帧的特征情况下，可以将这两个特征连接起来，输入至上述偏移量预测网络的三个卷积组中。其中一个卷积组保留连接特征的尺度，其余两个卷积组以一定的系数减小尺度，可以对三个卷积组的输出做上采样操作，并利用上采样操作的结果来预测偏移量。

第二特征聚合网络可以根据偏移量预测结果，将非目标帧进行相应的偏移，然后提取非目标帧的特征，将提取出的非目标帧的特征与目标帧的特征进行聚合得到第二聚合特征。

或者，第二特征聚合网络可以基于各非目标帧与目标帧的偏移量的预测结果，对各非目标帧进行采样，基于采样结果生成目标帧的第二聚合特征。

具体地，可以采用可变形卷积来采样各非目标帧以提取出各非目标帧中的有效信息。可以将非目标帧与目标帧的偏移量作为可变形卷积中的二维偏移量，从非目标帧中采样出与该二维偏移量对应的特征作为目标帧的“伪”特征。然后，可以将各非目标帧对应于目标帧的“伪”特征通过取平均、加权求和等方式聚合，得到第二聚合特征。

利用上述偏移量预测网络预测出表征非目标帧与目标帧的时间相关性的偏移量之后，通过基于预测出的偏移量对费目标帧的特征进行采样，实现了自引导采样式的特征聚合。这样采样并聚合得到的第二聚合特征包含了时空上下文信息，能够更准确地表征视频中的对象的信息。

进一步可选地，上述第一特征聚合网络还包括第一特征金字塔网络，第二特征聚合网络还包括第二特征金字塔网络。第一特征金字塔网络和第二特征金字塔网络可以采用相同的特征金字塔网络结构，二者的参数可以不相同。本实施例的中的第一检测网络和第二检测网络可以联合训练，基于同一个样本数据集，分别迭代调整第一检测网络的参数和第二检测网络的参数。

第一特征金字塔网络和第二特征金字塔可以分别对每个图像帧进行多个尺度的特征的提取，可以按照提取出的特征的尺度由小到大的顺序设计第一特征金字塔网络和第二特征金字塔网络的结构，例如通过设置卷积核的尺寸来控制提取出的特征的尺度，或者可以在卷积层之间增加一些上采样层来增大特征的尺度。

在将非目标帧和目标帧的特征聚合为第一聚合特征之前，还可以采用第一特征金字塔网络分别提取各个图像帧的对应的第一多尺度特征。这样，第一特征聚合网络可以基于各图像帧的第一多尺度特征分别在各个尺度执行光流的运动补偿和特征聚合。

同样，在将非目标帧和目标帧的特征聚合为第二聚合特征之前，还可以采用第二特征金字塔网络分别提取各个图像帧的对应的第二多尺度特征。这样，第二特征聚合网络可以基于各图像帧的第二多尺度特征分别在各个尺度估计偏移量、并基于偏移量对非目标帧的对应尺度的特征进行采样。

由于特征金字塔能够有效地提取图像的多尺度特征，通过在第一检测网络和第二检测网络中设置特征金字塔网络，能够分别从不同的尺度估计非目标帧与目标帧之间的运动偏差或偏移量，从而更全面地提取图像帧之间各个尺度的相对运动信息，进而得到更准确的特征聚合结果。

进一步地，上述将图像帧序列中的各非目标帧的特征与图像帧序列中的目标帧的特征聚合为第一聚合特征的步骤，可以具体实现为：将各非目标帧的第一多尺度特征映射至目标帧，并对各目标帧映射至目标帧的各尺度的特征进行聚合得到第一多尺度聚合特征；以及上述将各非目标帧的特征与目标帧的特征聚合为第二聚合特征的步骤，可以具体实现为：基于各图像帧的第二多尺度特征，采用第二特征聚合网络中的偏移量预测网络预测各非目标帧相对于目标帧在各尺度的偏移量，并基于非目标帧相对于目标帧在各尺度的偏移量对各非目标帧的第二多尺度特征在对应的尺度上进行采样，对各尺度的采样结果进行聚合得到第二多尺度聚合特征。

具体来说，第一特征聚合网络可以基于各个非目标帧相对于目标帧的运动补偿，来将各非目标帧在各个尺度的特征分别映射至目标帧的对应尺度上，并与目标帧对应尺度的特征聚合，形成目标帧的第一多尺度聚合特征。

第二特征聚合网络中的偏移量预测网络可以根据各图像帧的第二多尺度特征，在各个尺度上预测非目标帧相对于目标帧的偏移量。具体可以将非目标帧和目标帧的同一尺度的特征拼接后输入至偏移量预测网络，得到对应尺度的偏移量预测结果。然后，分别基于各个尺度的偏移量预测结果，对非目标帧的对应尺度的特征进行采样，得到对应的该尺度的采样结果。然后将不同非目标帧对应于同一尺度的采样结果与目标帧在该尺度的特征进行聚合，例如可以计算平均值，加权和等，作为该尺度的第二聚合特征。分别针对每个尺度执行如上预测偏移量、采样和聚合操作，得到第二多尺度聚合特征。

步骤304，基于图像帧序列的第一聚合特征和第二聚合特征，采用预先训练的检测网络检测视频中的目标对象。

本实施例的步骤304可以参考前述实施例中步骤204的描述，此处不再赘述。

进一步地，检测网络可以基于第一多尺度聚合特征和第二多尺度聚合特征来进行目标对象的检测。由于多尺度的聚合特征包含了更丰富的图像信息，能够准确检测出不同尺度的目标对象，从而实现对目标对象的全面检测。

更具体地，可以分别基于第一多尺度聚合特征和第二多尺度聚合特征进行目标检测，对两个检测结果进行融合得到最终的检测结果；或者，也可以融合第一多尺度聚合特征和第二多尺度聚合特征得到融合特征，将融合特征输入分类回归网络来在各个尺度检测目标对象的位置和类别。

图4示出了本实施例的用于检测目标对象的方法的一个总体架构图。如图4所示，可以首先将图像帧序列I^t-τ、…、I^t…、I^t+τ(依次表示第t-τ、…、t、…、t+τ帧图像)中的每一帧输入至预处理网络，该预处理网络可以执行图像增强、归一化、或初步的特征提取等操作，经过预处理后的图像帧序列分别输入至第一特征聚合网络和第二特征聚合网络。

第一特征聚合网络包括第一特征金字塔FPN1，各图像帧经过第一特征金字塔提取多尺度特征后输入至基于运动矫正的聚合网络FA1，基于运功校正的聚合网络FA11将各图像帧的特征聚合为第一聚合特征之后输入至分类回归子网络。在图4中，针对每个尺度的第一聚合特征，分别采用一个分类回归子网络来检测目标对象的类别和位置。

第二特征聚合网络包括第二特征金字塔FPN2，各图像帧经过第二特征金字塔提取多尺度特征后输入至基于自引导采样的聚合网络FA2，基于自引导采样的聚合网络FA2将各图像帧的特征聚合为第二聚合特征之后输入至分类回归子网络。在图4中，针对每个尺度的第二聚合特征，分别采用一个分类回归子网络来检测目标对象的类别和位置。

然后，可以将基于第一聚合特征的检测结果与基于第二聚合特征的检测结果融合，得到最终的目标对象检测结果。

进一步参考图5，作为对上述各图所示方法的实现，本公开提供了一种用于检测目标对象的装置的一个实施例，该装置实施例与图2和图3所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的用于检测目标对象的装置500，包括：获取单元501、第一聚合单元502、第二聚合单元503以及检测单元504。其中，获取单元501被配置为获取视频中的图像帧序列；第一聚合单元502被配置为采用基于图像帧之间的光流估计的第一特征聚合网络提取图像帧序列的第一聚合特征；第二聚合单元503被配置为采用基于对图像帧进行时空采样的第二特征聚合网络提取图像帧序列的第二聚合特征；检测单元504被配置为基于图像帧序列的第一聚合特征和第二聚合特征，采用预先训练的检测网络检测视频中的目标对象。

在一些实施例中，上述第一聚合单元502包括：第一特征聚合子单元，被配置为采用第一特征聚合网络将图像帧序列中的各非目标帧的特征与图像帧序列中的目标帧的特征聚合为第一聚合特征，第一特征聚合网络采用光流估计方法对非目标帧与目标帧进行运动补偿；第二聚合单元503包括：第二特征聚合子单元，被配置为基于自学习的偏移量预测网络预测图像帧序列中的各非目标帧相对于图像帧序列中的目标帧的偏移量，以及基于偏移量将各非目标帧的特征与目标帧的特征聚合为第二聚合特征。

在一些实施例中，上述第一特征聚合网络还包括第一特征金字塔网络，第二特征聚合网络还包括第二特征金字塔网络；第一聚合单元502还包括：第一多尺度特征提取单元，被配置为采用第一特征金字塔网络提取图像帧序列中各图像帧的第一多尺度特征；第二聚合单元503还包括：第二多尺度特征提取单元，被配置为采用第二特征金字塔网络提取图像帧序列中各图像帧的第二多尺度特征。

在一些实施例中，第一聚合单元502被进一步配置为：将各非目标帧的第一多尺度特征映射至目标帧，并对各目标帧映射至目标帧的各尺度的特征进行聚合得到第一多尺度聚合特征；以及第二聚合单元503被进一步配置为：基于各图像帧的第二多尺度特征，采用第二特征聚合网络中的偏移量预测网络预测各非目标帧相对于目标帧在各尺度的偏移量，并基于非目标帧相对于目标帧在各尺度的偏移量对各非目标帧的第二多尺度特征在对应的尺度上进行采样，对各尺度的采样结果进行聚合得到第二多尺度聚合特征。

在一些实施例中，上述检测单元504被被配置为基于图像帧序列的第一聚合特征和第二聚合特征，按照如下方式检测视频中的目标对象：对第一聚合特征和第二聚合特征进行融合得到融合特征，将融合特征输入至预先训练的检测网络，得到视频中的目标对象的检测结果；或者分别基于第一聚合特征和第二聚合特征检测视频中的目标对象，对基于第一聚合特征的检测结果和基于第二聚合特征的检测结果进行融合，得到视频中的目标对象的检测结果。

在一些实施例中，上述检测单元504进一步被配置为按照如下方式对第一聚合特征和第二聚合特征进行融合得到融合特征：将第一聚合特征和第二聚合特征拼接为融合特征；或者基于第一聚合特征对第二聚合特征进行校正，得到融合特征。

在一些实施例中，上述目标帧包括图像帧序列中的中间帧。

上述装置500中的各单元与参考图2和图3描述的方法中的步骤相对应。由此上文针对用于检测目标对象的方法描述的操作、特征及所能达到的技术效果同样适用于装置500及其中包含的单元，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是根据本申请实施例的用于检测目标对象的方法的电子设备600的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，该存储器存储有可由至少一个处理器执行的指令，以使该至少一个处理器执行本申请所提供的用于检测目标对象的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的用于检测目标对象的方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的用于检测目标对象的方法对应的程序指令/模块(例如，附图5所示的获取单元501、第一聚合单元502、第二聚合单元503、检测单元504)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的用于检测目标对象的方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据用于检测目标对象的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至用于检测目标对象的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

用于检测目标对象的方法的电子设备还可以包括：输入装置603、输出装置604以及总线605。处理器601、存储器602、输入装置603和输出装置604可以通过总线605或者其他方式连接，图6中以通过总线605连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与用于检测目标对象的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种用于检测目标对象的方法，包括：

获取视频中的图像帧序列；

采用基于图像帧之间的光流估计的第一特征聚合网络提取所述图像帧序列的第一聚合特征；

采用基于对图像帧进行时空采样的第二特征聚合网络提取所述图像帧序列的第二聚合特征；

基于所述图像帧序列的第一聚合特征和所述第二聚合特征，采用预先训练的检测网络检测所述视频中的目标对象。

2.根据权利要求1所述的方法，其中，所述采用基于图像帧之间的光流估计的第一特征聚合网络提取所述图像帧序列的第一聚合特征，包括：

采用第一特征聚合网络将所述图像帧序列中的各非目标帧的特征与所述图像帧序列中的目标帧的特征聚合为第一聚合特征，所述第一特征聚合网络采用光流估计方法对非目标帧与目标帧进行运动补偿；

所述采用基于对图像帧进行时空采样的第二特征聚合网络提取所述图像帧序列的第二聚合特征，包括：

基于自学习的偏移量预测网络预测所述图像帧序列中的各非目标帧相对于所述图像帧序列中的目标帧的偏移量，以及基于所述偏移量将所述各非目标帧的特征与所述目标帧的特征聚合为第二聚合特征。

3.根据权利要求2所述的方法，其中，所述基于所述偏移量将所述各非目标帧的特征与所述目标帧的特征聚合为第二聚合特征，包括：

基于各非目标帧与所述目标帧的偏移量，对各非目标帧进行采样，基于采样结果生成所述目标帧的第二聚合特征。

4.根据权利要求2所述的方法，其中，所述第一特征聚合网络还包括第一特征金字塔网络，所述第二特征聚合网络还包括第二特征金字塔网络；

所述采用基于图像帧之间的光流估计的第一特征聚合网络提取所述图像帧序列的第一聚合特征，还包括：

采用所述第一特征金字塔网络提取所述图像帧序列中各图像帧的第一多尺度特征；

所述采用基于对图像帧进行时空采样的第二特征聚合网络提取所述图像帧序列的第二聚合特征，还包括：

采用所述第二特征金字塔网络提取所述图像帧序列中各图像帧的第二多尺度特征。

5.根据权利要求4所述的方法，其中，所述将所述图像帧序列中的各非目标帧的特征与所述图像帧序列中的目标帧的特征聚合为第一聚合特征，包括：

将各非目标帧的第一多尺度特征映射至目标帧，并对各目标帧映射至目标帧的各尺度的特征进行聚合得到第一多尺度聚合特征；以及

所述基于自学习的偏移量预测网络预测所述图像帧序列中的各非目标帧相对于所述图像帧序列中的目标帧的偏移量，以及基于所述偏移量将所述各非目标帧的特征与所述目标帧的特征聚合为第二聚合特征，包括：

基于各图像帧的第二多尺度特征，采用所述第二特征聚合网络中的偏移量预测网络预测各所述非目标帧相对于所述目标帧在各尺度的偏移量，并基于非目标帧相对于目标帧在各尺度的偏移量对各非目标帧的第二多尺度特征在对应的尺度上进行采样，对各尺度的采样结果进行聚合得到第二多尺度聚合特征。

6.根据权利要求1-5任一项所述的方法，其中，所述基于所述图像帧序列的第一聚合特征和所述第二聚合特征，采用预先训练的检测网络检测所述视频中的目标对象，包括：

对所述第一聚合特征和所述第二聚合特征进行融合得到融合特征，将融合特征输入至预先训练的检测网络，得到所述视频中的目标对象的检测结果；或者

分别基于所述第一聚合特征和所述第二聚合特征检测所述视频中的目标对象，对基于第一聚合特征的检测结果和基于第二聚合特征的检测结果进行融合，得到所述视频中的目标对象的检测结果。

7.根据权利要求6所述的方法，其中，所述对所述第一聚合特征和所述第二聚合特征进行融合得到融合特征，包括：

将第一聚合特征和第二聚合特征拼接为融合特征；或者

基于所述第一聚合特征对第二聚合特征进行校正，得到融合特征。

8.根据权利要求2-5任一项所述的方法，其中，所述目标帧包括图像帧序列中的中间帧。

9.一种用于检测目标对象的装置，包括：

获取单元，被配置为获取视频中的图像帧序列；

第一聚合单元，被配置为采用基于图像帧之间的光流估计的第一特征聚合网络提取所述图像帧序列的第一聚合特征；

第二聚合单元，被配置为采用基于对图像帧进行时空采样的第二特征聚合网络提取所述图像帧序列的第二聚合特征；

检测单元，被配置为基于所述图像帧序列的第一聚合特征和所述第二聚合特征，采用预先训练的检测网络检测所述视频中的目标对象。

10.根据权利要求9所述的装置，其中，所述第一聚合单元包括：

第一特征聚合子单元，被配置为采用第一特征聚合网络将所述图像帧序列中的各非目标帧的特征与所述图像帧序列中的目标帧的特征聚合为第一聚合特征，所述第一特征聚合网络采用光流估计方法对非目标帧与目标帧进行运动补偿；

所述第二聚合单元包括：

第二特征聚合子单元，被配置为基于自学习的偏移量预测网络预测所述图像帧序列中的各非目标帧相对于所述图像帧序列中的目标帧的偏移量，以及基于所述偏移量将所述各非目标帧的特征与所述目标帧的特征聚合为第二聚合特征。

11.根据权利要求10所述的装置，其中，所述第二特征聚合子单元，被配置为按照如下方式生成第二聚合特征：

12.根据权利要求10所述的装置，其中，所述第一特征聚合网络还包括第一特征金字塔网络，所述第二特征聚合网络还包括第二特征金字塔网络；

所述第一聚合单元还包括：

第一多尺度特征提取单元，被配置为采用所述第一特征金字塔网络提取所述图像帧序列中各图像帧的第一多尺度特征；

所述第二聚合单元还包括：

第二多尺度特征提取单元，被配置为采用所述第二特征金字塔网络提取所述图像帧序列中各图像帧的第二多尺度特征。

13.根据权利要求12所述的装置，其中，所述第一聚合单元被进一步配置为：

所述第二聚合单元被进一步配置为：

14.根据权利要求9-13任一项所述的装置，其中，所述检测单元被被配置为基于所述图像帧序列的第一聚合特征和所述第二聚合特征，按照如下方式检测所述视频中的目标对象：

15.根据权利要求14所述的装置，其中，所述检测单元进一步被配置为按照如下方式对所述第一聚合特征和所述第二聚合特征进行融合得到融合特征：

将第一聚合特征和第二聚合特征拼接为融合特征；或者

16.根据权利要求10-13任一项所述的装置，其中，所述目标帧包括图像帧序列中的中间帧。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。