CN110738108A

CN110738108A - 目标物体检测方法、装置、存储介质及电子设备

Info

Publication number: CN110738108A
Application number: CN201910849610.1A
Authority: CN
Inventors: 黄钊金; 申晗; 宫永超; 黄李超
Original assignee: Beijing Horizon Information Technology Co Ltd
Current assignee: Beijing Horizon Information Technology Co Ltd
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2020-01-31

Abstract

公开了一种目标物体检测方法、装置、存储介质及电子设备，其中的目标物体检测方法包括：确定当前视频帧的类型，在当前视频帧的类型为非关键帧的情况下，采用第一神经网络提取当前视频帧的特征，以获得所述当前视频帧的第一特征图，确定当前视频帧之前的第一历史视频帧的第二特征图，将所述第一特征图与所述第二特征图进行融合，获得当前视频帧的第一融合特征图，根据第一融合特征图对当前视频帧进行检测，获得当前视频帧的目标物体检测结果。使第一特征图和第二特征图融合获得第一融合特征图的精度和速度较高，并且第一融合特征图融合了关键视频帧的特征图所包含的信息，因此在一定程度上提高了目标物体检测结果的速度和精度。

Description

目标物体检测方法、装置、存储介质及电子设备

技术领域

本申请涉及图像处理领域，尤其涉及一种目标物体检测方法、装置、存储介质及电子设备。

背景技术

视频物体检测在很多领域都有着较为广泛的应用，例如自动驾驶领域、安防领域的车辆的跟踪检测、视频内容的识别，尤其是在自动驾驶领域，需要较高的检测速度和精度。

但是，目前的视频物体检测方法不能保证较高的检测速度和精度，例如，基于光流的视频物体检测方法，该检测方法首先提取关键帧的特征图，然后通过光流预测网络，计算非关键帧和关键帧之间的光流图，再用光流图对关键帧的特征图进行变换得到非关键帧的特征图。该方法虽然能在一定程度上提高视频物体检测的速度，但是这个速度达不到实际应用中要求的速度，并且该方法也不能提供较高的检测精度。

因此，现有的视频物体检测方法存在缺陷。

发明内容

目前的视频物体检测方法的速度达不到实际应用中要求的速度，并且存在检测精度较低的问题。

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种目标物体检测方法、装置、存储介质及电子设备。

根据本申请的一个方面，提供了一种目标物体检测方法，包括：

确定当前视频帧的类型；

在所述当前视频帧的类型为非关键帧的情况下，采用第一神经网络提取所述当前视频帧的特征，以获得所述当前视频帧的第一特征图；

确定所述当前视频帧之前的第一历史视频帧的第二特征图，所述第二特征图为采用第二神经网络提取第一历史视频帧的特征获得的，所述第一历史视频帧为时序上位于所述当前视频帧之前的类型为关键帧的视频帧，所述第一神经网络的网络模型小于所述二神经网络的网络模型；

将所述第一特征图与所述第二特征图进行融合，获得所述当前视频帧的第一融合特征图；

根据所述第一融合特征图对所述当前视频帧进行检测，获得所述当前视频帧的目标物体检测结果。

根据本申请的另一个方面，提供了一种目标物体检测装置，包括：

类型确定模块，用于确定当前视频帧的类型；

第一获得模块，用于在所述类型确定模块确定所述当前视频帧的类型为非关键帧的情况下，采用第一神经网络提取所述当前视频帧的特征，以获得所述当前视频帧的第一特征图；

第一确定模块，用于确定所述当前视频帧之前的第一历史视频帧的第二特征图，所述第二特征图为采用第二神经网络提取第一历史视频帧的特征获得的，所述第一历史视频帧为时序上位于所述当前视频帧之前的类型为关键帧的视频帧，所述第一神经网络的网络模型大小小于所述二神经网络的网络模型大小；

第一融合模块，用于将所述第一获得模块获得的所述第一特征图与所述第一确定模块确定的所述第二特征图进行融合，获得所述当前视频帧的第一融合特征图；

第一检测模块，用于根据所述第一融合模块获得的所述第一融合特征图对所述当前视频帧进行检测，获得所述当前视频帧的目标物体检测结果。

根据本申请的又一个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述所述的目标物体检测方法。

根据本申请的再一个方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述所述的目标物体检测方法。

本申请实施例提供的目标物体检测方法，由于采用第一神经网络提取非关键帧的特征图，针对关键帧，才采用第二神经网络提取关键帧的特征图。并且第一神经网络的网络模型小于第二神经网络的网络模型，因此通过第一神经网络提取非关键帧的特征图的计算量比通过光流图获得非关键帧的特征图计算量要小，获得第一特征图的速度较快。并且由于采用第一神经网络直接提取类型为非关键帧的当前视频帧的特征获得第一特征图，因此精度相比现有技术中通过光流图获得非关键帧的特征图的精度高。因此本申请中针对非关键帧采用第一神经网络提取类型为非关键帧的当前视频帧的第一特征图，在一定程度上提高了获取的非关键帧的特征图的精度，并且由于第一神经网络的总的参数计算量很小和/或网络层数较少，因此获得第一特征图的速度也较快。因此使第一特征图和第二特征图融合获得第一融合特征图的精度和速度较高，并且第一融合特征图融合了关键视频帧的特征图所包含的信息，因此在一定程度上提高了目标物体检测结果的速度和精度。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本申请所适用的一种场景图。

图2是本申请一示例性实施例提供的目标物体检测方法的流程示意图。

图3是本申请另一示例性实施例提供的目标物体检测方法的流程示意图。

图4是本申请一示例性实施例提供的目标物体检测方法的具体步骤流程图。

图5是本申请又一示例性实施例提供的目标物体检测方法的流程示意图。

图6是本申请再一示例性实施例提供的目标物体检测方法的流程示意图。

图7是本申请一示例性实施例提供的目标物体检测方法的具体步骤示意图。

图8是本申请一示例性实施例提供的目标物体检测装置的结构图。

图9是本申请另一示例性实施例提供的目标物体检测装置的结构图。

图10是本申请一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

如上，目前的视频物体检测方法不能保证较高的检测速度和精度，例如，基于光流的视频物体检测方法，该检测方法首先提取关键帧的特征图，然后通过光流预测网络，计算非关键帧和关键帧之间的光流图，再用光流图对关键帧的特征图进行变换得到非关键帧的特征图。即现有技术中通过光流图获得非关键帧的特征图，通过光流图获得非关键帧的特征图计算量较大，由于光流图存在误差，使得获得的非关键帧的特征图精度较低，因此现有技术中的目标物体检测方法虽然能在一定程度上提高视频物体检测的速度，但是这个速度达不到实际应用中要求的速度，并且该方法也不能提供较高的检测精度。

为了解决上述技术问题，本申请的基本构思是通过第一神经网络提取非关键帧的特征图，针对关键帧，才采用第二神经网络提取关键帧的特征图。并且第一神经网络包括轻量级神经网络，因此通过第一神经网络提取非关键帧的特征图的计算量比通过光流图获得非关键帧的特征图计算量要小，并且精度较高。并且由于轻量级神经网络的总的参数计算量很小，因此获得第一特征图的速度也较快。从而使第一特征图和第二特征图融合获得的第一融合特征图的精度较高，以及能够较快的获得第一融合特征图。因此在一定程度上提高了目标物体检测结果的速度和精度。

具体的，本申请提供的目标物体检测方法、装置、存储介质及电子设备首先确定当前视频帧的类型，在当前视频帧的类型为非关键帧的情况下，采用第一神经网络提取当前视频帧的特征，以获得当前视频帧的第一特征图，第一神经网络包括轻量级神经网络，然后确定当前视频帧之前的第一历史视频帧的第二特征图，第二特征图为采用第二神经网络提取第一历史视频帧的特征获得的，第一历史视频帧为时序上位于当前视频帧之前的类型为关键帧的视频帧，将第一特征图与第二特征图进行融合，获得当前视频帧的第一融合特征图；根据第一融合特征图对当前视频帧进行检测，获得当前视频帧的目标物体检测结果。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性系统

图1是本申请所适用的一种场景图。

参照图1，在本申请实施例中，在当前视频帧101的类型为非关键帧的情况下，将当前视频帧101输入第一神经网络102，通过第一神经网络102提取当前视频帧101的特征，以获得当前视频帧的第一特征图103，并确定当前视频帧101之前的第一历史视频帧104的第二特征图105，第二特征图105为采用第二神经网络106提取第一历史视频帧104的特征获得的。之后将第一特征图103与第二特征图105进行融合，获得当前视频帧101的第一融合特征图107，根据第一融合特征图107对当前视频帧101进行检测，获得当前视频帧101的目标物体检测结果。

图2是本申请一示例性实施例提供的目标物体检测方法的流程示意图。本实施例可应用在电子设备上，如图2所示，包括如下步骤：

步骤201，确定当前视频帧的类型。

当前视频帧的类型包括关键帧和非关键帧，当前视频帧的类型可能为关键帧也可能为非关键帧。当前视频帧可以是视频流中的任意一帧。

例如，如果电子设备一秒钟可以获得30帧，可以将时间间隔设置为1秒，即以每一秒的第一帧为关键帧，第二帧至第30帧为非关键帧。

步骤202，在当前视频帧的类型为非关键帧的情况下，采用第一神经网络提取当前视频帧的特征，以获得当前视频帧的第一特征图。

步骤203，确定当前视频帧之前的第一历史视频帧的第二特征图，第二特征图为采用第二神经网络提取第一历史视频帧的特征获得的，第一历史视频帧为时序上位于当前视频帧之前的类型为关键帧的视频帧，第一神经网络的网络模型小于二神经网络的网络模型。

第一神经网络的网络模型小于二神经网络的网络模型例如包括：第一神经网络的网络模型的总参数计算量小于二神经网络的总参数计算量，和/或，第一神经网络的网络模型的网络层数小于第二神经网络的网络模型的网络层数。

其中，第一历史视频帧为时序上位于当前视频帧之前的类型为关键帧的视频帧，即第一历史视频帧为第一历史关键视频帧，第一历史关键视频帧在时序上位于当前视频帧之前，第一历史关键视频帧可以是时序上位于当前视频帧之前且与当前视频帧相邻的关键视频帧，或者第一历史关键视频帧是位于当前视频帧之前的其他关键帧，本申请对此不进行限定。针对类型为关键帧的视频帧，本申请中采用第二神经网络提取类型为关键帧的特征，由于第二神经网络的网络模型大于第一神经网络的网络模型，因此可以保证采用第二神经网络提取类型为关键帧的特征，获得的类型为关键帧的视频帧的特征图的精度较高，从而可以保证提取的类型为关键帧的特征图的精度。

需要说明的是，第一历史视频帧是时序上位于当前视频帧之前且与当前视频帧相邻的关键视频帧的情况下，由于第一历史视频帧距离当前视频帧最近，从而可以降低特征传播距离，从而最小化特征传播引入的误差，减小特征传播时间，进一步提升目标物体检测速度和精度。

步骤204，将第一特征图与第二特征图进行融合，获得当前视频帧的第一融合特征图。

将第一特征图与第二特征图进行融合，获得第一融合特征图，从而使第一融合特征图复用了第一历史视频帧的特征，即复用了类型为关键帧的视频帧的特征，从而使第一融合特征图融合了类型为关键帧的历史视频帧的特征，提高对当前视频帧的检测精度。

步骤205，根据第一融合特征图对当前视频帧进行检测，获得当前视频帧的目标物体检测结果。

目标物体检测结果例如可以为当前视频帧中的物体所处的位置以及当前视频帧中的物体所属的类别，物体所属的类别例如为物体属于人还是车等。

本实施例提供的目标物体检测方法，由于采用第一神经网络提取非关键帧的特征图，针对关键帧，才采用第二神经网络提取关键帧的特征图。并且第一神经网络的网络模型小于第二神经网络的网络模型，因此通过第一神经网络提取非关键帧的特征图的计算量比通过光流图获得非关键帧的特征图计算量要小，获得第一特征图的速度较快。并且由于采用第一神经网络直接提取类型为非关键帧的当前视频帧的特征获得第一特征图，因此精度相比现有技术中通过光流图获得非关键帧的特征图的精度高。因此本申请中针对非关键帧采用第一神经网络提取类型为非关键帧的当前视频帧的第一特征图，在一定程度上提高了获取的非关键帧的特征图的精度，并且由于第一神经网络的总的参数计算量很小和/或网络层数较少，因此获得第一特征图的速度也较快。因此使第一特征图和第二特征图融合获得第一融合特征图的精度和速度较高，并且第一融合特征图融合了关键视频帧的特征图所包含的信息，因此在一定程度上提高了目标物体检测结果的速度和精度。

可选的，步骤204可通过如下步骤实现：

将第一特征图与第一历史视频帧的第二融合特征图进行融合，获得第一融合特征图，其中，第二融合特征图为第二特征图与第二历史视频帧的第三特征图进行融合获得的，第二历史视频帧为时序上位于第一历史视频帧之前的类型为关键帧的视频帧。

需要说明的是，第一神经网络可以为轻量级神经网络，轻量级神经网络也称为微型神经网络，是指需要参数数量较少和计算代价较小的神经网络模型。由于微型神经网络计算开销小，微型神经网络模型可以部署在计算资源有限的设备上，如智能手机、平板电脑或其他嵌入式设备。第二神经网络可以大型神经网络，可以选用高精度的神经网络。采用轻量级神经网络提取当前视频帧的特征，获得第一特征图，从而可以进一步降低参数计算量，加快获得第一特征图的速度。可以采用深度残差网络提取类型为关键帧的特征，例如，第二特征图为采用深度残差网络提取第一历史视频帧的特征获得的，深度残差网络提取精度较高，因此可以保证类型为关键帧的视频帧的特征图的精度。同样第三特征图也为采用深度残差网络提取第二历史视频帧的特征获得的。

第二历史视频帧可以为时序上位于第一历史视频帧之前的类型为关键帧的视频帧、且第二历史视频帧与第一历史视频帧相邻，也可以为时序上位于第一历史视频帧之前的类型为关键帧的其他不与第一历史视频帧相邻的视频帧。例如，从第1秒开始，获取了第1秒的第1视频帧，确定该第1视频帧的类型为关键帧，第2视频帧至第30视频帧的类型为非关键帧；第31视频帧的类型为关键帧，第32视频帧至第60视频帧的类型为非关键帧；第61视频帧的类型为关键帧，62视频帧至第90视频帧的类型为非关键帧；第91视频帧的类型为关键帧，92视频帧至第120视频帧的类型为非关键帧；依次类推，如果当前视频帧为第92帧，则第一历史视频帧可以为第91视频帧，第一历史视频帧也可以为第61视频帧或者第31视频帧等。

需要说明的是，根据步骤203可知，对于类型为关键帧的视频帧的特征图是采用第二神经网络提取的，因此，由于第二历史视频帧的类型为关键帧，因此第二历史视频帧的第三特征图也是采用第二神经网络提取的，从而可以保证第三特征图的精度。并且，第二融合特征图为第二特征图与第三特征图进行融合获得的，从而保证了获取的第二融合特征图的精度。第二神经网络可以为深度残差网络，采用深度残差网络提取的第二特征图和第三特征图的精度较高。

通过第二特征图与第三特征图的融合，可以使获取的第二融合特征图复用了第三特征图的信息。如果第二历史视频帧与第一历史视频帧相邻，则可以使第二历史视频帧与第一历史视频帧之间的距离相较其他位于第一历史视频帧之前的类型为关键帧的视频帧与第一历史视频帧之间的距离较近，从而可以降低特征传播的距离，最小化特征传播引入的误差，减小特征传播时间，进一步提升目标物体检测速度和精度。

可选的，第二融合特征图为第二特征图与对齐后的第三特征图进行融合获得的，对齐后的第三特征图为根据第一历史视频帧与第二历史视频帧之间的第一光流图，将第三特征图与第二特征图对齐获得的。

如图3所示，图3是本申请另一示例性实施例提供的目标物体检测方法的流程示意图。第二融合特征图为如图3所示的第二特征图与对齐后的第三特征图进行融合获得的。

第一光流图包括了第一历史视频帧与第二历史视频帧中像素点的位移信息。对齐后的第三特征图为根据第一光流图，将第三特征图与第二特征图对齐获得的。

对齐后的第三特征图有利于识别第三特征图中的物体的位置。即将第三特征图与第二特征图对齐后，在已知第二特征图中物体的位置的情况下，通过第一光流图，可以获取到第三特征图中的该物体的位置。

可选的，第二融合特征图为根据第二特征图、以及第二特征图的第一权重、对齐后的第三特征图、以及对齐后的第三特征图的第二权重，将对齐后的第三特征图和第二特征图进行融合获得的。

如图3所示，第一权重表示将对齐后的第三特征图和第二特征图进行融合时第二特征图所占的比例，第二权重表示将对齐后的第三特征图和第二特征图进行融合时对齐后的第三特征图所占的比例。第二融合特征图为将第二特征图与第一权重的乘积与对齐后的第三特征图与第二权重的乘积进行相加，以将对齐后的第三特征图和第二特征图进行融合获得的。

第二融合特征图融合了对齐后的第三特征图和第二特征图的信息，因此将第一特征图与第二融合特征图进行融合，获得的第一融合特征图也复用了对齐后的第三特征图、第二特征图的信息，从而可以提高目标物体检测结果的精度。

如图3所示，其中，第二历史视频帧与第三特征图之间用虚线，表示图3中省略了采用第二神经网络提取第二历史视频帧的特征的过程，采用第二神经网络提取第二历史视频帧的特征后获得第三特征图。对齐后的第三特征图为根据第一光流图将第三特征图与第二特征图对齐获得的。

图3中示出的

表示特征图与其他特征图的融合，

表示特征图与该特征图的权重进行相乘。例如图3中从左侧开始，第一个表示对齐后的第三特征图与第二权重相乘，第二个

表示第二特征图与第一权重相乘，

表示第二特征图与第一权重的乘积与对齐后的第三特征图与第二权重的乘积进行相加，获得的如图3所示的第二融合特征图。

其中，将第一特征图与第一历史视频帧的第二融合特征图进行融合，获得第一融合特征图可以通过如下步骤实现：

将第一特征图与对齐后的第二融合特征图融合，获得第一融合特征图，其中，对齐后的第二融合特征图为根据压缩视频中第一历史视频帧与当前视频帧之间的位移信息，将第二融合特征图与第一特征图对齐获得的。

图3中示出的对齐后的第二融合特征图为根据图3所示的位移信息，第二融合特征图与第一特征图对齐获得的。由于压缩视频中包括类型为关键帧的视频帧和类型为非关键帧的视频帧之间的位移信息，因此不需要通过光流预测类型为关键帧和类型为非关键帧的视频帧之间的光流图，可以直接提取类型为关键帧的视频帧和类型为非关键帧的视频帧之间的位移信息。即第一历史视频帧与当前视频帧之间的位移信息不需要通过光流图获取，由于通过光流图获取类型为关键帧的视频帧和类型为非关键帧的视频帧之间的位移信息的计算量较大，而本申请中针对类型为关键帧的视频帧和类型为非关键帧的视频帧之间的位移信息不通过光流图获取，直接提取位移信息相对光流图计算位移信息而言，计算量较小且提取速度较快，从而可以进一步加快将第一特征图与对齐后的第二融合特征图融合，获得第一融合特征图的速度，从而提高获得当前视频帧的目标物体检测结果的速度。

如图4所示，图4是本申请一示例性实施例提供的目标物体检测方法的具体步骤流程图。步骤、将第一特征图与对齐后的第二融合特征图融合，获得第一融合特征图可以包括如下步骤。

步骤401，获得第一特征图的第三权重。

步骤402，根据第一特征图、第一特征图的第三权重、对齐后的第二融合特征图，将对齐后的第二融合特征图与第一特征图进行融合，获得第一融合特征图。

图3中示出了当前视频帧的类型为非关键帧的情况下，将对齐后的第二融合特征图与第一特征图进行融合，获得第一融合特征图的一示例性过程。图3中从右侧开始的第一个

表示第一特征图与第三权重相乘，

表示将第一特征图与第三权重相乘与对齐后的第二融合特征图进行相加，以获得第一融合特征图，之后即可以根据第一融合特征图对当前视频帧的目标物体进行检测，获得当前视频帧的目标物体检测结果。

由于第二融合特征图融合了第二特征图和第三特征图的特征，因此第二融合特征图复用了第一历史视频帧之前的类型为关键帧的视频帧的特征，使得第二融合特征图比第二特征图包含的特征信息更加具有识别能力。因此将对齐后的第二融合特征图与第一特征图进行融合，获得的第一融合特征图包含的特征信息更加具有识别能力，从而提高目标物体检测结果的精度。

上述每个实施例示出了当前视频帧的类型为非关键帧的情况下，如何获得当前视频帧的第一融合特征图，根据第一融合特征图对当前视频帧进行检测，获得当前视频帧的目标物体检测结果。下面针对当前视频帧的类型为关键帧的情况下，介绍获得当前视频帧的第一融合特征图，根据第一融合特征图对当前视频帧进行检测，获得当前视频帧的目标物体检测结果的实施例。

参照图5，图5是本申请又一示例性实施例提供的目标物体检测方法的流程示意图。本实施例可应用在电子设备上，如图5所示，包括如下步骤：

步骤501，在当前视频帧的类型为关键帧的情况下，采用第二神经网络提取当前视频帧的特征，以获得当前视频帧的第四特征图。

为了更清楚的介绍实施例提供的目标物体检测方法，在此结合图6进行说明，图6是本申请再一示例性实施例提供的目标物体检测方法的流程示意图。

步骤502，确定当前视频帧之前的第三历史视频帧的第五特征图，第五特征图为采用第二神经网络提取第三历史视频帧的特征获得的，第三历史视频帧为时序上位于当前视频帧之前的类型为关键帧的视频帧。

第三历史视频帧在时序上位于当前视频帧之前，第三历史关键视频帧可以是时序上位于当前视频帧之前且与当前视频帧相邻的类型为关键帧的视频帧，或者第三历史视频帧是时序位于当前视频帧之前的其他类型为关键帧的视频帧，本申请对此不进行限定。结合上述实施例中的举例介绍，如果当前视频帧为第91视频帧，则第三历史视频帧可以为在时序上位于当前视频帧之前且与当前视频帧相邻的类型为关键帧的视频帧(即第61视频帧)，或者第31视频帧等其他类型为关键帧的视频帧。

步骤503，将第四特征图与第五特征图进行融合，获得当前视频帧的第三融合特征图。

将第四特征图与第五特征图进行融合，获得第三融合特征图，从而使第三融合特征图复用了第三历史视频帧的特征，即复用了类型为关键帧的视频帧的特征，从而使第三融合特征图融合了类型为关键帧的历史视频帧的特征，提高对当前视频帧的检测精度。

步骤504，根据第三融合特征图对当前视频帧进行检测，获得当前视频帧的目标物体检测结果。

本实施例提供的目标物体检测方法，通过将第四特征图与第五特征图进行融合，获得第三融合特征图，从而使第三融合特征图复用了第三历史视频帧的特征，即复用了类型为关键帧的视频帧的特征，从而使根据第一融合特征图对当前视频帧进行检测时，获得的当前视频帧的目标物体检测结果的精度较高。

可选的，如图7所示，图7是本申请一示例性实施例提供的目标物体检测方法的具体步骤示意图。在图5所示实施例的基础上，步骤503，所述将所述第四特征图与所述第五特征图进行融合，获得所述当前视频帧的第三融合特征图，可以包括如下步骤：

步骤5031，根据第三历史视频帧与当前视频帧之间的第二光流图，将第五特征图与第四特征图对齐，获得对齐后的第五特征图。

步骤5032，将第四特征图与对齐后的第五特征图进行融合，获得第三融合特征图。

由于第三融合特征图融合了第四特征图和对齐后的第五特征图的特征，因此第三融合特征图复用了当前视频帧之前的类型为关键帧的视频帧的特征，使得第三融合特征图比第四特征图包含的特征信息更加具有识别能力。因此将第四特征图与对齐后的第五特征图进行融合，获得的第三融合特征图包含的特征信息更加具有识别能力，从而提高目标物体检测结果的精度。

如图6所示，对齐后的第五特征图为根据第三历史视频帧与当前视频帧之间的第二光流图，将第五特征图与第四特征图对齐获得的。

可选的，其中，步骤5032，所述将所述第四特征图与对齐后的所述第五特征图进行融合，获得所述第三融合特征图，可以通过如下方式实现：

根据第四特征图、第四特征图的第四权重、对齐后的第五特征图、以及对齐后的第五特征图的第五权重，将第四特征图与对齐后的第五特征图进行融合，获得第三融合特征图。

图6中示出的第一融合特征图为根据第一特征图、第一特征图的第四权重、对齐后的第四特征图、以及对齐后的第四特征图的第五权重，将第一特征图与对齐后的第四特征图进行融合获得的。

参照图8，图8是本申请一示例性实施例提供的目标物体检测装置的结构图。目标物体检测装置800包括：

类型确定模块801，用于确定当前视频帧的类型；

第一获得模块802，用于在类型确定模块确定当前视频帧的类型为非关键帧的情况下，采用第一神经网络提取当前视频帧的特征，以获得当前视频帧的第一特征图；

第一确定模块803，用于确定当前视频帧之前的第一历史视频帧的第二特征图，第二特征图为采用第二神经网络提取第一历史视频帧的特征获得的，第一历史视频帧为时序上位于当前视频帧之前的类型为关键帧的视频帧，第一神经网络的网络模型大小小于二神经网络的网络模型大小；

第一融合模块804，用于将第一获得模块获得的第一特征图与第一确定模块确定的第二特征图进行融合，获得当前视频帧的第一融合特征图；

第一检测模块805，用于根据第一融合模块获得的第一融合特征图对当前视频帧进行检测，获得当前视频帧的目标物体检测结果。

本申请实施例提供的目标物体检测装置，由于采用第一神经网络提取非关键帧的特征图，针对关键帧，才采用第二神经网络提取关键帧的特征图。并且第一神经网络的网络模型小于第二神经网络的网络模型，因此通过第一神经网络提取非关键帧的特征图的计算量比通过光流图获得非关键帧的特征图计算量要小，获得第一特征图的速度较快。并且由于采用第一神经网络直接提取类型为非关键帧的当前视频帧的特征获得第一特征图，因此精度相比现有技术中通过光流图获得非关键帧的特征图的精度高。因此本申请中针对非关键帧采用第一神经网络提取类型为非关键帧的当前视频帧的第一特征图，在一定程度上提高了获取的非关键帧的特征图的精度，并且由于第一神经网络的总的参数计算量很小和/或网络层数较少，因此获得第一特征图的速度也较快。因此使第一特征图和第二特征图融合获得第一融合特征图的精度和速度较高，并且第一融合特征图融合了关键视频帧的特征图所包含的信息，因此在一定程度上提高了目标物体检测结果的速度和精度。

可选的，第一融合模块804，具体用于将第一特征图与第一历史视频帧的第二融合特征图进行融合，获得第一融合特征图，其中，第二融合特征图为第二特征图与第二历史视频帧的第三特征图进行融合获得的，第二历史视频帧为时序上位于第一历史视频帧之前的类型为关键帧的视频帧。

可选的，第一融合模块804，具体用于将第一特征图与对齐后的第二融合特征图融合，获得第一融合特征图，其中，对齐后的第二融合特征图为根据压缩视频中第一历史视频帧与当前视频帧之间的位移信息，将第二融合特征图与第一特征图对齐获得的。

可选的，参照图9，图9是本申请另一示例性实施例提供的目标物体检测装置的结构图。第一融合模块804，包括：

第一获得单元8041，用于获得第一特征图的第三权重；

第一融合单元8042，用于根据第一获得模块获得的第一特征图、第一获得单元获得的第一特征图的第三权重、对齐后的第二融合特征图，将对齐后的第二融合特征图与第一特征图进行融合，获得第一融合特征图。

可选的，如图9所示目标物体检测装置800还可以包括：

第二获得模块901，用于在当前视频帧的类型为关键帧的情况下，采用第二神经网络提取当前视频帧的特征，以获得当前视频帧的第四特征图；

第二确定模块902，用于确定当前视频帧之前的第三历史视频帧的第五特征图，第五特征图为采用第二神经网络提取第三历史视频帧的特征获得的，第三历史视频帧为时序上位于当前视频帧之前的类型为关键帧的视频帧；

第二融合模块903，用于将第二获得模块获得的第四特征图与第二确定模块确定的第五特征图进行融合，获得当前视频帧的第三融合特征图；

第二检测模块904，用于根据第二融合模块获得的第三融合特征图对当前视频帧进行检测，获得当前视频帧的目标物体检测结果。

可选的，第二融合模块903，包括：

第二获得单元9031，用于根据第三历史视频帧与当前视频帧之间的第二光流图，将第五特征图与第四特征图对齐，获得对齐后的第五特征图。

第二融合单元9032，用于将第四特征图与第二获得单元获得的对齐后的第五特征图进行融合，获得第三融合特征图。

可选的，第二融合单元9032，具体用于根据第四特征图、第四特征图的第四权重、对齐后的第五特征图、以及对齐后的第五特征图的第五权重，将第四特征图与对齐后的第五特征图进行融合，获得第三融合特征图。

示例性电子设备

下面，参考图10来描述根据本申请实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。图10图示了根据本申请实施例的电子设备的框图。

如图10所示，电子设备10包括一个或多个处理器111和存储器112。

处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器112可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器111可以运行所述程序指令，以实现上文所述的本申请的各个实施例的目标物体检测方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备10还可以包括：输入装置113和输出装置114，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备或第二设备时，该输入装置113可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置113可以是通信网络连接器，用于从第一设备和第二设备接收所采集的输入信号。

此外，该输入装置113还可以包括例如键盘、鼠标等等。

该输出装置114可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图10中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的目标物体检测方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的目标物体检测方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种目标物体检测方法，包括：

确定当前视频帧的类型；

2.根据权利要求1所述的方法，其中，所述将所述第一特征图与第二特征图进行融合，获得所述当前视频帧的第一融合特征图，包括：

将所述第一特征图与所述第一历史视频帧的第二融合特征图进行融合，获得所述第一融合特征图，其中，所述第二融合特征图为所述第二特征图与第二历史视频帧的第三特征图进行融合获得的，所述第二历史视频帧为时序上位于所述第一历史视频帧之前的类型为关键帧的视频帧。

3.根据权利要求2所述的方法，其中，所述第二融合特征图为所述第二特征图与对齐后的所述第三特征图进行融合获得的，对齐后的所述第三特征图为根据所述第一历史视频帧与所述第二历史视频帧之间的第一光流图，将所述第三特征图与所述第二特征图对齐获得的。

4.根据权利要求3所述的方法，其中，所述第二融合特征图为根据所述第二特征图、以及所述第二特征图的第一权重、对齐后的所述第三特征图、以及对齐后的所述第三特征图的第二权重，将对齐后的所述第三特征图和所述第二特征图进行融合获得的。

5.根据权利要求2-4任一项所述的方法，其中，所述将所述第一特征图与所述第一历史视频帧的第二融合特征图进行融合，获得所述第一融合特征图，包括：

将所述第一特征图与对齐后的所述第二融合特征图融合，获得所述第一融合特征图，其中，对齐后的所述第二融合特征图为根据压缩视频中所述第一历史视频帧与所述当前视频帧之间的位移信息，将所述第二融合特征图与所述第一特征图对齐获得的。

6.根据权利要求5所述的方法，其中，所述将所述第一特征图与对齐后的所述第二融合特征图融合，获得所述第一融合特征图，包括：

获得所述第一特征图的第三权重；

根据所述第一特征图、所述第一特征图的第三权重、对齐后的所述第二融合特征图，将对齐后的所述第二融合特征图与所述第一特征图进行融合，获得所述第一融合特征图。

7.根据权利要求1所述的方法，其中，还包括：

在所述当前视频帧的类型为关键帧的情况下，采用所述第二神经网络提取所述当前视频帧的特征，以获得所述当前视频帧的第四特征图；

确定所述当前视频帧之前的第三历史视频帧的第五特征图，所述第五特征图为采用所述第二神经网络提取所述第三历史视频帧的特征获得的，所述第三历史视频帧为时序上位于所述当前视频帧之前的类型为关键帧的视频帧；

将所述第四特征图与所述第五特征图进行融合，获得所述当前视频帧的第三融合特征图；

根据所述第三融合特征图对所述当前视频帧进行检测，获得所述当前视频帧的目标物体检测结果。

8.根据权利要求7所述的方法，其中，所述将所述第四特征图与所述第五特征图进行融合，获得所述当前视频帧的第三融合特征图，包括：

根据所述第三历史视频帧与所述当前视频帧之间的第二光流图，将所述第五特征图与所述第四特征图对齐，获得对齐后的所述第五特征图；

将所述第四特征图与对齐后的所述第五特征图进行融合，获得所述第三融合特征图。

9.根据权利要求8所述的方法，其中，所述将所述第四特征图与对齐后的所述第五特征图进行融合，获得所述第三融合特征图，包括：

根据所述第四特征图、所述第四特征图的第四权重、对齐后的所述第五特征图、以及对齐后的所述第五特征图的第五权重，将所述第四特征图与对齐后的所述第五特征图进行融合，获得所述第三融合特征图。

10.一种目标物体检测装置，包括：

类型确定模块，用于确定当前视频帧的类型；

11.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-9任一所述的目标物体检测方法。

12.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-9任一所述的目标物体检测方法。