CN114639076A

CN114639076A - 目标对象检测方法、装置、存储介质以及电子装置

Info

Publication number: CN114639076A
Application number: CN202011381114.7A
Authority: CN
Inventors: 李松; 余言勋; 王耀农
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2022-06-17

Abstract

本发明实施例提供了一种目标对象检测方法、装置、存储介质以及电子装置，该方法包括：获取一组连续帧图片，从一组连续帧图片中抽取第x帧待检测图片，并根据预定的时序信息依赖长度n从一组连续帧图片中抽取第x帧待检测图片的前n帧图片，n为大于1，且小于x的整数，将第x帧待检测图片以及前n帧图片输入目标神经网络模型，得到目标输出结果，因此，可以解决相关技术中存在的目标检测的过程较为复杂，在实际应用场景中利用效率较低的技术问题，达到提高目标对象的检测效率、降低检测成本的技术效果。

Description

目标对象检测方法、装置、存储介质以及电子装置

技术领域

本发明实施例涉及通信领域，具体而言，涉及一种目标对象检测方法、装置、存储介质以及电子装置。

背景技术

在当今城市化的快速扩张和经济的腾飞中，城市道路、高速、隧道和车辆急剧增多，使得对交通道路上摄像头产生的视频流图像处理工作量增大，以致超出人工负荷。为解决这一问题，各种针对视频流的目标检测算法应运而生，并取得了较多实际场景的应用。目前主流的视频目标检测算法可主要分为两类，即光流与深度学习相融合的视频目标检测算法和目标跟踪与静态图像检测相融合的视频目标检测算法。

其中，例如，基于光流与深度学习相融合的视频目标检测算法，在应用过程中缺少对视频流中上下文信息的充分利用，无法有效避免相邻帧中因目标姿态、光照等发生的变化而引起的目标漏检与误检等情况，同时因光流计算引入的耗时将限制算法的普及应用。

而例如，基于目标跟踪与静态图像检测相融合的视频目标检测算法，在应用过程中包含了较为复杂的算法结构，也限制了其在真实场景中的进一步应用。

针对相关技术中存在的目标检测的过程较为复杂，在实际应用场景中利用效率较低的技术问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种目标对象检测方法、装置、存储介质以及电子装置，以至少解决相关技术中存在的目标检测的过程较为复杂，在实际应用场景中利用效率较低的技术问题。

根据本发明的一个实施例，提供了一种目标对象检测方法，包括：获取一组连续帧图片；从所述一组连续帧图片中抽取第x帧待检测图片，并根据预定的时序信息依赖长度n从所述一组连续帧图片中抽取所述第x帧待检测图片的前n帧图片，所述n为大于1，且小于x的整数；将所述第x帧待检测图片以及所述前n帧图片输入目标神经网络模型，得到目标输出结果，其中，所述目标输出结果标注了所述目标边框，所述目标神经网络模型用于从所述第x帧待检测图片中基于所述前n帧图片包含的语义信息确定出所述目标边框，所述目标边框与所述第x帧图片中包含的目标对象相对应。

根据本发明的另一个实施例，提供了一种目标对象检测装置，包括：获取模块，用于获取一组连续帧图片；抽取模块，用于从所述一组连续帧图片中抽取第x帧待检测图片，并根据预定的时序信息依赖长度n从所述一组连续帧图片中抽取所述第x帧待检测图片的前n帧图片，所述n为大于1，且小于x的整数；处理模块，用于将所述第x帧待检测图片以及所述前n帧图片输入目标神经网络模型，得到目标输出结果，其中，所述目标输出结果标注了所述目标边框，所述目标神经网络模型用于从所述第x帧待检测图片中基于所述前n帧图片包含的语义信息确定出所述目标边框，所述目标边框与所述第x帧图片中包含的目标对象相对应。

根据本发明的又一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被处理器执行时实现上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项方法实施例中的步骤。

通过本发明，采用获取一组连续帧图片，从一组连续帧图片中抽取第x帧待检测图片，并根据预定的时序信息依赖长度n从一组连续帧图片中抽取第x帧待检测图片的前n帧图片，n为大于1，且小于x的整数，将第x帧待检测图片以及前n帧图片输入目标神经网络模型，得到目标输出结果，以确定出与第x帧图片中包含的目标对象相对应的目标边框，实现对目标对象的检测，因此，可以解决相关技术中存在的目标检测的过程较为复杂，在实际应用场景中利用效率较低的技术问题，达到提高目标对象的检测效率、降低检测成本的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的目标对象检测方法的移动终端的硬件结构框图；

图2是根据本发明实施例的一种可选的目标对象检测方法的流程示意图；

图3是根据本发明实施例的一种可选的目标对象检测方法的示意图；

图4是根据本发明实施例的另一种可选的目标对象检测方法的示意图；

图5是根据本发明实施例的另一种可选的目标对象检测方法的流程示意图；

图6是根据本发明实施例的一种可选的目标对象检测装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明的实施例。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种目标对象检测方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的目标对象检测方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于移动终端、计算机终端或者类似的运算装置的目标对象检测方法，图2是根据本发明实施例的一种可选的目标对象检测方法的流程示意图，如图2所示，该流程包括如下步骤：

S202，获取一组连续帧图片；

S204，从一组连续帧图片中抽取第x帧待检测图片，并根据预定的时序信息依赖长度n从一组联系帧图片中抽取第x帧待检测图片的前n帧图片，n为大于1，且小于x的整数；

S206，将第x帧待检测图片以及前n帧图片输入目标神经网络模型，得到目标输出结果，其中，目标输出结果标注了目标边框，目标神经网络模型用于从第x帧待检测图片中基于前n帧图片包含的语义信息确定出目标边框，目标边框与第x帧图片中包含的目标对象相对应。

可选地，在本实施例中，上述一组连续帧图片可以包括但不限于对目标区域进行拍摄后所得到的一组连续帧图片，或者，包括但不限于从数据库中获取到的一组连续帧图片，上述目标区域可以包括但不限于道路、高速公路、隧道、桥梁等存在需要检测目标对象的区域，上述目标对象可以包括但不限于人、车、动物、机器人、船舶、航空器等需要进行识别和检测的对象。

可选地，在本实施例中，上述x用于表示上述一组连续帧图片中的帧序号，上述第x帧图片可以包括但不限于当前帧为第x帧的待检测帧图片，或者，由系统或者服务器预设的第x帧图片。

可选地，在本实施例中，上述一组连续帧图片可以包括但不限于通过一段视频中截取或者抽帧得到的一组图片。

其中，上述获取一组连续帧图片可以通过包括但不限于如下方式实现：

S1，对当前场景进行分析，并将采集的视频数据进行连续帧的抽帧以得到上述一组连续帧图片；

S2，根据实际需求，标注上述一组连续帧图片。

可选地，在本实施例中，上述从所述一组连续帧图片中抽取第x帧待检测图片，并根据预定的时序信息依赖长度n从所述一组联系帧图片中抽取所述第x帧待检测图片的前n帧图片可以包括但不限于如下方式实现：

S1，获取预定的时序信息依赖长度n，上述时序信息依赖长度可以根据实际情况进行灵活调整。

S2，在需要检测一组连续帧图片中的目标对象的情况下，根据实际的时序信息依赖长度n，提取当前帧静态图像和前n帧静态图像，将其分成两路，并设置为网络输入的大小，其中，第一路大小为B×C×H×W，第二路大小为B×C×D×H×W，B表示输入特征图数量，C表示输入特征图通道数，D表示时序依赖长度n，H表示输入特征图高度，W表示输入特征图宽度。

需要说明的是，上述n的取值范围可以根据实际需要进行配置，一般为大于1，且小于当前待检测帧图像的帧序号x的整数。

可选地，在本实施例中，上述目标神经网络模型可以包括但不限于卷积神经网络、无监督预训练网络等，具体而言，可以包括但不限于例如，yolov3的轻量型骨干网络等。

可选地，在本实施例中，在上述目标神经网络模型为卷积神经网络模型的情况下，可以包括但不限于为二维卷积神经网络模型或三维卷积神经网络模型以及二维卷积神经网络模型和三维卷积神经网络模型的组合等。

可选地，在本实施例中，上述前n帧图片包含的语义信息可以包括但不限于通过将上述前n帧图片输入三维卷积神经网络模型，以确定前n帧图片中包含的语义信息，上述语义信息可以包括但不限于时序语义信息等。

可选地，在本实施例中，上述目标边框用于在对应的图片中标识上述目标对象，以实现对目标对象的检测。

在一个可选的实施例中，将所述第x帧待检测图片以及所述前n帧图片输入目标神经网络模型，得到目标输出结果，包括：将所述第x帧待检测图片输入二维卷积神经网络模型，得到第一输出结果，其中，所述目标神经网络模型包括所述二维卷积神经网络模型；将所述前n帧图片输入三维卷积神经网络模型，得到第二输出结果，其中，所述目标神经网络模型包括所述三维卷积神经网络模型；将所述第一输出结果和所述第二输出结果输入目标函数，得到所述目标输出结果。

可选地，在本实施例中，上述二维卷积神经网络模型可以包括但不限于基于yolov3的轻量型骨干网络所确定的二维卷积神经网络模型，上述三维卷积神经网络模型可以包括但不限于基于yolov3的轻量型骨干网络所确定的三维卷积神经网络模型。

可选地，在本实施例中，上述第一输出结果可以包括但不限于直接进行卷积池化操作后的输出结果，还可以包括但不限于将卷积池化操作后的输出结果再输入特征金字塔模块得到的输出结果。

可选地，在本实施例中，上述第二输出结果可以包括但不限于直接进行卷积池化操作后的输出结果，还可以包括但不限于进行卷积池化操作后，再通过上采样和卷积运算后的输出结果。

上述仅是一种示例，本实施例不做任何具体的限定。

在一个可选的实施例中，将所述第x帧待检测图片输入二维卷积神经网络模型，得到第一输出结果，包括：在所述二维卷积神经网络模型包括M个卷积池化模块以及一个单独的卷积模块的情况下，将所述第x帧待检测图片输入所述M个卷积池化模块中的第一个卷积池化模块，以得到所述M个卷积池化模块中的第M个卷积池化模块的输出结果，其中，在所述M个卷积池化模块中，前一个卷积池化模块的输出为下一个卷积池化模块的输入；将所述第M个卷积池化模块的输出结果输入所述单独的卷积模块，得到第三输出结果；将所述第三输出结果以及所述M个卷积池化模块中的第M-2个卷积池化模块的输出结果输入特征金字塔模块，得到第四输出结果；将所述第三输出结果和所述第四输出结果确定为所述第一输出结果。

可选地，在本实施例中，上述M可以根据实际需要进行灵活设置。

例如，在上述二维卷积神经网络模型采用yolov3的轻量型骨干网络，且M等于6的情况下，上述二维卷积神经网络模型可以包括但不限于由6个卷积池化模块和单独一个卷积模块组成，其中，前5个卷积池化模块中卷积模块卷积核大小为3×3，步长为1，最大池化模块核大小为2×2，步长为2，最后一个卷积池化模块中卷积核大小为3×3，步长为1，最大池化模块核大小为2×2，步长为2，单独的卷积模块卷积核大小为3×3，步长为1。

换言之，上述二维卷积神经网络模型可以包括但不限于M-2个第一类型卷积池化模块和一个第二类型卷积池化模块以及一个单独的卷积模块，上述第一类型的卷积池化模块和第二类型的卷积池化模块的卷积核大小与步长不同。

上述仅是一种示例，本实施例对此不做具体的限定。

可选地，在本实施例中，以M＝6为例，上述将第三输出结果以及6个卷积池化模块中的第4个卷积池化模块的输出结果输入特征金字塔模块，以得到上述第一输出结果。

在一个可选的实施例中，将所述前n帧图片输入三维卷积神经网络模型，得到第二输出结果，包括：在所述三维卷积神经网络模型包括N个卷积池化模块以及一个单独的卷积模块的情况下，将所述前n帧图片分别输入所述N个卷积池化模块中的第一个卷积池化模块，以得到所述N个卷积池化模块中的第N个卷积池化模块的输出结果，其中，在所述N个卷积池化模块中，前一个卷积池化模块的输出为下一个卷积池化模块的输入；将所述第N个卷积池化模块的输出结果输入所述单独的卷积模块，得到第五输出结果；对所述第五输出结果进行上采样和卷积运算，得到第六输出结果；将所述第五输出结果和所述第六输出结果确定为所述第二输出结果。

可选地，在本实施例中，上述N可以根据实际需要进行灵活设置。

例如，在上述三维卷积神经网络模型N等于5的情况下，可以包括但不限于由由5个卷积池化模块和单独一个卷积模块组成，其中前2个卷积池化模块中卷积核大小为3×3×3，步长为1，池化模块卷积核大小为3×3×3，步长为2，后3个卷积池化模块卷积核大小为3×3，步长为1，池化模块卷积核大小为3×3，步长为2，单独的卷积模块卷积核大小为3×3，步长为1。

换言之，上述三维卷积神经网络模型可以包括但不限于一组第三类型卷积池化模块和一组第四类型卷积池化模块以及一个单独的卷积模块，上述第三类型的卷积池化模块和第四类型的卷积池化模块的卷积核与步长不同。

可选地，在本实施例中，上述M和N可以预设为相同或者不同。

通过本实施例，采用三维的卷积核能够充分利用一组连续帧图片中的时空特征，以实现提高对目标对象的检测效率的技术效果。

在一个可选的实施例中，将所述第一输出结果和所述第二输出结果输入目标函数，得到所述目标输出结果，包括：将所述第一输出结果和所述第二输出结果输入如下目标函数，以得到所述目标输出结果：

其中，所述x₁表示所述第二输出结果，所述x₂表示所述第一输出结果，所述x₁以及所述x₂均满足x∈R^c×h×w，c表示输入特征图的通道数，h表示输入特征图的高度，w表示输入特征图的宽度，

表示哈达玛乘积，所述目标函数包含恒等映射模块。

可选地，在本实施例中，上述目标函数中的“1”表示上述目标函数包含的恒等映射模块，以实现尽可能保存上述第x帧，也即当前待检测帧的语义特征。

在一个可选的实施例中，在将所述第x帧待检测图片以及所述前n帧图片输入目标神经网络模型，得到目标输出结果之后，所述方法还包括：将所述目标输出结果执行识别与边框回归卷积，得到第一边框；对所述第一边框进行候选目标后处理，确定所述目标边框与所述目标边框对应的对象类别。

可选地，在本实施例中，上述第一边框的尺寸信息由预先标注的边框信息输入聚类算法得到的锚框确定。

在一个可选的实施例中，所述方法还包括：根据预定的标注策略标注所述一组连续帧图片，得到一组已标注了预定边框的一组连续帧图片；将所述预定边框输入目标聚类算法，得到与所述预定边框对应的锚框，其中，所述锚框用于在对所述第一边框进行候选目标后处理之前确定所述第一边框的尺寸信息。

可选地，在本实施例中，上述目标聚类算法可以包括但不限于K-means聚类算法。

可选地，在本实施例中，以上述二维卷积神经网络模型是采用yolov3的轻量型骨干网络为例，利用K-means聚类算法对目标边框进行聚类，聚类中心个数可以包括但不限于设置为6，对应的评价函数为：

d(gt_box,c_box)＝1-IOU(gt_box,c_box) (2)

其中，gt_box和c_box分别表示标注的边框和聚类中心边框，函数IOU表示交并比。在进行边框回归时，将特征图上的每一个点视作一个检测目标中心，会为每一个中心点预测一个水平和垂直方向的偏移量，而对于锚点的大小则会预测对应的宽和高缩放比，即t∈R⁴，具体如公式(3)所示：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

再通过获得每个特征图对应的下采样倍数后，即可获得原图中对应的较为完整的边框。对每一个中心点预测对应的类别时，由于每张输入特征图中包含有多个目标，因此采用了Sigmoid函数进行预测，训练时采用了交叉熵损失函数来进行反向传播。

在一个可选的实施例中，在确定所述目标边框和所述对象类别之后，所述方法还包括：利用非极大值抑制去除所述目标边框中包含的冗余边框，以得到目标检测结果，其中，所述目标检测结果用于表示所述第x帧图片中包含的目标对象。

可选地，在本实施例中，在获得了目标对象的类别和边框之后，可以通过包括但不限于非极大值抑制NMS(Non Maximum Suppression)去除冗余匡，得到上述目标检测结果。

图3是根据本发明实施例的一种可选的目标对象检测方法的示意图，如图3所示，飞机302即为前述的目标对象，边框304即为前述的目标边框。

图4是根据本发明实施例的另一种可选的目标对象检测方法的示意图，如图4所示，其中，子图402、子图404、子图406、子图408、子图410、子图412、子图414、子图416、子图418、子图420中示出的目标对象以及目标边框均为该子图作为前述的第x帧图像进行目标对象检测后得到的目标检测结果。

上述仅是一种示例，本实施例不做任何具体限定。

下面结合具体的示例，对本发明进行进一步解释说明：

S1、根据对复杂视频流交通场景的分析，将采集的视频数据进行连续帧的抽帧，并根据实际需求，对数据集进行标注。

S2、检测视频流当前帧目标时，根据实际的时序信息依赖长度n，提取当前帧静态图像和前n帧静态图像，将其分成两路，并设置到网络输入大小；其中第一路大小为B×C×H×W，第二路大小为B×C×D×H×W；B表示输入特征图数量，C表示输入特征图通道数，D表示时序依赖长度n，H表示输入特征图高度，W表示输入特征图宽度。

S3、将步骤2中取得图片输入分别送入2DCNN网络和3DCNN网络，其中2DCNN网络采用了yolov3的轻量型骨干网络，即由6个卷积池化模块和单独一个卷积模块组成，前5个卷积池化模块中卷积模块卷积核大小为3×3，步长为1，最大池化模块核大小为2×2，步长为2，最后一个卷积池化模块中卷积核大小为3×3，步长为1，最大池化模块核大小为2×2，步长为2；3DCNN采用3D的卷积核来充分利用视频流中的时空特征，其具体结构由5个卷积池化模块和单独一个卷积模块组成，其中前2个卷积池化模块中卷积核大小为3×3×3，步长为1，池化模块卷积核大小为3×3×3，步长为2，后3个卷积池化模块卷积核大小为3×3，步长为1，池化模块卷积核大小为3×3，步长为2，单独的卷积模块卷积核大小为3×3，步长为1。并将2DCNN中的最终输出特征图与第4个卷积池化模块中的卷积模块输出特征图送入FPN(特征金字塔，Feature Pyramid Networks for Object Detection)模块分别得到两个特征输出，作为该网络的第一、第二输出；将3DCNN的最终输出作为该网络的第一输出，并将其第一输出经过2倍上采样和卷积运算后，作为该网络的第二输出。

S4、将3DCNN的第一与第二输出通过设计的时空注意力模型后，得到检测器的最终输入，在视频流中相邻帧之间存在着极高的相似性，同时又包含了对目标检测起到至关重要作用的语意信息，因此采用待检测帧的前几帧用于对当前帧的语义信息进行预测和增强，同时，为了能够尽可能保存当前帧的语义特征，在时空注意力模型中加入了恒等映射模块，因而设计了点级别的时空注意力模型，对应具体公式可表示如下：

表示哈达玛乘积，所述目标函数包含恒等映射模块。并将时空注意力模块产生的各个特征分别通过识别与边框回归卷积和候选目标后处理来产生最终的目标边框。

S5、由于原始YOLOV3算法中列出的锚点不能够有效应用于本视频交通数据集中目标，因此利用了K-means聚类算法对本数据集的目标边框进行了聚类，聚类中心个数为6，对应的评价函数为：

d(gt_box,c_box)＝1-IOU(gt_box,c_box) (2)

其中gt_box和c_box分别表示标注的边框和聚类中心边框，函数IOU表示交并比。在进行边框回归时，将特征图上的每一个点视作一个检测目标中心，会为每一个中心点预测一个水平和垂直方向的偏移量，而对于锚点的大小则会预测对应的宽和高缩放比，即t∈R⁴，具体如公式(3)所示：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

S6，获得每个特征图对应的下采样倍数后，即可获得原图中对应的较为完整的边框。对每一个中心点预测对应的类别时，由于每张输入特征图中包含有多个目标，因此采用了Sigmoid函数进行预测，训练时采用了交叉熵损失函数来进行反向传播。在获得了目标的类别和边框之后，通过非极大值抑制NMS(Non Maximum Suppression)去除冗余匡，得到最终检测结果。

通过本实施例，根据实际交通应用场景而设计的点时空注意力模型。其主要通过对当前待检测帧的前几帧来对当前帧的时序语义信息进行预测，并通过恒等映射模块来充分保留当前帧的语言特征，通过对交通场景中的目标属性进行分析而精细化设计3DCNN网络拓扑结构，和2DCNN网络、FPN模块相融合的视频流特征提取结构；根据实际中交通应用场景而设计的视频流目标检测方法整体流程结构，可以达到提升目标对象检测算法在复杂视频流交通场景中对目标特征提取的鲁棒性，还能够通过精心设计的轻量型3DCNN特征提取网络，并结合轻量型2DCNN特征提取网络，有效提取了待检测帧的深度特征和其对应的时序特征；能够有效提升视频流交通场景中对目标检测的性能，缓解了视频中单帧目标检测的漏检、误检测和虚检测情况，不仅有效利用了当前待检测帧前几帧的语言信息对当前帧的语义信息进行预测和增强，而且，通过在时空注意力模型方法中加入恒等映射模块来充分保存当前帧的深层语义特征。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种目标对象检测装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图6是根据本发明实施例的一种可选的目标对象检测装置的结构框图，如图6所示，该装置包括：

获取模块602，用于获取一组连续帧图片；

抽取模块604，用于从所述一组连续帧图片中抽取第x帧待检测图片，并根据预定的时序信息依赖长度n从所述一组连续帧图片中抽取所述第x帧待检测图片的前n帧图片，所述n为大于1，且小于x的整数；

处理模块606，用于将所述第x帧待检测图片以及所述前n帧图片输入目标神经网络模型，得到目标输出结果，其中，所述目标输出结果标注了所述目标边框，所述目标神经网络模型用于从所述第x帧待检测图片中基于所述前n帧图片包含的语义信息确定出所述目标边框，所述目标边框与所述第x帧图片中包含的目标对象相对应。

在一个可选的实施例中，所述处理模块606用于通过如下方式将所述第x帧待检测图片以及所述前n帧图片输入目标神经网络模型，得到目标输出结果：

将所述第x帧待检测图片输入二维卷积神经网络模型，得到第一输出结果，其中，所述目标神经网络模型包括所述二维卷积神经网络模型；

将所述前n帧图片输入三维卷积神经网络模型，得到第二输出结果，其中，所述目标神经网络模型包括所述三维卷积神经网络模型；

将所述第一输出结果和所述第二输出结果输入目标函数，得到所述目标输出结果。

在一个可选的实施例中，所述处理模块606用于通过如下方式将所述第x帧待检测图片输入二维卷积神经网络模型，得到第一输出结果：

在所述二维卷积神经网络模型包括M个卷积池化模块以及一个单独的卷积模块的情况下，将所述第x帧待检测图片输入所述M个卷积池化模块中的第一个卷积池化模块，以得到所述M个卷积池化模块中的第M个卷积池化模块的输出结果，其中，在所述M个卷积池化模块中，前一个卷积池化模块的输出为下一个卷积池化模块的输入；将所述第M个卷积池化模块的输出结果输入所述单独的卷积模块，得到第三输出结果；将所述第三输出结果以及所述M个卷积池化模块中的第M-2个卷积池化模块的输出结果输入特征金字塔模块，得到第四输出结果；将所述第三输出结果和所述第四输出结果确定为所述第一输出结果。

在一个可选的实施例中，所述处理模块606用于通过如下方式将所述前n帧图片输入三维卷积神经网络模型，得到第二输出结果：在所述三维卷积神经网络模型包括N个卷积池化模块以及一个单独的卷积模块的情况下，将所述前n帧图片分别输入所述N个卷积池化模块中的第一个卷积池化模块，以得到所述N个卷积池化模块中的第N个卷积池化模块的输出结果，其中，在所述N个卷积池化模块中，前一个卷积池化模块的输出为下一个卷积池化模块的输入；将所述第N个卷积池化模块的输出结果输入所述单独的卷积模块，得到第五输出结果；对所述第五输出结果进行上采样和卷积运算，得到第六输出结果；将所述第五输出结果和所述第六输出结果确定为所述第二输出结果。

在一个可选的实施例中，所述处理模块606用于通过如下方式将所述第一输出结果和所述第二输出结果输入目标函数，得到所述目标输出结果：

将所述第一输出结果和所述第二输出结果输入如下目标函数，以得到所述目标输出结果：

其中，所述x1表示所述第二输出结果，所述x2表示所述第一输出结果，所述x1以及所述x2均满足x∈R^c×h×w，c表示输入特征图的通道数，h表示输入特征图的高度，w表示输入特征图的宽度，

表示哈达玛乘积，所述目标函数包含恒等映射模块。

在一个可选的实施例中，所述装置还用于：在将所述第x帧待检测图片以及所述前n帧图片输入目标神经网络模型，得到目标输出结果之后，将所述目标输出结果使用识别与边框回归卷积和候选目标后处理，以得到所述目标边框。

在一个可选的实施例中，所述装置还用于：在将所述目标输出结果通过识别与边框回归卷积和候选目标的后处理，得到所述目标边框之后，将所述目标边框输入目标聚类算法，得到所述目标边框所对应的对象类别；在确定所述目标边框和所述对象类别之后，利用非极大值抑制去除冗余边框，以得到目标检测结果，其中，所述目标检测结果用于表示所述第x帧图片中包含的目标对象。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在本实施例中，上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取一组连续帧图片；

S2，从一组连续帧图片中抽取第x帧待检测图片，并根据预定的时序信息依赖长度n从一组联系帧图片中抽取第x帧待检测图片的前n帧图片，n为大于1，且小于x的整数；

S3，将第x帧待检测图片以及前n帧图片输入目标神经网络模型，得到目标输出结果，其中，目标输出结果标注了目标边框，目标神经网络模型用于从第x帧待检测图片中基于前n帧图片包含的语义信息确定出目标边框，目标边框与第x帧图片中包含的目标对象相对应。

计算机可读存储介质还被设置为存储用于执行以下步骤的计算机程序：

S1，获取一组连续帧图片；

在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

在一个示例性实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取一组连续帧图片；

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种目标对象检测方法，其特征在于，包括：

获取一组连续帧图片；

从所述一组连续帧图片中抽取第x帧待检测图片，并根据预定的时序信息依赖长度n从所述一组连续帧图片中抽取所述第x帧待检测图片的前n帧图片，所述n为大于1，且小于x的整数；

将所述第x帧待检测图片以及所述前n帧图片输入目标神经网络模型，得到目标输出结果，其中，所述目标输出结果标注了所述目标边框，所述目标神经网络模型用于从所述第x帧待检测图片中基于所述前n帧图片包含的语义信息确定出所述目标边框，所述目标边框与所述第x帧图片中包含的目标对象相对应。

2.根据权利要求1所述的方法，其特征在于，将所述第x帧待检测图片以及所述前n帧图片输入目标神经网络模型，得到目标输出结果，包括：

3.根据权利要求2所述的方法，其特征在于，将所述第x帧待检测图片输入二维卷积神经网络模型，得到第一输出结果，包括：

在所述二维卷积神经网络模型包括M个卷积池化模块以及一个单独的卷积模块的情况下，将所述第x帧待检测图片输入所述M个卷积池化模块中的第一个卷积池化模块，以得到所述M个卷积池化模块中的第M个卷积池化模块的输出结果，其中，在所述M个卷积池化模块中，前一个卷积池化模块的输出为下一个卷积池化模块的输入；

将所述第M个卷积池化模块的输出结果输入所述单独的卷积模块，得到第三输出结果；

将所述第三输出结果以及所述M个卷积池化模块中的第M-2个卷积池化模块的输出结果输入特征金字塔模块，得到第四输出结果；

将所述第三输出结果和所述第四输出结果确定为所述第一输出结果。

4.根据权利要求2所述的方法，其特征在于，将所述前n帧图片输入三维卷积神经网络模型，得到第二输出结果，包括：

在所述三维卷积神经网络模型包括N个卷积池化模块以及一个单独的卷积模块的情况下，将所述前n帧图片分别输入所述N个卷积池化模块中的第一个卷积池化模块，以得到所述N个卷积池化模块中的第N个卷积池化模块的输出结果，其中，在所述N个卷积池化模块中，前一个卷积池化模块的输出为下一个卷积池化模块的输入；

将所述第N个卷积池化模块的输出结果输入所述单独的卷积模块，得到第五输出结果；

对所述第五输出结果进行上采样和卷积运算，得到第六输出结果；

将所述第五输出结果和所述第六输出结果确定为所述第二输出结果。

5.根据权利要求2所述的方法，其特征在于，将所述第一输出结果和所述第二输出结果输入目标函数，得到所述目标输出结果，包括：

表示哈达玛乘积，所述目标函数包含恒等映射模块。

6.根据权利要求1所述的方法，其特征在于，在将所述第x帧待检测图片以及所述前n帧图片输入目标神经网络模型，得到目标输出结果之后，所述方法还包括：

将所述目标输出结果执行识别与边框回归卷积，得到第一边框；

对所述第一边框进行候选目标后处理，确定所述目标边框与所述目标边框对应的对象类别。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

根据预定的标注策略标注所述一组连续帧图片，得到一组已标注了预定边框的一组连续帧图片；

将所述预定边框输入目标聚类算法，得到与所述预定边框对应的锚框，其中，所述锚框用于在对所述第一边框进行候选目标后处理之前确定所述第一边框的尺寸信息。

8.根据权利要求6所述的方法，其特征在于，在确定所述目标边框和所述对象类别之后，所述方法还包括：

利用非极大值抑制去除所述目标边框中包含的冗余边框，以得到目标检测结果，其中，所述目标检测结果用于表示所述第x帧图片中包含的目标对象。

9.一种目标对象检测装置，其特征在于，包括：

获取模块，用于获取一组连续帧图片；

抽取模块，用于从所述一组连续帧图片中抽取第x帧待检测图片，并根据预定的时序信息依赖长度n从所述一组连续帧图片中抽取所述第x帧待检测图片的前n帧图片，所述n为大于1，且小于x的整数；

处理模块，用于将所述第x帧待检测图片以及所述前n帧图片输入目标神经网络模型，得到目标输出结果，其中，所述目标输出结果标注了所述目标边框，所述目标神经网络模型用于从所述第x帧待检测图片中基于所述前n帧图片包含的语义信息确定出所述目标边框，所述目标边框与所述第x帧图片中包含的目标对象相对应。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被处理器执行时实现所述权利要求1至8任一项中所述的方法的步骤。

11.一种电子装置，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现所述权利要求1至8任一项中所述的方法的步骤。