CN109903281B

CN109903281B - 一种基于多尺度的目标检测方法及装置

Info

Publication number: CN109903281B
Application number: CN201910149838.XA
Authority: CN
Inventors: 田光亚
Original assignee: Quarkdata Software Co ltd
Current assignee: Quarkdata Software Co ltd
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2021-07-27
Anticipated expiration: 2039-02-28
Also published as: CN109903281A

Abstract

本发明实施例公开了一种基于多尺度的目标检测方法、装置及系统，在对连续的视频帧进行目标检测时，本发明考虑了视频之间的连续性，将连续的视频帧划分为关键帧和非关键帧，对于关键帧建立稠密的尺度金字塔，对于非关键帧预测各个尺度，进而无需再通过尺度金字塔对尺度进行检验，从而避免了尺度金字塔多次进行循环，进而降低了I/O开销、提高了检测效率和实时性。

Description

一种基于多尺度的目标检测方法及装置

技术领域

本发明涉及图像处理领域，尤其涉及一种基于多尺度的目标检测方法及装置。

背景技术

目标检测的目的是将某既定目标从场景中分割和识别出来，是一种基于目标几何和统计特征的图像分割，该技术是图像处理过程中的关键步骤，在图像处理领域具有至关重要的作用。

现有技术中包含很多目标检测方法，其中Cascade-RCNN为目前主流的目标检测技术，该技术通过建立尺度金字塔对图像视频帧进行目标检测，但是由于尺度金字塔循环次数多导致I/O开销大、检测效率低，实时性水平差等问题，因此亟待需要一种方法能够解决上述的难题。

发明内容

有鉴于此，本发明实施例公开了一种基于多尺度的目标检测方法、装置及系统，解决了现有技术中由于尺度金字塔的循环次数多导致I/O开销大和检测效率低的问题。

本发明实施例公开了一种基于多尺度的目标检测方法，包括：

将连续的视频帧划分为关键帧和非关键帧；

针对于任意一个关键帧，建立关键帧的尺度金字塔，得到多个尺度图像，并对每个尺度图像进行目标检测；

针对任意一个非关键帧，获取历史视频帧的各个历史尺度，依据历史视频帧的各个历史尺度预测非关键帧的目标尺度，依据各个目标尺度建立非关键帧的尺度包围金字塔，得到多个尺度图像，并对每个尺度图像进行目标检测。

可选的，将连续的视频帧划分为关键帧和非关键帧，包括：

对于连续的视频帧，每间隔预定的视频帧的数量标记一个关键帧，两个关键帧之间的视频帧为非关键帧；

或者

对于连续的视频帧，每间隔预定的时间长度标记一个关键帧，两个关键帧时间的视频帧为非关键帧。

可选的，还包括：

获取目标检测系统的整体负载；所述目标检测系统用于执行所述基于多尺度的目标检测方法；

根据目标检测系统的整体负载，设置用于划分关键帧和非关键帧的所述预定的视频帧的数量或者所述预定的时间长度。

可选的，所述针对任意一个非关键帧，获取历史视频帧的各个历史尺度，依据历史视频帧的各个历史尺度预测非关键帧的目标尺度，依据各个目标尺度建立非关键帧的尺度包围金字塔，得到多个尺度图像，并对每个尺度图像进行目标检测，包括：

获取当前处理的非关键帧的前一视频帧中任意一个尺度；

分别依据所述前一视频帧中每一个尺度和预设的尺度估计因子，计算当前处理的非关键帧的目标尺度集；

依据所有的目标尺度集建立当前处理的非关键帧的尺度包围金子塔。

可选的，还包括：

针对于任意一个非关键帧，遍历尺度金字塔的所有目标尺度，计算每两个目标尺度的距离；

将小于预设阈值的距离对应的两个目标尺度进行合并。

本发明实施例还公开了一种基于多尺度的目标检测装置，包括：

划分单元，用于将连续的视频帧划分为关键帧和非关键帧；

关键帧目标检测单元，用于针对任意一个关键帧，建立关键帧的尺度金字塔，得到多个尺度图像，并对每个尺度图像进行目标检测；

非关键帧目标检测单元，用于针对任意一个非关键帧，获取历史视频帧的各个历史尺度，依据历史视频帧的各个历史尺度预测非关键帧的目标尺度，依据各个目标尺度建立非关键帧的尺度包围金字塔，得到多个尺度图像，并对每个尺度图像进行目标检测。

可选的，所述划分单元，包括：

第一划分子单元，用于对于连续的视频帧，每间隔预定的视频帧的数量标记一个关键帧，两个关键帧之间的视频帧为非关键帧；

或者

第二划分子单元，用于对于连续的视频帧，每间隔预定的时间长度标记一个关键帧，两个关键帧时间的视频帧为非关键帧。

可选的，所述非关键帧目标检测单元，包括：

获取子单元，用于获取当前处理的非关键帧的前一视频帧中任意一个尺度；

目标尺度集计算子单元，用于分别依据所述前一视频帧中每一个尺度和预设的尺度估计因子，计算当前处理的非关键帧的目标尺度集；

尺度包围金字塔建立子单元，用于依据所有的目标尺度集建立当前处理的非关键帧的尺度包围金子塔。

可选的，还包括：

目标尺度合并单元，用于

将小于预设阈值的距离对应的两个尺度进行合并。

本发明实施例还公开了一种基于多尺度的目标检测系统，所述系统包括：前端目标检测器和后端目标检测器；

所述前端目标检测器，用于执行权利要求1所述的方法；

所述后端目标检测器，用于根据前端目标检测器的检测结果执行目标检测。

本发明实施例公开了一种基于多尺度的目标检测方法、装置及系统，包括：将连续的视频帧划分为关键帧和非关键帧；针对于任意一个关键帧，建立关键帧的尺度金字塔，得到多个尺度图像，并对每个尺度图像进行目标检测；针对任意一个非关键帧，获取历史视频帧的各个历史尺度，依据历史视频帧的各个历史尺度预测非关键帧的目标尺度，依据各个目标尺度建立非关键帧的尺度包围金字塔，得到多个尺度图像，并对每个尺度图像进行目标检测。由此可知，本发明考虑了视频之间的连续性，将连续的视频帧划分为关键帧和非关键帧，对于关键帧建立稠密的尺度金字塔，对于非关键帧预测各个尺度，进而无需再通过尺度金字塔对尺度进行检验，从而避免了尺度金字塔多次进行循环，进而降低了I/O开销、提高了检测效率和实时性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本发明实施例提供的一种基于多尺度的目标检测方法的流程示意图；

图2，示出了本发明实施例公开的一种基于多尺度的目标检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参考图1，示出了本发明实施例提供的一种基于多尺度的目标检测方法的流程示意图，在本实施例中，该方法包括：

S101：将连续的视频帧划分为关键帧和非关键帧；

本实施例中，可以通过如下的两种方式对连续的视频帧进行划分：

方式一：对于连续的视频帧，每间隔预定的视频帧的数量标记一个关键帧，两个关键帧之间的视频帧为非关键帧；

方式二：对于连续的视频帧，每间隔预定的时间长度标记一个关键帧，两个关键帧时间的视频帧为非关键帧。

其中，划分关键帧和非关键帧的预定的视频帧的数量和预定的时间是可以调整的，依据目标检测系统的整体负载程度对其进行调整。具体的，包括：

举例说明：在负载较高时，可以间隔较多视频帧，或者间隔较长的时间标记一个关键帧；若是对精度要求较高，可以间隔较少的视频帧，或者间隔较短的时间长度标记一个关键帧。

举例说明：假设该目标检测系统为级联式的系统，其中，该系统包括前端检测器和后端检测器，例如为Cascade-RCNN系统，该系统在执行时，负载很高，这样降低了运算效率，因此，通过本实施例，可以依据该系统的负载将连续的视频帧划分为关键帧和非关键帧。然后对关键帧和非关键帧进行不同方式的目标检测，具体的，对于关键帧和非关键的目标检测方法会在下文中进行详细的介绍，本实施例中不再赘述。

本实施例中，在对连续的视频帧进行目标检测时，可以依据上述的划分规则，对当前要进行目标检测的视频帧进行判定，确定当前的视频帧是关键帧还是非关键帧，具体的，S101包括如下的两种判定方式，具体的包括：

实施方式一：

计算当前视频帧与上一关键帧间隔的视频帧的数量；

判断当前视频帧与上一关键帧间隔的视频帧的数量是否为预设的第一阈值的整数倍；

若当前视频帧与上一关键帧间隔的视频帧的数量不是预设的第一阈值的整数倍，则当前视频帧为非关键帧；

若当前视频帧与上一关键帧间隔的视频帧的数量是预设的第一阈值的整数倍，则当前视频帧为关键帧。

实施方式二：

计算当前视频帧与上一关键帧间隔的时间长度；

判断间隔的时间长度是否为预设的第二阈值的整数倍；

若所述间隔的时间长度是预设的第二阈值的整数倍，则当前视频帧为非关键帧；

若所述间隔的时间长度不是预设的第二阈值的整数倍，则当前视频帧为非关键帧。

S102：针对于任意一个关键帧，建立关键帧的尺度金字塔，得到多个尺度图像，并对每个尺度图像进行目标检测。

本实施例中，对于关键帧，建立完整稠密的尺度金字塔，即按照传统的方式确定关键帧的多个尺度，并得到关键帧的多个尺度图像。

S103：针对任意一个非关键帧，获取历史视频帧的各个历史尺度，依据历史视频帧的各个历史尺度预测非关键帧的目标尺度，依据各个目标尺度建立非关键帧的尺度包围金字塔，得到多个尺度图像，并对每个尺度图像进行目标检测。

本实施例中，历史视频帧为当前处理的非关键帧之前的一个或者多个视频帧。

其中，在历史视频帧为当前处理的非关键帧之前的一个关键帧时，S103包括：

获取当前处理的非关键帧的前一视频帧中任意一个尺度；

依据所有的目标尺度集建立当前处理的非关键帧的尺度金子塔。

本实施例中，非关键针的前一视频帧应用了多个尺度对图像进行目标检测，前一视频帧中的每一个尺度和预设的尺度估计因子因此可以预测一个当前处理的非关键帧的目标尺度集。

举例说明：假设前一视频帧中用到的一个尺度为s(x,h)，其中，尺度s(x,h)表示图像降采样后的宽和高，假设尺度估计因子为：t_s，k_s，可以通过如下的公式1)计算目标尺度集：

1)S_sur＝{(w×t_s ⁿ,h×t_s ⁿ)}∪{s(w,h)}∪{s(w×t_s ^-m,h×t_s ^-m)}；

其中，m,n∈(0,k_s)；

其中，t_s体现了目标尺度集的估计精度，t_s的取值越大，表示目标尺度集的估计精度越高，但是实时性稍差；反之，t_s的取值越小，表示目标尺度集的估计的实时性较高，但是精度稍差。技术人员通过大量的实验研究，t_s优选的可以为0.7至0.8；k_s决定了尺度金字塔的层数，k_s越大表示层数越多，召回率越高，但是运算复杂度较高；反之，k_s越小，表示层数越少，召回率越低，但是运算的复杂度较低。技术人员通过大量的实验研究，优选的，k_s可以选取2或3。

其中，对于预测的目标尺度集，该目标尺度集中的任意一个灰度需满足宽度和高度均大于感受野宽度或者高度。

由此可知，前一视频帧中的每个尺度都会估计一个目标尺度集，依据所有的目标尺度集建立当前处理的非关键帧的尺度包围金字塔。举例说明：假设当前处理的视频帧的前一视频帧的尺度s_i，s_j，…，s_k，通过如下的公式2体现尺度包围金字塔：

2)S_sur,i∪S_sur,j∪…∪S_sur,k；

其中，S_sur,i为通过s_i计算得到的目标尺度集，S_sur,j为通过s_j计算得到的目标尺度集，S_sur,k是通过s_k计算得到的目标尺度集。

除此之外，历史视频帧还可以是位于当前处理的视频帧之前的多个视频帧，该过程包括：

获取选取的多个历史视频帧的尺度；

对多个历史视频帧的尺度进行分析，确定出用于估计当前处理的非关键帧的尺度；

依据选取出的每个尺度和预设的尺度估计因子，计算目标尺度集。

其中，对于多个尺度的分析可以依据连续的视频帧的关联性，选取出更加合理的尺度，用于估计当前处理的非关键帧的尺度。

需要说明的是，若采用深度学习网络对目标进行检测时，计算出的目标尺度集中的各个尺度满足宽度和高度大于感受野宽度和高度。

感受野是深度学习网路视觉感受区域的大小，通常不同尺寸的待检测图像通过多尺度缩放总有一个或者多个尺度恰好满足目标检测器对应感受野的灵敏度。

本实施例中，对于依据历史视频帧的尺度估计的非关键帧的尺度集，可以出现尺度冗余的问题，为了解决该问题，可以对估计出的所有目标尺度集中的各个尺度进行合并。

具体的，还包括：

针对于任意一个非关键帧，遍历尺度金字塔的所有尺度，计算每两个尺度的距离；

将小于预设阈值的距离对应的两个尺度进行合并。

本实施例中，对于每两个尺度的距离的计算方法为：每两个尺度的面积之差的绝对值。

具体的，将两个尺度进行合并的方式可以包括多种实现方式，本实施例中不进行限定，例如可以包括如下的几种实施方式：

实施方式一：随机选取两个尺度中任意一个尺度；

实施方式二：计算两个尺度的宽的平均值和高的平均值；

实施方式三：根据两个尺度的权重，将两个尺度进行合并。

举例说明；假设两个尺度分别为s(60,80)，s(70,80)，若采用实施方式一，例如可以随机选取其中任意一个；若选用实施方式二，合并后的尺度为s(65,80)；若选用实施方式三，假设s(60,80)的权重为0.4，s(70,80)的权重为0.5，则合并后的尺寸为s(66,80)。

本实施例中，在对连续的视频帧进行目标检测时，考虑了视频之间的连续性，将连续的视频帧划分为关键帧和非关键帧，对于关键帧建立稠密的尺度金字塔，对于非关键帧预测各个尺度，进而无需再通过尺度金字塔对尺度进行检验，从而避免了尺度金字塔多次进行循环，进而降低了I/O开销、提高了检测效率和实时性。

参考图2，示出了本发明实施例公开的一种基于多尺度的目标检测装置的结构示意图，在本实施例中，该装置包括：

划分单元201，用于将连续的视频帧划分为关键帧和非关键帧；

关键帧目标检测单元202，用于针对任意一个关键帧，建立关键帧的尺度金字塔，得到多个尺度图像，并对每个尺度图像进行目标检测；

非关键帧目标检测单元203，用于针对任意一个非关键帧，获取历史视频帧的各个历史尺度，依据历史视频帧的各个历史尺度预测非关键帧的目标尺度，依据各个目标尺度建立非关键帧的尺度包围金字塔，得到多个尺度图像，并对每个尺度图像进行目标检测。

可选的，所述划分单元，包括：

或者

可选的，所述非关键帧目标检测单元，包括：

可选的，还包括：

目标尺度合并单元，用于

将小于预设阈值的距离对应的两个尺度进行合并。

通过本实施例的装置，在对连续的视频帧进行目标检测时，本发明考虑了视频之间的连续性，将连续的视频帧划分为关键帧和非关键帧，对于关键帧建立稠密的尺度金字塔，对于非关键帧预测各个尺度，进而无需再通过尺度金字塔对尺度进行检验，从而避免了尺度金字塔多次进行循环，进而降低了I/O开销、提高了检测效率和实时性。

所述前端目标检测器，用于执行如下的目标检测方法：

将连续的视频帧划分为关键帧和非关键帧；

可选的，将连续的视频帧划分为关键帧和非关键帧，包括：

或者

可选的，还包括：

获取当前处理的非关键帧的前一视频帧中任意一个尺度；

可选的，还包括：

将小于预设阈值的距离对应的两个目标尺度进行合并。

由此可知，该级联系统的前端系统通过应用上述方法，无需再通过尺度金字塔对尺度进行检验，从而避免了尺度金字塔多次进行循环，进而降低了I/O开销、提高了检测效率和实时性。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于多尺度的目标检测方法，其特征在于，包括：

将连续的视频帧划分为关键帧和非关键帧；

针对任意一个非关键帧，获取历史视频帧的各个历史尺度，依据历史视频帧的各个历史尺度预测非关键帧的目标尺度，依据各个目标尺度建立非关键帧的尺度包围金字塔，得到多个尺度图像，并对每个尺度图像进行目标检测；

所述针对任意一个非关键帧，获取历史视频帧的各个历史尺度，依据历史视频帧的各个历史尺度预测非关键帧的目标尺度，依据各个目标尺度建立非关键帧的尺度包围金字塔，得到多个尺度图像，并对每个尺度图像进行目标检测，包括：

获取当前处理的非关键帧的前一视频帧中任意一个尺度；

依据所有的目标尺度集建立当前处理的非关键帧的尺度包围金字塔；

其中，前一视频帧中用到的一个尺度为s(w,h)，其中，尺度s(w,h)表示图像降采样后的宽和高，假设尺度估计因子为：t_s，k_s，通过如下的公式1)计算目标尺度集：

1)S_sur＝{(w×t_s ⁿ,h×t_s ⁿ)}∪{s(w,h)}∪{s(w×t_s ^-m,h×t_s ^-m)}；

其中，m,n∈(0,k_s)；

其中，t_s体现了目标尺度集的估计精度，t_s的取值越大，表示目标尺度集的估计精度越高；t_s的取值越小，表示目标尺度集的估计的实时性较高；k_s决定了尺度金字塔的层数，k_s越大表示层数越多，召回率越高，k_s越小，表示层数越少，召回率越低；其中，对于预测的目标尺度集，该目标尺度集中的任意一个灰度需满足宽度和高度均大于感受野宽度或者高度；

其中，当前处理的视频帧的前一视频帧的尺度s_i，s_j，…，s_k，通过如下的公式2)体现尺度包围金字塔：

2)S_sur,i∪S_sur,j∪…∪S_sur,k；

2.根据权利要求1所述的方法，其特征在于，将连续的视频帧划分为关键帧和非关键帧，包括：

或者

对于连续的视频帧，每间隔预定的时间长度标记一个关键帧，两个关键帧之间的视频帧为非关键帧。

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求1所述的方法，其特征在于，还包括：

将小于预设阈值的距离对应的两个目标尺度进行合并。

5.一种基于多尺度的目标检测装置，其特征在于，包括：

划分单元，用于将连续的视频帧划分为关键帧和非关键帧；

非关键帧目标检测单元，用于针对任意一个非关键帧，获取历史视频帧的各个历史尺度，依据历史视频帧的各个历史尺度预测非关键帧的目标尺度，依据各个目标尺度建立非关键帧的尺度包围金字塔，得到多个尺度图像，并对每个尺度图像进行目标检测；

所述非关键帧目标检测单元，包括：

尺度包围金字塔建立子单元，用于依据所有的目标尺度集建立当前处理的非关键帧的尺度包围金字塔；

1)S_sur＝{(w×t_s ⁿ,h×t_s ⁿ)}∪{s(w,h)}∪{s(w×t_s ^-m,h×t_s ^-m)}；

其中，m,n∈(0,k_s)；

2)S_sur,i∪S_sur,j∪…∪S_sur,k；

6.根据权利要求5所述的装置，其特征在于，所述划分单元，包括：

或者

第二划分子单元，用于对于连续的视频帧，每间隔预定的时间长度标记一个关键帧，两个关键帧之间的视频帧为非关键帧。

7.根据权利要求5所述的装置，其特征在于，还包括：

目标尺度合并单元，用于

将小于预设阈值的距离对应的两个尺度进行合并。

8.一种基于多尺度的目标检测系统，其特征在于，所述系统包括：前端目标检测器和后端目标检测器；

所述前端目标检测器，用于执行权利要求1所述的方法；