CN112465859A

CN112465859A - 快速运动目标的检测方法、装置、设备和储存介质

Info

Publication number: CN112465859A
Application number: CN201910843150.1A
Authority: CN
Inventors: 方清
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd; SF Tech Co Ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2021-03-09

Abstract

本申请公开了一种快速运动目标的检测方法、装置、设备和储存介质。该方法包括：获取相邻的第一目标框序列和第二目标框序列，每个目标框序列包括至少一个目标框，每个目标框与一个视频帧帧号相对应，目标框用于指示检测目标在视频帧中的位置区域，第一目标框序列与第二目标框序列分别包含与相同视频帧帧号对应的目标框；判断第一目标框序列和第二目标框序列能否连接；若能，将第一目标框序列和第二目标框序列连接为一个新的目标框序列。解决了视频检测过程对于运动速度较快的目标容易跟丢的问题。

Description

快速运动目标的检测方法、装置、设备和储存介质

技术领域

本发明一般涉及视频处理领域，具体涉及一种快速运动目标的检测方法、装置、设备和储存介质。

背景技术

监控视频为防盗、突发事件管理、流量控制等工作提供了宝贵的原始数据，特别是机器学习技术的广泛应用，使得视频监控摆脱了人工监控阶段人为因素对监控视频内容理解准确性的影响。

在相关技术中，可以对要监控视频的初始视频帧进行目标检测，在下一视频帧中，通过对与初始视频帧中目标区域相同区域的周围区域进行搜索，判断初始视频帧与下一视频帧中是否存在同一个检测目标，实现对视频中的目标检测。

但是，这种方法的最大的问题在于对于运动速度较快的目标很容易跟丢。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种在视频的目标检测过程中可以对运动速度较快的目标进行跟踪检测的快速运动目标的检测方法、装置、设备和储存介质。

第一方面，本申请提供了一种快速运动目标的检测方法，该方法包括：

获取相邻的第一目标框序列和第二目标框序列，每个目标框序列包括至少一个目标框，每个目标框与一个视频帧帧号相对应，目标框用于指示检测目标在视频帧中的位置区域，第一目标框序列与第二目标框序列分别包含与相同视频帧帧号对应的目标框；

判断第一目标框序列和第二目标框序列能否连接；

若能，将第一目标框序列和第二目标框序列连接为一个新的目标框序列。

第二方面，本申请提供了一种快速运动目标的检测装置，该装置包括：

获取模块，被配置为获取相邻的第一目标框序列和第二目标框序列，每个目标框序列包括至少一个目标框，每个目标框与一个视频帧帧号相对应，目标框用于指示检测目标在视频帧中的位置区域，第一目标框序列与第二目标框序列分别包含与相同视频帧帧号对应的目标框；

判断模块，被配置为判断第一目标框序列和第二目标框序列能否连接；

连接模块，被配置为若能，将第一目标框序列和第二目标框序列连接为一个新的目标框序列。

第三方面，本申请提供了一种计算机设备，该计算机设备包括：

处理器；

用于存储处理器的可执行指令的存储器；

其中，处理器被配置为执行如第一方面的快速运动目标的检测方法。

第四方面，本申请提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当计算机程序被处理器执行时，实现如第一方面的快速运动目标的检测方法。

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请实施例提供的运动速度较快的目标进行跟踪检测的方法、装置、设备和储存介质，可以利用预先训练的网络模型对相邻的第一视频帧序列和第二视频帧序列分别进行目标检测，获取与两个视频帧序列分别对应的相邻的第一目标框序列和第二目标框序列，通过判断第一目标框序列和第二目标框序列是否对应于同一个检测目标，将对应于同一检测目标的第一目标框序列和第二目标框序列连接，防止视频检测过程中出现对运动较快的目标跟丢的问题，实现对运动较快目标的检测；可以更新连接后的新的目标框序列的序列分类值，为该新的目标框序列和与其相邻的目标框序列的连接做好准备。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1为本发明的实施例的一种快速运动目标的检测方法的流程图；

图2为本发明的另一实施例的一种快速运动目标的检测方法的流程图；

图3为本发明的另一实施例的另一种快速运动目标的检测方法的流程图；

图4为本申请的实施例的一种快速运动目标的检测方法的实现过程示意图；

图5为本申请的实施例的一种快速运动目标的检测装置的结构示意图；

图6为本申请的实施例的另一种快速运动目标的检测装置的结构示意图；

图7为本申请的另一实施例的一种快速运动目标的检测装置的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关申请，而非对该申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与申请相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本申请实施例提供一种快速运动目标的检测方法，可以对待检测视频中运动速度较快的目标进行检测。如图1所示，该方法包括：

步骤101、获取相邻的第一目标框序列和第二目标框序列。

在本申请实施例中，每个目标框序列包括至少一个目标框，每个目标框与一个视频帧帧号相对应，目标框用于指示检测目标在视频帧中的位置区域，第一目标框序列与第二目标框序列分别包含与相同视频帧帧号对应的目标框。

步骤102、判断第一目标框序列和第二目标框序列能否连接。

步骤103、若能，将第一目标框序列和第二目标框序列连接为一个新的目标框序列。

综上所述，本申请实施例提供的快速运动目标的检测方法，可以利用预先训练的网络模型对相邻的第一视频帧序列和第二视频帧序列分别进行目标检测，获取与两个视频帧序列分别对应的相邻的第一目标框序列和第二目标框序列，通过判断第一目标框序列和第二目标框序列是否对应于同一个检测目标，将对应于同一检测目标的第一目标框序列和第二目标框序列连接，防止视频检测过程中出现对运动较快的目标跟丢的问题，实现对运动较快目标的检测。

本申请实施例提供一种快速运动目标的检测方法，可以对待检测视频中运动速度较快的目标进行检测。该方法可以应用于移动终端设备(例如，智能手机、平板电脑等)，也可应用于固定终端(台式电脑)或服务器中。本申请实施例以对监控视频中的快速运动行人的检测为例，对该方法进行说明。如图2所示，该方法包括：

步骤201、获取相邻的第一目标框序列和第二目标框序列。

在本申请实施例中，每个目标框序列包括至少一个目标框，每个目标框与一个视频帧帧号相对应，该目标框用于指示检测目标在视频帧中的位置区域。其中，第一目标框序列与第二目标框序列分别包含与相同视频帧帧号对应的目标框。在本步骤中，获取相邻的第一目标框序列和第二目标框序列的过程包括：

步骤2011、获取相邻的第一视频帧序列和第二视频帧序列。

在本申请实施例中，第一视频帧序列和第二视频序列分别包含与相同视频帧帧号对应的视频帧，第一视频帧序列与第一目标框序列相对应，第二视频帧序列与第二目标框序列相对应。在本步骤中，获取的第一视频帧序列和第二视频序列分别包括至少一个视频帧，每个视频帧序列包含的视频帧的数量可以是相同的，例如可以为3帧。

示例的，假设待检测视频播放过程中，两个连续视频帧之间的时间差值为t₀，如图4所示，可以获取第t秒的视频帧P₁，第t+t₀秒的视频帧P₂，第t+2t₀秒的视频帧P₃，将视频帧P₁、视频帧P₂和视频帧P₃组成的视频帧序列确定为第一视频帧序列；获取第t+2t₀秒的视频帧P₃，第t+3t₀秒的视频帧P₄，第t+4t₀秒的视频帧P₅，将视频帧P₃、视频帧P₄和视频帧P₅组成的视频帧序列确定为第二视频帧序列，则第一视频帧序列与第二视频帧序列为两个相邻的视频帧序列，视频帧P₃为第一视频帧序列和第二视频序列中与相同视频帧帧号对应的视频帧。

步骤2012、获取与第一视频帧序列和第二视频序列分别对应的目标框序列。

在本步骤中，对于每个视频帧序列，获取与之对应的目标框序列的过程包括：

步骤S11、将视频帧序列输入到预先训练得到的特征提取网络，输出与视频帧序列对应的特征图像。

本申请实施例中使用Faster R-CNN网络框架对视频帧序列进行目标检测，该Faster R-CNN网络框架包括：用于产生候选区域的RPN网络(英文：Region ProposalNetwork中文：区域候选网络)和用于判别目标类别的Fast R-CNN网络构成，该候选区域用于表示视频帧序列中包含检测目标所属类别的位置区域。其中，Fast R-CNN网络的训练过程为：利用ImageNet数据集上训练好的模型对Fast R-CNN网络模型进行初始化，使得该网络模型中的特征提取网络可以提取待检测视频帧中视频帧序列的特征图像，目标检测网络可以对RPN网络生成的候选区域进行判断，并从候选区域中筛出为检测目标的目标框和与该目标框对应的分类值，该分类值用于表示目标框属于检测目标所属类别的可能性的大小。在Faster R-CNN网络框架中，目标检测网络为两个全连接层。在本申请实施例中，该检测目标的类别为行人。

在本步骤中，在将视频帧序列输入预先训练得到的特征提取网络之前，需要对视频帧序列中的每个视频帧的大小进行归一化，将视频帧全部归一化到512*512大小，每个视频帧的BRG三个通道的像素值减去128。其中，用于提取特征图像的网络为ResNet101网络(英文：Residual Networks；中文：残差网络)。由于可以同时对多个视频帧进行特征提取，可以提高行人检测过程中目标跟踪的速度。

示例的，如图4所示，将第一视频帧序列输入预先训练得到的特征提取网络中，输出与第一视频帧序列对应的特征图像F1。

步骤S12、将特征图像按照视频帧序列所包含的视频帧的帧数分成多个子特征图像。

在本步骤中，将特征图像按视频帧序列所包含的视频帧的帧数分成多个子特征图像，可以得到对应于视频帧序列中每个视频帧的子特征图像。由于该特征图像是基于输入的多个视频帧获取的，该特征图像的特征丰富程度高于对单一视频帧进行特征提取确定的特征图像，基于该特征图像确定的子特征图像也具有丰富的图像特征，提高了图像检测的准确性。

示例的，在本步骤中，如图4所示，可以将该特征图像F1分成子特征图像f₁₁、子特征图像f₁₂和子特征图像f₁₃，分别为对应于第一视频帧序列中的视频帧P₁、视频帧P₂和视频帧P₃的子特征图像。

步骤S13、将多个子特征图像输入到预先训练得到的区域候选网络和目标检测网络，以输出与视频帧序列对应的目标框序列。

在本申请实施例中，区域候选网络是通过特征图像训练得到的，可以基于多个子特征图像、区域候选网络和目标检测网络确定与视频帧序列对应的目标框序列，该过程包括：

步骤A1、将每个子特征图像输入到区域候选网络和目标检测网络，以输出每个子特征图像所包含的至少一个目标框，以及与每个目标框一一对应的分类值。

在本步骤中，可以将区域候选网络中的候选区域映射到步骤S12中确定的多个子特征图上，把每个子特征图中不同大小的候选区域池化到固定大小；再利用目标检测网络确定每个子特征图中属于检测目标的至少一个目标框和与每个目标框一一对应的分类值，该目标检测网络为两个全连接层。

示例的，如图4所示，将将区域候选网络中的候选区域b₁、b₂和a₁映射到子特征图像f₁₁、子特征图像f₁₂和子特征图像f₁₃上，进行候选区域池化和目标检测网络的分类运算，可以确定子特征图像f₁₁中的目标框b₁ ¹'和b₂ ¹'，子特征图像f₁₂中的目标框b₁ ²'和b₂ ²'，子特征图像f₁₃中的目标框b₁ ³'和b₂ ³'。

步骤A2、对与每个视频帧序列相对应的多个子特征图像，计算相邻的两个子特征图像所包含的目标框之间的第二IOU值，以确定与视频帧序列对应的待筛选目标框序列集合。

在本步骤中，对与每个视频帧序列相对应的多个子特征图像，可以计算相邻的两个子特征图像所包含的目标框之间的第二IOU值，对于任意两个目标框，当二者的第二IOU值大于第一阈值时，确定相邻的两个子特征图像中出现了相同的目标，连接该任意两个目标框为待筛选目标框序列，该第一阈值可以为0.7。基于该方法可以确定与视频帧序列对应的待筛选目标框序列集合，待筛选目标框序列集合包括至少一个待筛选目标框序列。其中，IOU值用于表示两个目标框之间的交集与并集的比值。

示例的，如图4所示，对于与第一视频帧序列相对应的子特征图像f₁₁、子特征图像f₁₂和子特征图像f₁₃，选取子特征图像f₁₁和子特征图像f₁₂中的中的目标框b₁ ¹'、b₂ ¹'、b₁ ²'和b₂ ²'，计算目标框b₁ ¹'和b₁ ²'之间，目标框b₁ ¹'和b₂ ²'之间，目标框b₂ ¹'和b₁ ²'之间，目标框b₂ ¹'和b₂ ²'之间的第二IOU值，可以确定目标框b₁ ¹'和b₁ ²'之间，目标框b₂ ¹'和b₂ ²'之间的第二IOU值大于第一阈值，则将目标框b₁ ¹'和b₁ ²'连接，目标框b₂ ¹'和b₂ ²'连接；选取子特征图像f₁₂和子特征图像f₁₃中的中的目标框b₁ ²'、b₂ ²'、b₁ ³'和b₂ ³'，计算目标框b₁ ²'和b₁ ³'之间，目标框b₁ ²'和b₂ ³'之间，目标框b₂ ²'和b₁ ³'之间，目标框b₂ ²'和b₂ ³'之间的第二IOU值，可以确定目标框b₁ ²'和b₁ ³'之间，目标框b₂ ²'和b₂ ³'之间的第二IOU值大于第一阈值，则将目标框b₁ ²'和b₁ ³'连接，目标框b₂ ²'和b₂ ³'连接。则可以确定与第一视频帧序列对应的待筛选目标框序列集合，该待筛选目标框序列集合中包含的待筛选目标框序列为目标框序列S₁'和S₂'，该目标框序列S₁'由目标框b₁ ¹'、b₁ ²'和b₁ ³'组成，目标框序列S₂'由目标框b₂ ¹'、b₂ ²'和b₂ ³'组成。

步骤A3、对待筛选目标框序列集合进行非极大抑制处理，以确定与视频帧序列对应的目标框序列。

在本申请实施例中，该待筛选目标框序列集合中的待筛选目标框序列对应于同一个检测目标，可以通过对该待筛选目标框序列进行非极大抑制处理，以确定与该视频帧序列对应的目标框序列。如图3所示，该过程包括：

步骤A31、计算任意两个待筛选目标框序列的第三IOU值。

在与视频帧序列对应的待筛选目标框序列集合中，计算任意两个待筛选目标框序列中与相同的视频帧帧号相对应的两个目标框之间的第四IOU值；确定第四IOU值中的最小值，作为任意两个待筛选目标框序列之间的第三IOU值。该过程可以表示为：

Overlap(S_i,S_j)＝min IOU(b_i ^t,b_j ^t)；

其中，i和j为编号，S是目标框序列，b为目标框，t表示视频帧帧号，b_i ^t表示与帧号为t的视频帧对应的编号为i的目标框，b_j ^t表示与帧号为t的视频帧对应的编号为j的目标框，Overlap表示两个目标框序列之间的IOU值。

步骤A32、计算每个待筛选目标框序列的序列分类值。

待筛选目标框序列的序列分类值的计算过程包括：计算待筛选目标框序列中所有目标框对应的分类值的均值，将该均值的二分之一确定为待筛选目标框序列的序列分类值。该过程可以表示为：

Score(S_i)＝1/2*(mean(score(b_i ^t)))；

其中，i为编号，S是目标框序列，b为目标框，t表示视频帧帧号，b_i ^t表示与帧号为t的视频帧对应的编号为i的目标框，score为序列分类值。

步骤A33、基于第三IOU值和序列分类值，在待筛选目标框序列集合中确定与视频帧序列对应的目标框序列。

基于上述步骤中计算的任意两个待筛选目标框序列的第三IOU值和该任意两个待筛选目标框序列的序列分类值，若该第三IOU值大于重叠阈值，过滤任意两个待筛选目标框序列中对应的序列分类值较小的待筛选目标框序列，保留对应的序列分类值较大的待筛选目标框序列；若第三IOU值小于重叠阈值，保留该任意两个待筛选目标框序列，基于该方法遍历待筛选目标框序列集合中的所有待筛选目标框序列，确定与视频帧序列对应的目标框序列。

示例的，如图4所示，第一视频帧序列中的待筛选目标框序列集合包括待筛选目标框序列S₁'和S₂'，可以计算与相同的视频帧帧号P₁相对应的两个目标框b₁ ¹'和b₂ ¹之间的第四IOU值，与相同的视频帧帧号P₂相对应的两个目标框b₁ ²'和b₂ ²'之间的第四IOU值，与相同的视频帧帧号P₃相对应的两个目标框b₁ ³'和b₂ ³'之间的第四IOU值，将三个第四IOU值中的最小值确定为待筛选目标框序列S₁'和S₂'之间的第三IOU值；对于待筛选目标框序列S₁'，获取三个目标框b₁ ¹'、b₁ ²'和b₁ ³'的分类值，将三者均值的二分之一确定为待筛选目标框序列S₁'的分类值，基于相同的方法可以确定目标框序列S₂'的分类值。若该第三IOU值大于重叠阈值，过滤待筛选目标框序列S₁'和S₂'中对应的序列分类值较小的待筛选目标框序列；若第三IOU值小于重叠阈值，保留待筛选目标框序列S₁'和S₂'，基于该方法遍历待筛选目标框序列集合中的所有待筛选目标框序列，确定与第一视频帧序列对应的目标框序列。图4中确定的与第一视频帧序列对应的目标框序列为S₁'和S₂'。

在本步骤中，可以获取与第一视频帧序列和第二视频序列分别对应的目标框序列。如图4所示，可以确定与第一视频帧序列对应的目标框序列S₁'和S₂'，确定与第二视频帧序列对应的目标框序列S₁”和S₂”。

步骤202、判断第一目标框序列和第二目标框序列能否连接。

在本申请实施例中，可以通过判断第一目标框序列和第二目标框序列能否连接，将可以连接的第一目标框序列和第二目标框序列连接，实现对待检测视频中运动较快的检测目标的检测。在本步骤中，判断第一目标框序列和第二目标框序列能否连接的过程可以包括：计算与相同视频帧帧号对应的目标框之间的第一IOU值；当第一IOU值大于第一阈值时，表明第一目标框序列和第二目标框序列跟踪的是同一个检测目标，允许连接第一目标框序列和第二目标框序列；当第一IOU值小于等于第一阈值时，表明第一目标框序列和第二目标框序列跟踪的不是同一个检测目标，不允许连接第一目标框序列和第二目标框序列，返回步骤201中重新获取新的相邻的第一目标框序列和第二目标框序列。

步骤203、若能，将第一目标框序列和第二目标框序列连接为一个新的目标框序列。

第一目标框序列和第二目标框序列的连接过程可以包括：确定与相同视频帧帧号对应的两个目标框的分类值，该分类值用于表示目标框属于检测目标所属类别的可能性的大小；保留分类值中较大者所对应的目标框，删除较小者所对应的目标框；将第一目标框序列和第二目标框序列按照视频帧帧号顺序连接为一个新的目标框序列。

示例的，如图4所示，与第一视频帧序列对应的第一目标框序列为目标框序列为S₁'和S₂'，与第二视频帧序列对应的第二目标框序列为S₁”和S₂”，在第一目标框序列中，确定与相同视频帧帧号P₃对应的目标框为b₁ ³'和b₂ ³'，在第二目标框序列中，确定与相同视频帧帧号P₃对应的目标框为b₁ ³”和b₂ ³”(图4中未示出)，计算四个目标框之间的第一IOU值，可以得到目标框b₁ ³'和目标框b₂ ³”之间，目标框b₁ ³'和目标框b₂ ³”之间的第一IOU值为零，则确定目标框序列S₁'与目标框序列S₂”，目标框序列S₂'与目标框序列S₁”跟踪的不是同一个检测目标；目标框b₁ ³'和目标框b₁ ³”之间的第一IOU值大于第一阈值，则确定目标框序列S₁'与目标框序列S₁”跟踪的是同一个检测目标，可以将目标框序列S₁'与目标框序列S₁”链接为一个新的目标框序列S₁；目标框b₂ ³'和目标框b₂ ³”之间的第一IOU值大于第一阈值，则确定目标框序列S₂'与目标框序列S₂”跟踪的是同一个检测目标，将目标框序列S₂'与目标框序列S₂”链接为一个新的目标框序列S₂。

其中，目标框序列S₁'与目标框序列S₁”的连接过程为，获取目标框b₁ ³'和目标框b₁ ³”的分类值，假设目标框b₁ ³”对应的分类值较小，将目标框b₁ ³”过滤，得到待连接的目标框b₁ ³'；按照视频帧号将目标框b₁ ¹'、b₁ ²'、b₁ ³”、b₁ ⁴”(图4中未示出)和b₁ ⁵”(图4中未示出)连接为一个新的目标框序列S₁，基于相同的方法可以得到新的目标框序列S₂。

步骤204、更新连接后的新的目标框序列的分类值。

在本步骤中，可以更新连接后的新的目标框序列的分类值，该过程为：获取该新的目标框序列中每个目标框的分类值，将该所有目标框的分类值均值的二分之一作为该新的目标框序列的分类值。该方法可以参考上述步骤A32，本申请实施例对此不做赘述。

示例的，如图4所示，对于新的目标框序列S₁，获取目标框b₁ ¹'、b₁ ²'、b₁ ³”、b₁ ⁴”和b₁ ⁵”的分类值，将五个分类值均值的二分之一作为该新的目标框序列S₁的分类值。

综上所述，本申请实施例提供的快速运动目标的检测方法，可以利用预先训练的网络模型对相邻的第一视频帧序列和第二视频帧序列分别进行目标检测，获取与两个视频帧序列分别对应的相邻的第一目标框序列和第二目标框序列，通过判断第一目标框序列和第二目标框序列是否对应于同一个检测目标，将对应于同一检测目标的第一目标框序列和第二目标框序列连接，防止视频检测过程中出现对运动较快的目标跟丢的问题，实现对运动较快目标的检测；可以更新连接后的新的目标框序列的序列分类值，为该新的目标框序列和与其相邻的目标框序列的连接做好准备。

本申请实施例提供一种快速运动目标的检测装置，如图5所示，该装置30包括：

获取模块301，被配置为获取相邻的第一目标框序列和第二目标框序列，每个目标框序列包括至少一个目标框，每个目标框与一个视频帧帧号相对应，目标框用于指示检测目标在视频帧中的位置区域，第一目标框序列与第二目标框序列分别包含与相同视频帧帧号对应的目标框；

判断模块302，被配置为判断第一目标框序列和第二目标框序列能否连接；

连接模块303，被配置为若能，将第一目标框序列和第二目标框序列连接为一个新的目标框序列。

可选的，判断模块302，被配置为：

计算与相同视频帧帧号对应的目标框之间的第一IOU值；

当第一IOU值大于第一阈值时，允许连接第一目标框序列和第二目标框序列；

当第一IOU值小于等于第一阈值时，不允许连接第一目标框序列和第二目标框序列。

可选的，连接模块303，被配置为：

确定与相同视频帧帧号对应的两个目标框的分类值，分类值用于表示目标框属于检测目标所属类别的可能性的大小；

保留分类值中较大者所对应的目标框，删除较小者所对应的目标框；

将第一目标框序列和第二目标框序列按照视频帧帧号顺序连接为一个新的目标框序列。

可选的，获取模块301，被配置为：

获取相邻的第一视频帧序列和第二视频帧序列，第一视频帧序列和第二视频序列分别包含与相同视频帧帧号对应的视频帧，第一视频帧序列与第一目标框序列相对应，第二视频帧序列与第二目标框序列相对应；

对每个视频帧序列执行如下操作来获取与之对应的目标框序列，包括：

将视频帧序列输入到预先训练得到的特征提取网络，输出与视频帧序列对应的特征图像；

将特征图像按照视频帧序列所包含的视频帧的帧数分成多个子特征图像；

将多个子特征图像输入到预先训练得到的区域候选网络和目标检测网络，以输出与视频帧序列对应的目标框序列，区域候选网络是通过特征图像预先训练得到的。

可选的，获取模块301，被配置为：

将每个子特征图像输入到区域候选网络和目标检测网络，以输出每个子特征图像所包含的至少一个目标框，以及与每个目标框一一对应的分类值；

对与每个视频帧序列相对应的多个子特征图像，计算相邻的两个子特征图像所包含的目标框之间的第二IOU值，以确定与视频帧序列对应的待筛选目标框序列集合，待筛选目标框序列集合包括至少一个待筛选目标框序列；

对待筛选目标框序列集合进行非极大抑制处理，以确定与视频帧序列对应的目标框序列。

可选的，获取模块301，被配置为：

计算任意两个待筛选目标框序列的第三IOU值；

计算每个待筛选目标框序列的序列分类值；

基于第三IOU值和序列分类值，在待筛选目标框序列集合中确定与视频帧序列对应的目标框序列。

可选的，如图6所示，该装置30还包括：

更新模块304，被配置为更新新的目标框序列对应的的序列分类值。

综上所述，本申请实施例提供的快速运动目标的检测装置，获取模块可以利用预先训练的网络模型对相邻的第一视频帧序列和第二视频帧序列分别进行目标检测，获取与两个视频帧序列分别对应的相邻的第一目标框序列和第二目标框序列，判断模块通过判断第一目标框序列和第二目标框序列是否对应于同一个检测目标，连接模块将对应于同一检测目标的第一目标框序列和第二目标框序列连接，防止视频检测过程中出现对运动较快的目标跟丢的问题，实现对运动较快目标的检测；更新模块可以更新连接后的新的目标框序列的序列分类值，为该新的目标框序列和与其相邻的目标框序列的连接做好准备。

图7是根据一示例性实施例示出的一种计算机系统，该计算机系统包括中央处理单元(CPU)401，其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM403中，还存储有系统操作所需的各种程序和数据。CPU401、ROM402以及RAM403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分408；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。

特别地，根据本申请的实施例，上文图1至图6描述的过程可以被实现为计算机软件程序。例如，本申请的各个实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)401执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的方法、装置和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器包括获取模块、判断模块和连接模块。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定，例如，获取模块还可以被描述为“用于获取相邻的第一目标框序列和第二目标框序列的获取模块”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中描述的快速运动目标的检测方法。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明本领域技术人员应当理解，本申请中所涉及的申请范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述申请构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种快速运动目标的检测方法，其特征在于，所述方法包括：

获取相邻的第一目标框序列和第二目标框序列，每个所述目标框序列包括至少一个目标框，每个所述目标框与一个视频帧帧号相对应，所述目标框用于指示检测目标在视频帧中的位置区域，所述第一目标框序列与所述第二目标框序列分别包含与相同视频帧帧号对应的目标框；

判断所述第一目标框序列和所述第二目标框序列能否连接；

若能，将所述第一目标框序列和所述第二目标框序列连接为一个新的目标框序列。

2.根据权利要求1所述的方法，其特征在于，所述判断所述第一目标框序列和所述第二目标框序列能否连接，包括：

计算所述与相同视频帧帧号对应的目标框之间的第一IOU值；

当所述第一IOU值大于第一阈值时，允许连接所述第一目标框序列和所述第二目标框序列；

当所述第一IOU值小于等于第一阈值时，不允许连接所述第一目标框序列和所述第二目标框序列。

3.根据权利要求1所述的方法，其特征在于，所述将所述第一目标框序列和所述第二目标框序列连接为一个新的目标框序列，包括：

确定所述与相同视频帧帧号对应的两个所述目标框的分类值，所述分类值用于表示所述目标框属于检测目标所属类别的可能性的大小；

保留所述分类值中较大者所对应的目标框，删除较小者所对应的目标框；

将所述第一目标框序列和所述第二目标框序列按照所述视频帧帧号顺序连接为一个新的目标框序列。

4.根据权利要求1所述的方法，其特征在于，所述获取相邻的第一目标框序列和第二目标框序列，包括：

获取相邻的第一视频帧序列和第二视频帧序列，所述第一视频帧序列和第二视频序列分别包含与相同视频帧帧号对应的视频帧，所述第一视频帧序列与所述第一目标框序列相对应，所述第二视频帧序列与所述第二目标框序列相对应；

对每个所述视频帧序列执行如下操作来获取与之对应的目标框序列，包括：

将所述视频帧序列输入到预先训练得到的特征提取网络，输出与所述视频帧序列对应的特征图像；

将所述特征图像按照所述视频帧序列所包含的视频帧的帧数分成多个子特征图像；

将所述多个子特征图像输入到预先训练得到的区域候选网络和目标检测网络，以输出与所述视频帧序列对应的目标框序列，所述区域候选网络是通过所述特征图像预先训练得到的。

5.根据权利要求4所述的方法，其特征在于，所述将所述多个子特征图像输入到预先训练得到的区域候选网络和目标检测网络，以输出与所述视频帧序列对应的目标框序列，包括：

将每个所述子特征图像输入到所述区域候选网络和目标检测网络，以输出每个所述子特征图像所包含的至少一个目标框，以及与每个所述目标框一一对应的分类值；

对与每个视频帧序列相对应的多个所述子特征图像，计算相邻的两个所述子特征图像所包含的目标框之间的第二IOU值，以确定与所述视频帧序列对应的待筛选目标框序列集合，所述待筛选目标框序列集合包括至少一个待筛选目标框序列；

对所述待筛选目标框序列集合进行非极大抑制处理，以确定与所述视频帧序列对应的目标框序列。

6.根据权利要求5所述的方法，其特征在于，所述对所述待筛选目标框序列集合进行非极大抑制处理，以确定与所述视频帧序列对应的目标框序列，包括：

计算任意两个所述待筛选目标框序列的第三IOU值；

计算每个所述待筛选目标框序列的序列分类值；

基于所述第三IOU值和所述序列分类值，在所述待筛选目标框序列集合中确定与所述视频帧序列对应的目标框序列。

7.根据权利要求1-6任一所述的方法，其特征在于，在将所述第一目标框序列和所述第二目标框序列按照所述视频帧帧号顺序连接为一个新的目标框序列之后，所述方法还包括：

更新所述新的目标框序列对应的的序列分类值。

8.一种快速运动目标的检测装置，其特征在于，所述装置包括：

获取模块，被配置为获取相邻的第一目标框序列和第二目标框序列，每个所述目标框序列包括至少一个目标框，每个所述目标框与一个视频帧帧号相对应，所述目标框用于指示检测目标在视频帧中的位置区域，所述第一目标框序列与所述第二目标框序列分别包含与相同视频帧帧号对应的目标框；

判断模块，被配置为判断所述第一目标框序列和所述第二目标框序列能否连接；

连接模块，被配置为若能，将所述第一目标框序列和所述第二目标框序列连接为一个新的目标框序列。

9.一种计算机设备，其特征在于，所述计算机设备包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

其中，所述处理器被配置为执行如权利要求1至7任一所述的快速运动目标的检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1至7任一所述的快速运动目标的检测方法。