CN109272509A

CN109272509A - 一种连续图像的目标检测方法、装置、设备及存储介质

Info

Publication number: CN109272509A
Application number: CN201811038286.7A
Authority: CN
Inventors: 刘栩辰; 方兴; 杨宏斌; 程云; 董刚
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2018-09-06
Filing date: 2018-09-06
Publication date: 2019-01-25
Anticipated expiration: 2038-09-06
Also published as: CN109272509B; US20210319565A1; US11836931B2; WO2020048396A1

Abstract

本发明实施例公开了一种连续图像的目标检测方法、装置、设备及计算机可读存储介质。其中，方法包括在对视频序列的第二帧图像利用目标检测网络模型进行目标检测之前，可将第二帧图像分割为多个子图像，对各子图像根据运动估计准则在第一帧图像中匹配相应的图像块，并利用预设背景像素值替换在第一帧图像中存在相匹配图像块的子图像的像素数据，最后将替换处理后的第二帧图像作为目标检测网络模型的输入，得到第二帧图像中的目标物体的目标框和各自所属的类别。本申请优化了连续图像的目标检测算法，基于连续图像的冗余性，利用相邻图像帧中已经识别的目标信息来降低当前图像帧上目标检测的计算复杂度，提高了目标检测的吞吐量。

Description

一种连续图像的目标检测方法、装置、设备及存储介质

技术领域

本发明实施例涉及图像处理领域，特别是涉及一种连续图像的目标检测方法、装置、设备及计算机可读存储介质。

背景技术

近几年，随着人工智能技术的兴起，目标检测作为计算机视觉中最基本和首要的任务之一，广泛应用于工业界和日常生活的各个方面，例如自动驾驶、安防系统，以及游戏娱乐等领域。

Faster-RCNN算法广泛应用于运动目标行为的特征检测和追踪。该方法首先用卷积神经网络(CNN)的卷积层加池化层提取图片的特征区域，这些特征区域被共享用于后续的区域选取网络(Region Proposal Networks，RPN)和全连接层。然后利用RPN网络生成候选框，该层先通过softmax全连接层判断锚(anchors)属于前景还是背景，然后在利用回归边界框(bounding box regression)来修改锚，从而获得精确的候选框。最后由RoI池化层收集输入的特征区域，并把这些数据送入全连接层进行目标类别的判定。

尽管Faster-RCNN算法可实现运动目标的行为跟踪和检测，但是该算法的架构比较复杂，对终端要求较高，在视频或者要求较快识别物体的应用场景中难以执行。而YOLO-v3算法处理图片的速度较快，且YOLO-v3算法移植方便，可以在各个操作系统下实现，对硬件的配置要求也相对较低，能够较容易的在轻量级设备上实现。

YOLO-v3算法首先通过特征提取网络对输入图像提取特征，得到一定尺寸大小的特征图，比如13*13，然后将输入图像分成13*13个grid cell(网格单元)，如果groundtruth(标注数据)中某个object目标主体)的中心坐标落在哪个grid cell中，那么就由该grid cell来预测该object，因为每个grid cell都会预测固定数量的bounding box(目标框)(YOLO-v3算法中为3个，这几个bounding box的初始大小是不一样的)，只有和groundtruth的IOU最大的bounding box才是用来预测该object的。可以看出，预测得到的输出特征图有两个维度是提取到的特征的维度，比如13*13，还有一个维度(深度)是B*(5+C)，其中，B表示每个grid cell预测的bounding box的数量，比如YOLO v1中是2个，YOLO v2中是5个，YOLO v3中是3个，C表示bounding box的类别数，5表示4个坐标信息和一个置信度。

尽管YOLO-v3算法通过参数的调节，模型优化，使其对视频中的人物进行快速识别和追踪，达到快速检测效果，而且可保证能够达到一定的精度。但是，该算法以单帧图像作为基本的识别输入，对每帧图像都运行完整的目标检测算法，即将每一帧进行解压缩，然后送入目标检测深度学习网络，最终在每一帧图像上得到不同数量的目标框，在保证视频中目标检测的平均准确率的基础上引入较多冗余信息。比如，I帧(视频压缩中的关键帧)中已经被CNN算法检测到的物体，在P帧(视频压缩中的前向差别帧)或者B帧(视频压缩中的前后向差别帧)的相似的位置再次出现时，CNN算法需要重新计算该目标的bounding box。此类冗余计算增加了目标检测CNN算法的复杂度，增加了计算量，导致整个目标检测过程计算量大，吞吐率较低，降低了视频序列的目标检测性能。

发明内容

本发明实施例的目的是提供一种连续图像的目标检测方法、装置、设备及计算机可读存储介质，大大的降低了目标检测过程中处理的计算量，从而提高了连续图像(如视频序列)中运动物体的目标检测的吞吐率。

为解决上述技术问题，本发明实施例提供以下技术方案：

本发明实施例一方面提供了一种连续图像的目标检测方法，包括：

将视频序列的第一帧图像输入目标检测网络模型，得到所述第一帧图像的目标物体的目标框和各自所属的类别；

将所述视频序列的第二帧图像分割为多个子图像，对各子图像根据预设的运动估计准则在所述第一帧图像中匹配相应的图像块，以确定所述第一帧图像中的目标物体在所述第二帧图像中的位置；

利用预设背景像素值替换在所述第一帧图像中存在相匹配图像块的子图像的像素数据；

将替换处理后的第二帧图像作为所述目标检测网络模型的输入，得到所述第二帧图像中的目标物体的目标框和各自所属的类别；

其中，所述第二帧图像为所述第一帧图像相邻的下一帧图像。

可选的，所述目标检测网络模型为YOLO-v3网络模型或SSD网络模型。

可选的，在所述将替换处理后的第二帧图像作为所述目标检测网络模型的输入之后，还包括：

将所述视频序列的第三帧图像分割为多个子图像，对各子图像根据预设的运动估计准则在所述第一帧图像和所述第二帧图像中匹配相应的图像块，以确定所述第三帧图像的前向帧中的目标物体在所述第三帧图像中的位置；

利用预设背景像素值替换在所述第一帧图像和所述第二帧图像中存在相匹配图像块的子图像的像素数据；

将替换处理后的第三帧图像作为所述目标检测网络模型的输入，得到所述第三帧图像中的目标物体的目标框和各自所属的类别；

其中，所述第三帧图像为所述第二帧图像相邻的下一帧图像。

可选的，所述将所述视频序列的第二帧图像分割为多个子图像之前，还包括：

对获取的所述视频序列的第二帧图像进行去噪处理，以去除所述第二帧图像中的噪声干扰信号。

本发明实施例另一方面提供了一种连续图像的目标检测装置，包括：

第一帧图像输入模块，用于将视频序列的第一帧图像输入目标检测网络模型，得到所述第一帧图像的目标物体的目标框和各自所属的类别；

图像匹配模块，用于将所述视频序列的第二帧图像分割为多个子图像，对各子图像根据预设的运动估计准则在所述第一帧图像中匹配相应的图像块，以确定所述第一帧图像中的目标物体在所述第二帧图像中的位置；所述第二帧图像为所述第一帧图像相邻的下一帧图像；

背景替换模块，用于利用预设背景像素值替换在所述第一帧图像中存在相匹配图像块的子图像的像素数据；

第二帧图像输入模块，用于将替换处理后的第二帧图像作为所述目标检测网络模型的输入，得到所述第二帧图像中的目标物体的目标框和各自所属的类别。

可选的，还包括第三帧图像处理模块，所述第三帧图像处理模块包括：

前向帧图像匹配子模块，用于将所述视频序列的第三帧图像分割为多个子图像，对各子图像根据预设的运动估计准则在所述第一帧图像和所述第二帧图像中匹配相应的图像块，以确定所述第三帧图像的前向帧中的目标物体在所述第三帧图像中的位置；所述第三帧图像为所述第二帧图像相邻的下一帧图像；

重复目标替换子模块，用于利用预设背景像素值替换在所述第一帧图像和所述第二帧图像中存在相匹配图像块的子图像的像素数据；

第三帧图像输入子模块，用于将替换处理后的第三帧图像作为所述目标检测网络模型的输入，得到所述第三帧图像中的目标物体的目标框和各自所属的类别。

可选的，还包括：

去噪模块，用于对所述视频序列的第二帧图像和第三帧图像进行去噪处理，以去除所述第二帧图像和所述第三帧图像中的噪声干扰信号。

本发明实施例还提供了一种连续图像的目标检测设备，包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述连续图像的目标检测方法的步骤。

本发明实施例最后还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有连续图像的目标检测程序，所述连续图像的目标检测程序被处理器执行时实现如前任一项所述连续图像的目标检测方法的步骤。

本发明实施例提供了一种连续图像的目标检测方法，在对视频序列的第二帧图像利用目标检测网络模型进行目标检测之前，可将第二帧图像分割为多个子图像，对各子图像根据运动估计准则在第一帧图像中匹配相应的图像块，并利用预设背景像素值替换在第一帧图像中存在相匹配图像块的子图像的像素数据，以将相邻两帧图像中重复的目标进行替换，最后将替换处理后的第二帧图像作为目标检测网络模型的输入，得到第二帧图像中的目标物体的目标框和各自所属的类别，优化了连续图像的目标检测算法。

本申请提供的技术方案的优点在于，通过分析连续图像如视频序列前后帧中的冗余信息，即重复出现的目标物体，利用背景像素数据替换后帧中的重复目标，大大的降低了后帧图像在进行目标检测时的数据处理量，解决了现有技术中没有考虑相邻时间段上其他图像帧上已经检测和识别到的目标信息造成目标检测性能降低的现象，利用相邻图像帧中已经识别的目标信息来降低当前图像帧上目标检测的计算复杂度，减小了目标检测网络模型复杂度，提高了目标检测的吞吐量。

此外，本发明实施例还针对连续图像的目标检测方法提供了相应的实现装置、设备及计算机可读存储介质，进一步使得所述方法更具有实用性，所述装置、设备及计算机可读存储介质具有相应的优点。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种连续图像的目标检测方法的流程示意图；

图2为本发明实施例提供的另一种连续图像的目标检测方法的流程示意图；

图3为本发明实施例提供的连续图像的目标检测装置的一种具体实施方式结构图；

图4为本发明实施例提供的连续图像的目标检测装置的另一种具体实施方式结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

在介绍了本发明实施例的技术方案后，下面详细的说明本申请的各种非限制性实施方式。

首先参见图1，图1为本发明实施例提供的一种连续图像的目标检测方法的流程示意图，本发明实施例可包括以下内容：

S101：将视频序列的第一帧图像输入目标检测网络模型，得到第一帧图像的目标物体的目标框和各自所属的类别。

视频序列为一系列连续图像构成，也即多帧彼此相邻的图像按照时间顺序排列而成。

目标检测网络模型可为现有技术中任何一种可实现目标检测算法训练的样本数据集所得的网络模型，可选的，目标检测网络模型可为YOLO-v3网络模型或SSD(SingleShot Multibox Detector)网络模型。

目标检测网络模型对输入的图像会自动识别该图像中包含的目标物体，并在图像中利用目标框的形式标出各目标物体，并输出各目标物体所属的类别，例如人、动物、植物等。

第一帧图像为视频序列进行目标检测时，输入的第一帧图像。

S102：将视频序列的第二帧图像分割为多个子图像，对各子图像根据预设的运动估计准则在第一帧图像中匹配相应的图像块，以确定第一帧图像中的目标物体在第二帧图像中的位置。

第二帧图像为第一帧图像相邻的下一帧图像。

运动估计准则为基于现有技术中任何一种目标跟踪算法对视频序列中的目标物体进行跟踪分析后，确定的目标物体在整个视频序列中的一个运动规则，具体如何采用目标跟踪算法得到运动估计准则，请参阅现有技术，此处，不再赘述。

第二帧图像的各子图像在第一帧图像中存在相匹配的图像块，则表明二帧图像中存在重复目标，也即同一个目标物体在第一帧图像和第二帧图像中同时出现，对于该目标检测已在上一步骤中实现了目标的识别，如果重复在第二帧图像中进行目标检测，无疑是重复动作，没有任何实际效果。鉴于此，为了减少第二帧图像在目标检测中处理数据量，可将与第一帧图像中重复的目标进行剔除。

S103：利用预设背景像素值替换在第一帧图像中存在相匹配图像块的子图像的像素数据。

可使用背景像素值将相邻两帧图像重复目标在后帧图像上相应位置的像素数据进行替换，从而在目标检测时，不对其进行处理。

S104：将替换处理后的第二帧图像作为目标检测网络模型的输入，得到第二帧图像中的目标物体的目标框和各自所属的类别。

依次将第二帧图像中各子图像都进行匹配(在第一帧图像中匹配相应的数据块)与判断(判断当前子图像是否在第一帧图像中存在匹配图像块)后，将存在匹配图像块的子图像均用背景像素值进行替代。替代后的第二帧图像在进行目标检测时，检测的目标物体与第一帧图像中的目标物体不同。

在本发明实施例提供的技术方案中，通过分析连续图像如视频序列前后帧中的冗余信息，即重复出现的目标物体，利用背景像素数据替换后帧中的重复目标，大大的降低了后帧图像在进行目标检测时的数据处理量，解决了现有技术中没有考虑相邻时间段上其他图像帧上已经检测和识别到的目标信息造成目标检测性能降低的现象，利用相邻图像帧中已经识别的目标信息来降低当前图像帧上目标检测的计算复杂度，减小了目标检测网络模型复杂度，提高了目标检测的吞吐量。

基于上述实施例，请参阅图2所示，还可包括：

S105：将所述视频序列的第三帧图像分割为多个子图像，对各子图像根据预设的运动估计准则在所述第一帧图像和所述第二帧图像中匹配相应的图像块，以确定所述第三帧图像的前向帧中的目标物体在所述第三帧图像中的位置。

S106：利用预设背景像素值替换在所述第一帧图像和所述第二帧图像中存在相匹配图像块的子图像的像素数据。

S107：将替换处理后的第三帧图像作为所述目标检测网络模型的输入，得到所述第三帧图像中的目标物体的目标框和各自所属的类别。

第3帧图像中的每一块根据一定的运动估计准则在第1帧图像、第2帧图像中找出当前的匹配块。由此得到，前向帧中的目标在第3帧上的位置，使用背景像素替换第3帧上重复的目标块。

以次类推，之后的每帧图像将根据上述步骤进行处理，得到视频序列中所有目标的目标框和所属类别。

由上可知，本发明实施例优化了连续图像的目标检测算法，基于连续图像的冗余性，利用相邻图像帧中已经识别的目标信息来降低当前图像帧上目标检测的计算复杂度，提高了目标检测的吞吐量。

为了进一步的提升图像识别的准确度，可对获取的视频序列进行去噪处理，也即在输入目标检测网络模型之前，对每帧图像进行去噪处理，以去除各帧图像中的噪声干扰信号，进而提升目标检测的准确度和效率。

本发明实施例还针对连续图像的目标检测方法提供了相应的实现装置，进一步使得所述方法更具有实用性。下面对本发明实施例提供的连续图像的目标检测装置进行介绍，下文描述的连续图像的目标检测装置与上文描述的连续图像的目标检测方法可相互对应参照。

参见图3，图3为本发明实施例提供的连续图像的目标检测装置在一种具体实施方式下的结构图，该装置可包括：

第一帧图像输入模块301，用于将视频序列的第一帧图像输入目标检测网络模型，得到第一帧图像的目标物体的目标框和各自所属的类别；

图像匹配模块302，用于将视频序列的第二帧图像分割为多个子图像，对各子图像根据预设的运动估计准则在第一帧图像中匹配相应的图像块，以确定第一帧图像中的目标物体在第二帧图像中的位置；第二帧图像为第一帧图像相邻的下一帧图像；

背景替换模块303，用于利用预设背景像素值替换在第一帧图像中存在相匹配图像块的子图像的像素数据；

第二帧图像输入模块304，用于将替换处理后的第二帧图像作为目标检测网络模型的输入，得到第二帧图像中的目标物体的目标框和各自所属的类别。

可选的，在本实施例的一些实施方式中，请参阅图4，所述装置例如还可以包括第三帧图像处理模块305，所述第三帧图像处理模块305包括：

前向帧图像匹配子模块，用于将视频序列的第三帧图像分割为多个子图像，对各子图像根据预设的运动估计准则在第一帧图像和第二帧图像中匹配相应的图像块，以确定第三帧图像的前向帧中的目标物体在第三帧图像中的位置；第三帧图像为第二帧图像相邻的下一帧图像；

重复目标替换子模块，用于利用预设背景像素值替换在第一帧图像和第二帧图像中存在相匹配图像块的子图像的像素数据；

第三帧图像输入子模块，用于将替换处理后的第三帧图像作为目标检测网络模型的输入，得到第三帧图像中的目标物体的目标框和各自所属的类别。

在本实施例的另一些实施方式中，所述装置例如还可以包括去噪模块306，用于对视频序列的第一帧图像、第二帧图像和第三帧图像进行去噪处理，以去除视频序列中的噪声干扰信号。

本发明实施例所述连续图像的目标检测装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

本发明实施例还提供了一种连续图像的目标检测设备，具体可包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序以实现如上任意一实施例所述连续图像的目标检测方法的步骤。

本发明实施例所述连续图像的目标检测设备的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

本发明实施例还提供了一种计算机可读存储介质，存储有连续图像的目标检测程序，所述连续图像的目标检测程序被处理器执行时如上任意一实施例所述连续图像的目标检测方法的步骤。

本发明实施例所述计算机可读存储介质的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种连续图像的目标检测方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种连续图像的目标检测方法，其特征在于，包括：

2.根据权利要求1所述的连续图像的目标检测方法，其特征在于，所述目标检测网络模型为YOLO-v3网络模型或SSD网络模型。

3.根据权利要求1所述的连续图像的目标检测方法，其特征在于，在所述将替换处理后的第二帧图像作为所述目标检测网络模型的输入之后，还包括：

4.根据权利要求1-3任意一项所述的连续图像的目标检测方法，其特征在于，在所述将所述视频序列的第二帧图像分割为多个子图像之前，还包括：

5.一种连续图像的目标检测装置，其特征在于，包括：

6.根据权利要求5所述的连续图像的目标检测装置，其特征在于，所述目标检测网络模型为YOLO-v3网络模型或SSD网络模型。

7.根据权利要求5所述的连续图像的目标检测装置，其特征在于，还包括第三帧图像处理模块，所述第三帧图像处理模块包括：

8.根据权利要求5-7任意一种所述的连续图像的目标检测装置，其特征在于，还包括：

9.一种连续图像的目标检测设备，其特征在于，包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至4任一项所述连续图像的目标检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有连续图像的目标检测程序，所述连续图像的目标检测程序被处理器执行时实现如权利要求1至4任一项所述连续图像的目标检测方法的步骤。