CN115359094A

CN115359094A - 一种基于深度学习的运动目标检测方法

Info

Publication number: CN115359094A
Application number: CN202211076361.5A
Authority: CN
Inventors: 陈苗苗; 唐自兴; 马梦雪; 杨运红; 杨亮亮
Original assignee: Zhuhai Raysharp Technology Co ltd
Current assignee: Zhuhai Raysharp Technology Co ltd
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2022-11-18
Anticipated expiration: 2042-09-05
Also published as: CN115359094B

Abstract

本发明提供了一种基于深度学习的运动目标检测方法，具体包括：motion数据集的制作、运动目标检测模型训练、运动目标检测设备端应用等步骤。本基于深度学习的运动目标检测方法利用具有较大覆盖范围的coco数据集并使用背景差分法制作motion数据，在制作数据的过程中实时更新背景，避免在检测时更新背景耗时高的问题，提高检测的处理速度，并使用目标检测的方法来进行运动目标检测，且在训练数据输入到目标检测网络之前，对训练数据进行一系列的数据预处理操作，降低模型在现实各种复杂场景下的误报情况。

Description

一种基于深度学习的运动目标检测方法

技术领域

本发明涉及安防监控技术领域，具体涉及一种基于深度学习的运动目标检测方法。

背景技术

随着深度学习技术的不断进步，使得智能监控、智能交通等智能化成为现在的热潮，其中基于监控摄像头的运动目标检测更是在现实生活中得到了非常广泛的应用，如视频监控、交通违规行为监视、海洋监测、目标跟踪等。

现有运动目标检测技术，为了对运动目标进行检测，传统的方法主要分为三类：帧间差分法、光流法、背景建模法。其中帧间差分法是对视频序列中的相邻帧进行差分运算，通过差异信息检测到运动的物体；光流法是通过估算视频图像的光流场检测运动目标；最常用的背景建模法大都通过对背景进行建模区分背景和运动的前景目标，这些背景建模法主要包括：码本方法、混合高斯模型、像素点分类等；基于深度学习的方法通过大量的训练数据，得到视频帧图像中复杂的背景和前景的非线性映射，实现对运动目标的检测。

通过传统的方法进行运动目标检测，难以实现在设备终端的应用。比如，帧间差分法容易造成目标重叠形成较大的孔洞，使得分割区域不连通；而光流法对光线比较敏感，对应用的场景要求比较苛刻，再加上本身的光流计算量巨大，较难实现实时检测；常用的背景建模法虽然简单且能够实现实时检测，但是由于其检测的结果严重依赖背景更新速度以及背景模型的正确性，在复杂场景下应用也是有难度的。基于深度学习的方法大都基于图像块的像素级分类，检测时计算量巨大，处理速度慢，而且训练数据的构造过程也非常复杂，很难适应现实生活中的诸多场景。

总之，不管是传统方法还是基于深度学习的方法对于光线变化以及遮挡、阴影等场景，检测出运动目标的正确率都会受到极大地影响，导致误报率较高，难以在现实场景中很好地应用。

发明内容

针对现有技术的不足，本发明提出了一种基于深度学习的运动目标检测方法，利用具有较大覆盖范围的coco数据集并使用背景差分法制作motion数据，在制作数据的过程中实时更新背景，避免在检测时更新背景耗时高的问题，提高检测的处理速度，并使用目标检测的方法来进行运动目标检测，且在训练数据输入到目标检测网络之前，对训练数据进行一系列的数据预处理操作，降低模型在现实各种复杂场景下的误报情况。

为实现上述技术方案，本发明提供了一种基于深度学习的运动目标检测方法，具体包括如下步骤：

S1、motion数据集的制作：

S11、使用coco数据集的官网提供的接口将其包含的类别在背景固定的前提下，根据标注信息扣取不同类别的目标作为运动目标，然后将固定的背景和扣取的运动目标作为前景并融合在一起作为一张图像，运动目标通过像素计算在背景上进行像素位置随机方向的移动，每进行一次像素移动就生成一张新的图像，直到达到预设的固定值的图像数目，就停止生成图像；

S12、在利用coco数据集制作完运动目标数据集之后，使用背景差分法实时地更新图像的背景信息，为了能够提高处理速度以及节省内存，在更新背景时仅仅使用彩色图像的灰度图进行处理；

S2、运动目标检测模型训练：

S21、将motion数据集转化为3通道的彩色数据，并在图像数据送入网络训练之前进行数据预处理，然后基于目标检测网络YOLOX框架对制作的motion数据集进行训练；

S22、通过目标检测算法来对运动目标进行检测，然后经过YOLOX网络的训练，得到最终的运动目标检测的模型；

S3、运动目标检测设备端应用：将步骤S2中训练好的运动目标检测模型加载到设备端，输入图片数据利用AI运算模块加载运动目标检测模型，并对图片数据进行运算得到运动目标的位置信息，最后使用目标跟踪算法对检测到的运动目标进行跟踪和扣取抓图，从而输出最终的运动目标的信息。

优选的，所述步骤S11中，coco数据集的每一个类别随机选取13张图像作为固定背景，其中使用3张背景生成运动的单目标图像数据，其余的10张背景用于生成运动的多目标图像数据。

优选的，所述步骤S12中使用背景差分法实时地更新图像的背景信息的具体步骤为：

S121、按照索引顺序读取某一类别下的第一张图像的灰度图作为背景图像Begimg，记为B；

S122、按顺序依次读取同一背景下的其他图像作为当前图像Curimg，记为C，按照公式：B_n＝0.5×B_n-1+0.5×C_n更新背景信息；

S123、使用垂直拼接的方式将当前图像C_n和当前背景更新图像B_n拼接在一起作为最终的输出图像Outimg，记为O，即：O_n＝Vstack(C_n，B_n)，其中Vstack代表按照垂直方向堆叠图像。

优选的，所述步骤S21中将motion数据集转化为3通道的彩色数据的具体步骤为：

S211、将C_n从O_n里面截取出来作为彩色图像3通道中的B通道的数据；

S212、按照同样的方式将B_n从O_n里面截取出来作为彩色图像3通道中的G通道的数据；

S213、使用和O_n同样大小的全0的图像数据作为彩色图像3通道中的R通道的数据；

S214、使用OpenCV里面的merge()函数将3个通道的数据合在一起作为网络的输入Inimg，记为I，公式为：I＝merge(B，G，R)。

优选的，所述步骤S21中，在图像数据送入网络训练之前进行的数据预处理操作包括：图像高斯模糊、中值模糊、运动模糊、随机亮度变化、随机阴影化、高斯噪声、随机色调、颜色饱和度变化、随机平移RGB通道的值、随机对比度、随机雾化、随机雨化、伽马变换中的一种或者多种处理。

优选的，所述步骤S22中，为了提高不同类别的运动目标在各种复杂场景下的准确率，利用coco数据集做25-30万张的运动目标图像数据集，其中包含：23-24万张单目标运动的数据、4-5万张多目标运动的数据以及5000-1万张多目标跟踪的数据，以上制作的数据集除了进行motion背景更新以及数据预处理之外，均按照YOLOX网络要求的数据结构整理数据集，然后经过YOLOX网络的训练，得到最终的运动目标检测的模型。

优选的，所述步骤S3中，利用AI运算模块加载运动目标检测模型，并对图片数据进行运算得到运动目标的位置信息的具体过程为：首先，从视频流中获取原始数据为yuv格式，将yuv数据转换和缩放为AI推演模块支持的格式以及尺寸，提取yuv数据中的y分量数据作为推演输入数据的第一通道，对第二通道使用加权平均的方法进行背景更新，第三通道进行清零操作，确保与制作的motion数据格式保持一致；其次，预先分配好进行推演的输入图像的三个通道的图像数据，将输入的y分量数据拷贝到第一通道，用于记录当前画面的信息，第二通道为不断更新的背景图像，与制作训练数据的更新方式保持一致，将当前图像的y分量与前面累积的背景图像进行加权平均，使用OpenCV里面的addWeighted()函数进行更新addWeighted(BegImg,0.5,CurImg,0.5,0.0,BegImg)，该通道用于记录目标历史运动的信息；最后，将制作好的三通道数据，送入到AI推演模块中进行推演得到输出特征，对输出的特征进行目标检测算法的后处理，得到运动目标的置信度和位置信息。

优选的，所述步骤S3中，使用目标跟踪算法对检测到的运动目标进行跟踪和扣取抓图的具体过程为：利用sort目标跟踪算法对检测到的运动目标进行跟踪，对于连续的帧进行处理，计算两帧中目标信息的相关性，包括目标的距离信息以及目标的重叠比例，相同的目标形成相同的id，将跟踪之后的信息发送出去，用于给上层进行判断目标是否在区域运动以及可以对目标进行画框标识；同时根据前面跟踪得到的跟踪轨迹信息，将当前图像中对应位置的图像数据扣取下来进行缓存，根据抓拍的模式对缓存中的数据进行抓拍以达到对运动目标进行抓拍的效果。

本发明提供的一种基于深度学习的运动目标检测方法的有益效果在于：

1)提高了运动目标检测的各个场景的适应能力，本发明利用coco数据集制作运动目标的motion数据集，包括单目标运动数据和多目标运动数据，将这些数据合并到已有的数据集中进行训练，提高模型的适应能力。

2)针对现有基于深度学习的运动目标检测方法构造训练数据太过复杂，检测时计算量巨大并且处理速度慢的情况，通过在构建motion数据集时对背景进行实时更新，这种方式不仅能够节省空间而且更有利于在设备终端进行应用。

3)利用当前图像与背景图像的差异性进行运动目标检测，借助了传统背景建模的思想并将其融合到深度学习目标检测算法中，避免了在实际应用中构造数据过于复杂的问题。

4)运动目标检测方法使用目前流行的单阶段网络YOLOX进行检测，直接输出运动目标的位置信息，使得模型仅通过一次训练就能学习诸多场景下的数据分布方式，降低在检测时计算量巨大导致处理速度慢的问题。

5)通过在数据输入到网络训练之前进行一系列的数据预处理操作，降低模型在现实各种复杂场景下的误报情况。

附图说明

图1为本发明中检测方法的步骤流程图。

图2为本发明中制作运动目标的流程图。

图3为本发明中背景更新的流程图。

图4为本发明中运动目标检测流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，均属于本发明的保护范围。

实施例：一种基于深度学习的运动目标检测方法。

本基于深度学习的运动目标检测方法主要包括：motion数据集的制作，运动目标检测模型训练，运动目标检测设备端应用。motion数据集的制作：第一步为利用coco数据集制作运动的目标，第二步为实时更新制作的运动目标的背景信息；运动目标检测模型训练：将制作完成的motion数据集使用深度学习框架训练得到运动目标检测的模型；运动目标检测设备端应用：将训练好的模型转换到设备端，输入图片数据利用AI运算模块加载运动目标检测模型并对图片数据进行运算得到运动目标的位置信息，最后使用目标跟踪算法对检测到的运动目标进行跟踪和扣取抓图，从而输出最终的运动目标的信息。

参照图1至图4所示，一种基于深度学习的运动目标检测方法，具体包括如下步骤：

S1、motion数据集的制作

本发明中运动目标检测的数据集主要是通过coco数据集制作的。coco数据集覆盖的类别范围广，可以适应复杂多变的场景，本发明制作motion数据集主要分为两个步骤，分别是利用coco数据集制作运动的目标和实时更新制作的运动目标的背景信息。下面详细介绍这两个步骤：

S11、制作运动的目标

本发明主要是利用coco数据集制作的运动目标数据集，为了能够较大范围地包含所有的场景，主要使用coco数据集的官网提供的接口将其包含的类别在背景固定的前提下，根据标注信息扣取不同类别的目标作为运动目标，然后将固定的背景和扣取的运动目标(一个或多个)作为前景并融合在一起作为一张图像，运动目标通过像素计算在背景上进行一定像素并且随机位置方向的移动，每进行一次像素移动就生成一张新的图像，直到达到预设的固定值的图像数目，就停止生成图像。为提高运动目标检测的各个场景的适应能力，本发明为coco数据集的每一个类别随机选取13张图像作为固定背景，其中使用3张背景生成运动的单目标图像数据，其余的10张背景用于生成运动的多目标图像数据，流程如图2所示。

S12、实时更新背景信息

在利用coco数据集制作完运动目标数据集之后，为了能够更好地在设备终端应用，本发明使用背景差分法实时地更新图像的背景信息，同时为了能够提高处理速度以及节省内存，本发明在更新背景时仅仅使用彩色图像的灰度图进行处理。具体的步骤如下：首先，读取某一类别下的第一张图像的灰度图(按照索引顺序)作为背景图像Begimg，记为B；然后按顺序依次读取同一背景下的其他图像作为当前图像Curimg，记为C，按照公式：B_n＝0.5×B_n-1+0.5×C_n更新背景信息；最后为了能够节省空间，使用垂直拼接的方式将当前图像C_n和当前背景更新图像B_n拼接在一起作为最终的输出图像Outimg，记为O，即：O_n＝Vstack(C_n，B_n)，其中Vstack代表按照垂直方向堆叠图像，背景更新的步骤如图3所示。

针对传统方法对应用场景严苛且较难达到实时检测的要求以及基于深度学习方法在检测时计算量巨大处理速度慢的情况，本发明利用具有较大覆盖范围的coco数据集并使用背景差分法制作motion数据，在制作数据的过程中实时更新背景，避免在检测时更新背景耗时高的问题，提高检测的处理速度。

S2、运动目标检测模型训练

将制作完成的motion数据集使用深度学习框架训练得到运动目标检测的模型，其具体包括：

S21、运动目标检测数据预处理

基于目标检测网络YOLOX框架对制作的motion数据集进行训练，由于YOLOX网络所需的模型输入是3通道的彩色图像数据，而通过步骤S1制作的motion数据集是1通道的灰度图像数据，在网络训练时得到数据之后，需要对数据进行进一步地处理将其转化为3通道的彩色数据，具体做法如下：首先，将C_n从O_n里面截取出来作为彩色图像3通道中的B通道的数据；然后，按照同样的方式将B_n从O_n里面截取出来作为彩色图像3通道中的G通道的数据；最后，由于制作的运动目标数据集没有其他的数据可以使用，本发明使用和O_n同样大小的全0的图像数据作为彩色图像3通道中的R通道的数据。通过上面的做法，最终使用OpenCV里面的merge()函数将3个通道的数据合在一起作为网络的输入Inimg，记为I，公式为：I＝merge(B，G，R)。

为了能够更好地适应复杂多变的场景，本发明在图像数据送入网络训练之前对其进行了一系列的数据预处理操作，主要使用的方法是：图像高斯模糊、中值模糊、运动模糊、随机亮度变化、随机阴影化、高斯噪声、随机色调、颜色饱和度变化、随机平移RGB通道的值、随机对比度、随机雾化、随机雨化、伽马变换等其中一种或者多种。需要注意的是，以上提到的数据预处理操作均是针对3通道彩色图像数据，而本发明在制作训练数据和测试数据时并没有R通道的数据，原因在于在制作3通道数据时，R通道的数据全部置为0，因此在进行完上述的数据预处理之后，需要将R通道的数据再次置为0，以确保训练数据和测试数据的一致性。

S22、运动目标检测模型训练

通过目标检测算法来对运动目标进行检测，为了提高不同类别的运动目标在各种复杂场景下的准确率，本发明利用coco数据集做了25-30万张的运动目标图像数据集，其中包含：23-24万张单目标运动的数据、4-5万张多目标运动的数据以及5000-1万张多目标跟踪的数据。以上制作的数据集除了进行motion背景更新以及数据预处理之外，均按照YOLOX网络要求的数据结构整理数据集，然后经过YOLOX网络的训练，得到最终的运动目标检测模型。

针对传统方法和基于深度学习方法对于光线变化以及遮挡、阴影等场景误报率较高的情况，本发明使用目标检测的方法来进行运动目标检测，且在训练数据输入到目标检测网络之前，对训练数据进行一系列的数据预处理操作，降低模型在现实各种复杂场景下的误报情况。本发明使用目前流行的单阶段网络YOLOX进行检测，直接输出运动目标的位置信息，使得模型仅通过一次训练就能学习诸多场景下的数据分布方式。

S3、运动目标检测设备端应用

运动目标检测在设备端的应用主要包括，首先将待检测的图片进行检测，确定检测的运动目标的位置，然后使用目标跟踪算法对检测到的运动目标位置信息进行跟踪，最后对跟踪的运动目标图片进行扣取抓图，得到检测运动目标的输出结果。

具体流程如图4所示，主要包括：

S31、运动目标检测

首先，从视频流中获取原始数据为yuv格式，将yuv数据转换和缩放为AI推演模块支持的格式以及尺寸，提取yuv数据中的y分量数据作为推演输入数据的第一通道，对第二通道使用加权平均的方法进行背景更新，第三通道进行清零操作，确保与制作的motion数据格式保持一致。具体过程：预先分配好进行推演的输入图像的三个通道的图像数据，将输入的y分量数据拷贝到第一通道，用于记录当前画面的信息。第二通道为不断更新的背景图像，这里与制作训练数据的更新方式需要保持一致，将当前图像的y分量与前面累积的背景图像进行加权平均，使用OpenCV里面的addWeighted()函数进行更新addWeighted(BegImg,0.5,CurImg,0.5,0.0,BegImg)，该通道用于记录目标历史运动的信息。然后将制作好的三通道数据，送入到AI推演模块中进行推演得到输出特征，对输出的特征进行目标检测算法的后处理，得到运动目标的置信度和位置信息。

S32、运动目标跟踪和抓图

利用sort目标跟踪算法对检测到的运动目标进行跟踪，对于连续的帧进行处理，计算两帧中目标信息的相关性，包括目标的距离信息以及目标的重叠比例，相同的目标形成相同的id，将跟踪之后的信息发送出去，用于给上层进行判断目标是否在区域运动以及可以对目标进行画框标识。同时根据前面跟踪得到的跟踪轨迹信息，将当前图像中对应位置的图像数据扣取下来进行缓存，根据抓拍的模式对缓存中的数据进行抓拍以达到对运动目标进行抓拍的效果，从而实现对运动目标快速且准确的抓取。

与现有技术相比，本发明在制作motion数据集时对背景进行实时更新，可以降低在训练过程中处理背景耗时高且不好在板端应用的问题，避免了在实际应用中构造数据过于复杂的问题，同时为了降低在检测时计算量巨大导致处理速度慢的问题，使用单阶段的YOLOX网络训练模型，检测准确率高且更有利于在板端使用。

不管是传统的方法还是现有的基于深度学习的运动目标检测方法，对于光线亮度变化、遮挡以及阴影等情况，会严重影响运动目标检测的精度，不能广泛应用于各类复杂场景。与这些方法相比，本发明的优点在于针对误报率较高的问题，通过使用一系列的数据预处理操作对训练数据进行数据增强，从而降低了模型在现实复杂场景中误报率高的情况。

本发明利用coco数据集制作运动目标的motion数据集，包括单目标运动数据和多目标运动数据，将这些数据合并到已有的数据集中进行训练，提高模型的适应能力，也提高了运动目标检测在各个场景的适应能力。针对现有基于深度学习的运动目标检测方法构造训练数据太过复杂，检测时计算量巨大并且处理速度慢的情况，本发明通过在构建motion数据集时对背景进行实时更新，这种方式不仅能够节省空间而且更有利于在设备终端进行应用。

本发明还利用当前图像与背景图像的差异性进行运动目标检测，借助了传统背景建模的思想并将其融合到深度学习目标检测算法中，避免了在实际应用中构造数据过于复杂的问题。本发明的运动目标检测方法使用目前流行的单阶段网络YOLOX进行检测，直接输出运动目标的位置信息，使得模型仅通过一次训练就能学习诸多场景下的数据分布方式，降低在检测时计算量巨大导致处理速度慢的问题。并且通过在数据输入到网络训练之前进行一系列的数据预处理操作，降低模型在现实各种复杂场景下的误报情况。

以上所述为本发明的较佳实施例而已，但本发明不应局限于该实施例和附图所公开的内容，所以凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种基于深度学习的运动目标检测方法，其特征在于具体包括如下步骤：

S1、motion数据集的制作：

S12、在利用coco数据集制作完运动目标数据集之后，使用背景差分法实时地更新图像的背景信息，为了能够提高处理速度以及节省内存，在更新背景时仅仅使用彩色图像的灰度图进行处理。

S2、运动目标检测模型训练：

S22、通过目标检测算法来对运动目标进行检测，然后经过YOLOX网络的训练，得到最终的运动目标检测的模型。

2.如权利要求1所述的基于深度学习的运动目标检测方法，其特征在于，所述步骤S11中，coco数据集的每一个类别随机选取13张图像作为固定背景，其中使用3张背景生成运动的单目标图像数据，其余的10张背景用于生成运动的多目标图像数据。

3.如权利要求1或2所述的基于深度学习的运动目标检测方法，其特征在于，所述步骤S12中使用背景差分法实时地更新图像的背景信息的具体步骤为：

4.如权利要求1或3所述的基于深度学习的运动目标检测方法，其特征在于，所述步骤S21中将motion数据集转化为3通道的彩色数据的具体步骤为：

5.如权利要求1所述的基于深度学习的运动目标检测方法，其特征在于，所述步骤S21中，在图像数据送入网络训练之前进行的数据预处理操作包括：图像高斯模糊、中值模糊、运动模糊、随机亮度变化、随机阴影化、高斯噪声、随机色调、颜色饱和度变化、随机平移RGB通道的值、随机对比度、随机雾化、随机雨化、伽马变换中的一种或者多种处理。

6.如权利要求1所述的基于深度学习的运动目标检测方法，其特征在于，所述步骤S22中，为了提高不同类别的运动目标在各种复杂场景下的准确率，利用coco数据集做25-30万张的运动目标图像数据集，其中包含：23-24万张单目标运动的数据、4-5万张多目标运动的数据以及5000-1万张多目标跟踪的数据，以上制作的数据集除了进行motion背景更新以及数据预处理之外，均按照YOLOX网络要求的数据结构整理数据集，然后经过YOLOX网络的训练，得到最终的运动目标检测的模型。

7.如权利要求1所述的基于深度学习的运动目标检测方法，其特征在于，所述步骤S3中，利用AI运算模块加载运动目标检测模型，并对图片数据进行运算得到运动目标的位置信息的具体过程为：首先，从视频流中获取原始数据为yuv格式，将yuv数据转换和缩放为AI推演模块支持的格式以及尺寸，提取yuv数据中的y分量数据作为推演输入数据的第一通道，对第二通道使用加权平均的方法进行背景更新，第三通道进行清零操作，确保与制作的motion数据格式保持一致；其次，预先分配好进行推演的输入图像的三个通道的图像数据，将输入的y分量数据拷贝到第一通道，用于记录当前画面的信息，第二通道为不断更新的背景图像，与制作训练数据的更新方式保持一致，将当前图像的y分量与前面累积的背景图像进行加权平均，使用OpenCV里面的addWeighted()函数进行更新addWeighted(BegImg,0.5,CurImg,0.5,0.0,BegImg)，该通道用于记录目标历史运动的信息；最后，将制作好的三通道数据，送入到AI推演模块中进行推演得到输出特征，对输出的特征进行目标检测算法的后处理，得到运动目标的置信度和位置信息。

8.如权利要求1所述的基于深度学习的运动目标检测方法，其特征在于，所述步骤S3中，使用目标跟踪算法对检测到的运动目标进行跟踪和扣取抓图的具体过程为：利用sort目标跟踪算法对检测到的运动目标进行跟踪，对于连续的帧进行处理，计算两帧中目标信息的相关性，包括目标的距离信息以及目标的重叠比例，相同的目标形成相同的id，将跟踪之后的信息发送出去，用于给上层进行判断目标是否在区域运动以及可以对目标进行画框标识；同时根据前面跟踪得到的跟踪轨迹信息，将当前图像中对应位置的图像数据扣取下来进行缓存，根据抓拍的模式对缓存中的数据进行抓拍以达到对运动目标进行抓拍的效果。