CN116311004A

CN116311004A - 基于稀疏光流提取的视频运动目标检测方法

Info

Publication number: CN116311004A
Application number: CN202310582135.2A
Authority: CN
Inventors: 刘茜; 仲意雄
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-05-23
Filing date: 2023-05-23
Publication date: 2023-06-23
Anticipated expiration: 2043-05-23
Also published as: CN116311004B

Abstract

本申请涉及一种基于稀疏光流提取的视频运动目标检测方法。该方法包括：将待检测视频中的视频帧进行稀疏化的增强处理，获得增强后的视频输入浅层特征提取模块，生成第一、第二和第三浅层特征图，将第三浅层特征图输入深层特征提取模块，生成第一、第二和第三深层特征图，将第一、第二和第三深层特征图输入深层特征融合模块，获得深层特征融合图，将深层特征融合图、第一、第二和第三浅层特征图输入深浅层特征融合模块，获得深浅层融合特征，将第二和第三深层特征图、深层特征融合图、深浅层融合特征输入检测模块，获得视频运动目标检测结果。提高了视频运动目标检测的准确率。

Description

基于稀疏光流提取的视频运动目标检测方法

技术领域

本申请涉及计算机视觉技术领域，特别是涉及一种基于稀疏光流提取的视频运动目标检测方法。

背景技术

目标检测是计算机视觉领域的重要任务，是对现有数据如图片、视频中的感兴趣目标进行检测。随着计算机技术的发展和计算机视觉原理的广泛应用，利用图像处理技术对目标进行实时跟踪的研究越来越热门，对目标进行动态实时跟踪定位在智能化交通系统、智能监控系统、军事目标检测及医学导航手术中手术器械定位等方面具有广泛的应用价值。早期的目标检测算法大多是基于手工特征构建的。但是手工特征构建的方法有着计算量大、精度低、泛化能力不强的缺点，其性能很快趋于饱和。

随着新兴硬件设备（如GPU）的出现和深度学习的进一步发展，RCNN（Regions withCNN features）将深度学习应用到了目标检测任务，目标检测开始以前所未有的速度发展。基于深度学习的目标检测方法可以分为两类：“双级检测（two-stage detection）” 和 “单级检测（one-stage detection）”，前者将检测定为一个“从粗到细”的过程，即先通过算法产生候选框，然后再对这些候选框进行分类和回归；而后者将其定义为“一步到位”，即直接通过主干网络给出候选框的类别和位置信息。

SSD（Single Shot MultiBox Detector）是单级检测的代表工作之一，其相较于双级检测的Faster RCNN方法有明显的速度优势，相比单级检测的普通的YOLO模型又有精度优势。SSD作为单级检测方法，能够一次完成目标定位与分类，并且加入基于特征金字塔（FPN）的检测方式，能够在不同感受野的特征图上预测目标，这大大提高了单级检测器的检测精度，实现了仅通过端到端训练就可以用低分辨率输入达到较高的准确度。但SSD模型是直接使用底层特征来预测目标，特征提取并不充分，使其对于目标的检测效果并不理想，导致对目标的检测准确性较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高小目标的检测准确性的基于稀疏光流提取的视频运动目标检测方法。

一种基于稀疏光流提取的视频运动目标检测方法，所述方法包括：

将待检测视频中的视频帧进行稀疏化的增强处理，获得增强后的视频；

将所述增强后的视频的视频帧输入改进型SSD目标检测网络模型中的浅层特征提取模块进行特征提取，生成各所述视频帧的第一浅层特征图、第二浅层特征图和第三浅层特征图；

将各所述视频帧的所述第三浅层特征图输入所述改进型SSD目标检测网络模型中的深层特征提取模块进行特征提取，生成各所述视频帧的第一深层特征图、第二深层特征图和第三深层特征图；

将各所述视频帧的所述第一深层特征图、第二深层特征图和第三深层特征图输入所述改进型SSD目标检测网络模型中的深层特征融合模块进行特征融合，获得各所述视频帧的深层特征融合图；

将各所述视频帧的所述深层特征融合图、所述第一浅层特征图、所述第二浅层特征图和所述第三浅层特征图输入所述改进型SSD目标检测网络模型中的深浅层特征融合模块进行特征融合，获得各所述视频帧的深浅层融合特征；

将各所述视频帧的所述第二深层特征图、所述第三深层特征图、所述深层特征融合图、所述深浅层融合特征输入所述改进型SSD目标检测网络模型中的检测模块，获得视频运动目标检测结果。

在其中一个实施例中，所述浅层特征提取模块包括第一浅层特征提取单元、第二浅层特征提取单元和第三浅层特征提取单元；

所述将所述增强后的视频的视频帧输入改进型SSD目标检测网络模型中的浅层特征提取模块进行特征提取，生成各所述视频帧的第一浅层特征图、第二浅层特征图和第三浅层特征图，包括：

将所述增强后的视频的视频帧输入第一浅层特征提取单元进行特征提取，获得各所述视频帧的第一浅层特征图；

将各所述视频帧的第一浅层特征图输入第二浅层特征提取单元进行特征提取，获得各所述视频帧的第二浅层特征图；

将各所述视频帧的第二浅层特征图输入第三浅层特征提取单元进行特征提取，获得各所述视频帧的第三浅层特征图。

在其中一个实施例中，所述深层特征提取模块包括第一深层特征提取单元、第二深层特征提取单元和第三深层特征提取单元；

所述将各所述视频帧的所述第三浅层特征图输入所述改进型SSD目标检测网络模型中的深层特征提取模块进行特征提取，生成各所述视频帧的第一深层特征图、第二深层特征图和第三深层特征图，包括：

将各所述视频帧的第三浅层特征图输入第一深层特征提取单元进行特征提取，获得各所述视频帧的第一深层特征图；

将各所述视频帧的第一深层特征图输入第二深层特征提取单元进行特征提取，获得各所述视频帧的第二深层特征图；

将各所述视频帧的第二深层特征图输入第三深层特征提取单元进行特征提取，获得各所述视频帧的第三深层特征图。

在其中一个实施例中，所述深浅层特征融合模块包括：第一深浅层特征融合单元、第二深浅层特征融合单元和第三深浅层特征融合单元；

所述将各所述视频帧的所述深层特征融合图、所述第一浅层特征图、所述第二浅层特征图和所述第三浅层特征图输入所述改进型SSD目标检测网络模型中的深浅层特征融合模块进行特征融合，获得各所述视频帧的深浅层融合特征，包括：

将各所述视频帧的所述深层特征融合图和所述第三浅层特征图输入所述第一深浅层特征融合单元，获得各所述视频帧的第一深浅层融合特征图；

将所述各所述视频帧的第一深浅层融合特征图和所述第二浅层特征图输入所述第二深浅层特征融合单元，获得各所述视频帧的第二深浅层融合特征图；

将所述各所述视频帧的第二深浅层融合特征图和所述第一浅层特征图输入所述第三深浅层特征融合单元，获得各所述视频帧的第三深浅层融合特征图；

其中，各所述视频帧的深浅层融合特征包括各所述视频帧的第一深浅层融合特征图、第二深浅层融合特征图和第三深浅层融合特征图。

在其中一个实施例中，所述第一深浅层特征融合单元、第二深浅层特征融合单元和第三深浅层特征融合单元的深浅层特征融合方式相同，所述深浅层特征融合方式为：

对深层特征进行双线性插值上采样，获得采样后的特征；

对浅层特征进行卷积和Batch Normalization操作，获得操作后的特征；

将所述采样后的特征和所述操作后的特征相加后使用sigmoid激活进行处理，获得处理后的特征；

将所述处理后的特征与所述浅层特征相乘后，生成深浅层融合特征。

在其中一个实施例中，所述深层特征融合模块包括：第一卷积层、第二卷积层、第一全局平均池化层、第三卷积层、第二全局平均池化层和第四卷积层；

将各所述视频帧的所述第一深层特征图、第二深层特征图和第三深层特征图输入所述改进型SSD目标检测网络模型中的深层特征融合模块进行特征融合，获得各所述视频帧的深层特征融合图，包括：

将各所述视频帧的所述第一深层特征图输入第一卷积层进行处理，将处理后的特征图输入到第二卷积层进行处理，输出第一特征图；

将各所述视频帧的所述第一深层特征图输入第一全局平均池化层进行处理，将处理后的特征图输入到第三卷积层进行处理，输出第二特征图；

将各所述视频帧的所述第二深层特征图输入第二全局平均池化层进行处理，将处理后的特征图输入到第四卷积层进行处理，输出第三特征图；

将所述第一特征图、所述第二特征图、所述第三特征图和第三深层特征图利用广播机制进行相加，获得各所述视频帧的深层特征融合图。

在其中一个实施例中，所述将待检测视频中的视频帧进行稀疏化的增强处理，获得增强后的视频，包括：

根据待检测视频中的视频帧的时间先后顺序，依次确定当前视频帧和下一视频帧；

对所述当前视频帧和所述下一视频帧的各像素点的像素值进行分析，确定所述当前视频帧和所述下一视频帧的像素差值中的非零值个数是否超过阈值；

在像素差值中的非零值个数未超过阈值时，跳过当前视频帧，返回所述根据待检测视频中的视频帧的时间先后顺序，依次确定当前视频帧和下一视频帧的步骤；

在像素差值中的非零值个数超过阈值时，对所述当前视频帧和所述下一视频帧进行特征提取，获得帧间光流特征图；

采用所述帧间光流特征图对所述当前视频帧进行图像增强，获得增强后的视频帧；

用所述增强后的视频帧替换所述待检测视频中的所述当前视频帧；

分析所述下一视频帧是否为最后一个视频帧，若不是最后一个视频帧，返回所述根据待检测视频中的视频帧的时间先后顺序，依次确定当前视频帧和下一视频帧的步骤，若是最后一个视频帧，得到增强后的视频。

在其中一个实施例中，所述在像素差值中的非零值个数超过阈值时，对所述当前视频帧和所述下一视频帧进行特征提取，获得帧间光流特征图，包括：

在像素差值中的非零值个数超过阈值时，对所述当前视频帧和所述下一视频帧使用Lucas–Kanade光流提取算法进行特征提取，获得帧间光流特征图。

在其中一个实施例中，所述采用所述帧间光流特征图对所述当前视频帧进行图像增强，获得增强后的视频帧，包括：

对所述帧间光流特征图和所述待检测视频中的所述当前视频帧进行灰度化，获得灰度化后的视频帧与灰度化后的光流特征图；

使用结合权重w将所述灰度化后的视频帧与所述灰度化后的光流特征图进行结合，获得初步增强视频帧；

根据所述当前视频帧的色彩信息，采用逆灰度的方式对所述初步增强视频帧进行通道还原，获得增强后的视频帧。

在其中一个实施例中，灰度化后的视频帧与灰度化后的光流特征图进行结合的表达式为：

；

其中，

为初步增强视频帧，/>

为结合权重，w∈[0,1]，/>

为当前视频帧，/>

为当前视频帧与下一视频帧的帧间光流特征图。

上述基于稀疏光流提取的视频运动目标检测方法，通过将待检测视频中的视频帧进行稀疏化的增强处理，获得增强后的视频，进而将增强后的视频的视频帧输入改进型SSD目标检测网络模型中的浅层特征提取模块进行特征提取，生成各视频帧的第一浅层特征图、第二浅层特征图和第三浅层特征图，再将各视频帧的第三浅层特征图输入改进型SSD目标检测网络模型中的深层特征提取模块进行特征提取，生成各视频帧的第一深层特征图、第二深层特征图和第三深层特征图，将各视频帧的第一深层特征图、第二深层特征图和第三深层特征图输入改进型SSD目标检测网络模型中的深层特征融合模块进行特征融合，获得各视频帧的深层特征融合图，将各视频帧的深层特征融合图、第一浅层特征图、第二浅层特征图和第三浅层特征图输入改进型SSD目标检测网络模型中的深浅层特征融合模块进行特征融合，获得各视频帧的深浅层融合特征，将各视频帧的第二深层特征图、第三深层特征图、深层特征融合图、深浅层融合特征输入改进型SSD目标检测网络模型中的检测模块，获得视频运动目标检测结果。由此，通过改进型SSD目标检测网络模型进行目标检测，可以更好的结合深层特征与浅层特征的信息进行预测，提高视频运动目标检测的准确率。

附图说明

图1为一个实施例中基于稀疏光流提取的视频运动目标检测方法的流程示意图；

图2为一个实施例中基于稀疏光流提取的视频运动目标检测方法的帧间光流特征图提取流程示意图；

图3为一个实施例中基于稀疏光流提取的视频运动目标检测方法的图像增强处理流程示意图；

图4为一个实施例中改进型SSD目标检测网络模型的结构示意图；

图5为一个实施例中深层特征融合模块的结构示意图；

图6为一个实施例中深浅层特征融合单元的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于稀疏光流提取的视频运动目标检测方法，以该方法应用于终端为例进行说明，包括以下步骤：

步骤S220，将待检测视频中的视频帧进行稀疏化的增强处理，获得增强后的视频。

应理解，将待检测视频中的视频帧进行稀疏化的增强处理，可以加快了整个图像增强过程，来更好地利用视频帧中的信息。

在一个实施例中，将待检测视频中的视频帧进行稀疏化的增强处理，获得增强后的视频，包括：

根据待检测视频中的视频帧的时间先后顺序，依次确定当前视频帧和下一视频帧；对当前视频帧和下一视频帧的各像素点的像素值进行分析，确定当前视频帧和下一视频帧的像素差值中的非零值个数是否超过阈值；在像素差值中的非零值个数未超过阈值时，跳过当前视频帧，返回根据待检测视频中的视频帧的时间先后顺序，依次确定当前视频帧和下一视频帧的步骤；在像素差值中的非零值个数超过阈值时，对当前视频帧和下一视频帧进行特征提取，获得帧间光流特征图；采用帧间光流特征图对当前视频帧进行图像增强，获得增强后的视频帧；用增强后的视频帧替换待检测视频中的当前视频帧；分析下一视频帧是否为最后一个视频帧，若不是最后一个视频帧，返回根据待检测视频中的视频帧的时间先后顺序，依次确定当前视频帧和下一视频帧的步骤，若是最后一个视频帧，得到增强后的视频。

其中，像素差值，可以是当前视频帧和下一视频帧中对应位置的一像素点的像素值的差值。

应理解，对当前视频帧和下一视频帧进行分析，进一步确定当前视频帧和下一视频帧的像素点的像素值做像素差值，若像素差值结果超过阈值，说明两帧之间物体变化明显，对这前后两帧提取帧间光流特征图；若像素差值结果未超过阈值，则跳帧。

应理解，将待检测视频中的视频帧进行稀疏化的增强处理，可以加快了整个帧间光流特征图的提取过程，来更好地利用帧间光流特征图中的信息。

在一个实施例中，在像素差值中的非零值个数超过阈值时，对当前视频帧和下一视频帧进行特征提取，获得帧间光流特征图，包括：在像素差值中的非零值个数超过阈值时，对当前视频帧和下一视频帧使用Lucas–Kanade光流提取算法进行特征提取，获得帧间光流特征图。

在一个实施例中，采用帧间光流特征图对当前视频帧进行图像增强，获得增强后的视频帧，包括：

对帧间光流特征图和待检测视频中的当前视频帧进行灰度化，获得灰度化后的视频帧与灰度化后的光流特征图；使用结合权重w将灰度化后的视频帧与灰度化后的光流特征图进行结合，获得初步增强视频帧；根据当前视频帧的色彩信息，采用逆灰度的方式对初步增强视频帧进行通道还原，获得增强后的视频帧。

在一个实施例中，灰度化后的视频帧与灰度化后的光流特征图进行结合的表达式为：

；

其中，

为初步增强视频帧，/>

为结合权重，w∈[0,1]，/>

为当前视频帧，/>

为当前视频帧与下一视频帧的帧间光流特征图。

在一个实施例中，如图2所示，对输入待检测视频的第T帧视频帧和第T+1帧视频帧计算像素差值X，若像素差值X中的非零值个数超过阈值Y，说明两帧之间物体变化明显，则对第T帧图像和第T+1帧图像使用LK算法（Lucas–Kanade光流提取算法）提取光流特征图，得到帧间光流特征图I(T)；若像素差值中的非零值个数未超过阈值Y，则说明两帧之间物体无明显运动，不对第T帧图像和第T+1帧图像提取光流特征图，令T=T+1，进行跳帧。

其中，像素差值X可以是一个矩阵，矩阵中的每个元素对应一对像素点，一对像素点是第T帧视频帧和第T+1帧视频帧的同一位置上的像素点。

其中，阈值可以根据实际情况设定，可以将阈值设置为：Y=15%。

在一个实施例中，如图3所示，使用帧间光流特征图对原图（即当前视频帧）进行增强，首先将帧间光流特征图与原图都进行灰度化，使用结合权重w将灰度化后的原图与灰度化后的光流特征图结合，以获得对原图初步增强后的图像（即初步增强视频帧），最后再使用原图的色彩信息通过逆灰度的方式对初步增强后的图像进行通道还原，以恢复初步增强后的图像的色彩，获得增强后的视频帧。灰度化后的视频帧与灰度化后的光流特征图进行结合的表达式为：

；

其中，

为初步增强视频帧，/>

为结合权重，w∈[0,1]，/>

为当前视频帧，/>

为当前视频帧与下一视频帧的帧间光流特征图。

其中，结合权重的值根据帧间像素差值设置，帧间像素差值越大，则越小，当像素差值未达到阈值时，设置为1，防止对变化未达到阈值的视频帧产生影响。

步骤S240，将增强后的视频的视频帧输入改进型SSD目标检测网络模型中的浅层特征提取模块进行特征提取，生成各视频帧的第一浅层特征图、第二浅层特征图和第三浅层特征图。

如图4所示，其中，改进型SSD目标检测网络模型是基于VGG16网络框架提取特征的SSD模型，改进型SSD目标检测网络模型包括浅层特征提取模块、深层特征提取模块、深层特征融合模块、深浅层特征融合模块以及检测模块；浅层特征提取模块用于生成第一浅层特征图、第二浅层特征图和第三浅层特征图；深层特征提取模块用于生成第一深层特征图、第二深层特征图和第三深层特征图；深层特征融合模块用于生成深层特征融合图；深浅层特征融合模块用于生成深浅层融合特征；检测模块用于输出视频运动目标检测结果。

在一个实施例中，如图4所示，浅层特征提取模块包括第一浅层特征提取单元、第二浅层特征提取单元和第三浅层特征提取单元；将增强后的视频的视频帧输入改进型SSD目标检测网络模型中的浅层特征提取模块进行特征提取，生成各视频帧的第一浅层特征图、第二浅层特征图和第三浅层特征图，包括：

将增强后的视频的视频帧输入第一浅层特征提取单元进行特征提取，获得各视频帧的第一浅层特征图；将各视频帧的第一浅层特征图输入第二浅层特征提取单元进行特征提取，获得各视频帧的第二浅层特征图；将各视频帧的第二浅层特征图输入第三浅层特征提取单元进行特征提取，获得各视频帧的第三浅层特征图。

步骤S260，将各视频帧的第三浅层特征图输入改进型SSD目标检测网络模型中的深层特征提取模块进行特征提取，生成各视频帧的第一深层特征图、第二深层特征图和第三深层特征图。

在一个实施例中，如图4所示，深层特征提取模块包括第一深层特征提取单元、第二深层特征提取单元和第三深层特征提取单元；将各视频帧的第三浅层特征图输入改进型SSD目标检测网络模型中的深层特征提取模块进行特征提取，生成各视频帧的第一深层特征图、第二深层特征图和第三深层特征图，包括：

将各视频帧的第三浅层特征图输入第一深层特征提取单元进行特征提取，获得各视频帧的第一深层特征图；将各视频帧的第一深层特征图输入第二深层特征提取单元进行特征提取，获得各视频帧的第二深层特征图；将各视频帧的第二深层特征图输入第三深层特征提取单元进行特征提取，获得各视频帧的第三深层特征图。

步骤S280，将各视频帧的第一深层特征图、第二深层特征图和第三深层特征图输入改进型SSD目标检测网络模型中的深层特征融合模块进行特征融合，获得各视频帧的深层特征融合图。

在一个实施例中，如图5所示，深层特征融合模块包括：第一卷积层、第二卷积层、第一全局平均池化层、第三卷积层、第二全局平均池化层和第四卷积层；将各视频帧的第一深层特征图、第二深层特征图和第三深层特征图输入改进型SSD目标检测网络模型中的深层特征融合模块进行特征融合，获得各视频帧的深层特征融合图，包括：

将各视频帧的第一深层特征图输入第一卷积层进行处理，将处理后的特征图输入到第二卷积层进行处理，输出第一特征图；将各视频帧的第一深层特征图输入第一全局平均池化层进行处理，将处理后的特征图输入到第三卷积层进行处理，输出第二特征图；将各视频帧的第二深层特征图输入第二全局平均池化层进行处理，将处理后的特征图输入到第四卷积层进行处理，输出第三特征图；将第一特征图、第二特征图、第三特征图和第三深层特征图利用广播机制进行相加，获得各视频帧的深层特征融合图。

其中，对第一深层特征图分别做两种操作，以提取不同的特征信息，这两种操作分别为：(a) 卷积核大小为3x3的第一卷积层和卷积核大小为3×3的第二卷积层进行处理；(b) 第一全局平均池化层（GAP）和卷积核大小为1×1的第三卷积层进行处理。对第二深层特征图做第二全局平均池化层（GAP）和卷积核大小为1×1的第四卷积层；对特征层6不做额外操作。最后将操作后的结果（即，第一特征图、第二特征图、第三特征图和第三深层特征图）利用广播机制进行相加，得到大小为5×5的深层特征融合图。

步骤S300，将各视频帧的深层特征融合图、第一浅层特征图、第二浅层特征图和第三浅层特征图输入改进型SSD目标检测网络模型中的深浅层特征融合模块进行特征融合，获得各视频帧的深浅层融合特征。

应理解，改进型SSD目标检测网络模型中加入了深浅层特征融合模块，使得改进型SSD目标检测网络模型能更好地融合深层特征与浅层特征的信息，从而更好地检测运动目标，提高了检测准确度。

在一个实施例中，如图4所示，深浅层特征融合模块包括：第一深浅层特征融合单元、第二深浅层特征融合单元和第三深浅层特征融合单元；将各视频帧的深层特征融合图、第一浅层特征图、第二浅层特征图和第三浅层特征图输入改进型SSD目标检测网络模型中的深浅层特征融合模块进行特征融合，获得各视频帧的深浅层融合特征，包括：

将各视频帧的深层特征融合图和第三浅层特征图输入第一深浅层特征融合单元，获得各视频帧的第一深浅层融合特征图；将各视频帧的第一深浅层融合特征图和第二浅层特征图输入第二深浅层特征融合单元，获得各视频帧的第二深浅层融合特征图；将各视频帧的第二深浅层融合特征图和第一浅层特征图输入第三深浅层特征融合单元，获得各视频帧的第三深浅层融合特征图；其中，各视频帧的深浅层融合特征包括各视频帧的第一深浅层融合特征图、第二深浅层融合特征图和第三深浅层融合特征图。

在一个实施例中，如图6所示，所述第一深浅层特征融合单元、第二深浅层特征融合单元和第三深浅层特征融合单元的深浅层特征融合方式相同，深浅层特征融合方式为：对深层特征进行双线性插值上采样，获得采样后的特征；对浅层特征进行卷积和BatchNormalization操作，获得操作后的特征；将采样后的特征和操作后的特征相加后使用sigmoid激活进行处理，获得处理后的特征；将处理后的特征与浅层特征相乘后，生成深浅层融合特征。

其中，该深层特征，可以是深层特征融合图、第一深浅层融合特征图、第二深浅层融合特征图或第三深浅层融合特征图。

其中，浅层特征，可以是第一浅层特征图、第二浅层特征图或第三浅层特征图。

在一个实施例中，按照从深层到浅层的方向，以将各视频帧的深层特征融合图和第三浅层特征图输入第一深浅层特征融合单元，获得各视频帧的第一深浅层融合特征图为例：对深层特征融合图进行双线性插值上采样，对第三浅层特征图进行卷积和BatchNormalization操作，两个结果相加后使用sigmoid激活，将结果与第三浅层特征图相乘，得到第一深浅层融合特征图，第一深浅层融合特征图作为下一次融合的深层特征。这种做法结合了注意力机制，能更好的关注感兴趣的内容，提高了检测精度。

步骤S320，将各视频帧的第二深层特征图、第三深层特征图、深层特征融合图、深浅层融合特征输入改进型SSD目标检测网络模型中的检测模块，获得视频运动目标检测结果。

在一个实施例中，改进型SSD目标检测网络模型的训练方式为：

步骤1：获取视频数据集并进行数据预处理，对每个视频的每一帧进行标注，保存每个视频的帧数信息，并将视频数据集划分成训练集、验证集和测试集。

其中，步骤1具体包括以下步骤：从VID数据集网站下载视频数据集；对视频数据集中的每段视频的每一帧视频帧进行目标位置、目标信息、有无遮挡的标注，以xml格式存储；将每段视频的帧数信息，以txt格式存储；将每帧视频帧以及标注进行resize，缩放为300*300的尺寸；将视频数据集、标注信息、帧数信息按照7:2:1的比例随机划分为训练集、测试集、验证集，每个集合包括Annotations（即：注解，存放每帧视频帧的box的标注）、Data（即：数据，存放对应视频和每帧视频帧）、ImageSets（即：存放帧数文件的记录）三个文件夹。

步骤2：利用步骤1得到的训练集和验证集对改进型SSD目标检测网络模型进行训练。

步骤2具体包括以下步骤：

步骤21：设定改进型SSD目标检测网络模型初始参数，即：初始学习率（learningrate）为：0.001；优化器（optimization）为：SGD随机梯度下降；动量（momentum）为：0.9；批大小（batch size）为：6；训练轮数（epoch）为：10；总迭代次数为：200000；学习率衰减策略（learning rate decay）为：在初始学习率的基础上，分别在第6和第8个epoch时降低10倍学习率。

步骤22：在训练过程中使用位置误差（localization loss，）与置信度误差（confidence loss，）的加权和作为损失函数，损失函数如下：

；

其中，

为损失函数，/>

为置信度误差，/>

为位置误差，N是先验框的正样本数量，/>

是一个指示参数，/>

时表示先验框与真实值匹配，/>

为类别置信度预测值，/>

为预测的先验框，/>

是真实值的位置参数，/>

为位置误差的权重。

对于位置误差

，计算过程如下：

首先对所有的正样本计算Smooth L1损失：

，

，/>

，

，/>

；

其中，

为Smooth L1损失，/>

为先验框序号，/>

为真实框序号，/>

、/>

、

和/>

分别表示真实框或先验框的中心点横坐标、中心点纵坐标、宽度和高度的位置参数，

表示真实框或先验框的中心点的横坐标，/>

表示真实框或先验框的中心点的纵坐标，/>

表示真实框或先验框的宽度，/>

表示真实框或先验框的高度，/>

表示第/>

个真实框，即视频帧中第/>

个目标的位置，/>

表示第/>

个真实框位置参数为/>

时候的值，/>

表示第/>

个真实框位置参数为/>

时候的值，/>

表示第/>

个真实框位置参数为/>

时候的值，/>

表示第/>

个真实框位置参数为/>

时候的值，/>

表示第/>

个先验框，/>

表示第/>

个先验框位置参数为/>

时候的值，/>

表示第/>

个先验框位置参数为/>

时候的值，/>

表示第/>

个先验框位置参数为/>

时候的值, />

表示第/>

个先验框位置参数为/>

时候的值，/>

表示第/>

个真实框/>

相对于第/>

个先验框/>

在位置参数为/>

时的偏移量，/>

表示第/>

个真实框/>

相对于第/>

个先验框/>

在位置参数为/>

时的偏移量，/>

表示第/>

个真实框/>

相对于第/>

个先验框/>

在位置参数为/>

时的偏移量，/>

表示第/>

个真实框/>

相对于第/>

个先验框/>

在位置参数为/>

时的偏移量。

然后，再利用位置误差计算公式，与预测的第

个先验框/>

作差，计算位置误差，其中，位置误差计算公式为：

；

其中，

表示/>

与/>

关于类别/>

是否匹配，取0或1。/>

表示/>

中/>

分别取/>

、/>

、

和/>

时的值，/>

表示在先验框的正样本范围内计算。

对于置信度误差

，置信度误差计算公式如下：

；

；

其中，

表示/>

与/>

关于类别/>

是否匹配，取值为0或1，/>

和/>

通过softmax激活函数计算产生，/>

表示/>

对应类别/>

的预测概率，/>

表示/>

对应背景类别的预测概率，

表示在先验框的正样本范围内计算，/>

表示在先验框的负样本范围内计算。因此，/>

是正样本损失，即分类为某个类别的损失，/>

是负样本的损失，即类别为背景的损失。

步骤23：使用所有类别的平均精度mAP对改进型SSD目标检测网络模型进行评估，mAP的计算公式如下；

；

；

；

其中，

是某一类别的平均精度，/>

为精确度，/>

为召回率，/>

是真实类别为正类判定为正类的情况，/>

是真实类别为负类判定为正类的情况，/>

是真实类别为正类判定为负类的情况，n为所有/>

点的个数，/>

为/>

处的插值，/>

为第/>

个Precison插值段的插值按照升序排列后的第一个插值处对应的Recall值，/>

为第/>

个Precison插值段的插值按照升序排列后的第一个插值处对应的Recall值。/>

即为所有类别的/>

：

；

其中，

为总类别数，/>

是第/>

个类别的平均精度。

步骤24：重复步骤22-23训练过程，每训练完一轮使用验证集对改进型SSD目标检测网络模型进行评估，直至训练完成，保存最优的改进型SSD目标检测网络模型。其中，学习率衰减策略为：初始学习率为0.001，每个epoch是迭代20000次，第6个和第8个epoch在一开始就降低学习率，在迭代次数为100000次（第6个epoch）和140000（第8个epoch）次时分别下降10倍。

步骤3：使用步骤1得到的测试集，验证步骤2中训练好的改进型SSD目标检测网络模型，测试其性能；

进一步地，步骤3具体包括以下步骤：导入步骤2中获得的最优的改进型SSD目标检测网络模型，输入步骤1得到的测试集；根据最优的改进型SSD目标检测网络模型输出计算mAP，并记录最优的改进型SSD目标检测网络模型预测速度和检测精度，预测速度和检测精度达到训练要求时，完成改进型SSD目标检测网络模型的训练。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于稀疏光流提取的视频运动目标检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于稀疏光流提取的视频运动目标检测方法，其特征在于，所述浅层特征提取模块包括第一浅层特征提取单元、第二浅层特征提取单元和第三浅层特征提取单元；

3.根据权利要求1所述的基于稀疏光流提取的视频运动目标检测方法，其特征在于，所述深层特征提取模块包括第一深层特征提取单元、第二深层特征提取单元和第三深层特征提取单元；

4.根据权利要求1所述的基于稀疏光流提取的视频运动目标检测方法，其特征在于，所述深浅层特征融合模块包括：第一深浅层特征融合单元、第二深浅层特征融合单元和第三深浅层特征融合单元；

5.根据权利要求4所述的基于稀疏光流提取的视频运动目标检测方法，其特征在于，所述第一深浅层特征融合单元、第二深浅层特征融合单元和第三深浅层特征融合单元的深浅层特征融合方式相同，所述深浅层特征融合方式为：

对深层特征进行双线性插值上采样，获得采样后的特征；

6.根据权利要求1所述的基于稀疏光流提取的视频运动目标检测方法，其特征在于，所述深层特征融合模块包括：第一卷积层、第二卷积层、第一全局平均池化层、第三卷积层、第二全局平均池化层和第四卷积层；

7.根据权利要求1所述的基于稀疏光流提取的视频运动目标检测方法，其特征在于，所述将待检测视频中的视频帧进行稀疏化的增强处理，获得增强后的视频，包括：

8.根据权利要求7所述的基于稀疏光流提取的视频运动目标检测方法，其特征在于，所述在像素差值中的非零值个数超过阈值时，对所述当前视频帧和所述下一视频帧进行特征提取，获得帧间光流特征图，包括：

9.根据权利要求7所述的基于稀疏光流提取的视频运动目标检测方法，其特征在于，所述采用所述帧间光流特征图对所述当前视频帧进行图像增强，获得增强后的视频帧，包括：

10.根据权利要求9所述的基于稀疏光流提取的视频运动目标检测方法，其特征在于，所述灰度化后的视频帧与所述灰度化后的光流特征图进行结合的表达式为：

；

其中，

为初步增强视频帧，/>

为结合权重，w∈[0,1]，/>

为当前视频帧，/>

为当前视频帧与下一视频帧的帧间光流特征图。