CN115546680A

CN115546680A - 移动目标检测方法、装置、存储介质及电子设备

Info

Publication number: CN115546680A
Application number: CN202211127445.7A
Authority: CN
Inventors: 潘俊全
Original assignee: Anker Innovations Co Ltd
Current assignee: Anker Innovations Co Ltd
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2022-12-30

Abstract

本申请公开了一种移动目标检测方法、装置、存储介质及电子设备，方法包括：获取包含移动目标的移动视频流，移动视频流包括当前时刻的当前帧图像以及当前时刻之前的历史帧图像，将历史帧图像输入至移动目标检测模型中的背景建模模块中，基于所述背景建模模块对所述历史帧图像进行背景建模并输出背景图像，将背景图像以及当前帧图像输入至移动目标检测模型中的检测模块中，输出与移动目标对应的移动目标检测结果，检测模块用于对背景图像以及当前帧图像进行检测。采用本申请提供的移动目标检测方法，实现了对移动视频流中移动目标的检测。

Description

移动目标检测方法、装置、存储介质及电子设备

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种移动目标检测方法、装置、存储介质及电子设备。

背景技术

视频中移动目标检测智能监控、人机交互、行为分析、入侵检测、异常检测、对象跟踪以及自动驾驶等方面有着广泛的应用。移动目标检测旨在对视频中的指定的移动目标进行定位并分类。

发明内容

本申请实施例提供了一种移动目标检测方法、装置、存储介质及电子设备，可以为视频流提供移动目标检测。所述技术方案如下：

第一方面，本申请实施例提供了一种移动目标检测方法，所述方法包括：

获取包含移动目标的移动视频流，所述移动视频流包括当前时刻的当前帧图像以及当前时刻之前的历史帧图像；

将所述历史帧图像输入至移动目标检测模型中的背景建模模块中，得到背景图像，所述背景建模模块用于采用具有不同感受野的至少两个池化核对所述历史帧图像进行平均池化操作，得到至少两个特征图，并对所述至少两个特征图进行融合处理；

将所述背景图像以及所述当前帧图像输入至移动目标检测模型中的检测模块中，输出与所述移动目标对应的移动目标检测结果，所述检测模块用于对所述背景图像以及所述当前帧图像进行检测。

第二方面，本申请实施例提供了一种移动目标检测模型训练方法，所述方法包括：

确定移动目标的类别；

获取包含所述类别的移动目标的样本移动视频数据集合，并对所述样本移动视频数据集合中的各样本移动视频数据中包含的所述移动目标标注标注信息，所述标注信息包括所述移动目标的标注中心点坐标信息、标注尺寸长宽信息和标注类别信息中的至少一种；

基于标注完成标注信息的所述样本移动视频数据集合训练初始移动目标检测模型，得到训练完成的移动目标检测模型。

第三方面，本申请实施例提供了一种移动目标检测装置，所述移动目标检测装置包括：

视频流获取单元，用于获取包含移动目标的移动视频流，所述移动视频流包括当前时刻的当前帧图像以及当前时刻之前的历史帧图像；

背景图像获取单元，用于将所述历史帧图像输入至移动目标检测模型中的背景建模模块中，基于所述背景建模模块对所述历史帧图像进行背景建模并输出背景图像；

移动目标检测单元，用于将所述背景图像以及所述当前帧图像输入至移动目标检测模型中的检测模块中，输出与所述移动目标对应的移动目标检测结果，所述检测模块用于对所述背景图像以及所述当前帧图像进行检测。

第四方面，本申请实施例提供了一种移动目标检测模型训练装置，所述装置包括：

类别确定单元，用于确定移动目标的类别；

样本数据获取单元，用于获取包含所述类别的移动目标的样本移动视频数据集合，并对所述样本移动视频数据集合中的各样本移动视频数据中包含的所述移动目标标注标注信息，所述标注信息包括所述移动目标的标注中心点坐标信息、标注尺寸长宽信息和标注类别信息中的至少一种；

模型训练单元，用于基于标注完成标注信息的所述样本移动视频数据集合训练初始移动目标检测模型，得到训练完成的移动目标检测模型。

第五方面，本申请实施例提供了一种电子设备，可包括：处理器和存储器；其中，所述存储器存储有至少一条指令，所述至少一条指令适于由所述处理器加载并执行上述的方法步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

采用本申请实施例提供的移动目标检测方法，获取包含移动目标的移动视频流，移动视频流包括当前时刻的当前帧图像以及当前时刻之前的历史帧图像，将历史帧图像输入至移动目标检测模型中的背景建模模块中，得到背景图像，然后将背景图像以及当前帧图像输入至移动目标检测模型中的检测模块中，输出与移动目标对应的移动目标检测结果，检测模块用于对背景图像以及当前帧图像进行检测，实现了对移动视频流中的移动目标的准确检测。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种移动目标检测方法的系统架构图；

图2为本申请实施例提供的一种移动目标检测方法的流程示意图；

图3为本申请实施例提供的一种移动目标检测方法的流程示意图；

图4为本申请实施例提供的一种移动目标检测的示例性流程图；

图5为本申请实施例提供的一种移动目标检测模型训练方法的流程示意图；

图6为本申请实施例提供的一种移动目标检测模型训练方法的流程示意图；

图7为本申请实施例提供的一种移动目标检测装置的结构示意图；

图8为本申请实施例提供的一种移动目标检测装置的结构示意图；

图9为本申请实施例提供的一种移动目标检测模型训练装置的结构示意图；

图10为本申请实施例提供的一种模型训练单元的结构示意图；

图11示出了本申请一个示例性实施例提供的电子设备的结构方框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本申请的描述中，需要说明的是，除非另有明确的规定和限定，“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

视频中移动目标检测智能监控、人机交互、行为分析、入侵检测、异常检测、对象跟踪以及自动驾驶等方面有着广泛的应用。移动目标检测旨在对视频中的指定的移动目标进行定位并分类。传统的移动目标检测算法大都基于传统背景减法或光流等方法，虽然在某些特定场合上能够取得一定的效果，但难以适应复杂多变的场景，算法并不具备鲁棒性。此外，基于背景减法等传统背景建模方法，其实现机理依赖于许多超参数，这往往需要在该领域上极具经验的专家方可设置比较合理的参数估值，因此对于实际应用场景来说并不具备实用性。

基于此，本申请提出了一种移动目标检测方法，通过获取包含移动目标的移动视频流，将移动视频流中当前时刻之前的历史帧图像输入至移动目标检测模型中的背景建模模块中，基于背景建模模块对历史帧图像进行背景建模得到背景图像，然后通过移动目标检测模型中的检测模块对所述背景图像以及所述当前帧图像进行预测，得到移动目标对应的移动目标检测结果，实现了对移动视频流中的移动目标的准确检测，基于深度学习的移动目标检测模型针对大部分场景下移动目标检测都具有极好的鲁棒性。

请参见图1，为本申请实施例提供的一种移动目标检测方法的系统架构图。如图1所示，所示系统架构可以包括视频拍摄设备101、网络102以及云端103。网络102可以包括各种类型的无线通信链路，例如：无线通信链路包括蓝牙通信链路、无线保真(Wireless-Fidelity，Wi-Fi)通信链路或微波通信链路等。

视频拍摄设备101可以通过网络102和云端103进行数据交互。视频拍摄设备101可以是各种电子设备，包括但不限于无线摄像机、智能手表、智能手机、平板电脑、膝上型便携式计算机和台式计算机等。云端103可以是提供各种服务的业务服务器。需要说明的是，云端103可以是硬件，也可以是软件。当云端103为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当云端103为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不做具体限定。

在一个实施例中，视频拍摄设备101采集包含移动目标的移动视频流，并将采集到的移动视频流通过网络102发送至云端103，云端包括训练完成的移动目标检测模型，云端在接收到移动视频流数据后，由移动目标检测模型对移动视频流进行移动目标检测，具体包括：获取包含移动目标的移动视频流，将移动视频流中当前时刻之前的历史帧图像输入至移动目标检测模型中的背景建模模块中，基于背景建模模块对历史帧图像进行背景建模得到背景图像，然后通过移动目标检测模型中的检测模块对所述背景图像以及所述当前帧图像进行预测，得到移动目标对应的移动目标检测结果，实现了对移动视频流中的移动目标的准确检测，基于深度学习的移动目标检测模型针对大部分场景下移动目标检测都具有极好的鲁棒性。

根据图1所示的系统架构，下面结合具体的实施例进行详细说明本申请提出的移动目标检测方法。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。附图中所示的流程图仅是示例性说明，不是必须按照所示步骤执行。例如，有的步骤是并列的，在逻辑上并没有严格的先后关系，因此实际执行顺序是可变的。

请参见图2，为本申请实施例提供的一种移动目标检测方法的流程示意图。在具体的实施例中，所述移动目标检测方法可以应用于移动目标检测装置，所述移动目标检测装置可以为电子设备，也可以为电子设备中的移动目标检测程序。下面将以电子设备为例，说明本实施例的具体流程，当然，可以理解的，本实施例所应用的电子设备可以为智能手机、平板电脑、台式电脑、可穿戴式设备、无线摄像机等，在此不做限定。下面将针对图1所示的流程进行详细的阐述，所述移动目标检测方法具体可以包括以下步骤：

S102，获取包含移动目标的移动视频流，移动视频流包括当前时刻的当前帧图像以及当前时刻之前的历史帧图像；

移动视频流是指包含移动目标的视频数据，可以是正在运行的视频拍摄设备正在录制的视频流。

当前帧图像是指当前时刻视频拍摄设备采集到的视频帧图像。

历史帧图像是指当前时刻之前视频拍摄设备采集到的一系列视频帧图像，历史帧图像可以缓存视频数据。

具体的，视频拍摄设备将拍摄的移动视频流上传至云端的移动目标检测模型中，移动目标检测模型获取移动视频流。

移动目标检测模型为基于卷积神经网络的深度学习模型。

S104，将所述历史帧图像输入至移动目标检测模型中的背景建模模块中，基于所述背景建模模块对所述历史帧图像进行背景建模并输出背景图像；

背景建模模块用于根据移动视频流中的历史帧图像进行背景信息的提取并输出背景图像。

具体的，在移动目标检测模型获取到移动视频流之后，将移动视频流中包含的历史帧图像输入至移动目标检测模型的背景建模模块，背景建模模块基于具有不同感受野的池化核对历史帧图像进行平均池化操作，得到至少两个特征图，然后对至少两个特征图进行融合处理，得到背景图像。

特征图为背景建模模块通过对历史帧图像进行背景特征提取得到的包含背景特征信息的图像。

感受野是指在卷积神经网络中，网络每一层的特征提取算子输出的特征图上的像素点在输入图片上映射的区域大小。不难理解，通过采用具有不同感受野的至少两个池化核对历史帧图像进行平均池化操作，得到至少两个特征图，并对至少两个特征图进行融合处理生成背景图像的方式，即可得到具有多尺度感受野的特征图，提高了背景信息提取的准确度，保证了背景图像中背景信息的精度。

可选的，在一个实施例中，在采用具有不同感受野的至少两个池化核对历史帧图像进行平均池化操作，得到至少两个特征图之后，在通道维度计算各特征图对应的特征权重，根据各特征图对应的特征权重对各特征图进行融合处理，得到包含特征图的特征权重信息的背景图像。

可选的，在一个实施例中，在采用具有不同感受野的至少两个池化核对历史帧图像进行平均池化操作，得到至少两个特征图之后，对至少两个特征图进行编码压缩得到融合特征图，然后计算融合特征图中不同感受野的特征图的特征权重，并通过特征重标定的方式将特征权重添加至融合特征图得到权重特征图，最后将融合特征图和权重特征图进行相加处理得到背景图像。

可以理解的是，通过计算不同感受野的特征图对应的特征权重，并将特征图对应的特征权重信息添加至背景图像中，可以提升背景图像中关键背景特征的重要性，使背景信息更加准确。

S106，将背景图像以及当前帧图像输入至移动目标检测模型中的检测模块中，输出与移动目标对应的移动目标检测结果，检测模块用于对背景图像以及当前帧图像进行检测。

检测模块用于对背景图像以及当前帧图像进行预测，得到移动视频流中移动目标的移动目标检测结果。

具体的，在背景建模模块输出背景信息提取后的背景图像后，将背景图像以及当前时刻的当前帧图像输入至检测模块，检测模块对背景图像以及当前帧图像进行预测，得到移动视频流中移动目标的移动目标检测结果。

检测模块可以为yolov5基础网络，yolov5基础网络可以包括基于ghost的bottleneck结构以及深度可分离卷积模块。

在一个实施例中，移动目标检测结果包括类别信息、中心点坐标信息以及尺寸长宽信息，检测模块可以包括backbone部分、neck部分以及三个检测头，三个检测头分别为第一检测分支、第二检测分支和第三检测分支。检测模块对背景图像以及当前帧图像进行检测，具体可以为，由检测模块中的backbone部分和neck部分对背景图像以及当前帧图像进行特征提取并编码得到深层特征图，由第一检测分支对深层特征图进行检测，以判断深层特征图中是否存在移动目标，若确定深层特征图中存在移动目标，再基于检测模块中的第二检测分支对深层特征图进行回归预测，得到移动目标的中心点坐标信息以及尺寸长宽信息基于检测模块中的第三检测分支对深层特征图进行类别预测，得到移动目标的类别信息。

在一个实施例中，还可以将当前时刻之前的历史帧图像在通道维度进行中值滤波处理，得到中位数图像，将中位数图像、背景图像以及当前帧图像输入至移动目标检测模型中的检测模块中，由检测模块对中位数图像、背景图像以及当前帧图像进行检测，得到移动目标对应的移动目标检测结果。

可以理解的是，中位数图像为历史帧图像进行中值滤波后的输出，其包含了历史帧图像中的背景信息，将中位数图像和背景图像以及当前帧图像一同输入至检测模块，可以对背景图像中的背景信息进一步增强，进而提高检测准确性。

一个实施例中，在将背景图像以及当前帧图像输入至移动目标检测模型中的检测模块中，输出与移动目标对应的移动目标检测结果之后，将移动目标检测结果同步至移动终端，以便于用户在移动终端查看移动目标检测结果。

采用本申请实施例提供的移动目标检测方法，通过获取包含移动目标的移动视频流，将移动视频流中当前时刻之前的历史帧图像输入至移动目标检测模型中的背景建模模块中，基于背景建模模块对历史帧图像进行背景建模得到背景图像，然后通过移动目标检测模型中的检测模块对所述背景图像以及所述当前帧图像进行预测，得到移动目标对应的移动目标检测结果，实现了对移动视频流中的移动目标的准确检测，基于深度学习的移动目标检测模型针对大部分场景下移动目标检测都具有极好的鲁棒性。

请参见图3，为本申请实施例提供的一种移动目标检测方法的流程示意图。如图3所示，所述移动目标检测方法可以包括以下步骤：

S202，获取包含移动目标的移动视频流，所述移动视频流包括当前时刻的当前帧图像以及当前时刻之前的历史帧图像；

历史帧图像是指当前时刻之前视频拍摄设备采集到的一系列视频帧图像，历史帧图像可以缓存视频数据。历史帧图像用于提取背景信息得到背景图像。

S204，采用具有不同感受野的池化核对历史帧图像进行平均池化操作，得到至少两个特征图；

S206，对至少两个特征图进行编码压缩得到融合特征图；

步骤S204～步骤S206具体的，在移动目标检测模型获取到移动视频流之后，将移动视频流中包含的历史帧图像输入至移动目标检测模型的背景建模模块，背景建模模块基于具有不同感受野的池化核对历史帧图像进行平均池化操作，得到至少两个特征图，然后对至少两个特征图进行融合处理，得到融合不同感受野特征的融合特征图。

感受野是指在卷积神经网络中，网络每一层的特征提取算子输出的特征图上的像素点在输入图片上映射的区域大小。不难理解，通过采用具有不同感受野的至少两个池化核对历史帧图像进行平均池化操作，得到至少两个特征图，并对至少两个特征图进行融合处理生成融合特征图的方式，可得到具有多尺度感受野的特征图，可以提高背景信息提取的准确度，保证背景图像中背景信息的精度。

S208，计算融合特征图中不同感受野的特征图的特征权重，并通过特征重标定的方式将特征权重添加至融合特征图得到权重特征图；

S210，将融合特征图和权重特征图进行相加处理得到背景图像；

步骤S208～步骤S210具体的，在采用具有不同感受野的至少两个池化核对历史帧图像进行平均池化操作，得到至少两个特征图之后，对至少两个特征图进行编码压缩得到融合特征图，然后计算融合特征图中不同感受野的特征图的特征权重，并通过特征重标定的方式将特征权重添加至融合特征图得到权重特征图，最后将融合特征图和权重特征图进行相加处理得到背景图像。

S212，基于检测模块对背景图像以及当前帧图像进行特征提取并编码得到深层特征图；

具体的，在得到背景图像之后，将背景图像和当前帧图像输入至移动目标检测模型中的检测模块中，由检测模块中的backbone部分和neck部分对背景图像以及当前帧图像进行特征提取并编码得到深层特征图。

其中，backbone为主干网络，用来提取特征，neck用以提升特征的多样性和鲁棒性。

S214，基于检测模块中的第一检测分支对深层特征图进行移动目标检测，判断深层特征图是否存在移动目标；

具体的，第一检测分支为检测模块中的一个检测头，用来检测深层特征图中是否存在移动目标，若确定深层特征图中存在移动目标，则执行步骤S216和步骤S218，并输出移动目标检测结果，若未在深层特征图中检测到移动目标，则检测模块不会输出移动目标检测结果，或输出未检测到移动目标的提示信息。

S216，若确定深层特征图中存在移动目标，基于检测模块中的第二检测分支对深层特征图进行回归预测，得到移动目标的中心点坐标信息以及尺寸长宽信息；

具体的，基于第二检测分支对深层特征图进行卷积操作，预测得到移动目标的中心点坐标信息以及尺寸长宽信息。

S218，若确定深层特征图中存在移动目标，基于检测模块中的第三检测分支对深层特征图进行类别预测，得到移动目标的类别信息。

具体的，基于第三检测分支对深层特征图进行全连接操作，预测得到移动目标的类别信息。

请参见图4，为本申请实施例提供的一种移动目标检测的示例性流程图。

如图4所示，所示第n-t帧到第n帧为当前时刻之前的历史帧图像，将所示历史帧图像输入至背景建模模块中，得到背景图像，并对第n-t帧到第n帧的历史帧图像进行中值滤波处理得到中位数帧图像，将背景图像、中位数帧图像以及当前时刻的当前帧图像输入至训练完成的移动目标检测模型中，最终移动目标检测模型对移动目标的检测结果。

例如，训练完成的移动目标检测模型检测的移动目标为行人，移动视频流为某固定摄像头实时拍摄的视频画面，则将移动视频流接入移动目标检测模型中之后，移动目标检测模型根据固定摄像头所拍摄的当前时刻之前的历史帧图像提取固定摄像头所拍摄画面的除行人之外的背景信息，生成背景图像，然后移动目标检测模型通过对背景图像、中位数图像以及当前帧图像进行行人检测，可以检测到当前帧图像中是否存在行人、以及行人的位置等信息。

再比如，训练完成的移动目标检测模型检测的移动目标包括行人和车辆，移动视频流为某固定摄像头实时拍摄的视频画面，则将移动视频流接入移动目标检测模型中之后，移动目标检测模型根据固定摄像头所拍摄的当前时刻之前的历史帧图像提取固定摄像头所拍摄画面的除行人和车辆之外的背景信息，生成背景图像，然后移动目标检测模型通过对背景图像、中位数图像以及当前帧图像进行移动目标检测，可以检测到当前帧图像中是否存在行人以及车辆、以及行人和车辆的位置等信息。在一个实施例中，还可以将当前时刻之前的历史帧图像在通道维度进行中值滤波处理，得到中位数图像，将中位数图像、背景图像以及当前帧图像输入至移动目标检测模型中的检测模块中，有检测模块对中位数图像、背景图像以及当前帧图像进行检测，得到移动目标对应的移动目标检测结果。

采用本申请实施例提供的移动目标检测方法，通过获取包含移动目标的移动视频流，将移动视频流中当前时刻之前的历史帧图像输入至移动目标检测模型中的背景建模模块中，背景建模模块采用具有不同感受野的至少两个池化核对历史帧图像进行平均池化操作，得到至少两个特征图，并对至少两个特征图进行融合处理得到背景图像，然后通过移动目标检测模型中的检测模块对背景图像以及当前帧图像进行预测，得到移动目标对应的移动目标检测结果，实现了对移动视频流中的移动目标的准确检测，通过采用具有不同感受野的至少两个池化核对历史帧图像进行平均池化操作，得到至少两个特征图，并对至少两个特征图进行融合处理生成背景图像的方式，保证了背景信息提取的准确度，进而保证了移动目标的检测精度。

一个实施例中，在对视频拍摄设备录制的移动视频流进行移动目标检测之前，需要对移动目标检测模型进行训练。请参见图5，为本申请实施例提供的一种移动目标检测模型训练方法的流程示意图。如图5所示，所述方法可以包括以下步骤：

S302，确定移动目标的类别；

首先，确定移动目标检测模型要检测的移动目标的类别，可以为任意一种可移动的物体或生物类别。只有确定移动目标的类别之后，才可以根据移动目标的类别选择对应的移动视频数据来训练移动目标检测模型，训练完成移动目标检测模型可以检测对应类别的移动目标。

移动目标的类别可以为一个或多个。

S304，获取包含移动目标的样本移动视频数据集合，并对样本移动视频数据集合中的各样本移动视频数据中包含的移动目标标注标注信息，标注信息包括移动目标的标注中心点坐标信息、标注尺寸长宽信息和标注类别信息中的至少一种；

具体的，在确定移动目标的类别之后，获取包含对应类别的移动目标的移动目标检测模型的样本移动视频数据集合，并对各样本移动视频数据中包含的对应类别的移动目标进行标注，标注的内容包括移动目标的标注中心点坐标信息、标注尺寸长宽信息和标注类别信息中的至少一种。

样本移动视频数据用于训练移动目标检测模型，在使用样本移动视频数据训练移动目标检测模型之前，首先对样本移动视频数据中的移动目标进行信息标注，包括但不限于移动目标的标注中心点坐标信息、标注尺寸长宽信息和标注类别信息。

可选的，获取包含类别的移动目标的样本移动视频数据集合可以为：通过爬虫技术收集互联网中包含对应类被的移动目标的样本移动视频数据。

可选的，当移动目标的类别为多个时，在一个实施例中，在通过爬虫技术收集互联网中包含对应类别的移动目标的样本移动视频数据之后，还可以对获取到的样本移动视频数据集合中的各样本移动视频数据按照移动目标的类别进行统计，当发现包含某一类别的移动目标的样本移动视频数据的数据量较少时，在不同环境、距离、拍摄角度下通过人工采集的方式扩充数据量较少的类别的样本移动视频数据数量。

可选的，在一个实施例中，在通过爬虫技术收集互联网中包含对应类别的移动目标的样本移动视频数据之后，对获取到的各样本移动视频数据进行数据增强处理，数据增强处理可以包括颜色空间变换、访射变换等。

S306，基于标注完成标注信息的样本移动视频数据集合训练初始移动目标检测模型，得到训练完成的移动目标检测模型；

具体的，在将获取到的样本移动视频数据集合中的各样本移动视频数据中的移动目标标注完成标注信息后，即可将各样本移动视频数据输入至初始移动目标检测模型中进行预测，初始移动目标检测模型输出对样本移动视频数据中移动目标的预测结果，根据初始移动目标检测模型输出的预测结果以及预先标注的标注信息之间的差异，调整初始移动目标检测模型的模型参数，以实现对初始移动目标检测模型训练过程，最终得到训练完成的移动目标检测模型。

可以理解的是，标注信息为样本移动视频中移动目标的真实位置、类别信息，而初始移动目标检测模型输出的预测结果为对样本移动视频中移动目标进行预测得到的预测位置、类别信息，初始移动目标检测模型输出的预测结果以及预先标注的标注信息之间存在差异，训练模型的过程即是缩小预测结果和标注信息之间差异的过程。

一个实施例中，请参见图6，步骤S306可包括以下步骤：

S3061，提取样本移动视频数据集合中的各样本移动视频数据分别对应的样本历史帧图像以及样本当前帧图像；

具体的，样本移动视频数据为已录制的包含指定类别的移动目标的视频数据，在样本移动视频数据中确定出用于背景信息提取的样本历史帧图像，以及用于检测移动目标的样本当前帧图像。

例如，一个样本移动视频数据为包含200帧图像，可将前150帧图像作为样本历史帧图像进行背景信息的提取，将第151帧图像作为样本当前帧图像进行移动目标的检测。

S3062，将样本历史帧图像输入至初始移动目标检测模型中的背景建模模块中，输出样本背景图像；

具体的，初始移动目标检测模型包括背景建模模块，背景建模模块用于根据样本历史帧图像提取样本移动视频数据中除移动目标之外的背景信息，并生成包含背景信息的样本背景图像。

在一个实施例中，背景建模模块采用具有不同感受野的至少两个池化核对样本历史帧图像进行平均池化操作得到至少两个样本特征图，然后对至少两个样本特征图进行编码压缩得到样本融合特征图，再计算样本融合特征图中不同感受野的样本特征图的特征权重，最后通过特征重标定的方式将特征权重添加至样本融合特征图得到样本权重特征图，将样本融合特征图和样本权重特征图进行相加处理得到样本背景图像。

样本特征图为背景建模模块通过对样本历史帧图像进行背景特征提取得到的包含背景特征信息的图像。

感受野是指在卷积神经网络中，网络每一层的特征提取算子输出的特征图上的像素点在输入图片上映射的区域大小。不难理解，通过采用具有不同感受野的至少两个池化核对样本历史帧图像进行平均池化操作，得到至少两个样本特征图，并对至少两个样本特征图进行融合处理生成样本背景图像的方式，即可得到具有多尺度感受野样本的特征图，提高了背景信息提取的准确度，保证了背景图像中背景信息的精度。

S3063，将样本背景图像以及样本当前帧图像输入至初始移动目标检测模型中的检测模块中，输出与移动目标对应的样本移动目标检测结果；

具体的，初始移动目标检测模型包括检测模块，检测模块用于根据样本背景图像以及样本当前帧图像对样本移动视频数据中的移动目标进行检测。不难理解，样本背景图像中包含了样本移动视频数据中的除移动目标之外的背景信息，而当前帧图像包含了背景信息以及移动目标，通过比较样本背景图像以及样本当前帧图像即可完成对移动目标的检测。

在一个实施例中，检测模块backbone部分、neck部分以及三个检测头，三个检测头分别为第一检测分支、第二检测分支和第三检测分支，在将样本背景图像以及样本当前帧图像输入至检测模型中之后，由检测模块中的backbone部分和neck部分对样本背景图像以及样本当前帧图像进行特征提取并编码得到样本深层特征图，由第一检测分支对样本深层特征图进行检测，以判断样本深层特征图中是否存在移动目标，若确定样本深层特征图中存在移动目标，再基于检测模块中的第二检测分支对样本深层特征图进行回归预测，得到移动目标的中心点坐标信息以及尺寸长宽信息基于检测模块中的第三检测分支对样本深层特征图进行类别预测，得到移动目标的类别信息。

可选的，第二检测分支基于卷积操作对深层特征图进行回归预测，预测得到移动目标的中心点坐标信息以及尺寸长宽信息，第三检测分支基于全连接操作对深层特征图进行类别预测，预测得到移动目标的类别信息。

可以理解的是，在卷积神经网络中，具有平移等变性的卷积操作比较适合处理回归预测任务，而全连接操作可以更好的处理分类预测任务，分别采用卷积操作执行回归预测、采用全连接操作执行分类预测，可大大提高预测准确率。

在一个实施例中，还可以将样本历史帧图像在通道维度进行中值滤波处理，得到样本中位数图像，将样本中位数图像、样本背景图像以及样本当前帧图像一同输入至初始移动目标检测模型中的检测模块中，由检测模块对样本中位数图像、样本背景图像以及样本当前帧图像进行检测，得到移动目标对应的移动目标检测结果。

可以理解的是，样本中位数图像为样本历史帧图像进行中值滤波后的输出，其包含了样本历史帧图像中的背景信息，将样本中位数图像和样本背景图像以及样本当前帧图像一同输入至检测模块，可以对样本背景图像中的背景信息进一步增强，进而提高检测准确性，进而提高初始移动目标检测模型的训练效果。

S3064，基于样本移动目标检测结果以及样本移动视频数据对应的标注信息构建代价函数；

S3065，基于代价函数训练初始移动目标检测模型，得到训练完成的移动目标检测模型。

采用本申请实施例提供的移动目标检测模型训练方法训练得到的移动目标检测模型，可以执行如图2和图3所示方法的步骤，通过获取包含移动目标的移动视频流，将移动视频流中当前时刻之前的历史帧图像输入至移动目标检测模型中的背景建模模块中，背景建模模块采用具有不同感受野的至少两个池化核对所述历史帧图像进行平均池化操作，得到至少两个特征图，并对所述至少两个特征图进行融合处理得到背景图像，然后通过移动目标检测模型中的检测模块对所述背景图像以及所述当前帧图像进行预测，得到移动目标对应的移动目标检测结果，实现了对移动视频流中的移动目标的准确检测，通过采用具有不同感受野的至少两个池化核对历史帧图像进行平均池化操作，得到至少两个特征图，并对至少两个特征图进行融合处理生成背景图像的方式，保证了背景信息提取的准确度，进而保证了移动目标的检测精度。

请参见图7，为本申请实施例提供的一种移动目标检测装置的结构示意图。如图7所示，该移动目标检测装置1可以通过软件、硬件或者两者的结合实现成为电子设备的全部或一部分。根据一些实施例，移动目标检测装置包括主控芯片和通信芯片，移动目标检测装置1还包括，视频流获取单元11、背景图像获取单元12、移动目标检测单元13，具体包括：

视频流获取单元11，用于获取包含移动目标的移动视频流，所述移动视频流包括当前时刻的当前帧图像以及当前时刻之前的历史帧图像；

背景图像获取单元12，用于将所述历史帧图像输入至移动目标检测模型中的背景建模模块中，基于所述背景建模模块对所述历史帧图像进行背景建模并输出背景图像；

移动目标检测单元13，用于将所述背景图像以及所述当前帧图像输入至移动目标检测模型中的检测模块中，输出与所述移动目标对应的移动目标检测结果，所述检测模块用于对所述背景图像以及所述当前帧图像进行检测。

可选的，所述背景图像获取单元12，具体用于：

采用具有不同感受野的池化核对所述历史帧图像进行平均池化操作，得到至少两个特征图；

对所述至少两个特征图进行编码压缩得到融合特征图；

计算所述融合特征图中不同感受野的特征图的特征权重，并通过特征重标定的方式将所述特征权重添加至所述融合特征图得到权重特征图；

将所述融合特征图和所述权重特征图进行相加处理得到背景图像。

可选的，移动目标检测结果包括类别信息、中心点坐标信息以及尺寸长宽信息，所述移动目标检测单元13，具体用于：

基于所述检测模块对所述背景图像以及所述当前帧图像进行特征提取并编码得到深层特征图；

基于所述检测模块中的第一检测分支对所述深层特征图进行移动目标检测，判断所述深层特征图是否存在移动目标；

若确定所述深层特征图中存在移动目标，基于所述检测模块中的第二检测分支对所述深层特征图进行回归预测，得到所述移动目标的中心点坐标信息以及尺寸长宽信息；

若确定所述深层特征图中存在移动目标，基于所述检测模块中的第三检测分支对所述深层特征图进行类别预测，得到所述移动目标的类别信息。

可选的，所述移动目标检测单元13，还用于：

将所述历史帧图像在通道维度进行中值滤波处理，输出中位数图像；

所述将所述背景图像以及所述当前帧图像输入至移动目标检测模型中的检测模块中，输出与所述移动目标对应的移动目标检测结果，包括：

将所述中位数图像、所述背景图像以及所述当前帧图像输入至移动目标检测模型中的检测模块中，输出与所述移动目标对应的移动目标检测结果，所述检测模块用于对所述中位数图像、所述背景图像以及所述当前帧图像进行检测。

可选的，请参见图8，为本申请实施例提供的一种移动目标检测装置的结构示意图。如图8所示，所述移动目标检测装置还包括：

检测结果同步单元14，用于将所述移动目标检测结果同步至移动终端。

采用本申请实施例提供的移动目标检测方法，通过获取包含移动目标的移动视频流，将移动视频流中当前时刻之前的历史帧图像输入至移动目标检测模型中的背景建模模块中，背景建模模块采用具有不同感受野的至少两个池化核对所述历史帧图像进行平均池化操作，得到至少两个特征图，并对所述至少两个特征图进行融合处理得到背景图像，然后通过移动目标检测模型中的检测模块对所述背景图像以及所述当前帧图像进行预测，得到移动目标对应的移动目标检测结果，实现了对移动视频流中的移动目标的准确检测，通过采用具有不同感受野的至少两个池化核对历史帧图像进行平均池化操作，得到至少两个特征图，并对至少两个特征图进行融合处理生成背景图像的方式，保证了背景信息提取的准确度，进而保证了移动目标的检测精度。

请参见图9，为本申请实施例提供的一种移动目标检测模型训练装置的结构示意图。如图9所示，该移动目标检测模型训练装置2可以通过软件、硬件或者两者的结合实现成为电子设备的全部或一部分。根据一些实施例，移动目标检测模型训练装置包括主控芯片和通信芯片，移动目标检测模型训练装置2还包括，类别确定单元21、样本数据获取单元22、模型训练单元23，具体包括：

类别确定单元21，用于确定移动目标的类别；

样本数据获取单元22，用于获取包含所述类别的移动目标的样本移动视频数据集合，并对所述样本移动视频数据集合中的各样本移动视频数据中包含的所述移动目标标注标注信息，所述标注信息包括所述移动目标的标注中心点坐标信息、标注尺寸长宽信息和标注类别信息中的至少一种；

模型训练单元23，用于基于标注完成标注信息的所述样本移动视频数据集合训练初始移动目标检测模型，得到训练完成的移动目标检测模型。

可选的，请参见图10，为本申请实施例提供的一种模型训练单元的结构示意图。如图10所示，模型训练单元23，包括：

图像提取子单元231，用于提取所述样本移动视频数据集合中的各样本移动视频数据分别对应的样本历史帧图像以及样本当前帧图像；

背景提取子单元232，用于将所述样本历史帧图像输入至初始移动目标检测模型中的背景建模模块中，输出样本背景图像；

结果预测子单元233，用于将所述样本背景图像以及所述样本当前帧图像输入至所述初始移动目标检测模型中的检测模块中，输出与所述移动目标对应的样本移动目标检测结果；

函数构建子单元234，用于基于所述样本移动目标检测结果以及所述样本移动视频数据对应的标注信息构建代价函数；

模型训练子单元235，用于基于所述代价函数训练所述初始移动目标检测模型，得到训练完成的移动目标检测模型。

可选的，所述背景提取子单元232，具体用于：

采用具有不同感受野的池化核对所述样本历史帧图像进行平均池化操作得到至少两个样本特征图；

对所述至少两个样本特征图进行编码压缩得到样本融合特征图；

计算所述样本融合特征图中不同感受野的样本特征图的特征权重，并通过特征重标定的方式将所述特征权重添加至所述样本融合特征图得到样本权重特征图；

将所述样本融合特征图和所述样本权重特征图进行相加处理得到样本背景图像。

可选的，所述样本移动目标检测结果包括样本类别信息、样本中心点坐标信息以及样本尺寸长宽信息，所述结果预测子单元233，具体用于：

基于所述检测模块对所述样本背景图像以及所述样本当前帧图像进行特征提取并编码得到样本深层特征图；

基于所述检测模块中的第一检测分支对所述样本深层特征图进行移动目标检测，判断所述样本深层特征图是否存在移动目标；

若确定所述样本深层特征图中存在移动目标，则基于所述检测模块中的第二检测分支对所述样本深层特征图进行回归预测，得到所述移动目标的中心点坐标信息以及尺寸长宽信息；

若确定所述样本深层特征图中存在移动目标，则基于所述检测模块中的第三检测分支对所述样本深层特征图进行类别预测，得到所述移动目标的类别信息。

可选的，所述结果预测子单元233，还用于：

将所述样本历史帧图像进行中值滤波处理，输出样本中位数图像；

将所述样本中位数图像、所述样本背景图像以及所述样本当前帧图像输入至所述初始移动目标检测模型中的检测模块中，输出与所述移动目标对应的样本移动目标检测结果。

本申请实施例还提供的一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图1～图6示实施例的所述移动目标检测方法，具体执行过程可以参见图1～图6示实施例的具体说明，在此不进行赘述。

本申请还提供的一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行如上述图1～图6示实施例的所述移动目标检测方法，具体执行过程可以参见图1～图6示实施例的具体说明，在此不进行赘述。

请参考图11示出了本申请一个示例性实施例提供的电子设备的结构方框图。本申请中的电子设备可以包括一个或多个如下部件：处理器110、存储器120、输入装置130、输出装置140和总线150。处理器110、存储器120、输入装置130和输出装置140之间可以通过总线150连接。

处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个电子设备内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(digital signal processing，DSP)、现场可编程门阵列(field－programmable gate array，FPGA)、可编程逻辑阵列(programmable logicArray，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(centralprocessing unit，CPU)、图像处理器(graphics processing unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(random Access Memory，RAM)，也可以包括只读存储器(read-only memory，ROM)。可选地，该存储器120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。

其中，输入装置130用于接收输入的指令或数据，输入装置130包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置140用于输出指令或数据，输出装置140包括但不限于显示设备和扬声器等。在本申请实施例中，输入装置130可以为温度传感器，用于获取电子设备的运行温度。输出装置140可以为扬声器，用于输出音频信号。

除此之外，本领域技术人员可以理解，上述附图所示出的电子设备的结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，电子设备中还包括射频电路、输入单元、传感器、音频电路、无线保真(wireless fidelity，WiFi)模块、电源、蓝牙模块等部件，在此不再赘述。

在本申请实施例中，各步骤的执行主体可以是上文介绍的电子设备。可选地，各步骤的执行主体为电子设备的操作系统。操作系统可以是安卓系统，也可以是IOS系统，或者其它操作系统，本申请实施例对此不作限定。

在图11的电子设备中，处理器110可以用于调用存储器120中存储的移动目标检测程序，并执行以实现如本申请各个方法实施例所述的移动目标检测方法。

本领域的技术人员可以清楚地了解到本申请的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”和“模块”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件，其中硬件例如可以是现场可编程门阵列(Field－ProgrammaBLE GateArray，FPGA)、集成电路(Integrated Circuit，IC)等。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通进程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random AccessMemory，RAM)、磁盘或光盘等。

以上所述者，仅为本申请的示例性实施例，不能以此限定本申请的范围。即但凡依本申请教导所作的等效变化与修饰，皆仍属本申请涵盖的范围内。本领域技术人员在考虑说明书及实践这里的公开后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的范围和精神由权利要求限定。

Claims

1.一种移动目标检测方法，其特征在于，所述方法包括：

将所述历史帧图像输入至移动目标检测模型中的背景建模模块中，基于所述背景建模模块对所述历史帧图像进行背景建模并输出背景图像；

2.根据权利要求1所述的方法，其特征在于，所述将所述历史帧图像输入至移动目标检测模型中的背景建模模块中，基于所述背景建模模块对所述历史帧图像进行背景建模并输出背景图像，包括：

对所述至少两个特征图进行编码压缩得到融合特征图；

3.根据权利要求1所述的方法，其特征在于，所述移动目标检测结果包括类别信息、中心点坐标信息以及尺寸长宽信息，所述将所述背景图像以及所述当前帧图像输入至移动目标检测模型中的检测模块中，输出与所述移动目标对应的移动目标检测结果，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述背景图像以及所述当前帧图像输入至移动目标检测模型中的检测模块中，输出与所述移动目标对应的移动目标检测结果之前，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述移动目标检测结果同步至移动终端。

6.一种移动目标检测模型训练方法，其特征在于，所述方法包括：

确定移动目标的类别；

7.根据权利要求6所述的方法，其特征在于，所述基于标注完成标注信息的所述样本移动视频数据集合训练初始移动目标检测模型，得到训练完成的移动目标检测模型，包括：

提取所述样本移动视频数据集合中的各样本移动视频数据分别对应的样本历史帧图像以及样本当前帧图像；

将所述样本历史帧图像输入至初始移动目标检测模型中的背景建模模块中，输出样本背景图像；

将所述样本背景图像以及所述样本当前帧图像输入至所述初始移动目标检测模型中的检测模块中，输出与所述移动目标对应的样本移动目标检测结果；

基于所述样本移动目标检测结果以及所述样本移动视频数据对应的标注信息构建代价函数；

基于所述代价函数训练所述初始移动目标检测模型，得到训练完成的移动目标检测模型。

8.根据权利要求7所述的方法，其特征在于，所述将所述样本历史帧图像输入至初始移动目标检测模型中的背景建模模块中，输出样本背景图像，包括：

9.根据权利要求7所述的方法，其特征在于，所述样本移动目标检测结果包括样本类别信息、样本中心点坐标信息以及样本尺寸长宽信息，所述将所述样本背景图像以及所述样本当前帧图像输入至所述初始移动目标检测模型中的检测模块中，输出与所述移动目标对应的样本移动目标检测结果，包括：

10.根据权利要求7所述的方法，其特征在于，所述将所述样本背景图像以及所述样本当前帧图像输入至所述初始移动目标检测模型中的检测模块中，输出与所述移动目标对应的样本移动目标检测结果之前，还包括：

所述将所述样本背景图像以及所述样本当前帧图像输入至所述初始移动目标检测模型中的检测模块中，输出与所述移动目标对应的样本移动目标检测结果，包括：

11.根据权利要求6所述的方法，其特征在于，所述获取包含所述类别的移动目标的样本移动视频数据集合，包括：

获取包含所述类别的移动目标的样本移动视频数据集合；

基于颜色空间变换操作以及访射变换操作对所述样本移动视频数据集合进行数据增强处理，得到数据增强后的样本移动视频数据集合。

12.一种移动目标检测装置，其特征在于，所述装置包括：

13.一种移动目标检测模型训练装置，其特征在于，所述装置包括：

类别确定单元，用于确定移动目标的类别；

14.一种电子设备，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～5或6～11中任意一项所述方法的步骤。