CN116229336A

CN116229336A - 视频移动目标识别方法、系统、存储介质及计算机

Info

Publication number: CN116229336A
Application number: CN202310518418.0A
Authority: CN
Inventors: 王伟; 张磊; 唐涛; 朱杰; 黄亮
Original assignee: Jiangxi Yunyan Shijie Technology Co ltd
Current assignee: Jiangxi Yunyan Shijie Technology Co ltd
Priority date: 2023-05-10
Filing date: 2023-05-10
Publication date: 2023-06-06
Anticipated expiration: 2043-05-10
Also published as: CN116229336B

Abstract

本发明提供一种视频移动目标识别方法、系统、存储介质及计算机，该方法包括：对基于目标兴趣采集的视频序列集进行标注和清洗；对标注和清洗后的视频序列集进行统一处理，以得到多帧图像；构建移动侦测网络模型，并对多帧图像进行图像训练获取网络模型权重；将网络模型权重输入至移动侦测网络模型中进行模型训练得到移动侦测网络优化模型；利用移动侦测网络优化模型对待处理视频进行数据推理，以识别出待处理视频中包含有目标兴趣的运动目标，并利用预设规则输出对应的目标信息。本发明相较于传统的背景差分和基于光流的移动目标侦测方法具备更完备的适应性，解决了以往算法只能应用于单一目标检测的限制，有效的提高了整体的泛化性和鲁棒性。

Description

视频移动目标识别方法、系统、存储介质及计算机

技术领域

本发明涉及目标识别技术领域，特别涉及一种视频移动目标识别方法、系统、存储介质及计算机。

背景技术

视频移动侦测的作用是对视频中运动的感兴趣目标进行定位和分类，广泛应用于安防、交通、工业、农业、医疗等领域，例如监测区域内是否有人员闯入。相比于常规的目标检测算法，基于连续视频帧的移动目标识别可以有效的缓解静态目标误识别的现象如相框中的人，同时避免对同一目标重复告警的状况。然而，这项任务本身也面临着许多的困难与挑战，例如复杂的动态背景变化、遮挡、阴影、光照、相机的抖动等，从而对应用算法提出了更好的要求。

传统的移动侦测算法主要有基于背景差分、模板匹配、卡尔曼滤波等方法。例如，基于背景差分的算法是通过计算当前帧与背景帧之间的像素差值来判断移动目标。其中，背景帧通常是多帧图像的平均值。但是在实际应用中，场景的背景很难保持不变，这就会导致算法误检或漏检的问题。类似的，利用卡尔曼滤波器虽然可以在一定程度上对目标位置进行预测和更新，实现移动目标的跟踪和检测。然而，这种方法对目标的运动模型有一定的要求，同时也需要对系统的噪声和不确定性进行模型化和估计。总而言之，传统算法对光照、遮挡、运动模型等因素敏感，同时需要预先设定一些参数或模型；此外，也容易受到背景变化的影响，对背景建模的要求较高；对目标的形态、大小、速度等有一定的要求，不太适用于复杂的场景和目标。

发明内容

基于此，本发明的目的是提供一种视频移动目标识别方法、系统、存储介质及计算机，以至少解决上述技术中的不足。

本发明提出一种视频移动目标识别方法，包括：

基于目标兴趣采集对应的视频序列集，并对所述视频序列集进行标注和清洗；

对标注和清洗后的视频序列集进行统一处理，以得到对应的多帧图像；

构建移动侦测网络模型，并对所述多帧图像进行图像训练，以获取识别动态目标的网络模型权重；

将所述网络模型权重输入至所述移动侦测网络模型中进行模型训练，以得到移动侦测网络优化模型；

利用所述移动侦测网络优化模型对待处理视频进行数据推理，以识别出所述待处理视频中包含有目标兴趣的运动目标，并利用预设规则输出对应的目标信息。

进一步的，基于目标兴趣采集对应的视频序列集，并对所述视频序列集进行标注和清洗的步骤包括：

确定目标兴趣，并按照不同因素采集多维度的视频序列数据，并利用图像处理工具对所述视频序列数据进行清洗，以剔除所述视频序列数据中的脏数据；

对清洗后的视频序列数据进行统一整理，并利用标注工具进行标注。

进一步的，对标注和清洗后的视频序列集进行统一处理，以得到对应的多帧图像的步骤包括：

对标注和清洗后的视频序列集进行归一化处理，以得到多个视频序列片段；

对各所述视频序列片段进行连续截取，以得到对应的多帧图像。

进一步的，构建移动侦测网络模型的步骤包括：

给定一输入特征图，将所述输入特征图喂入若干具有不同扩张率的卷积层，以得到对应的若干个输出特征图；

将各所述输出特征图中相邻尺度的输出特征图进行串联，以得到多尺度特征图，并基于所述尺度特征图的相邻尺度之间特征的相关性，引入尺度自适应机制；

对所述多尺度特征图进行自适应机制编码，以得到对应的背景估计图像，并对背景估计图像中的背景帧和当前帧按通道维度进行拼接，利用拼接后的数据得到具有表征能力的分层特征；

根据所述分层特征进行模型构建，以得到所述移动侦测网络模型。

进一步的，将所述网络模型权重输入至所述移动侦测网络模型中进行模型训练，以得到移动侦测网络优化模型的步骤包括：

将所述多帧图像中各帧划分为当前帧和历史帧，将所述历史帧按照通道维度进行拼接，并按顺序输入至所述移动侦测网络模型中进行端到端训练；

在处理完一个多帧图像之后，若最后的视频帧数不满足预设策略，则直接舍弃，并进入到下一个多帧图像训练更新所述移动侦测网络模型的网络参数，直至最终收敛，以得到移动侦测网络优化模型。

进一步的，多尺度特征图的计算公式为：

；

；

式中，

表示输入特征图，/>

、/>

、/>

分别表示输出通道数、高度以及宽度，/>

、/>

分别表示相邻尺度的特征图，/>

表示串联操作。

本发明还提出一种视频移动目标识别系统，包括：

视频采集模块，用于基于目标兴趣采集对应的视频序列集，并对所述视频序列集进行标注和清洗；

视频处理模块，用于对标注和清洗后的视频序列集进行统一处理，以得到对应的多帧图像；

模型构建模块，用于构建移动侦测网络模型，并对所述多帧图像进行图像训练，以获取识别动态目标的网络模型权重；

模型优化模块，用于将所述网络模型权重输入至所述移动侦测网络模型中进行模型训练，以得到移动侦测网络优化模型；

目标识别模块，用于利用所述移动侦测网络优化模型对待处理视频进行数据推理，以识别出所述待处理视频中包含有目标兴趣的运动目标，并利用预设规则输出对应的目标信息。

进一步的，所述视频采集模块包括：

兴趣确定单元，用于确定目标兴趣，并按照不同因素采集多维度的视频序列数据，并利用图像处理工具对所述视频序列数据进行清洗，以剔除所述视频序列数据中的脏数据；

视频标注单元，用于对清洗后的视频序列数据进行统一整理，并利用标注工具进行标注。

进一步的，所述视频处理模块包括：

归一化处理单元，用于对标注和清洗后的视频序列集进行归一化处理，以得到多个视频序列片段；

视频截取单元，用于对各所述视频序列片段进行连续截取，以得到对应的多帧图像。

进一步的，所述模型构建模块包括：

特征输入模块，用于给定一输入特征图，将所述输入特征图喂入若干具有不同扩张率的卷积层，以得到对应的若干个输出特征图；

特征串联单元，用于将各所述输出特征图中相邻尺度的输出特征图进行串联，以得到多尺度特征图，并基于所述尺度特征图的相邻尺度之间特征的相关性，引入尺度自适应机制；

特征处理单元，用于对所述多尺度特征图进行自适应机制编码，以得到对应的背景估计图像，并对背景估计图像中的背景帧和当前帧按通道维度进行拼接，利用拼接后的数据得到具有表征能力的分层特征；

模型构建单元，用于根据所述分层特征进行模型构建，以得到所述移动侦测网络模型。

进一步的，所述模型优化模块包括：

维度拼接单元，用于将所述多帧图像中各帧划分为当前帧和历史帧，将所述历史帧按照通道维度进行拼接，并按顺序输入至所述移动侦测网络模型中进行端到端训练；

模型优化单元，用于在处理完一个多帧图像之后，若最后的视频帧数不满足预设策略，则直接舍弃，并进入到下一个多帧图像训练更新所述移动侦测网络模型的网络参数，直至最终收敛，以得到移动侦测网络优化模型。

本发明还提出一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的视频移动目标识别方法。

本发明还提出一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的视频移动目标识别方法。

本发明当中的视频移动目标识别方法、系统、存储介质及计算机，将基于CNNs并结合传统算法中背景建模，搭建端到端训练和推理的视频移动侦测框架，对视频流中感兴趣的动态目标进行实时处理和快速相响应，高效的对视频中运动的感兴趣目标进行精度的定位和分类，针对不同场景具备良好的鲁棒性和泛化性能，显著地提高了移动侦测的准确率和灵敏度，相较于传统的背景差分和基于光流的移动目标侦测方法具备更完备的适应性，解决了以往算法只能应用于单一目标检测的限制，有效的提高了整体的泛化性和鲁棒性，具备实际的应用价值。

附图说明

图1为本发明第一实施例中视频移动目标识别方法的流程图；

图2为图1中步骤S101的详细流程图；

图3为图1中步骤S102的详细流程；

图4为图1中步骤S103的详细流程；

图5为本发明第一实施例中背景估计模块的结构示意图；

图6为图1中步骤S104的详细流程图；

图7为本发明第二实施例中视频移动目标识别系统的结构框图；

图8为本发明第三实施例中的计算机的结构框图。

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例一

请参阅图1，所示为本发明第一实施例中的视频移动目标识别方法，所述视频移动目标识别方法具体包括步骤S101至S105：

S101，基于目标兴趣采集对应的视频序列集，并对所述视频序列集进行标注和清洗；

进一步的，请参阅图2，所述步骤S101具体包括步骤S1011~S1012：

S1011，确定目标兴趣，并按照不同因素采集多维度的视频序列数据，并利用图像处理工具对所述视频序列数据进行清洗，以剔除所述视频序列数据中的脏数据；

S1012，对清洗后的视频序列数据进行统一整理，并利用标注工具进行标注。

在具体实施时，明确感兴趣的目标，按照不同场景、视角、天气等因素收集多维度的视频序列数据。同时，为减少误报现象，尽可能采集与实际应用环境相似的背景视频数据；具体的，利用专业的图像数据处理工具如FastDUP对采集到的数据集进行相应的清洗，剔除模糊、过曝或者偏离中心分布的脏数据；

进一步的，对清洗好的数据进行统一的整理，使用专业的标注工具如CVAT进行打标，保存相关的类别和坐标框等信息。

S102，对标注和清洗后的视频序列集进行统一处理，以得到对应的多帧图像；

进一步的，请参阅图3，所述步骤S102具体包括步骤S1021~S1022：

S1021，对标注和清洗后的视频序列集进行归一化处理，以得到多个视频序列片段；

S1022，对各所述视频序列片段进行连续截取，以得到对应的多帧图像。

在具体实施时，对标签信息进行相应的归一化处理；准备T个视频序列片段，针对每个片段，截取连续的N帧图片，分别进行统一的裁剪、缩放、增强等预处理操作，以适应模型的输入要求。

S103，构建移动侦测网络模型，并对所述多帧图像进行图像训练，以获取识别动态目标的网络模型权重；

进一步的，请参阅图4，所述步骤S103具体包括步骤S1031~S1034：

S1031，给定一输入特征图，将所述输入特征图喂入若干具有不同扩张率的卷积层，以得到对应的若干个输出特征图；

S1032，将各所述输出特征图中相邻尺度的输出特征图进行串联，以得到多尺度特征图，并基于所述尺度特征图的相邻尺度之间特征的相关性，引入尺度自适应机制；

S1033，对所述多尺度特征图进行自适应机制编码，以得到对应的背景估计图像，并对背景估计图像中的背景帧和当前帧按通道维度进行拼接，利用拼接后的数据得到具有表征能力的分层特征；

S1034，根据所述分层特征进行模型构建，以得到所述移动侦测网络模型。

在具体实施时，此步骤共包含三个模块，即基于尺度自适应的背景估计模块、运动编码模块以及用于输出最终识别结果的移动侦测模块。

进一步的，本实施例提供一种背景估计模块，其包含多个级联的尺度自适应机制，能够有效的对多尺度上下文信息进行编码，从而在连续的历史帧中获得更加精确的背景估计信息。整体的模块示意图如下图5所示。具体地，该模块主要包含两部分，即多尺度特征提取和动态特征筛选。

多尺度特征提取：给定一张输入特征图

，其中，/>

、/>

、/>

分别表示对应的输出通道数以及高度和宽度，本实施例将其喂入三个具有不同扩张率的卷积层，用于具有多个感受野的多尺度上下文建模。为了进一步提升编码效率，共享这三个扩张卷积的权重，获得了三个输出特征图/>

。随后，将彼此相邻的尺度特征图分别串联以保留更多的比例信息：

；

其中，

、/>

分别表示相邻尺度的特征图，/>

表示串联操作。

进一步的，动态特征筛选：考虑到相邻尺度之间特征的相关性，引入了一种尺度自适应机制，以自动为特征图选取适当的感受野。特别地，以上述分支

为例，通过使用3×3的过滤器来进一步融合相邻尺度的特征，然后通过1×1卷积进行特征压缩：

；

式中，

表示相关的权重参数。/>

可以是任意的非线性映射函数。此处采用ReLU 作为激活函数。融合后，使用SoftMax函数来生成两个权重掩码/>

和/>

，这反映了在考虑相邻尺度信息后不同尺度下空间信息的重要性。至此，便能够将最重要的特征信息嵌入到原始的特征空间上，整个过程可简单表述如下：

；

式中，

和/>

分别表示逐像素的矩阵乘法和加法操作，其中/>

，经过上述操作，可以有效地汇总多尺度特征，并隐式调整具有不同尺度的特征图的感受野，从不同尺度的特征上强调具有重要性的某些区域。请注意，其他分支的实施与上述程序类似。最后，使用残差连接来汇总多尺度特征图：

；

最后，通过多个级联的尺度自适应机制编码，便获得了相应的背景估计图像。

进一步的，将当前帧与上述的背景估计图像的背景帧按通道维度进行拼接，一同输入到运动编码模块建模与动态目标相关的上下文信息。具体地，运动编码模块首先基于CPSNet骨干网络进行深度特征；随后，通过双向融合金字塔结构进一步融合深度语义和浅层细节信息，获得一个表征能力更强的分层特征。

最后，将上述输出的分层特征经过移动侦测模块输出最终的运动目标状态信息。其设计为一个解耦的层级输出结构，共包含回归和分类两个分支，分别用于输出动态目标的位置坐标框信息和相应的类别信息，以用于后续的告警服务。

S104，将所述网络模型权重输入至所述移动侦测网络模型中进行模型训练，以得到移动侦测网络优化模型；

进一步的，请参阅图6，所述步骤S104具体包括步骤S1041~S1042：

S1041，将所述多帧图像中各帧划分为当前帧和历史帧，将所述历史帧按照通道维度进行拼接，并按顺序输入至所述移动侦测网络模型中进行端到端训练；

S1042，在处理完一个多帧图像之后，若最后的视频帧数不满足预设策略，则直接舍弃，并进入到下一个多帧图像训练更新所述移动侦测网络模型的网络参数，直至最终收敛，以得到移动侦测网络优化模型。

在具体实施时，将上述预处理好的视频序列片段连续抽取n帧，分为当前帧以及历史帧（除当前帧以外的其它所有帧）。然后将历史帧按通道维度进行拼接，并按顺序输入到搭建好的视频移动侦测框架进行完全可微的端到端训练。

进一步的，在处理完一个视频序列片段之后，若最后的视频帧数不满足设定的n帧策略，则直接舍弃，进入下一个视频序列继续训练更新网络参数，直至最终收敛。

S105，利用所述移动侦测网络优化模型对待处理视频进行数据推理，以识别出所述待处理视频中包含有目标兴趣的运动目标，并利用预设规则输出对应的目标信息。

在具体实施时，基于训练好的移动侦测模型，将其应用到实际场景当中，监控小区内是否有行人或车辆闯入，如若检测到相应的感兴趣目标，检测结果将采用短信、邮件等方式进行相应的告警处理。值得注意的是，该模型对原先静止的目标（如停在固定车位的车辆）具有天然的屏蔽作用，避免重复告警的问题。

综上，本发明上述实施例中的视频移动目标识别方法，将基于CNNs并结合传统算法中背景建模，搭建端到端训练和推理的视频移动侦测框架，对视频流中感兴趣的动态目标进行实时处理和快速相响应，高效的对视频中运动的感兴趣目标进行精度的定位和分类，针对不同场景具备良好的鲁棒性和泛化性能，显著地提高了移动侦测的准确率和灵敏度，相较于传统的背景差分和基于光流的移动目标侦测方法具备更完备的适应性，解决了以往算法只能应用于单一目标检测的限制，有效的提高了整体的泛化性和鲁棒性，具备实际的应用价值。

实施例二

本发明另一方面还提出一种视频移动目标识别系统，请查阅图7，所示为本发明第二实施例中的视频移动目标识别系统，所述系统包括：

视频采集模块11，用于基于目标兴趣采集对应的视频序列集，并对所述视频序列集进行标注和清洗；

进一步的，所述视频采集模块11包括：

视频处理模块12，用于对标注和清洗后的视频序列集进行统一处理，以得到对应的多帧图像；

进一步的，所述视频处理模块12包括：

模型构建模块13，用于构建移动侦测网络模型，并对所述多帧图像进行图像训练，以获取识别动态目标的网络模型权重；

进一步的，所述模型构建模块13包括：

模型优化模块14，用于将所述网络模型权重输入至所述移动侦测网络模型中进行模型训练，以得到移动侦测网络优化模型；

进一步的，所述模型优化模块14包括：

目标识别模块15，用于利用所述移动侦测网络优化模型对待处理视频进行数据推理，以识别出所述待处理视频中包含有目标兴趣的运动目标，并利用预设规则输出对应的目标信息。

上述各模块、单元被执行时所实现的功能或操作步骤与上述方法实施例大体相同，在此不再赘述。

本发明实施例所提供的视频移动目标识别系统，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，系统实施例部分未提及之处，可参考前述方法实施例中相应内容。

实施例三

本发明还提出一种计算机，请参阅图8，所示为本发明第三实施例中的计算机，包括存储器10、处理器20以及存储在所述存储器10上并可在所述处理器20上运行的计算机程序30，所述处理器20执行所述计算机程序30时实现上述的视频移动目标识别方法。

其中，存储器10至少包括一种类型的存储介质，所述存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、磁性存储器、磁盘、光盘等。存储器10在一些实施例中可以是计算机的内部存储单元，例如该计算机的硬盘。存储器10在另一些实施例中也可以是外部存储装置，例如插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。进一步地，存储器10还可以既包括计算机的内部存储单元也包括外部存储装置。存储器10不仅可以用于存储安装于计算机的应用软件及各类数据，还可以用于暂时地存储已经输出或者将要输出的数据。

其中，处理器20在一些实施例中可以是电子控制单元 (Electronic ControlUnit，简称ECU，又称行车电脑)、中央处理器（Central Processing Unit, CPU）、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器10中存储的程序代码或处理数据，例如执行访问限制程序等。

需要指出的是，图8示出的结构并不构成对计算机的限定，在其它实施例当中，该计算机可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

本发明实施例还提出一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述的视频移动目标识别方法。

本领域技术人员可以理解，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或它们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。