CN117292321A

CN117292321A - 基于视频监控的运动检测方法、装置及计算机设备

Info

Publication number: CN117292321A
Application number: CN202311279993.6A
Authority: CN
Inventors: 王存刚
Original assignee: Shenzhen Zhengtong Rongyao Communication Technology Co ltd
Current assignee: Shenzhen Zhengtong Rongyao Communication Technology Co ltd
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2023-12-26

Abstract

本申请实施例属于图像处理技术，涉及一种基于视频监控的运动检测方法，包括：计算跳帧图像集中每个相邻跳帧图像对的图像差异度，得到监控视频的初始检测结果；当结果显示存在运动目标时，获取多张相邻的监控图像；将各监控图像输入运动检测模型，通过其中的目标检测模型检测监控图像中的运动目标对象及其在监控图像中的初始位置，运动检测模型包括基于注意力机制的目标检测模型和目标跟踪模型，注意力机制给监控图像中可能包含运动目标对象的区域添加注意力权重；将运动目标对象及其初始位置输入目标跟踪模型，以在各监控图像中进行目标跟踪，得到包含运动目标对象的对象运动图像及运动检测结果。本申请提高了视频监控中运动检测的速度和准确性。

Description

基于视频监控的运动检测方法、装置及计算机设备

技术领域

本申请涉及图像处理技术领域，尤其涉及一种基于视频监控的运动检测方法、装置、计算机设备及存储介质。

背景技术

随着社会发展以及建设水平的提高，生活中的视频监控也越来越多。视频监控可以对公共场所等各种必要的地方进行监控，可以帮助维持相关场合的秩序，并确保安全。

在视频监控系统中，运动检测是一项非常重要且非常具有意义的功能。通过运动检测，可以仅对存在对象运动的监控影像进行录制或保存，以节约存储空间；或者通过运动检测记录重要事件，便于后续快速检索和回放。传统的基于视频监控的运动检测技术需要进行大量计算，然而，随着视频监控系统分辨率的提高，监控影像的文件体积也越来越大，这使得视频监控系统难以高效地进行运动检测。

发明内容

本申请实施例的目的在于提出一种基于视频监控的运动检测方法、装置、计算机设备及存储介质，以解决视频监控系统运行检测效率较低的问题。

为了解决上述技术问题，本申请实施例提供一种基于视频监控的运动检测方法，采用了如下所述的技术方案：

获取跳帧图像集，所述跳帧图像集基于视频监控系统的监控视频生成；

计算所述跳帧图像集中每个相邻跳帧图像对的图像差异度，并将所述图像差异度作为初始检测结果；

当所述初始检测结果表示存在运动目标对象时，根据所述初始检测结果从所述监控视频中获取多张相邻的监控图像；

将各监控图像输入运动检测模型，以通过所述运动检测模型中的目标检测模型检测监控图像中的运动目标对象以及所述运动目标对象在监控图像中的初始位置，所述运动检测模型包括基于注意力机制的所述目标检测模型和目标跟踪模型，所述注意力机制用于给监控图像中运动目标对象所在的候选区域添加注意力权重；

将检测到的运动目标对象及其初始位置输入所述目标跟踪模型，以在所述各监控图像中对所述运动目标对象进行目标跟踪，得到包含所述运动目标对象的对象运动图像，并根据各对象运动图像生成运动检测结果。

进一步的，所述获取跳帧图像集的步骤包括：

获取视频监控系统采集到的监控视频；

根据所述监控视频中各监控图像的时间戳，对所述各监控图像进行间隔抽取，得到多张初始跳帧图像；

基于各初始跳帧图像生成跳帧图像集。

进一步的，所述基于各初始跳帧图像生成跳帧图像集的步骤包括：

获取各初始跳帧图像的采样影响因子，所述采样影响因子包括监控环境因子、天气因子和时间因子；

根据所述采样影响因子确定所述各初始跳帧图像的采样率；

基于所述采样率对所述各初始跳帧图像分别进行图像采样，得到各跳帧图像，并根据所述各跳帧图像构建跳帧图像集。

进一步的，所述计算所述跳帧图像集中每个相邻跳帧图像对的图像差异度的步骤包括：

对于所述跳帧图像集中的每个相邻跳帧图像对，比对所述相邻跳帧图像对中两张跳帧图像对应像素之间的像素差异，并统计存在像素差异的像素数量，得到差异像素数量；

根据得到的像素差异和差异像素数量，计算所述相邻跳帧图像对的图像差异度。

进一步的，所述通过所述运动检测模型中的目标检测模型检测监控图像中的运动目标对象以及所述运动目标对象在监控图像中的初始位置的步骤包括：

根据所述各监控图像的时间戳，对所述各监控图像进行排序，得到监控图像序列；

对于所述监控图像序列中的每张监控图像，通过所述运动检测模型中的目标检测模型计算所述监控图像的权重图，其中，所述权重图是与所述监控图像具有相同分辨率的矩阵；

将所述监控图像与所述权重图进行融合，得到加权监控图像；

将所述加权监控图像输入所述目标检测模型中的目标检测网络，以进行目标检测；

当检测到所述监控图像中包含运动目标对象时，获取所述目标检测网络输出的所述运动目标对象在所述监控图像中的初始位置；

当检测到所述监控图像不包含运动目标对象时，获取所述监控图像序列中的下一张监控图像，并对所述下一张监控图像进行目标检测处理。

进一步的，所述通过所述运动检测模型中的目标检测模型计算所述监控图像的权重图的步骤包括：

通过所述运动检测模型中目标检测模型的卷积神经网络对所述监控图像进行特征提取，得到初始特征；

将所述初始特征在所述卷积神经网络中进行前向传播，并获取预设卷积层基于所述初始特征生成的特征图；

将所述特征图输入所述目标检测模型中的权重计算网络，以通过所述权重计算网络计算所述所述监控图像中各位置的权重值；

根据得到的权重值构建所述监控图像的权重图。

进一步的，所述在所述各监控图像中对所述运动目标对象进行目标跟踪，得到包含所述运动目标对象的对象运动图像的步骤包括：

基于所述运动目标对象的初始位置，获取所述运动目标对象的对象尺寸；

根据所述对象尺寸确定跟踪参数；

根据所述跟踪参数在所述各监控图像中对所述运动目标对象进行目标跟踪，得到包含所述运动目标对象的对象运动图像。

为了解决上述技术问题，本申请实施例还提供一种基于视频监控的运动检测装置，采用了如下所述的技术方案：

跳帧获取模块，用于获取跳帧图像集，所述跳帧图像集基于视频监控系统的监控视频生成；

差异度计算模块，用于计算所述跳帧图像集中每个相邻跳帧图像对的图像差异度，并将所述图像差异度作为初始检测结果；

图像获取模块，用于当所述初始检测结果表示存在运动目标对象时，根据所述初始检测结果从所述监控视频中获取多张相邻的监控图像；

目标检测模块，用于将各监控图像输入运动检测模型，以通过所述运动检测模型中的目标检测模型检测监控图像中的运动目标对象以及所述运动目标对象在监控图像中的初始位置，所述运动检测模型包括基于注意力机制的所述目标检测模型和目标跟踪模型，所述注意力机制用于给监控图像中运动目标对象所在的候选区域添加注意力权重；

目标跟踪模块，用于将检测到的运动目标对象及其初始位置输入所述目标跟踪模型，以在所述各监控图像中对所述运动目标对象进行目标跟踪，得到包含所述运动目标对象的对象运动图像，并根据各对象运动图像生成运动检测结果。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如上所述的基于视频监控的运动检测方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上所述的基于视频监控的运动检测方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：获取跳帧图像集，跳帧图像集是对视频监控系统的监控视频进行抽帧得到的，减少了需要处理的图像数量，提高了初始检测的速度；计算跳帧图像集中每个相邻跳帧图像对在像素层面的图像差异度作为初始检测结果，对运动目标对象是否存在实现快速的初步检测；当初始检测结果表示存在运动目标对象时，根据初始检测结果从监控视频中获取多张相邻的监控图像，以对运动目标对象进行覆盖式检测；将各监控图像输入运动检测模型，运动检测模型包括基于注意力机制的目标检测模型和目标跟踪模型，注意力机制用于给监控图像中可能存在运动目标对象的候选区域添加注意力权重，以确保模型更关注重要区域，提高了运动目标对象检测的准确性；将检测到的运动目标对象及其初始位置输入目标跟踪模型，以在各监控图像中对运动目标对象进行目标跟踪，得到包含运动目标对象的对象运动图像，并生成运动检测结果；本申请通过跳帧图像集以及初始检测，提高了检测运动目标对象的速度；在后续详细的检测中，注意力机制的引入提高了运动目标对象检测的准确性，使得本申请中基于视频监控的运动检测兼顾了检测速度和检测准确性。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的基于视频监控的运动检测方法的一个实施例的流程图；

图3是根据本申请的基于视频监控的运动检测装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，视频监控系统100可以包括服务器101和监控终端102、103、104、105、106、107。监控终端102、103、104、105、106、107可以是各种具有视频监控功能的终端，例如常见的摄像头等。监控终端可以通过网络将采集到的监控视频发送至服务器101，由服务器101进行各种处理，包括运动检测、预警等。监控终端和服务器之间通信所用的网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

需要说明的是，本申请实施例所提供的基于视频监控的运动检测方法一般由服务器执行，相应地，基于视频监控的运动检测装置一般设置于服务器中。

应该理解，图1中的监控终端和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的监控终端和服务器。

继续参考图2，示出了根据本申请的基于视频监控的运动检测方法的一个实施例的流程图。所述的基于视频监控的运动检测方法，包括以下步骤：

步骤S201，获取跳帧图像集，跳帧图像集基于视频监控系统的监控视频生成。

在本实施例中，基于视频监控的运动检测方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式与监控终端进行通信。需要指出的是，上述无线连接方式可以包括但不限于3G/4G/5G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

具体地，服务器获取跳帧图像集，跳帧图像集基于视频监控系统的监控视频生成，包含了多张跳帧图像。视频具有帧数，即一秒内包含的图像的张数。跳帧图像，顾名思义，相邻的前后两张跳帧图像在监控视频中其实是不相邻的，实际上间隔了几张监控视频中的监控图像。

进一步的，上述步骤S201可以包括：获取视频监控系统采集到的监控视频；根据监控视频中各监控图像的时间戳，对各监控图像进行间隔抽取，得到多张初始跳帧图像；基于各初始跳帧图像生成跳帧图像集。

具体地，获取视频监控系统采集到的监控视频，监控视频由多张连续的监控图像构成，每张监控图像具有时间戳，代表是什么时间的图像。

根据监控视频中各监控图像的时间戳，对各监控图像进行间隔抽取，得到多张初始跳帧图像，例如，每隔四张监控图像，就行一次抽取操作，得到一张初始跳帧图像。可以根据监控需求对各初始跳帧图像进行预处理，根据预处理后得到的各跳帧图像生成跳帧图像集。

本实施例中，根据监控视频中各监控图像的时间戳，对各监控图像进行间隔抽取，得到多张初始跳帧图像；基于各初始跳帧图像生成跳帧图像集，而不是根据每张监控图像生成图像集，可以减少需要处理的图像数量，以便实现运动对象的快速检测。

进一步的，上述基于各初始跳帧图像生成跳帧图像集的步骤可以包括：获取各初始跳帧图像的采样影响因子，采样影响因子包括监控环境因子、天气因子和时间因子；根据采样影响因子确定各初始跳帧图像的采样率；基于采样率对各初始跳帧图像分别进行图像采样，得到各跳帧图像，并根据各跳帧图像构建跳帧图像集。

具体地，本申请还需要对各初始跳帧图像分别进行图像采样，以适当降低图像分辨率，得到各跳帧图像，并根据得到的各跳帧图像构建跳帧图像集。

对各初始跳帧图像的采样程度，即图像分辨率的下降程度由采样率直接决定。例如，降采样通过平均池化实现，将图像划分为不重叠的小区域(例如2x2或3x3的区域)，然后取每个区域内像素值的平均值作为新图像的像素值。可以理解，小区域为2x2时，采样后得到的跳帧图像的分辨率，大于小区域为3x3时采样后得到的跳帧图像的分辨率，该小区域的大小可以作为采样率。

采样率又由采样影响因子决定。获取各初始跳帧图像的采样影响因子，采样影响因子包括监控环境因子、天气因子和时间因子。初始跳帧图像来自监控视频，监控视频由监控终端生成，每个监控终端都有对应的监控环境，例如十字路口、某单向车道、办公楼中某公司的门口等，监控环境因子用于表示例如上述的监控环境。每个监控视频都有对应的监控时间，例如10:00-12:00,时间因子用于表示监控时间；同时，监控环境还可以具有多种天气状况，例如室外的十字路口会有晴天和大雾等，天气因子用于表示上述的天气状况。

监控环境的情况会随着天气和时间变化而变化，进而影响运动检测的难度。例如，对于一个十字路口处，白天是晴天，可视度高，容易分辨图像中的信息，可以使用低分辨率；到了晚上开始起雾，可视度低，不容易分辨图像中的信息，需要使用高分辨率以捕捉细节。

可以预先确定各种采样影响因子的组合与采样率之间的对应关系，例如通过人工标注或者训练树模型得到，然后记录于采样率表中。在应用时直接根据采样影响因子到采样率表中进行查询即可。

基于采样率对各初始跳帧图像分别进行图像采样，得到各跳帧图像。

在一个实施例中，监控环境因子、天气因子和时间因子对监控图像的间隔抽取也有相同的影响效果，可以根据它们确定抽帧率，然后根据抽帧率对各监控图像进行间隔抽取，得到多张初始跳帧图像。

本实施例中，获取各初始跳帧图像的采样影响因子，采样影响因子包括监控环境因子、天气因子和时间因子，它们决定了图像中信息的分辨难度；根据采样影响因子确定采样率，基于采样率对各初始跳帧图像分别进行图像采样得到各跳帧图像，可以适当地降低初始跳帧图像的分辨率又不影响运动检测，降低了跳帧图像和跳帧图像集的大小。

步骤S202，计算跳帧图像集中每个相邻跳帧图像对的图像差异度，并将图像差异度作为初始检测结果。

具体地，当图像中出现运动目标对象时，图像画面会发生变化。因此，比对跳帧图像集中每个相邻跳帧图像对，并计算每个相邻跳帧图像对的图像差异度，可以对跳帧图像中是否出现运动目标对象进行初步检测，得到初始检测结果。

跳帧图像集中的每个跳帧图像也具有时间戳，根据时间戳顺序，前后两个跳帧图像可以构成跳帧图像对，即一个跳帧图像可以属于两个跳帧图像对。对低分辨率的跳帧图像进行逐帧比对，可以通过像素差异的方式计算出图像差异度，并将图像差异度作为初始检测结果。

步骤S203，当初始检测结果表示存在运动目标对象时，根据初始检测结果从监控视频中获取多张相邻的监控图像。

具体地，初始检测结果可以表示是否存在可能的运动目标对象，以及哪张跳帧图像最先出现了运动目标对象(将该跳帧图像记录为元图像)。如果图像差异度大于预设的差异度阈值，表示后一张跳帧图像相较于前一张跳帧图像出现了较大的不同，后一张跳帧图像中可能出现了运动目标对象。

根据初始检测结果，从监控视频中确定元图像所对应的监控图像，按照时间戳，向后获取预设数量的监控图像，并向前获取在间隔抽取时未被抽取到的若干张监控图像(运动目标对象并不一定在元图像所对应的监控图像中第一次出现，在未被抽取到的监控图像中可能已经出现)。

步骤S204，将各监控图像输入运动检测模型，以通过运动检测模型中的目标检测模型检测监控图像中的运动目标对象以及运动目标对象在监控图像中的初始位置，运动检测模型包括基于注意力机制的目标检测模型和目标跟踪模型，注意力机制用于给监控图像中运动目标对象所在的候选区域添加注意力权重。

具体地，本申请通过运动检测模型进行运动目标对象的检测以及跟踪。运动检测模型可以是复合模型，包括目标检测模型和目标跟踪模型，目标检测模型和目标跟踪模型也都可以是复合模型。各监控图像进入运动检测模型后，先由目标检测模型进行处理，目标检测模型的结果再输入目标跟踪模型。

目标检测模型可以准确地检测出监控图像中的运动目标对象以及运动目标对象在监控图像中的初始位置，该运动目标对象可以包括行人、车辆、动物以及其他较大的可移动物体等。这里的初始位置，可以包括运动目标对象首次出现是在哪一张监控图像，还可以包括运动目标对象出现在监控图像的哪一区域。

目标检测模型具有注意力机制，注意力机制可以给监控图像中运动目标对象可能所在的候选区域添加注意力权重，可以确保模型更关注重要区域，提高检测准确性。

步骤S205，将检测到的运动目标对象及其初始位置输入目标跟踪模型，以在各监控图像中对运动目标对象进行目标跟踪，得到包含运动目标对象的对象运动图像，并根据各对象运动图像生成运动检测结果。

具体地，在检测到运动目标对象及其初始位置之后，将运动目标对象及其初始位置输入目标跟踪模型。目标跟踪模型可以在各监控图像中对运动目标对象进行目标跟踪，得到包含运动目标对象的对象运动图像，对象运动图像是包含有运动目标对象的监控图像；目标跟踪模型可以自动检测后续哪些监控图像中出现了运动目标对象、运动目标对象出现在后续监控图像中的哪些区域，以及运动目标对象何时离开监控区域。

目标跟踪模型根据检测到的信息生成运动检测结果，完成了运动目标对象从进入监控区域的发现，到对运动目标对象运动过程的跟踪。

本实施例中，获取跳帧图像集，跳帧图像集是对视频监控系统的监控视频进行抽帧得到的，减少了需要处理的图像数量，提高了初始检测的速度；计算跳帧图像集中每个相邻跳帧图像对在像素层面的图像差异度作为初始检测结果，对运动目标对象是否存在实现快速的初步检测；当初始检测结果表示存在运动目标对象时，根据初始检测结果从监控视频中获取多张相邻的监控图像，以对运动目标对象进行覆盖式检测；将各监控图像输入运动检测模型，运动检测模型包括基于注意力机制的目标检测模型和目标跟踪模型，注意力机制用于给监控图像中可能存在运动目标对象的候选区域添加注意力权重，以确保模型更关注重要区域，提高了运动目标对象检测的准确性；将检测到的运动目标对象及其初始位置输入目标跟踪模型，以在各监控图像中对运动目标对象进行目标跟踪，得到包含运动目标对象的对象运动图像，并生成运动检测结果；本申请通过跳帧图像集以及初始检测，提高了检测运动目标对象的速度；在后续详细的检测中，注意力机制的引入提高了运动目标对象检测的准确性，使得本申请中基于视频监控的运动检测兼顾了检测速度和检测准确性。

进一步的，上述计算跳帧图像集中每个相邻跳帧图像对的图像差异度的步骤可以包括：对于跳帧图像集中的每个相邻跳帧图像对，比对相邻跳帧图像对中两张跳帧图像对应像素之间的像素差异，并统计存在像素差异的像素数量，得到差异像素数量；根据得到的像素差异和差异像素数量，计算相邻跳帧图像对的图像差异度。

具体地，对于跳帧图像集中的每个相邻跳帧图像对，相邻跳帧图像对中两张跳帧图像的分辨率是一样的。比对相邻跳帧图像对中两张跳帧图像对应像素之间是否存在像素差异，其中，像素差异可以是指对应像素的像素值存在不同，或者对应像素的像素值之间的差值大于等于预设值，此时表示两张跳帧图像的某个对应像素差异性较高。然后统计存在像素差异的像素数量，得到差异像素数量。

将各对应像素的像素差异相加，然后与差异像素数量一起，计算相邻跳帧图像对的图像差异度；例如，将像素差异的累加和与差异像素数进行数据尺度变换，然后进行加权求和，得到图像差异度。

可以理解，本申请需要设置差异度阈值，将图像差异度与差异度阈值进行比较，可以判断是否可能存在运动目标对象。

本实施例中，对于跳帧图像集中的每个相邻跳帧图像对，比对相邻跳帧图像对中两张跳帧图像对应像素之间的像素差异，并统计存在像素差异的像素数量得到差异像素数量；根据得到像素差异和差异像素数量，计算相邻跳帧图像对的图像差异度，实现了在像素层面快速比较两张跳帧图像之间的差异。

进一步的，上述通过运动检测模型中的目标检测模型检测监控图像中的运动目标对象以及运动目标对象在监控图像中的初始位置的步骤可以包括：根据各监控图像的时间戳，对各监控图像进行排序，得到监控图像序列；对于监控图像序列中的每张监控图像，通过运动检测模型中的目标检测模型计算监控图像的权重图，其中，权重图是与监控图像具有相同分辨率的矩阵；将监控图像与权重图进行融合，得到加权监控图像；将加权监控图像输入目标检测模型中的目标检测网络，以进行目标检测；当检测到监控图像中包含运动目标对象时，获取目标检测网络输出的运动目标对象在监控图像中的初始位置；当检测到监控图像不包含运动目标对象时，获取监控图像序列中的下一张监控图像，并对下一张监控图像进行目标检测处理。

具体地，按照各监控图像的时间戳由前到后的顺序，对各监控图像进行排序，得到监控图像序列。对于监控图像序列中的每张监控图像，通过运动检测模型中的目标检测模型计算监控图像的权重图，其中，权重图是与监控图像具有相同分辨率的矩阵，它可以表示监控图像中每个像素的权重值，即像素的重要性。

将监控图像与权重图进行融合(例如以对应相乘的方式进行融合)，得到加权监控图像，以突出显示监控图像中可能包含运动目标对象的区域。融合后的加权监控图像将强调具有高权重值的区域，这些区域被认为更可能包含运动物体。

然后将加权监控图像输入目标检测模型中的目标检测网络，目标检测网络可以基于YOLO或其他目标检测算法构建，这些模型或网络专门设计用于检测图像中的物体，并可以提供物体的位置(边界框)和类别信息。

当检测到监控图像中包含运动目标对象时，目标检测网络会输出运动目标对象在监控图像中的初始位置。

当检测到监控图像不包含运动目标对象时，会获取监控图像序列中的下一张监控图像，对下一张监控图像继续进行目标检测处理，直至检测出运动目标对象，或者对监控图像检测完毕。

本实施例中，根据各监控图像的时间戳，对各监控图像进行排序得到监控图像序列；对于监控图像序列中的每张监控图像，通过目标检测模型计算监控图像的权重图，权重图表示监控图像中各像素的权重值，以突出各像素的重要性；将监控图像与权重图进行融合，得到加权监控图像，加权监控图像强调具有高权重值的区域，这些区域更可能包含运动物体，可以提高运动目标对象检测的准确性；将加权监控图像输入目标检测网络，当检测到包含运动目标对象时，目标检测网络输出运动目标对象在监控图像中的初始位置；当检测到监控图像不包含运动目标对象时，获取监控图像序列中的下一张监控图像，并对下一张监控图像继续进行目标检测处理，实现运动目标对象检测的有序进行。

进一步的，上述通过运动检测模型中的目标检测模型计算监控图像的权重图的步骤可以包括：通过运动检测模型中目标检测模型的卷积神经网络对监控图像进行特征提取，得到初始特征；将初始特征在卷积神经网络中进行前向传播，并获取预设卷积层基于初始特征生成的特征图；将特征图输入目标检测模型中的权重计算网络，以通过权重计算网络计算监控图像中各位置的权重值；根据得到的权重值构建监控图像的权重图。

具体地，运动检测模型中的目标检测模型包含卷积神经网络和权重计算网络。其中，卷积神经网络CNN可以基于VGG或者ResNet构建，能够对监控图像进行特征提取，有效地捕获图像中的各种特征，包括边缘、纹理、形状等，得到初始特征。

然后，将初始特征送入卷积神经网络CNN的前向传播过程，CNN包含多个卷积层，每个卷积层都会基于初始特征生成特征图(feature maps)，这些特征图在不同层次上捕获了图像的不同抽象特征。

可以根据需求，获取预设卷积层生成的特征图，将特征图输入权重计算网络。权重计算网络是额外构建的一个网络，通常是全连接层或卷积层，用于计算监控图像中各位置的权重值；根据监控图像中各位置的权重值可以构建监控图像的权重图。

权重图可以表示监控图像中的关键区域，关键区域通常包含多个位置(或多个像素)，在权重图中，关键区域中的每个位置的权重通常不是相同的，可以具有差异。权重图的目的是通过对不同位置的权重进行调整，使模型更关注关键区域中的一些位置，而对其他区域的像素分配较低的权重。在一个关键区域内，不同的位置可能对于任务具有不同的重要性，例如，在物体检测任务中，关键区域可能包括一个物体的边界框，这个边界框的角落或边缘可能比中心位置更重要，因为这些位置包含了关于物体形状和位置的关键信息。因此，在生成权重图时，模型通常会学习如何在关键区域内对不同位置分配不同的权重，以便更好地捕捉关键信息。

本实施例中，通过目标检测模型中的卷积神经网络对监控图像进行特征提取，得到初始特征；将初始特征在卷积神经网络中进行前向传播，不同的卷积层在不同层次上捕获图像的抽象特征，获取预设卷积层基于初始特征生成的特征图；将特征图输入目标检测模型中的权重计算网络，权重计算网络计算监控图像中各位置的权重值，根据得到的权重值构建监控图像的权重图，从而对监控图像中不同位置的重要性进行预测和区分，确保了运动目标对象检测的准确性。

进一步的，上述在各监控图像中对运动目标对象进行目标跟踪，得到包含运动目标对象的对象运动图像的步骤可以包括：基于运动目标对象的初始位置，获取运动目标对象的对象尺寸；根据对象尺寸确定跟踪参数；根据跟踪参数在各监控图像中对运动目标对象进行目标跟踪，得到包含运动目标对象的对象运动图像。

具体地，运动目标对象的初始位置表示运动目标对象占据了哪些图像区域，根据初始位置可以确定运动目标对象的对象尺寸，对象尺寸反映了运动目标对象的大小或长度。在一个实施例中，还可以获取监控图像中运动目标对象的深度信息，根据深度信息和初始位置确定对象尺寸，以解决运动目标对象离监控终端较近而占有较大图像区域的问题。

根据对象尺寸确定跟踪参数，跟踪参数包括需要运行目标跟踪算法的图像区域大小(可以根据对象尺寸，在特定大小的区域内运行目标跟踪算法，而不是在整个监控图像上执行跟踪，可以减少计算量)，以及跟踪尺度(目标跟踪算法可以进行多尺度跟踪，它允许目标跟踪算法在不同的图像尺寸上运行，以提高计算的效率和准确性。例如行人可能在不同的监控图像中以不同的尺寸出现，多尺度跟踪允许算法在不同的尺寸上运行，以适应行人的变化；当行人更远时，可以使用较小的尺寸来执行跟踪，从而减少计算量；当行人更接近时，可以使用较大的尺寸来保持准确性)。

根据跟踪参数在各监控图像中对运动目标对象进行目标跟踪，得到包含运动目标对象的对象运动图像。目标跟踪算法可以使用如卡尔曼滤波或相关滤波算法、均值追踪、SORT(Simple Online and Realtime Tracking)等。

本实施例中，基于运动目标对象的初始位置，获取运动目标对象的对象尺寸；根据对象尺寸确定跟踪参数；根据跟踪参数在各监控图像中对运动目标对象进行目标跟踪，可以控制目标跟踪算法的计算量，提高目标跟踪算法的计算速度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种基于视频监控的运动检测装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的基于视频监控的运动检测装置300包括：跳帧获取模块301、差异度计算模块302、图像获取模块303、目标检测模块304以及目标跟踪模块305，其中：

跳帧获取模块301，用于获取跳帧图像集，跳帧图像集基于视频监控系统的监控视频生成。

差异度计算模块302，用于计算跳帧图像集中每个相邻跳帧图像对的图像差异度，并将图像差异度作为初始检测结果。

图像获取模块303，用于当初始检测结果表示存在运动目标对象时，根据初始检测结果从监控视频中获取多张相邻的监控图像。

目标检测模块304，用于将各监控图像输入运动检测模型，以通过运动检测模型中的目标检测模型检测监控图像中的运动目标对象以及运动目标对象在监控图像中的初始位置，运动检测模型包括基于注意力机制的目标检测模型和目标跟踪模型，注意力机制用于给监控图像中运动目标对象所在的候选区域添加注意力权重。

目标跟踪模块305，用于将检测到的运动目标对象及其初始位置输入目标跟踪模型，以在各监控图像中对运动目标对象进行目标跟踪，得到包含运动目标对象的对象运动图像，并根据各对象运动图像生成运动检测结果。

在本实施例的一些可选的实现方式中，跳帧获取模块301可以包括：视频获取子模块、间隔抽取子模块以及图像集生成子模块，其中：

视频获取子模块，用于获取视频监控系统采集到的监控视频。

间隔抽取子模块，用于根据监控视频中各监控图像的时间戳，对各监控图像进行间隔抽取，得到多张初始跳帧图像。

图像集生成子模块，用于基于各初始跳帧图像生成跳帧图像集。

在本实施例的一些可选的实现方式中，图像集生成子模块可以包括：因子获取单元、采样率确定单元以及图像采样单元，其中：

因子获取单元，用于获取各初始跳帧图像的采样影响因子，采样影响因子包括监控环境因子、天气因子和时间因子。

采样率确定单元，用于根据采样影响因子确定各初始跳帧图像的采样率。

图像采样单元，用于基于采样率对各初始跳帧图像分别进行图像采样，得到各跳帧图像，并根据各跳帧图像构建跳帧图像集。

在本实施例的一些可选的实现方式中，差异度计算模块302可以包括：图像比对子模块以及差异度计算子模块，其中：

图像比对子模块，用于对于跳帧图像集中的每个相邻跳帧图像对，比对相邻跳帧图像对中两张跳帧图像对应像素之间的像素差异，并统计存在像素差异的像素数量，得到差异像素数量。

差异度计算子模块，用于根据得到的像素差异和差异像素数量，计算相邻跳帧图像对的图像差异度。

在本实施例的一些可选的实现方式中，目标检测模块304可以包括：图像排序子模块、权重图计算子模块、图像融合子模块、图像输入子模块、检测输出子模块以及继续检测子模块，其中：

图像排序子模块，用于根据各监控图像的时间戳，对各监控图像进行排序，得到监控图像序列。

权重图计算子模块，用于对于监控图像序列中的每张监控图像，通过运动检测模型中的目标检测模型计算监控图像的权重图，其中，权重图是与监控图像具有相同分辨率的矩阵。

图像融合子模块，用于将监控图像与权重图进行融合，得到加权监控图像。

图像输入子模块，用于将加权监控图像输入目标检测模型中的目标检测网络，以进行目标检测。

检测输出子模块，用于当检测到监控图像中包含运动目标对象时，获取目标检测网络输出的运动目标对象在监控图像中的初始位置。

继续检测子模块，用于当检测到监控图像不包含运动目标对象时，获取监控图像序列中的下一张监控图像，并对下一张监控图像进行目标检测处理。

在本实施例的一些可选的实现方式中，权重图计算子模块可以包括：特征提取单元、特征图获取单元、权重值计算单元以及权重图构建单元，其中：

特征提取单元，用于通过运动检测模型中目标检测模型的卷积神经网络对监控图像进行特征提取，得到初始特征。

特征图获取单元，用于将初始特征在卷积神经网络中进行前向传播，并获取预设卷积层基于初始特征生成的特征图。

权重值计算单元，用于将特征图输入目标检测模型中的权重计算网络，以通过权重计算网络计算监控图像中各位置的权重值。

权重图构建单元，用于根据得到的权重值构建监控图像的权重图。

在本实施例的一些可选的实现方式中，目标跟踪模块305可以包括：尺寸获取子模块、参数确定子模块以及目标跟踪子模块，其中：

尺寸获取子模块，用于基于运动目标对象的初始位置，获取运动目标对象的对象尺寸。

参数确定子模块，用于根据对象尺寸确定跟踪参数。

目标跟踪子模块，用于根据跟踪参数在各监控图像中对运动目标对象进行目标跟踪，得到包含运动目标对象的对象运动图像。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如基于视频监控的运动检测方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行所述基于视频监控的运动检测方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本实施例中提供的计算机设备可以执行上述基于视频监控的运动检测方法。此处基于视频监控的运动检测方法可以是上述各个实施例的基于视频监控的运动检测方法。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于视频监控的运动检测方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于视频监控的运动检测方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的基于视频监控的运动检测方法，其特征在于，所述获取跳帧图像集的步骤包括：

获取视频监控系统采集到的监控视频；

基于各初始跳帧图像生成跳帧图像集。

3.根据权利要求2所述的基于视频监控的运动检测方法，其特征在于，所述基于各初始跳帧图像生成跳帧图像集的步骤包括：

根据所述采样影响因子确定所述各初始跳帧图像的采样率；

4.根据权利要求1所述的基于视频监控的运动检测方法，其特征在于，所述计算所述跳帧图像集中每个相邻跳帧图像对的图像差异度的步骤包括：

5.根据权利要求1所述的基于视频监控的运动检测方法，其特征在于，所述通过所述运动检测模型中的目标检测模型检测监控图像中的运动目标对象以及所述运动目标对象在监控图像中的初始位置的步骤包括：

6.根据权利要求5所述的基于视频监控的运动检测方法，其特征在于，所述通过所述运动检测模型中的目标检测模型计算所述监控图像的权重图的步骤包括：

根据得到的权重值构建所述监控图像的权重图。

7.根据权利要求1所述的基于视频监控的运动检测方法，其特征在于，所述在所述各监控图像中对所述运动目标对象进行目标跟踪，得到包含所述运动目标对象的对象运动图像的步骤包括：

根据所述对象尺寸确定跟踪参数；

8.一种基于视频监控的运动检测装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的基于视频监控的运动检测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于视频监控的运动检测方法的步骤。