CN112037266B

CN112037266B - 一种下落物体的识别方法、装置、终端设备及存储介质

Info

Publication number: CN112037266B
Application number: CN202011219755.2A
Authority: CN
Inventors: 李�城; 周晖
Original assignee: Beijing Softcom Smart City Technology Co ltd
Current assignee: Beijing Softong Intelligent Technology Co ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2021-02-05
Anticipated expiration: 2040-11-05
Also published as: CN112037266A

Abstract

本发明实施例公开了一种下落物体的识别方法、装置、设备及存储介质，该方法包括：将监控视频的视频图像帧与背景图像帧进行背景差分，以获取多个二值化标记图像帧，并根据各二值化标记图像帧，获取运动区域的移动轨迹图像帧；将运动区域的移动轨迹图像帧输入至训练完成的图像分类模型，以通过图像分类模型判断运动区域的移动轨迹是否为下落物体轨迹；若确定运动区域的移动轨迹为下落物体轨迹，则确定监控视频中存在下落物体。本发明实施例提供的技术方案，实现了对监控视频中下落物体的有效监测，极大地提高了下落物体的监测效率以及监测时效性，同时，降低了监控视频中下落物体的误报检测率，识别方式具有较高的鲁棒性和普遍适用性。

Description

一种下落物体的识别方法、装置、终端设备及存储介质

技术领域

本发明实施例涉及监控技术领域，尤其涉及一种下落物体的识别方法、装置、终端设备及存储介质。

背景技术

科技的不断进步使得视频监控技术被广泛应用于社会生活中，伴随着越来越多的高层建筑平地而起，对于高空抛坠物的有效监测，成为了保证社会生活安全的重要技术手段。

现有的针对高空抛坠物的监测方案中，通过在楼体外部布设摄像头，对楼体外墙进行实时的视频录像，由工作人员通过人工的方式对监控画面前进行观察，以监测高空抛物行为的发生，而在抛物或坠物行为发生后，通常由物业或街道等相关单位对录像进行人工复看，查找高空抛物发生的录像片段。

但这样的监测方式，不但需要消耗大量的人力成本，而且疲劳和环境噪声等负面因素极易导致人的注意力分散，存在较大的安全隐患，而在发生抛物或坠物后，人工复看则存在较大的被动性和滞后性，无法针对高空抛物行为迅速作出反应。

发明内容

本发明实施例提供了一种下落物体的识别方法、装置、设备及存储介质，以监测监控视频中是否存在下落物体。

第一方面，本发明实施例提供了一种下落物体的识别方法，包括：

获取监控视频的视频图像帧，并与背景图像帧进行背景差分，以获取多个二值化标记图像帧，并根据各所述二值化标记图像帧，获取运动区域的移动轨迹图像帧；

将所述运动区域的移动轨迹图像帧输入至训练完成的图像分类模型，以通过所述图像分类模型判断所述运动区域的移动轨迹是否为下落物体轨迹；

若确定所述运动区域的移动轨迹为下落物体轨迹，则确定所述监控视频中存在下落物体。

第二方面，本发明实施例提供了一种下落物体的识别装置，包括：

移动轨迹获取模块，用于获取监控视频的视频图像帧，并与背景图像帧进行背景差分，以获取多个二值化标记图像帧，并根据各所述二值化标记图像帧，获取运动区域的移动轨迹图像帧；

轨迹分类执行模块，用于将所述运动区域的移动轨迹图像帧输入至训练完成的图像分类模型，以通过所述图像分类模型判断所述运动区域的移动轨迹是否为下落物体轨迹；

下落物体确定模块，用于若确定所述运动区域的移动轨迹为下落物体轨迹，则确定所述监控视频中存在下落物体。

第三方面，本发明实施例还提供了一种终端设备，所述终端设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例所述的下落物体的识别方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所述的下落物体的识别方法。

本发明实施例提供的技术方案，将获取到的视频图像帧与背景图像帧进行背景差分，在获取到运动区域的移动轨迹后，通过图像分类模型判断该移动轨迹是否为下落物体轨迹，在确定为下落物体轨迹时，即确定监控视频中存在下落物体，实现了对监控视频中下落物体的有效监测，极大地提高了下落物体的监测效率以及监测时效性，同时，降低了监控视频中下落物体的误报检测率，识别方式具有较高的鲁棒性和普遍适用性。

附图说明

图1A是本发明实施例一提供的一种下落物体的识别方法的流程图；

图1B是本发明实施例一提供的监控摄像组件与建筑物的位置示意图；

图1C是本发明实施例一提供的背景差分的计算流程图；

图1D是本发明实施例一提供的二值化标记图像帧的示意图；

图1E是本发明实施例一提供的运动区域的移动轨迹图像帧的示意图；

图1F是本发明实施例一提供的图像分类模型的结构框图；

图2是本发明实施例二提供的一种下落物体的识别方法的流程图；

图3是本发明实施例三提供的一种下落物体的识别装置的结构框图；

图4是本发明实施例四提供的一种终端设备的结构框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1A为本发明实施例一提供的一种下落物体的识别方法的流程图，本实施例可适用于监测监控视频中是否存在高空抛坠物的情况，该方法可以由本发明实施例中的下落物体的识别装置来执行，该装置可以通过软件和/或硬件实现，并集成在监控摄像组件或与监控摄像组件连接的管理控制设备（例如，服务器、边缘计算设备）中，该方法具体包括如下步骤：

S110、获取监控视频的视频图像帧，并与背景图像帧进行背景差分，以获取多个二值化标记图像帧，并根据各所述二值化标记图像帧，获取运动区域的移动轨迹图像帧。

监控视频可以通过安装于建筑物前方的监控摄像组件获取，如图1B所示，监控摄像组件安装于地面位置，并以一定的倾斜角度向上拍摄该建筑物，以获取建筑物的全貌，进而对该建筑物附近的下落物体，例如，高空抛物、高空坠物等进行监测。

背景差分是将获取到的当前视频图像帧与背景图像帧进行差分运算，以检测运动区域的过程；具体的，如图1C所示，在获取到监控视频后，将各视频图像帧分别与背景图像帧进行像素相减，以消除各视频图像帧中的背景图像，并将获取到的相减结果（即差分图像），与预设像素阈值进行比较，以对各差分图像进行二值化标记，获取二值化标记图像帧；其中，若相减结果大于等于预设像素阈值，则表明该视频图像帧中存在运动物体，将差分图像标记为1，并获取对应的运动区域，即差分图像中像素不为0的区域；若相减结果小于预设像素阈值，则表明该视频图像帧中不存在运动物体，将差分图像标记为0，即差分图像为空白图像，差分图像中任意区域的像素均为0；如图1D所示，为一个包括运动区域的二值化标记图像帧，除了运动区域外，其它区域的像素均为0。

特别的，本发明实施例中的监控视频，可以是监控摄像组件中的实时监控视频，也可以是监控完成的完整视频（例如，时长为1小时的一段监控视频），在本发明实施例中，对监控视频的类型不作具体限定；对于背景图像帧的获取，可以将监控视频中的一个视频图像帧指定为背景图像帧，即以静态视频帧的方式，选取固定的视频图像帧作为背景图像帧。

可选的，在本发明实施例中，在获取监控视频的视频图像帧后，还包括：根据所述视频图像帧的场景信息，从背景图像帧备选集合中，获取匹配的背景图像帧；其中，所述场景信息包括时间和/或天气。由于不同的场景时间，对应不同的光照变化以及窗户开合情况，例如，中午时分窗户的打开数量要多于晚上；不同的场景天气，不但会对光照变化和窗户开合情况产生影响，还包括雨水及冰雹等自然现象对图像的像素造成影响，因此，可以根据时间和/或天气，指定不同的视频图像帧分别作为不同场景下的背景图像帧，并组成背景图像帧备选集合；在获取到监控视频的视频图像帧后，根据当前的场景信息，在备选集合中选定匹配的背景图像帧，避免不同的场景信息对背景图像的影响。

可选的，在本发明实施例中，在获取监控视频的视频图像帧后，还包括：根据所述视频图像帧，通过动态背景获取模型，获取匹配的背景图像帧；其中，所述动态背景获取模型包括中值法背景模型、均值法背景模型和/或卡尔曼滤波器模型。还可以根据一段时间内的历史视频图像帧，构建背景图像帧，以反映过去一段时间内背景图像的变化情况，即以动态模型的方式获取背景图像帧；其中，中值法背景模型，是将一段时间内的连续多帧图像序列中，对应位置的像素点灰度值按从小到大排列，然后取中间值作为背景图像中对应像素点的灰度值；均值法背景模型，是将一段时间内的连续多帧图像序列中，对应位置的像素点取像素平均值作为背景图像中对应像素点的灰度值；卡尔曼滤波器模型，是把前帧图像作为噪声，用基于卡尔曼滤波理论的时域递归低通滤波来预测变化缓慢的背景图像，在利用前帧图像进行背景更新的同时，确保了背景的稳定性，消除了噪声干扰。

可选的，在本发明实施例中，所述获取监控视频的视频图像帧，并与背景图像帧进行背景差分，以获取多个二值化标记图像帧，包括：根据预设获取周期，获取当前周期内监控视频的视频图像帧，并将当前周期内的各视频图像帧分别与背景图像帧进行背景差分，以获取多个二值化标记图像帧。对于视频图像帧的获取，可以根据预设获取周期，获取当前周期内的视频图像帧，即将获取到的监控视频根据预设获取周期分割为多个待处理的视频片段，例如，预设获取周期为5秒，帧率为每秒60帧，也即将300帧的视频图像作为当前周期内的待处理视频图像，进而获取上述5秒时间内运动区域的移动轨迹图像，实现对监控视频的分段监测；特别的，预设获取周期的设定，可以与建筑物的高度和/或建筑物所处环境的天气信息相关，例如，风速和风向会影响物体的下落速度，若当前风速较大，且风向有利于物体下落（例如，根据建筑物的建筑位置，东南方向的风有利于物体下落）时，物体的下落速度较快，此时，将预设获取周期设定为较小值，以及时获取到监控视频中的运动区域移动轨迹；若当前风速较小或处于无风状态，物体的下落为正常速度，此时将预设获取周期设定为正常值；若当前风速较大，且风向不利于物体下落时，物体的下落速度较慢，此时，将预设获取周期设定为较大值，以获取较长时长的监控视频，进而获取较为完整的运动区域移动轨迹。

在获取到二值化标记图像帧后，可以将各二值化标记图像帧中运动区域的中心点进行坐标标注，并在一帧空白图像（图像中的各像素点的原始数值均为0）上将各中心点坐标进行像素标注（即标注点的像素不为0），进而各中心点坐标组成的各个像素点，描述了运动区域的移动运行轨迹。可选的，在本发明实施例中，所述根据各所述二值化标记图像帧，获取运动区域的移动轨迹图像帧，还包括：将各所述二值化标记图像帧，通过像素叠加，获取运动区域的移动轨迹图像帧。如图1E所示，通过像素叠加的方式，将各二值化标记图像帧对应位置的像素点数值进行叠加，像素点数值均为0的区域，叠加后依然为0，显示为空白区域，像素点数值不为0的区域，叠加后可清楚的显示在图像帧中，同时，相比于对各中心点坐标进行的像素标注，像素叠加减少了坐标点数值获取的过程，减少了数值计算量，提高了移动轨迹图像的获取速度。

S120、将所述运动区域的移动轨迹图像帧输入至训练完成的图像分类模型，以通过所述图像分类模型判断所述运动区域的移动轨迹是否为下落物体轨迹。

图像分类模型，是基于样本图片预先训练完成的分类模型，其作用在于针对输入的图像信息，进行图像特征的提取并获取特征向量，然后根据获取到的特征向量输出对应的图像分类概率，其中图像分类概率表示了输入的图像信息为正样本或负样本的概率，进而根据该图像分类概率进行分类（即二值分类），确定输入的图像是否包括下落物体轨迹；其中，图像特征可以包括图像的颜色特征、纹理特征、形状特征和空间关系特征；颜色特征，描述了图像或图像区域所对应的景物的表面性质，是基于像素点的特征；纹理特征，描述了图像或图像区域所对应景物的表面性质，其需要在包含多个像素点的区域中进行统计计算；形状特征，则描述物体外边界的轮廓特征，以及整体上的区域特征；空间关系特征，是视频图像中分割出来的多个目标之间的相互的空间位置或相对方向关系，例如，连接关系、重叠关系以及包含关系等，在本公开实施例中，对提取的图像特征的类型不作具体限定。

可选的，在本发明实施例中，在将所述运动区域的移动轨迹图像帧输入至训练完成的图像分类模型前，还包括：基于三维卷积神经网络构建初始图像分类模型，并通过样本图片集对所述初始图像分类模型进行图像分类训练，以获取训练完成的图像分类模型。卷积神经网络（Convolutional Neural Networks，CNN）是深度学习（Deep Learning）中包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Networks）；三维卷积神经网络，具有高度和宽度两个空间维度，表示了视频数据的空间信息，还具有深度维度，表示了视频信息在时间上的连续性，因此，基于三维卷积神经网络构建的图像分类模型，在利用空间信息的基础上，也利用了连续帧的时间特性，在获取视频图像中每一帧视觉特征的同时，还能获取相邻帧随时间推移的变化，因此，相比于二维卷积神经网络和其它类型的图像识别方法，三维卷积神经网络算法提取到的图像特征（即时空特征）更加准确。基于三维卷积神经网络构建初始图像分类模型，通过采用梯度下降法最小化损失函数对网络中的权重参数逐层反向调节，通过迭代训练提高神经网络的精度。

样本图片集中，正样本图片为高空抛物轨迹图像或高空坠物轨迹图像，正样本图片的输出值为1；负样本图片为不包括高空抛物轨迹或高空坠物轨迹的图像信息，例如，飞鸟飞行轨迹图像、飞虫飞行轨迹图像、人影闪过轨迹图像、像素空白图像以及上抛物体移动轨迹图像等多种类型，负样本图片的输出值为0。通过正样本图片和负样本图片组成的样本图片集对图像分类模型的训练，使得训练完成的图像分类模型具备了根据输入的图像帧信息，输出对应的图像分类概率的能力，进而输出对输入图像帧信息的类别判断结果。

如图1F所示，基于三维卷积神经网络的图像分类模型100，可以包括：卷积层110、池化层120、全连接层130和分类器140；其中，卷积层（Convolutional layer，CONV）110，用于通过获取特征图（feature map）来提取输入图像中的特征；池化层（Pooling layer，POOL）120，用于减少图像特征的维度，以简化计算复杂度，以及压缩图像特征，以便于在所有图像特征中提取主要特征；全连接层（Fully Connected layer，FC）130，用于连接特征，并计算获取目标数值；并发送给分类器140，例如，softmax分类器，SVM（Support VectorMachine，支持向量机）分类器，分类器140则根据全连接层130输入的目标数值对输入图像进行分类。

S130、若确定所述运动区域的移动轨迹为下落物体轨迹，则确定所述监控视频中存在下落物体。

在确定监控视频中存在下路物体后，可以通过发出报警提示的方式，提示工作人员及时进行现场处理，还可以将通过上述技术方案获取的运动区域的移动轨迹，显示在屏幕上，以使工作人员及时获知该下落物体的移动轨迹，便于查找下落物体的抛坠起始点及落地点。

实施例二

图2为本发明实施例二提供的一种下落物体的识别方法的流程图，本实施例在上述实施例的基础上进行具体化，在本实施例中，当预设检测时间内的各二值化标记图像帧中均包括运动区域时，判断监控视频中存在可疑下落物体，进而再通过图像分类模型进一步确定是否为下落物体，该方法具体包括：

S210、获取监控视频的视频图像帧，并与背景图像帧进行背景差分，以获取多个二值化标记图像帧。

S220、若确定预设检测时间内的各所述二值化标记图像帧均包括运动区域，则将所述预设检测时间内的首个二值化标记图像帧确定为运动起始帧，并将所述预设检测时间内的末个二值化标记图像帧确定为运动参考帧。

物体的抛落和坠落都需要一定的落体时间，因此，预先设定检测时间，以保证在预设检测时间内，物体一直处于运动状态，避免将较短时间内一闪而过的运动物体误检测为可疑高空抛坠物，例如，人在窗前走过，飞鸟从镜头前飞过等情况，由于在大多数的时间内，监测区域中不存在持续运动的物体，不需要将每个时间段内的视频图像都通过图像分类模型进行轨迹判断，因此，极大地减少了输入至图像分类模型的图像帧数量，减少了终端设备对图像帧的轨迹识别及分类的处理压力；预设检测时间可以根据需要设定，例如，设定为2秒，若帧率为每秒60帧，也即在120个连续的二值化标记图像帧中均检测到运动区域时，才会判断监控视频中存在可疑高空抛坠物，进而再通过图像分类模型进行移动轨迹的判断。

S230、获取位于所述运动参考帧之后，且不包括运动区域的首个目标二值化标记图像帧，并将所述目标二值化标记图像帧作为运动结束帧。

在确定监控视频中存在可疑高空抛坠物后，已确定了可疑抛坠行为的起始帧，为了获取上述行为的结束帧，需要在获取到运动参考帧后，继续对各二值化标记图像帧进行运动区域的获取，如果该可能的高空抛坠物仍然在监测画面中出现，表明还未落地，仍处于监测之中，直至在某个二值化标记图像帧（即目标二值化标记图像帧）中未检测到运动区域，表明该高空抛坠物已落地、停止（例如，停落在建筑物内部某区域，但并未落地）或落在监控区域之外，此时将该二值化标记图像帧作为运动结束帧，也即该可疑高空抛坠物在监控视频中停止运动的帧。

S240、根据所述运动起始帧和所述运动结束帧，获取运动区域的移动轨迹图像帧。

将运动起始帧、运动结束帧以及运动起始帧和运动结束帧之间的所有二值化标记图像帧，进行像素叠加，即可获取到运动区域的移动轨迹图像帧。

S250、将所述运动区域的移动轨迹图像帧输入至训练完成的图像分类模型，以通过所述图像分类模型判断所述运动区域的移动轨迹是否为下落物体轨迹。

S260、若确定所述运动区域的移动轨迹为下落物体轨迹，则确定所述监控视频中存在下落物体。

本发明实施例提供的技术方案，当预设检测时间内的各二值化标记图像帧均包括运动区域时，判断监控视频中存在可疑下落物体，进而通过图像分类模型对移动轨迹进行识别分类，而在绝大多数的正常状态下，已判断监测区域中不存在持续运动的物体，不需要将每个时间段内的视频图像都通过图像分类模型进行轨迹判断，减少了输入至图像分类模型的图像帧数量，减少了终端设备对图像帧轨迹的识别及分类处理压力。

实施例三

图3是本发明实施例三所提供的一种下落物体的识别装置的结构框图，该装置具体包括：移动轨迹获取模块310、轨迹分类执行模块320和下落物体确定模块330；

移动轨迹获取模块310，用于获取监控视频的视频图像帧，并与背景图像帧进行背景差分，以获取多个二值化标记图像帧，并根据各所述二值化标记图像帧，获取运动区域的移动轨迹图像帧；

轨迹分类执行模块320，用于将所述运动区域的移动轨迹图像帧输入至训练完成的图像分类模型，以通过所述图像分类模型判断所述运动区域的移动轨迹是否为下落物体轨迹；

下落物体确定模块330，用于若确定所述运动区域的移动轨迹为下落物体轨迹，则确定所述监控视频中存在下落物体。

可选的，在上述技术方案的基础上，移动轨迹获取模块310，具体用于将各所述二值化标记图像帧，通过像素叠加，获取运动区域的移动轨迹图像帧。

可选的，在上述技术方案的基础上，移动轨迹获取模块310，具体还用于根据所述视频图像帧的场景信息，从背景图像帧备选集合中，获取匹配的背景图像帧；其中，所述场景信息包括时间和/或天气。

可选的，在上述技术方案的基础上，移动轨迹获取模块310，具体还用于根据所述视频图像帧，通过动态背景获取模型，获取匹配的背景图像帧；其中，所述动态背景获取模型包括中值法背景模型、均值法背景模型和/或卡尔曼滤波器模型。

可选的，在上述技术方案的基础上，移动轨迹获取模块310，具体还用于根据预设获取周期，获取当前周期内监控视频的视频图像帧，并将当前周期内的各视频图像帧分别与背景图像帧进行背景差分，以获取多个二值化标记图像帧。

可选的，在上述技术方案的基础上，移动轨迹获取模块310，包括：

运动起始帧获取单元，用于若确定预设检测时间内的各所述二值化标记图像帧均包括运动区域，则将所述预设检测时间内的首个二值化标记图像帧确定为运动起始帧，并将所述预设检测时间内的末个二值化标记图像帧确定为运动参考帧；

运动结束帧获取单元，用于获取位于所述运动参考帧之后，且不包括运动区域的首个目标二值化标记图像帧，并将所述目标二值化标记图像帧作为运动结束帧；

移动轨迹获取单元，用于根据所述运动起始帧和所述运动结束帧，获取运动区域的移动轨迹图像帧。

可选的，在上述技术方案的基础上，下落物体的识别装置，还包括：

图像分类模型获取模块，用于基于三维卷积神经网络构建初始图像分类模型，并通过样本图片集对所述初始图像分类模型进行图像分类训练，以获取训练完成的图像分类模型。

上述装置可执行本发明任意实施例所提供的下落物体的识别方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例提供的方法。

实施例四

图4为本发明实施例四提供的一种终端设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性设备12的框图。图4显示的设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件（包括系统存储器28和处理单元16）的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构（ISA）总线，微通道体系结构（MAC）总线，增强型ISA总线、视频电子标准协会（VESA）局域总线以及外围组件互连（PCI）总线。

设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器（RAM）30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质（图4未显示，通常称为“硬盘驱动器”）。尽管图4中未示出，可以提供用于对可移动非易失性磁盘（例如“软盘”）读写的磁盘驱动器，以及对可移动非易失性光盘（例如CD-ROM，DVD-ROM或者其它光介质）读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品，该程序产品具有一组（例如至少一个）程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组（至少一个）程序模块42的程序/实用工具40，可以存储在例如系统存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

设备12也可以与一个或多个外部设备14（例如键盘、指向设备、显示器24等）通信，还可与一个或者多个使得用户能与该设备12交互的设备通信，和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备（例如网卡，调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口22进行。并且，设备12还可以通过网络适配器20与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器20通过总线18与设备12的其它模块通信。应当明白，尽管图中未示出，可以结合设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明任意实施例提供的下落物体的识别方法。也即：获取监控视频的视频图像帧，并与背景图像帧进行背景差分，以获取多个二值化标记图像帧，并根据各所述二值化标记图像帧，获取运动区域的移动轨迹图像帧；将所述运动区域的移动轨迹图像帧输入至训练完成的图像分类模型，以通过所述图像分类模型判断所述运动区域的移动轨迹是否为下落物体轨迹；若确定所述运动区域的移动轨迹为下落物体轨迹，则确定所述监控视频中存在下落物体。

实施例五

本发明实施例五还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所述的下落物体的识别方法；该方法包括：

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种下落物体的识别方法，其特征在于，包括：

获取监控视频的视频图像帧，并与背景图像帧进行背景差分，以获取多个二值化标记图像帧；

若确定预设检测时间内的各所述二值化标记图像帧均包括运动区域，则将所述预设检测时间内的首个二值化标记图像帧确定为运动起始帧，并将所述预设检测时间内的末个二值化标记图像帧确定为运动参考帧；

获取位于所述运动参考帧之后，且不包括运动区域的首个目标二值化标记图像帧，并将所述目标二值化标记图像帧作为运动结束帧；

根据所述运动起始帧和所述运动结束帧，获取运动区域的移动轨迹图像帧；

2.根据权利要求1所述的方法，其特征在于，所述根据所述运动起始帧和所述运动结束帧，获取运动区域的移动轨迹图像帧，包括：

将所述运动起始帧、所述运动结束帧以及所述运动起始帧和所述运动结束帧之间的所有二值化标记图像帧，进行像素叠加，获取运动区域的移动轨迹图像帧。

3.根据权利要求1所述的方法，其特征在于，在获取监控视频的视频图像帧后，还包括：

根据所述视频图像帧的场景信息，从背景图像帧备选集合中，获取匹配的背景图像帧；其中，所述场景信息包括时间和/或天气。

4.根据权利要求1所述的方法，其特征在于，在获取监控视频的视频图像帧后，还包括：

根据所述视频图像帧，通过动态背景获取模型，获取匹配的背景图像帧；其中，所述动态背景获取模型包括中值法背景模型、均值法背景模型和/或卡尔曼滤波器模型。

5.根据权利要求1所述的方法，其特征在于，所述获取监控视频的视频图像帧，并与背景图像帧进行背景差分，以获取多个二值化标记图像帧，包括：

根据预设获取周期，获取当前周期内监控视频的视频图像帧，并将当前周期内的各视频图像帧分别与背景图像帧进行背景差分，以获取多个二值化标记图像帧。

6.根据权利要求1所述的方法，其特征在于，在将所述运动区域的移动轨迹图像帧输入至训练完成的图像分类模型前，还包括：

基于三维卷积神经网络构建初始图像分类模型，并通过样本图片集对所述初始图像分类模型进行图像分类训练，以获取训练完成的图像分类模型。

7.一种下落物体的识别装置，其特征在于，包括：

所述移动轨迹获取模块，具体包括：

移动轨迹获取单元，用于根据所述运动起始帧和所述运动结束帧，获取运动区域的移动轨迹图像帧；

8.一种终端设备，其特征在于，所述终端设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的下落物体的识别方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的下落物体的识别方法。