CN113496501A

CN113496501A - 基于视频预测的动态场景中的入侵物检测方法和系统

Info

Publication number: CN113496501A
Application number: CN202110774596.0A
Authority: CN
Inventors: 李智军; 刘弘暄; 李国欣
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2021-10-12
Anticipated expiration: 2041-07-08
Also published as: CN113496501B

Abstract

本发明提供了一种基于视频预测的动态场景中的入侵物检测方法和系统，使用实时采集的视频与摄像头运动信息对视频的下一帧进行预测，通过对预测图片与实际图片进行差分获取差分图像，对差分图像进行降噪与二值化获取特征图，识别特征图中超过面积阈值的区域作为入侵物，进而实现动态场景中的入侵物检测。本发明利用了当前时刻之前的视频中正常物体的信息，能提高动态场景中正常物体的预测准确率，可降低误报可能性。

Description

基于视频预测的动态场景中的入侵物检测方法和系统

技术领域

本发明涉及图像处理技术领域，具体地，涉及一种基于视频预测的动态场景中的入侵物检测方法和系统。

背景技术

在智能化浪潮的推动下，智能化产品越来越多地进入大众视野，自动驾驶汽车、智能机器人就是其中的代表。自动驾驶汽车、智能机器人在进行移动时，需要规划移动路径。而规划移动路径时，需要周围环境信息，以弥补地图更新的滞后性，以及对已规划路径中突然出现的入侵物做出反应。由于在实际应用中，自动驾驶汽车、智能机器人往往处于运动状态，因此，区别于固定传感器的静态场景中的入侵物检测，自动驾驶汽车、智能机器人需要在传感器移动的同时，检测突然出现在路径上的入侵物。因此，在侵入物出现的同时，传感器所处的场景可能也在动态变化，这就对这种动态场景中的入侵物检测提出了挑战。

相当多种类的传感器被用于获取环境信息，比如超声波雷达、毫米波雷达、激光雷达、摄像头等。相较于雷达，摄像头具有较高的分辨率，可以感知颜色，有较大的水平与垂直视场角，能够提供平面物体上绘制的图像信息，且价格相对低廉，因此，摄像头是传感器系统中必不可少的组成部分。

然而，用摄像头采集的视频进行动态场景中的入侵物检测却比较困难。一方面是因为动态场景中，摄像头获取的视频信息量庞大且更新速度较快，基于静态场景的检测方法难以处理如此大量的信息；另一方面是因为动态场景中，背景与入侵物都在实时变化，即使提取了场景中物体的特征，基于静态场景的检测方法也难以分辨正常物体与入侵物；再者，入侵物在入侵过程中，出现在视频中的部分可能无法判断入侵物种类，因此基于物体分类的方法难以对部分入侵物进行检测。因此，开发一种能有效利用摄像头获取的视频信息的动态场景中的入侵物检测方法非常重要。

专利文献CN110570454A(申请号：CN201910657176.7)公开了一种检测异物入侵的方法，包括：接收采集设备发送的当前帧可见光图像；通过预先训练的识别模型，在所述当前帧可见光图像中确定异物对应的边界框，接收所述采集设备发送的红外视频；根据在所述当前帧可见光图像中确定出的所述异物的边界框的坐标，确定所述异物在所述当前帧红外图像中的边界框；根据所述异物在所述当前帧红外图像中的边界框，以及预先构造的滤波器，在所述红外视频中对所述异物进行追踪。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于视频预测的动态场景中的入侵物检测方法和系统。

根据本发明提供的基于视频预测的动态场景中的入侵物检测方法，包括：

步骤1：从视频存储器中获取第1帧至第t-1帧图片，并将图片组成的序列作为视频片段；

步骤2：从视频存储器中获取第1帧至第t-1帧图片对应的摄像头的运动状态信息序列，通过运动传感器获取摄像头当前的运动状态信息，与运动状态信息序列结合构成运动状态片段；

步骤3：将视频片段与运动状态片段输入训练后的预测网络，生成第t帧的预测图片，作为预测帧；

步骤4：从摄像头获取第t帧的图片，对第t帧图片进行预处理得到预处理图片，将预处理图片作为视频帧；

步骤5：对预测帧与视频帧进行差分，获得差分图像；

步骤6：对差分图像进行求绝对值、根据预先设定的像素阈值进行二值化、开运算、闭运算处理，获得特征图；

步骤7：找出特征图中所有值为1的连续区域，计算值为1的连续区域的面积，将面积超过面积阈值的连续区域作为入侵物进行上报；

步骤8：更新存储器中储存的图片与运动状态信息；

步骤9：返回步骤1，进行下一轮检测。

优选的，所述步骤2中的摄像头的运动状态信息，包括摄像头的空间运动线速度、摄像头的空间运动角速度、摄像头的空间运动线加速度和摄像头的空间运动角加速度。

优选的，所述步骤3包括：

步骤3.1：将视频片段中的所有图片在通道上依次堆叠，得到视频输入；

步骤3.2：将运动状态片段输入训练后的嵌入网络，得到运动状态嵌入；

步骤3.3：将视频输入作为图片输入，运动状态嵌入作为参数输入，输入U-Net，生成预测图片，作为预测帧。

优选的，所述步骤4中图片预处理的过程包括：

步骤4.1：将图片各通道进行标准化处理，得到标准化图片；

步骤4.2：将标准化图片的尺寸进行缩放，得到预处理图片。

优选的，所述步骤8包括：

步骤8.1：将存储器中的第1帧图片丢弃，将第2帧图片至第t-1帧图片重新命名为第1帧图片至第t-2帧图片，并且将视频帧作为第t-1帧图片储存至存储器中；

步骤8.2：将存储器中的第1帧对应的摄像头的运动状态信息丢弃，将第2帧至第t-1帧对应的摄像头的运动状态信息重命名为第1帧至第t-2帧对应的摄像头的运动状态信息，并且将摄像头的当前运动状态信息作为第t-1帧对应的摄像头的运动状态信息储存至存储器中。

根据本发明提供的基于视频预测的动态场景中的入侵物检测系统，包括：

模块M1：从视频存储器中获取第1帧至第t-1帧图片，并将图片组成的序列作为视频片段；

模块M2：从视频存储器中获取第1帧至第t-1帧图片对应的摄像头的运动状态信息序列，通过运动传感器获取摄像头当前的运动状态信息，与运动状态信息序列结合构成运动状态片段；

模块M3：将视频片段与运动状态片段输入训练后的预测网络，生成第t帧的预测图片，作为预测帧；

模块M4：从摄像头获取第t帧的图片，对第t帧图片进行预处理得到预处理图片，将预处理图片作为视频帧；

模块M5：对预测帧与视频帧进行差分，获得差分图像；

模块M6：对差分图像进行求绝对值、根据预先设定的像素阈值进行二值化、开运算、闭运算处理，获得特征图；

模块M7：找出特征图中所有值为1的连续区域，计算值为1的连续区域的面积，将面积超过面积阈值的连续区域作为入侵物进行上报；

模块M8：更新存储器中储存的图片与运动状态信息；

模块M9：返回模块M1，进行下一轮检测。

优选的，所述模块M2中的摄像头的运动状态信息，包括摄像头的空间运动线速度、摄像头的空间运动角速度、摄像头的空间运动线加速度和摄像头的空间运动角加速度。

优选的，所述模块M3包括：

模块M3.1：将视频片段中的所有图片在通道上依次堆叠，得到视频输入；

模块M3.2：将运动状态片段输入训练后的嵌入网络，得到运动状态嵌入；

模块M3.3：将视频输入作为图片输入，运动状态嵌入作为参数输入，输入U-Net，生成预测图片，作为预测帧。

优选的，所述模块M4中图片预处理的过程包括：

模块M4.1：将图片各通道进行标准化处理，得到标准化图片；

模块M4.2：将标准化图片的尺寸进行缩放，得到预处理图片。

优选的，所述模块M8包括：

模块M8.1：将存储器中的第1帧图片丢弃，将第2帧图片至第t-1帧图片重新命名为第1帧图片至第t-2帧图片，并且将视频帧作为第t-1帧图片储存至存储器中；

模块M8.2：将存储器中的第1帧对应的摄像头的运动状态信息丢弃，将第2帧至第t-1帧对应的摄像头的运动状态信息重命名为第1帧至第t-2帧对应的摄像头的运动状态信息，并且将摄像头的当前运动状态信息作为第t-1帧对应的摄像头的运动状态信息储存至存储器中。

与现有技术相比，本发明具有如下的有益效果：

(1)本方法利用当前时刻前的视频帧预测当前的视频帧，利用了当前时刻之前的视频中正常物体的信息，能提高动态场景中正常物体的预测准确率，可降低误报可能性；

(2)本方法基于正常物体容易预测而入侵物难以预测的特点，通过对只包含正常物体的预测帧与可能包含入侵物的视频帧进行差分，在图像信息不足以识别入侵物时即可对入侵物做出反应；

(3)本方法通过输入摄像头的运动状态信息，尤其是空间运动的速度和加速度中所蕴涵的方向与距离信息，使得神经网络能够输出对应方向的视频预测帧，提高视频的预测准确率。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明基于视频预测的动态场景中的入侵物检测方法的流程图；

图2为本发明基于视频预测的动态场景中的入侵物检测方法的预测网络结构图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例：

智能设备在移动过程中，实时检测移动路径中的入侵物非常重要。由于动态场景中，摄像头获取的视频信息量庞大且更新速度较快，背景与入侵物都在实时变化，且入侵物在入侵过程中，出现在视频中的部分可能无法判断入侵物种类，这些因素对入侵物检测提出了挑战。因此，本发明设计了一种基于视频预测的动态场景中的入侵物检测方法，其核心思想是，基于出现过的物体较容易预测而入侵物较难预测的特点，使用实时采集的视频与摄像头运动信息对视频的下一帧进行预测，通过对比预测图片与实际图片之间的差异，实现动态场景中的入侵物检测。

如图1所示，本发明的一种基于视频预测的动态场景中的入侵物检测方法，包括如下步骤：

步骤1，从存储器中获取第1帧至第t-1帧图片，将这些图片组成的序列作为视频片段。

由于第1帧至第t-1帧图片在储存入存储器之前都进行过预处理，因此从存储器中获取的第1帧至第t-1帧图片无需进行预处理，可直接使用。

步骤2，从存储器中获取第1帧至第t-1帧对应的摄像头的运动状态信息序列。从运动传感器获取摄像头的当前运动状态信息，与运动状态信息序列一起，构成运动状态片段。

为了在可能的较低帧率的情况下获得相对准确的摄像头空间位移矢量与旋转量，运动传感器获取的信息包括摄像头的空间运动线速度，摄像头的空间运动角速度，摄像头的空间运动线加速度，摄像头的空间运动角加速度。

步骤3，将视频片段与运动状态片段输入训练好的预测网络，生成第t帧的预测图片，作为预测帧。

为了利用实时采集到的视频中正常物体、正常背景的信息，实时采集到视频片段被输入预测网络。同时，为了对抗摄像头运动造成的正常背景的移动，运动状态片段也被输入预测网络以预测正常背景的整体移动，减小预测误差。

步骤3.1，将视频片段中的所有图片在通道上依次堆叠，得到视频输入。

令视频片段中包含的图片为I₁,I₂,…,I_t-1，将每张图片看成一个张量，则每张图片的形状为(H,W,C)，其中H为图片的高度，W为图片的宽度，C为图片的通道数。将这些图片在通道上依次堆叠，定义得到的视频输入为张量N，形状为(H,W,(t-1)*C)。视频输入中，第(k-1)*C+1至第k*C通道，即对应I_k的第1至第C通道。

步骤3.2，将运动状态片段输入训练好的嵌入网络，得到运动状态嵌入。

令每一帧对应的空间运动线速度为v，摄像头的空间运动角速度为ω，摄像头的空间运动线加速度为a，摄像头的空间运动角加速度为β。定义第k帧对应的运动状态信息为行向量L_k＝(v_k,a_k,ω_k，β_k)，第1～t帧对应的运动状态组成的运动状态片段为：

令训练好的嵌入网络为g(·)，则运动状态嵌入矩阵E由下式计算得到：

E＝g(L)

步骤3.3，将视频输入作为图片输入，运动状态嵌入作为参数输入，输入U-Net，生成预测图片，作为预测帧。

神经网络如图2所示，由于U-Net在全尺寸图像生成上具有较好的性能，因此采用U-Net作为预测网络的骨干网络。为了使预测结果能够更好的应对摄像头运动带来的平移和旋转，在每个升采样与复制之后，以运动状态嵌入矩阵E作为参数，先进行可变形卷积，然后再进行普通卷积，以利用运动状态信息，使得网络能够对应摄像头的运动，生成对应的图片。最终，预测帧

的计算方法为：

步骤4，从摄像头获取第t帧的图片，对第t帧图片进行预处理得到预处理图片，将预处理图片作为视频帧。

为了获取当前的真实场景，需要从摄像头获取当前的图片，进行预处理后，作为当前场景的投影。

步骤4.1，将图片各通道进行标准化处理，得到标准化图片。

摄像头获取的图片，每个通道中每个像素的取值都是0～255之间的整数。为了使预测网络能更好的处理图片，需要将图片各通道进行标准化处理。令图片第k通道上，坐标为(x,y)的像素的值为

则标准化后的像素值

的计算方法为：

式中，μ^k为第k通道上像素值的均值，σ^k为第k通道上像素值的标准差，均为预先计算得到，并且对于所有图片保持不变。对图片I的每个通道的每个像素进行如上处理，即可得到标准化图片

步骤4.2，将标准化图片的尺寸缩放为H×W，得到预处理图片。

为了在尽量保持精度的前提下，减小预测网络的计算量，并且保持所有输入的尺寸一致，需要将所有图片缩放为同一尺寸H×W。

步骤5，对预测帧与视频帧进行差分，获得差分图像。

为了找出入侵物可能出现的位置，需要寻找预测帧与视频帧在每个位置的距离，因此选择对预测帧与视频帧进行差分。令预测帧第k通道上，坐标为(x,y)的像素的值为

视频帧第k通道上，坐标为(x,y)的像素的值为

则差分图像第k通道上，坐标为(x,y)的像素的值

的计算方法为：

对预测帧与视频帧的每个通道上的每个像素进行此运算，最后得到差分图像

步骤6，对差分图像进行求绝对值、根据预先设定的像素阈值进行二值化、开运算、闭运算处理，获得特征图。

由于差分图像计算时，可能引入负的像素值，因此需要将每个像素的值取绝对值以得到非负像素值。为了方便提取出区别最大的区域，需要对其进行二值化，将多通道图片的各通道相加成为单通道图片后，超过阈值的像素设为1，未超过阈值的像素设为0。为了去除噪点的影响，使用开运算与闭运算将面积过小的1区域去除，最后获得特征图。

步骤7，找出特征图中所有值为1的连续区域，计算值为1的连续区域的面积，将面积超过面积阈值的连续区域作为入侵物进行上报。

在特征图中，由于预测帧中与视频帧差异较大的像素，二值化后为1，而差异较小的像素在二值化后为0。因此，值为1的连续区域有很大的可能是入侵物所在区域。而由于开运算与闭运算的局限性，可能有一些形状不规则的噪声未被移除，因此，设置面积阈值，只有超过阈值的连续才会被上报至系统。

步骤8，更新存储器中储存的图片与运动状态信息。

为了在下一轮计算中，使用本轮采集得到的数据以及计算结果，需要将本轮采集得到的数据以及计算结果保存至存储器中，并更新存储器中已存在的信息。

步骤8.1，将存储器中的第1帧图片丢弃，将第2帧图片至第t-1帧图片重新命名为第1帧图片至第t-2帧图片，并且将视频帧作为第t-1帧图片储存至存储器中。

由于下一轮的1～t-2帧对应于本轮的2～t-1帧，因此需要将存储器中的图片重命名，以对应下一轮的输入；另外，为了避免重复计算，需要将本轮已经预处理过的视频帧存入存储器。这些图片构成了下一轮开始时存储器中的图片内容。

步骤8.2，将存储器中的第1帧对应的摄像头的运动状态信息丢弃，将第2帧至第t-1帧对应的摄像头的运动状态信息重命名为第1帧至第t-2帧对应的摄像头的运动状态信息，并且将摄像头的当前运动状态信息作为第t-1帧对应的摄像头的运动状态信息储存至存储器中。

由于下一轮的1～t-2帧对应的摄像头的运动状态信息对应于本轮的2～t-1帧，因此需要将存储器中的运动状态信息重命名，以对应下一轮的输入；另外，需要将获取的运动状态信息存入存储器。这些运动状态信息构成了下一轮开始时存储器中的运动状态信息。

步骤9，返回步骤1，进行下一轮检测。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于视频预测的动态场景中的入侵物检测方法，其特征在于，包括：

步骤5：对预测帧与视频帧进行差分，获得差分图像；

步骤8：更新存储器中储存的图片与运动状态信息；

步骤9：返回步骤1，进行下一轮检测。

2.根据权利要求1所述的基于视频预测的动态场景中的入侵物检测方法，其特征在于，所述步骤2中的摄像头的运动状态信息，包括摄像头的空间运动线速度、摄像头的空间运动角速度、摄像头的空间运动线加速度和摄像头的空间运动角加速度。

3.根据权利要求1所述的基于视频预测的动态场景中的入侵物检测方法，其特征在于，所述步骤3包括：

4.根据权利要求1所述的基于视频预测的动态场景中的入侵物检测方法，其特征在于，所述步骤4中图片预处理的过程包括：

步骤4.1：将图片各通道进行标准化处理，得到标准化图片；

步骤4.2：将标准化图片的尺寸进行缩放，得到预处理图片。

5.根据权利要求1所述的基于视频预测的动态场景中的入侵物检测方法，其特征在于，所述步骤8包括：

6.一种基于视频预测的动态场景中的入侵物检测系统，其特征在于，包括：

模块M5：对预测帧与视频帧进行差分，获得差分图像；

模块M8：更新存储器中储存的图片与运动状态信息；

模块M9：返回模块M1，进行下一轮检测。

7.根据权利要求6所述的基于视频预测的动态场景中的入侵物检测系统，其特征在于，所述模块M2中的摄像头的运动状态信息，包括摄像头的空间运动线速度、摄像头的空间运动角速度、摄像头的空间运动线加速度和摄像头的空间运动角加速度。

8.根据权利要求6所述的基于视频预测的动态场景中的入侵物检测系统，其特征在于，所述模块M3包括：

9.根据权利要求6所述的基于视频预测的动态场景中的入侵物检测系统，其特征在于，所述模块M4中图片预处理的过程包括：

模块M4.1：将图片各通道进行标准化处理，得到标准化图片；

模块M4.2：将标准化图片的尺寸进行缩放，得到预处理图片。

10.根据权利要求6所述的基于视频预测的动态场景中的入侵物检测系统，其特征在于，所述模块M8包括：