CN113516050A

CN113516050A - 基于深度学习的场景变换检测方法及装置

Info

Publication number: CN113516050A
Application number: CN202110546507.7A
Authority: CN
Inventors: 王凤石; 于树怀
Original assignee: Jiangsu Aoyikesi Automotive Electronic Technology Co ltd
Current assignee: Jiangsu Aoyikesi Automotive Electronic Technology Co ltd
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2021-10-19

Abstract

本发明涉及一种基于深度学习的场景变换检测方法及装置，包括获取视频的相邻两帧图像，根据相邻两帧图像确定相邻两帧的待处理图像；将相邻两帧的待处理图像转化为相邻两帧的灰度图像，计算每个灰度图像的像素灰度平均值和每个像素的灰度值，通过像素灰度平均值和每个像素的灰度值获取相邻两帧灰度图像的数据位，计算两个数据位之间的差值并将差值与预设阈值进行对比；根据对比结果进行两帧图像是否产生场景变换的处理。本发明先判断图像位移大小，如果图像位移较大则直接确认发生场景变化，如果位移较小则将图像输入到预训练的卷积神经网络中进一步判断，提高了确定场景变换的准确率和效率。

Description

基于深度学习的场景变换检测方法及装置

技术领域

本发明属于图像处理技术领域，具体涉及一种基于深度学习的场景变换检测方法及装置。

背景技术

随着“平安城市”的提出与规划建设，近年来，安防监控系统在交通、军事、机场、银行、商场、社区等场所得到广泛应用。在诸多领域中，保证安防监控系统正常运行的重要条件之一是获得稳定、清晰、目标性强的监控视频图像内容。而在实际应用中，因各种因素引起的场景变换会对监控视频的目标产生影响。

相关技术中，场景变换及类型识别，比较当前视频帧图像与标准帧图像的一致性，通过一致性的程度判断是否发生了场景变换，再根据发生变换后的场景图像特点确定场景变换的类型。对于视频图帧间的变化研究中，杨小康等人建立了统一的渐变场景切换数学模型，然后对渐变区域的随机过程的方差进行统计，提出了包括消融、淡出和淡入等场景切换检测的算法。上海交通大学的研究团队利用MPEG视频流中的运动矢量的统计特征进行场景变换的检测，提出一种新的不受视频种类限制的基于压缩视频的突变场景变换算法。李争名等人采取滑窗方式自适应地检测场景突变和场景渐变的准确位置，提出了一种压缩域中利用B帧的宏块类型信息的自适应场景变换检测算法。

但是在安防监控系统中，监控探头的部署往往都遵循一定的规则。为了保证监控的区域无监控盲区，通常一个社区或道路上，都安装有数个监控摄像头，且多个监控摄像头之间的监控范围都预先人为设定好，且固定不变。此时，如果某一个摄像头的监控范围发生变化，就会造成某一区域因脱离监控而带来的损失。因此，现有算法在针对安防监控的视频上，因为存在的场景干扰种类较多，导致存在检测效率低、准确率低等问题。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种基于深度学习的场景变换检测方法及装置，以解决现有技术中图像场景变换检测效率、准确率低的问题。

为实现以上目的，本发明采用如下技术方案：一种基于深度学习的场景变换检测方法，包括：

获取视频的相邻两帧图像，根据所述相邻两帧图像确定相邻两帧的待处理图像；

将相邻两帧的待处理图像转化为相邻两帧的灰度图像，计算每个灰度图像的像素灰度平均值和每个像素的灰度值，通过所述像素灰度平均值和每个像素的灰度值获取相邻两帧灰度图像的数据位，计算两个数据位之间的差值并将所述差值与预设阈值进行对比；

根据对比结果进行两帧图像是否产生场景变换的处理。

进一步的，所述根据对比结果进行两帧图像是否产生场景变换的处理，包括：

如果两个数据位之间的差值小于预设阈值，则将相邻两帧图像输入到预训练的卷积神经网络中，输出相邻两帧图像的特征；

根据相邻两帧图像的特征得到相邻两帧图像的特征向量；

利用余弦相似性算法计算两个特征向量之间的夹角，若所述夹角大于预设角度，则确定相邻两帧图像产生场景变换；若所述夹角小于等于预设角度，则确定相邻两帧图像未产生场景变换.

进一步的，如果两个数据位之间的差值大于等于预设阈值，则确定相邻两帧图像产生场景变换。

进一步的，所述根据所述相邻两帧图像确定相邻两帧的待处理图像，包括：

将相邻两帧图像的每一帧图像调整至预设尺寸，将所述调整为预设尺寸的相邻两帧图像确定为相邻两帧的待处理图像。

进一步的，所述预设尺寸为8*8，所述计算每个灰度图像的像素灰度平均值和每个像素的灰度值，包括：

计算每个灰度图像的64个像素的灰度平均值和每个像素的灰度值。

进一步的，利用感知哈希算法根据所述像素灰度平均值和每个像素的灰度值获取相邻两帧灰度图像的数据位。

进一步的，所述预训练的卷积神经网络，包括依次连接的输入层、第一卷积层、第一下采样层、第二卷积层、第二下采样层、全连接层以及输出层。

进一步的，通过摄像头获取视频。

进一步的，所述预设阈值为5，预设角度为2度。

本申请实施例提供一种基于深度学习的场景变换检测装置，包括：

获取模块，用于获取视频的相邻两帧图像，根据所述相邻两帧图像确定相邻两帧的待处理图像；

计算模块，用于将相邻两帧的待处理图像转化为相邻两帧的灰度图像，计算每个灰度图像的像素灰度平均值和每个像素的灰度值，通过所述像素灰度平均值和每个像素的灰度值获取相邻两帧灰度图像的数据位，计算两个数据位之间的差值并将所述差值与预设阈值进行对比；

判断模块，用于根据对比结果进行两帧图像是否产生场景变换的处理。

本发明采用以上技术方案，能够达到的有益效果包括：

本发明提供一种基于深度学习的场景变换检测方法及装置，包括获取视频的相邻两帧图像，根据所述相邻两帧图像确定相邻两帧的待处理图像；将相邻两帧的待处理图像转化为相邻两帧的灰度图像，计算每个灰度图像的像素灰度平均值和每个像素的灰度值，通过所述像素灰度平均值和每个像素的灰度值获取相邻两帧灰度图像的数据位，计算两个数据位之间的差值并将所述差值与预设阈值进行对比；根据对比结果进行两帧图像是否产生场景变换的处理。本发明先判断图像位移大小，如果图像位移较大则直接确认发生场景变化，如果位移较小则将图像输入到预训练的卷积神经网络中进一步判断，提高了确定场景变换的准确率和效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于深度学习的场景变换检测方法的步骤示意图；

图2为本发明提供的卷积神经网络处理流程示意图；

图3为本发明基于深度学习的场景变换检测装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

下面结合附图介绍本申请实施例中提供的一个具体的基于深度学习的场景变换检测方法。

如图1所示，本申请实施例中提供的基于深度学习的场景变换检测方法包括：

S101，获取视频的相邻两帧图像，根据所述相邻两帧图像确定相邻两帧的待处理图像；

优选的，通过摄像头获取视频，然后对视频进行解码为一帧一帧的帧图像，选择相邻的两帧图像。

S102，将相邻两帧的待处理图像转化为相邻两帧的灰度图像，计算每个灰度图像的像素灰度平均值和每个像素的灰度值，通过所述像素灰度平均值和每个像素的灰度值获取相邻两帧灰度图像的数据位，计算两个数据位之间的差值并将所述差值与预设阈值进行对比；

S103，根据对比结果进行两帧图像是否产生场景变换的处理。

基于深度学习的场景变换检测方法的工作原理为：首先通过监控摄像头拍摄获取到视频，然后是视频进行解码得到帧视频，在判断相邻两帧图像是否产生场景变换时是通过选择相邻两帧图像进行对比，本申请在获取到相邻两帧图像后，先对相邻两帧图像进行预处理，处理之后的相邻的两帧图像作为待处理图像。将相邻两帧的待处理图像进行灰度化处理，得到相邻两帧的灰度图像，计算每个灰度图像中的像素灰度平均值和每个像素的灰度值，例如本申请中像素为64，则得到所有64个像素的灰度平均值和每个像素的灰度值，共65个像素值，然后计算相邻两帧灰度图像的数据位，对比两个数据位，得到两个数据位的差值，将差值与预设阈值进行对比，通过对比结果判断相邻两帧图像是否产生场景变换。

一些实施例中，所述根据对比结果进行两帧图像是否产生场景变换的处理，包括：

根据相邻两帧图像的特征得到相邻两帧图像的特征向量；

利用余弦相似性算法计算两个特征向量之间的夹角，若所述夹角大于预设角度，则确定相邻两帧图像产生场景变换；若所述夹角小于等于预设角度，则确定相邻两帧图像未产生场景变换。

优选的，如果两个数据位之间的差值大于等于预设阈值，则确定相邻两帧图像产生场景变换。

优选的，所述预设阈值为5，预设角度为2度。

具体的，如果两张图片数据位结果相差在大于等于5，则直接认定两幅图像产生了场景变换；如果小于5，则认定为两幅图像产生了位移，那么需要对两幅图像进行进一步判断，具体流程为将相邻两帧图像输入到预训练的卷积神经网络中，输出相邻两帧图像的特征；然后根据相邻两帧图像的特征得到相邻两帧图像的特征向量，其中，采用余弦相似度算法比较两张图像的特征，把图像上的特征点分为不同的子集，这些子集往往属于孤立的点、连续的曲线或者连续的区域。将这些点按区域组成子集，提取子集的特征后，将每个自己的特征作为图像的一个特征项来进行计算，形成类别特征码。然后将样本特征和类别特征映射为高维空间的向量，最后计算这两个向量的余弦相似度。利用余弦相似度算法，可以把它们想象成空间中的两条线段，都是从原点出发，指向不同的方向。两条线段之间形成一个夹角，如果夹角为0-2度，意味着方向相同、线段重合，可能是由于风力等原因导致的摄像头产生微小位移，则认定为未产生场景变换；如果夹角为大于2度，则认定为两幅图片产生了场景变换。因此，通过夹角的大小，来判断向量的相似程度，判断两幅图像是否产生场景变换。

本申请提供的基于深度学习的场景变换检测方法，首先通过感知哈希算法判断图像位移大小，如果图像位移很大则直接认定为场景变换，如果图像位移较小，再通过深度学习提取图像特征，经过余弦相似度计算图像特征得出是否产生场景变换。本申请提供的技术方案在准确率和效率上都有了很大的提升。

一些实施例中，所述根据所述相邻两帧图像确定相邻两帧的待处理图像，包括：

优选的，所述预设尺寸为8*8，所述计算每个灰度图像的像素灰度平均值和每个像素的灰度值，包括：

具体的，由于视频帧图像尺寸、比例不同，本申请中首先将原始图片缩小到8*8的尺寸，这样得到的图像总共有64个像素。然后计算所有64个像素的灰度平均值和每个像素的灰度值。

优选的，本申请中采用OpenCV中的感知哈希算法根据所述像素灰度平均值和每个像素的灰度值获取相邻两帧灰度图像的数据位。

优选的，如图2所示，所述预训练的卷积神经网络，包括依次连接的输入层、第一卷积层、第一下采样层、第二卷积层、第二下采样层、全连接层以及输出层。

具体的，将上述两幅产生位移的原始图像采用卷积神经网络进行边缘特征提取。卷积神经网络结构主要包括四种基本结构层：输入层、卷积层、采样层、输出层，在卷积层，输入图像与该层的卷积核进行卷积计算得到特征映射图，然后对每个特征映射图的局部区域加权平均求和，可加偏置后，通过RELU激活函数，得到输出的特征映射图。下采样层又叫池化层，计算局部区域中的某个卷积特征的最大值成为最大池化层，具体操作为将图像中每个领域4个像素取最大值变为1个像素，经过多次的卷积、下采样处理，在经过全连接层，可以提取到整个网络的深度特征，也就是原图像的特征。

然后再利用余弦相似度算法根据原图像的特征，获取特征向量，最后计算特征向量之间的角度。

作为一个优选的实施方式，本申请选用50、100、200段带有场景变换的视频的视频帧图像作为实验数据集，将申请提供的技术方案进行测试实验，结果如表1所示；

表1实验结果

由表1可知，本申请提供的基于深度学习的场景变换检测方法在运行时间上比较有效率，准确率方面也比较高。

然后，将100段带有场景变换的视频的视频帧图像作为对比数据集，将本申请提供的基于深度学习的场景变换检测方法与现有算法进行比较，如表2所示；

表2比较结果

从可以看出，杨小康等、上海交大所提出的算法与本申请提供的技术方案相比在准确率较低且运行时间较长，李争名等人提出的算法虽在准确率上与本申请没有太大差异，但是在运行时间上比本申请提供的技术方案多出了很多。

如图3所示，本申请提供一种基于深度学习的场景变换检测装置，其特征在于，包括：

获取模块301，用于获取视频的相邻两帧图像，根据所述相邻两帧图像确定相邻两帧的待处理图像；

计算模块302，用于将相邻两帧的待处理图像转化为相邻两帧的灰度图像，计算每个灰度图像的像素灰度平均值和每个像素的灰度值，通过所述像素灰度平均值和每个像素的灰度值获取相邻两帧灰度图像的数据位，计算两个数据位之间的差值并将所述差值与预设阈值进行对比；

判断模块303，用于根据对比结果进行两帧图像是否产生场景变换的处理。

本申请提供的基于深度学习的场景变换检测装置的工作原理为，获取模块301获取视频的相邻两帧图像，根据所述相邻两帧图像确定相邻两帧的待处理图像；计算模块302将相邻两帧的待处理图像转化为相邻两帧的灰度图像，计算每个灰度图像的像素灰度平均值和每个像素的灰度值，通过所述像素灰度平均值和每个像素的灰度值获取相邻两帧灰度图像的数据位，计算两个数据位之间的差值并将所述差值与预设阈值进行对比；判断模块303根据对比结果进行两帧图像是否产生场景变换的处理。

本申请实施例提供一种计算机设备，包括处理器，以及与处理器连接的存储器；

存储器用于存储计算机程序，计算机程序用于执行上述任一实施例提供的基于深度学习的场景变换检测方法；

处理器用于调用并执行存储器中的计算机程序。

综上所述，本发明提供一种基于深度学习的场景变换检测方法及装置，包括获取视频的相邻两帧图像，根据相邻两帧图像确定相邻两帧的待处理图像；将相邻两帧的待处理图像转化为相邻两帧的灰度图像，计算每个灰度图像的像素灰度平均值和每个像素的灰度值，通过像素灰度平均值和每个像素的灰度值获取相邻两帧灰度图像的数据位，计算两个数据位之间的差值并将差值与预设阈值进行对比；根据对比结果进行两帧图像是否产生场景变换的处理。本发明先判断图像位移大小，如果图像位移较大则直接确认发生场景变化，如果位移较小则需要进一步判断，提高了确定场景变换的准确率和效率。

可以理解的是，上述提供的方法实施例与上述的装置实施例对应，相应的具体内容可以相互参考，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品，该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于深度学习的场景变换检测方法，其特征在于，包括：

根据对比结果进行两帧图像是否产生场景变换的处理。

2.根据权利要求1所述的方法，其特征在于，所述根据对比结果进行两帧图像是否产生场景变换的处理，包括：

根据相邻两帧图像的特征得到相邻两帧图像的特征向量；

3.根据权利要求2所述的方法，其特征在于，还包括：

如果两个数据位之间的差值大于等于预设阈值，则确定相邻两帧图像产生场景变换。

4.根据权利要求1所述的方法，其特征在于，所述根据所述相邻两帧图像确定相邻两帧的待处理图像，包括：

5.根据权利要求2所述的方法，其特征在于，所述预设尺寸为8*8，所述计算每个灰度图像的像素灰度平均值和每个像素的灰度值，包括：

6.根据权利要求1所述的方法，其特征在于，

利用感知哈希算法根据所述像素灰度平均值和每个像素的灰度值获取相邻两帧灰度图像的数据位。

7.根据权利要求2所述的方法，其特征在于，所述预训练的卷积神经网络，包括依次连接的输入层、第一卷积层、第一下采样层、第二卷积层、第二下采样层、全连接层以及输出层。

8.根据权利要求1至7任一项所述的方法，其特征在于，

通过摄像头获取视频。

9.根据权利要求2所述的方法，其特征在于，

所述预设阈值为5，预设角度为2度。

10.一种基于深度学习的场景变换检测装置，其特征在于，包括：