CN108804981A

CN108804981A - 基于长时间视频序列背景建模框架的运动目标检测方法

Info

Publication number: CN108804981A
Application number: CN201710298485.0A
Authority: CN
Inventors: 丁洁; 肖江剑; 宋康康; 彭成斌
Original assignee: Ningbo Institute of Material Technology and Engineering of CAS
Current assignee: Ningbo Institute of Material Technology and Engineering of CAS
Priority date: 2017-04-28
Filing date: 2017-04-28
Publication date: 2018-11-13
Anticipated expiration: 2037-04-28
Also published as: CN108804981B

Abstract

本发明提供一种基于长时间视频序列背景建模框架的运动目标检测方法，其包括如下步骤：(a)通过固定式全景摄像机获取长时间全景视频；(b)对所述长时间全景视频进行解码处理，并通过栈式自编码神经网络对处理后的长时间全景视频进行合理描述，得到多个背景描述子；(c)通过聚类组织所述背景描述子，获取典型背景描述子，并将典型背景描述子以层次树的形式进行组织得到背景词袋；(d)采用ViBe背景建模方法对该背景词袋进行融合处理，得到背景建模框架，进而获得背景模型，再通过该背景模型对运动目标进行检测。

Description

基于长时间视频序列背景建模框架的运动目标检测方法

技术领域

本发明涉及计算机视觉技术和机器学习技术，特别涉及一种基于长时间视频序列背景建模框架的运动目标检测方法。

背景技术

在视频监控领域中，摄像机的应用越来越广泛。在视频监控中的一个重要的问题是如何通过背景建模得到运动目标。

现有的背景模型主要分为基于时域信息的模型和基于时空域信息融合的模型。基于时域信息的模型通常利用过去一小段时间内像素的统计特性来预测该像素短期未来的状态；基于时空域信息融合的模型在利用时域信息的同时也关注像素在空间域上的分布特性。

背景差分技术是指通过对背景合理的建模，从而区分出目标帧中的运动目标以及背景。但由于场景是有变化的，因而会产生背景模型不准确的问题，导致不能正确的获得运动目标。其中场景光线突变是一个难题，如果处理不好，运动目标检测准确率会大幅度降低，对后续视频处理算法带来困难。

发明内容

针对上述难题，本发明的目的在于提供一种基于长时间视频序列背景建模框架的运动目标检测方法，该检测方法可以通过背景检索的方式得到最佳背景模型，从而实现准确目标检测。

本发明提供一种基于长时间视频序列背景建模框架的运动目标检测方法，其包括如下步骤：

(a)通过固定式全景摄像机获取长时间全景视频；

(b)对所述长时间全景视频进行解码处理，并通过栈式自编码神经网络对处理后的长时间全景视频进行合理描述，得到多个背景描述子；

(c)通过聚类组织所述背景描述子，获取典型背景描述子，并将典型背景描述子以层次树的形式进行组织得到背景词袋；

(d)采用ViBe背景建模方法对该背景词袋进行融合处理，得到背景建模框架，进而获得背景模型，再通过该背景模型对运动目标进行检测。

其中，步骤(a)为通过固定式全景摄像机采集位于不同方向的多个相机在同一时刻拍摄的长时间视频流。

其中，步骤(b)具体包括以下步骤：

b1)对采集的长时间视频流进行剪辑，得到剪辑后的视频流；

(b2)通过计算机解码技术对剪辑后的视频流进行解码，获取多路YUV中灰度图像；

(b3)求所述剪辑后的视频流内的多路YUV中灰度图像的平均灰度图像，并将平均灰度图像表达为向量形式；

(b4)通过下采样对表达为向量形式的平均灰度图像进行降维，得到背景向量集；

(b5)通过栈式自编码神经网络对所述背景向量集进一步进行非线性降维，得到多个背景描述子。

其中，所述步骤(b5)具体为：

首先，将步骤(b4)所得到的背景向量集作为输入，利用稀疏自编码网络训练出第一个隐含层的网络参数，并利用训练好的第一个隐含层的网络参数算出第一个隐含层的输出；

然后，将第一个隐含层的输出作为第二个隐含层的输入，用稀疏自编码网络训练出第二个隐含层的网络参数；

最后，利用训练好的第二个隐含层的网络参数计算出第二个隐含层的输出，将此第二个隐含层的输出作为背景描述子。

其中，步骤(c)具体包括以下步骤：

((c1)采用随机森林谱聚类方法对多个背景描述子进行聚类处理，得到分类后的子类，并计算出该分类后的子类所对应的典型背景描述子；

(c2)采用K-means++对该分类后的子类进行再聚类处理，选出该分类后的子类中的典型类，并计算该分类后的子类中的典型类所对应的典型背景描述子；

(c3)将该分类后的子类中的典型类所对应的典型背景描述子以层次树的形式进行组织，得到背景词袋。

其中，所述步骤(c1)具体为：

(c11)计算n个背景描述子的相似度矩阵；

(c12)将相似度矩阵的每一列相加放到对应的对角位置处，求得对角矩阵；

(c13)通过对角矩阵求解拉普拉斯矩阵，并求解拉普拉斯矩阵的特征值；

(c14)取拉普拉斯矩阵的特征值中的前K个特征值所对应的特征向量，并将该前K个特征值所对应的特征向量组成新的n*K的矩阵R，其中K为谱聚类的聚类个数；

(c15)采用K-means++对矩阵R的每行元素进行聚类处理，得到的类别即为分类后的子类，并根据欧式距离计算出该分类后的子类所对应的典型背景描述子。

其中，所述步骤(c2)具体为：

首先，在步骤(c1)得到的该分类后的子类中的每一个子类中，选择多个距离较远的向量，将该多个距离较远的向量作为多个K-means++的初始中心；

然后，计算该分类后的子类中每一个子类的每个向量与该多个K-means++的初始中心之间的距离，并将每一向量分到与该向量距离最近的K-means++的初始中心所对应的子类，而得到该分类后的子类中的典型类；

最后，根据该分类后的子类中的典型类的向量重新计算该分类后的子类中的典型类的中心，并将该分类后的子类中的典型类中距离该分类后的子类中的典型类的中心最近的典型类的向量作为典型背景描述子。

其中，所述步骤(c3)具体为：将该分类后的子类中的典型类所对应的典型背景描述子进行粗聚类以及精细聚类，并将粗聚类与精细聚类后的典型背景描述子以层次树的结构进行组织，构成背景词袋。

其中，步骤(d)具体包括以下步骤：

(d1)当待检测的场景图中大量的背景像素被检为运动目标像素，且运动目标像素的比例变化幅度大于阈值，则认为该场景图发生突变，继续进行步骤(d2)及步骤(d3)，否则认为该场景图未发生突变，通过ViBe背景建模算法建立背景模型，再利用该背景模型对运动目标进行检测；

(d2)对所述场景图经过上述步骤(b)的解码及栈式自编码神经网络处理，得到场景图的描述子，再从背景词袋中检索背景图，将背景词袋中与步骤(d1)中场景图的描述子距离最近的背景图作为新的背景图，通过ViBe背景建模算法及新的背景图进行模型初始化，得到重置后的背景模型；

(d3)通过该重置后的背景模型对运动目标进行检测。

其中，所述步骤(d2)具体为：通过计算背景词袋中背景描述子与场景图的描述子的欧式距离，将背景词袋中与场景图的描述子距离最近的背景图作为新的背景图。

相较于现有技术，本发明所述方法具有以下优点：

第一，通过栈式自编码神经网络得到背景描述子，可使得到的检测结果更加的准确。

第二，考虑长时间的背景存在周期性变化的特点，通过固定式全景摄像机获取长时间全景视频，而获得全景长时间的背景信息，进一步用来建立背景词袋，因此可使得所建立的背景模型更加准确。

第三，由于粗聚类与精细聚类后的典型背景描述子以层次树的结构进行组织，因而可快速检索到与此时刻场景图最相近的背景描述子，进而得到最相近的背景词袋中的背景来加速背景模型的更新，从而得到准确的运动目标。特别是在光照突变难题出现时，通过该方法可准确的检测出运动目标。

附图说明

图1为本发明所述一种基于长时间视频序列背景建模框架的运动目标检测方法流程图。

图2为本发明所述方法中步骤(b)获得背景描述子的流程示意图。

图3为本发明步骤(c3)中所示典型背景描述子以层次树的形式组织得到背景词袋的概念图。

图4为本发明所述方法中步骤(d)的检测运动目标的示意图。

具体实施方式

下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

请参阅图1，本发明提供一种基于长时间视频序列背景建模框架的运动目标检测方法，其包括如下步骤：

(a)通过固定式全景摄像机获取长时间全景视频；

(d)采用ViBe背景建模方法对该背景词袋进行融合处理，得到背景建模框架，进而获得背景模型，通过该背景模型对运动目标进行检测。

在步骤(a)中，通过固定式全景摄像机采集位于不同方向的多个相机在同一时刻拍摄的长时间视频流。

在步骤(b)中，对所采集的长时间视频流进行剪辑，并使用解码技术获取灰度图像。之后通过对剪辑后的视频流求取平均灰度图，再以下采样、降维的方式生成背景描述子。这些背景描述子是长时间全景视频的合理描述，将有利于背景词袋的构建。请参阅图2，步骤(b)具体包括以下步骤：

(b1)对采集的长时间视频流进行剪辑，得到剪辑后的视频流；

(b2)通过计算机解码技术对剪辑后的视频流进行解码，而获取多路YUV中灰度图像；

本实施例中，步骤(b1)中，将长时间视频流进行剪辑，剪辑得到多个1分钟的短视频。

在步骤(b2)中，可通过OpenCV图像技术对每个短视频做处理，将视频图像中YUV通道中的Y灰度通道取出，之后将在灰度图上进行处理，得到多路YUV中灰度图像。

在步骤(b3)中，将(b2)中得到的短视频内的多路YUV中灰度图像求均值，得到平均灰度图像，并将平均灰度图像表达为向量形式。

在步骤(b4)中，可通过OpenCV中resize函数对表达为向量形式的平均灰度图像进行下采样，从而降低步骤(b5)的运算量。

所述(b5)具体包括：首先，将(b4)所得到的背景向量集作为输入，利用稀疏自编码网络训练出第一个隐含层的网络参数W1，并利用训练好的第一个隐含层的网络参数W1算出第一个隐含层的输出；然后，将第一个隐含层的输出作为第二个隐含层的输入，用稀疏自编码网络训练出第二个隐含层的网络参数W2；最后，利用训练好的第二个隐含层的网络参数W2计算出第二个隐含层的输出，将此第二个隐含层的输出作为背景描述子。

在步骤(c)中，对步骤(b)中生成的背景描述子进行分层聚类，保证背景词袋组织合理并且结构的优化，从而搭建背景词袋，并可提高检索速度。步骤(c)主要包括以下步骤：

(c1)采用随机森林谱聚类方法对多个背景描述子进行聚类处理，得到分类后的子类，并计算出该分类后的子类所对应的典型背景描述子；

所述步骤(c1)具体包括：首先，计算n个背景描述子的相似度矩阵；其次，将相似度矩阵的每一列相加放到对应的对角位置处，求得对角矩阵；再次，通过对角矩阵求解拉普拉斯矩阵，并求解拉普拉斯矩阵的特征值；然后，取拉普拉斯矩阵的特征值中的前K个特征值所对应的特征向量，并将该前K个特征值所对应的特征向量组成新的n*K的矩阵R，其中K为谱聚类的聚类个数；最后，采用K-means++对矩阵R的每行元素进行聚类处理，得到的类别即为分类后的子类，并根据欧式距离计算出该分类后的子类所对应的典型背景描述子。

所述步骤(c2)具体包括：首先，在步骤(c1)得到的该分类后的子类中的每一个子类中，选择多个距离较远的向量，将该多个距离较远的向量作为多个K-means++的初始中心；然后，计算该分类后的子类中每一个子类的每个向量与该多个K-means++的初始中心之间的距离，并将每一向量分到与该向量距离最近的K-means++的初始中心所对应的子类，而得到该分类后的子类中的典型类；最后，根据该分类后的子类中的典型类的向量重新计算该分类后的子类中的典型类的中心，并将该分类后的子类中的典型类中距离该分类后的子类中的典型类的中心最近的典型类的向量作为典型背景描述子。

请参阅图3，所述步骤(c3)具体为：将该分类后的子类中的典型类所对应的典型背景描述子进行粗聚类以及精细聚类，并将粗聚类与精细聚类后的典型背景描述子以层次树的结构进行组织，构成背景词袋。

在步骤(d)中，将步骤(c)得到的背景词袋与ViBe背景建模方法融合，主要涉及判断突变机制，检索方法以及融合方法三个方面。主要包括：

(d2)对所述场景图经过上述步骤(b)的处理，得到场景图的描述子，再从背景词袋中检索与步骤(d1)中场景图的描述子距离最近的背景图作为新的背景图，通过ViBe背景建模算法并利用新的背景图进行模型初始化，得到重置后的背景模型；

(d3)通过该重置后的背景模型对运动目标进行检测。

本实施例中，步骤(d1)中，取阈值T为0.42，该阈值T值通过逻辑回归计算得到。

在步骤(d2)中，通过计算背景词袋中背景描述子与场景图的描述子的欧式距离，将背景词袋中与场景图的描述子的欧式距离最近的背景图作为新的背景图。换句话说，如果该场景图与背景词袋中背景图相似，而ViBe背景建模算法又无法很好的处理该场景图，则找到背景词袋中与该场景图最为相似的背景图作为此时新的背景图，并通过ViBe背景建模算法及新的背景图进行模型初始化，得到重置后的背景模型。

在步骤(d3)中，根据重置后的背景模型，将场景图与重置后的背景模型进行比较，将不符合背景模型的部分识别为运动目标。依照此检测方法可求得运动目标，即实现对运动目标检测。

相较于现有技术，本方法具有以下优点：

下面结合具体实施例对本申请提出的基于长时间视频序列背景建模框架的运动目标检测方法进行说明：

实施例

所述基于长时间视频序列背景建模框架的运动目标检测方法，实现全景视频的运动目标检测。

该背景词袋的构建方法包括如下步骤：

(a)通过固定式全景摄像机录制长时间全景视频；

(b)对所述长时间全景视频进行解码处理，并采用matlab来实现栈式自编码神经网络，从而获得对长时间全景背景帧合理描述，得到多个背景描述子；

(c)在matlab平台上通过谱聚类和k-means++聚类，来获取典型背景描述子，并将典型背景描述子以层次树的形式进行组织得到背景词袋；

(d)采用ViBe背景建模方法对该背景词袋进行融合处理，得到背景建模框架，进而获得合适的背景模型，通过该背景模型对运动目标进行检测。

在步骤(a)中，通过固定式摄像机录制长时间全景视频H.264视频流。

在步骤(b)中，调用OpenCV图像处理函数实现灰度图形的提取并求得剪辑视频的平均背景，之后使用OpenCV中resize函数对剪辑视频的平均背景下采样，最后在matlab上实现栈式自编码网络对灰度图像降维，得到背景描述子。

在步骤(c)中，通过谱聚类和K-means++聚类对典型背景描述子以层次树的形式进行组织，形成背景词袋。

在步骤(d)中，采用ViBe背景建模方法对该背景词袋进行融合处理，得到背景模型，通过该背景模型对运动目标进行检测，同时增强背景词袋的有效性。图像检索操作及词袋更新操作具体如下：

(1)使用步骤(b)的栈式自编码参数将新的图像表达为描述子。

(2)计算该描述子与背景词袋中背景描述子的欧式距离，将背景词袋中与该描述子距离最近的背景图作为此时的背景。

(3)采用ViBe背景建模算法对步骤(2)所得到的背景进行融合，重置短时空域模型。

(4)如果步骤(2)中该描述子与背景词袋中背景描述子的欧式距离大于阈值0.35，则采用先进先出的方式更新背景词袋。

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于长时间视频序列背景建模框架的运动目标检测方法，其包括如下步骤：

(a)通过固定式全景摄像机获取长时间全景视频；

2.一种如权利要求1所述的基于长时间视频序列背景建模框架的运动目标检测方法，其特征在于，步骤(a)为通过固定式全景摄像机采集位于不同方向的多个相机在同一时刻拍摄的长时间视频流。

3.一种如权利要求2所述的基于长时间视频序列背景建模框架的运动目标检测方法，其特征在于，步骤(b)具体包括以下步骤：

(b1)对采集的长时间视频流进行剪辑，得到剪辑后的视频流；

4.一种如权利要求3所述的基于长时间视频序列背景建模框架的运动目标检测方法，其特征在于，所述步骤(b5)具体为：

5.一种如权利要求1所述的基于长时间视频序列背景建模框架的运动目标检测方法，其特征在于，步骤(c)具体包括以下步骤：

6.一种如权利要求5所述的基于长时间视频序列背景建模框架的运动目标检测方法，其特征在于，所述步骤(c1)具体为：

(c11)计算n个背景描述子的相似度矩阵；

7.一种如权利要求5所述的基于长时间视频序列背景建模框架的运动目标检测方法，其特征在于，所述步骤(c2)具体为：

8.一种如权利要求5所述的基于长时间视频序列背景建模框架的运动目标检测方法，其特征在于，所述步骤(c3)具体为：将该分类后的子类中的典型类所对应的典型背景描述子进行粗聚类以及精细聚类，并将粗聚类与精细聚类后的典型背景描述子以层次树的结构进行组织，构成背景词袋。

9.一种如权利要求1所述的基于长时间视频序列背景建模框架的运动目标检测方法，其特征在于，步骤(d)具体包括以下步骤：

(d3)通过该重置后的背景模型对运动目标进行检测。

10.一种如权利要求9所述的基于长时间视频序列背景建模框架的运动目标检测方法，其特征在于，所述步骤(d2)具体为：通过计算背景词袋中背景描述子与场景图的描述子的欧式距离，将背景词袋中与场景图的描述子距离最近的背景图作为新的背景图。