CN104537684A

CN104537684A - 一种静态场景中的实时运动目标提取方法

Info

Publication number: CN104537684A
Application number: CN201410727997.0A
Authority: CN
Inventors: 赵问道; 张亚庆; 袁义雷; 李玺; 张仲非
Original assignee: Zhejiang Li Yuan Communication Technology Inc Co
Current assignee: Zhejiang Li Yuan Communication Technology Inc Co
Priority date: 2014-06-17
Filing date: 2014-12-04
Publication date: 2015-04-22

Abstract

本发明公开了一种静态场景中的实时运动目标提取方法，包括以下步骤：从大规模数据库中离线学习图像块的结构化特征；基于学习到的特征表达模型，用这些特征来表示视频中每一帧的图像块；使用这些特征对背景进行PCA方法建模，得到背景模型；视频帧提取每一个图像块的特征之后，利用背景模型判断图像块属于背景还是前景，同时对背景模型进行在线更新。本发明使用百万数量级的自然图片进行离线学习，一旦学习完成就可以直接使用这个神经网络的参数模型，并且保存了自然场景的常见特征。在特征提取步骤，本发明使用具有足够的并行处理单元的GPU进行特征提取，速度增加显著，达到了实时处理的标准。

Description

一种静态场景中的实时运动目标提取方法

技术领域

本发明涉及背景建模，具体涉及一种静态场景中的实时运动目标提取方法。

背景技术

静态场景中的运动目标提取指的是利用背景的特性，对背景进行建模，得到一个不包含运动的前景目标的背景模型；利用这个背景模型，可以在视频中提取动态目标，从而进行进一步的分析。

传统的背景减除方法包括简单平均背景法、中值滤波法、帧差法，这些方法运行速度快，但是结果并不准确。另外人们使用统计模型来进行背景建模，常用的方法有单高斯模型、混合高斯模型、核密度估计方法、组成成分分析方法等，最为常见的背景建模方法是混合高斯模型，可参考C.Stauffer和E.Grimson的文章"Adaptive background mixture models forreal-time tracking"(见，Proceedings IEEE Conference on Computer Vision andPattern Recognition,CVPR 1999,pages 246-252,1999.)，这种方法假设背景模型是由若干个(3-5个)混合高斯模型所构成的，这些高斯模型分别具有各自的均值、方差等统计特性，当新的背景特征加入时，首先利用混合高斯模型计算出它属于背景像素的概率，根据这个概率的大小来判断它是否属于背景像素。这些方法的优点是背景建模对于稳定背景的建模效果较好，但是不断变化的自然环境(如光照改变、树叶摇摆、水纹波动、阴影、恶劣天气等)给这些背景建模带来了困难。Elgammal等人提出了核密度估计在背景减除中的应用，发表了"Non-parametric Model for BackgroundSubtraction"，(见，Frame Rate Workshop,IEEE 7th International Conferenceon Computer Vision,ICCV 1999,Kerkyra,Greece,September 1999.)，但是这种方法运算较为复杂，耗费了大量的计算资源。

较为新的背景减除方法包括鲁棒PCA，可以参考Guyon等人的文章"Robust Principal Component Analysis for Background Subtraction:SystematicEvaluation and Comparative Analysis"，(见，INTECH,Principal ComponentAnalysis,Book 1,Chapter 12,page 223-238,March 2012)；稀疏背景建模方法，可参考X.Huang发表的"Moving-object Detection Based on SparseRepresentation and Dictionary Learning"，(见，AASRI Conference onComputational Intelligence and Bioinformatics,Volume 1,pages 492–497,2012.)等，这些方法更好地利用了背景模型的特性，因而算法准确度更高了，然而，算法复杂度却相应地提升了。

发明内容

本发明针对上述问题，提供了一种静态场景中的实时运动目标提取方法。

本发明所采用的技术方案为：一种静态场景中的实时运动目标提取方法，包括以下步骤：

S1，从大规模数据库中离线学习图像块的结构化特征；

S2，基于学习到的特征表达模型，用这些特征来表示视频中每一帧的图像块；

S3，使用这些特征对背景进行PCA方法建模，得到背景模型；

S4，视频帧提取每一个图像块的特征之后，利用背景模型判断图像块属于背景还是前景，同时对背景模型进行在线更新。

进一步地，所述步骤S1包括以下步骤：

在自然图像数据库中随机得到大量的图像块，图像块的大小与背景减除中的图像块大小一致；训练一个自编码器结构的深度神经网络，用来最大程度地恢复原始图像块；

设定好神经网络的各项参数，包括层数、每一层的隐含节点数、稀疏惩罚因子、正则项因子等，训练得到神经网络的各层参数。

所述步骤S1还包括：为了得到能够表示图像块结构的特征，在训练前将训练数据加入一定的噪声。

所述步骤S1还包括：为了得到表达特征的稀疏性，在训练过程中增加系数惩罚因子。

所述步骤S2具体为：使用离线特征学习得到的神经网络参数，对图像块进行编码，得到一个维度比原始图像块的维度低的特征表示。

更进一步地，所述其中步骤S3具体为：

将不包括前景目标的一段视频序列作为训练帧，提取训练帧的每一个图像块的特征，然后学习每一个图像块的特征数据的组成成分，构成特征子空间。

更进一步地，其中所述的每一个图像块的特征数据的组成成分由特征数据的协方差矩阵的特征值分解得到的前几个特征值及其对应的特征向量构成。

更进一步地，其中所述的每一个图像块的特征子空间由它的特征数据的组成成分构成。

更进一步地，所述步骤S4包括以下步骤：

首先提取当前帧每一个位置的图像块的特征，将得到的每一个位置的图像块投影到对应块的背景模型的特征子空间中，计算与这个特征子空间之间的欧式距离；

当得到的欧氏距离大于第一阈值时，判断该图像块不属于背景；若小于第一阈值，判断为背景；

在图像块被判断为前景块的比例大于第二阈值或某一图像块连续被判断为前景块的次数大于第三阈值的情况下，减除背景块，进行背景模型的更新。

更进一步地，所述进行背景模型的更新方法具体为：

更新利用最近帧的图像块的特征的均值和协方差矩阵，重新计算得到一个特征空间，成为更新后的背景模型。

本发明的优点：

本发明使用百万数量级的自然图片进行离线学习，一旦学习完成就可以直接使用这个神经网络的参数模型，并且保存了自然场景的常见特征。在特征提取步骤，本发明使用具有足够的并行处理单元的GPU进行特征提取，速度增加显著，达到了实时处理的标准。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明的整体流程图；

图2为背景建模部分的流程图；

图3为背景减除部分的流程图；

图4为神经网络的结构图；

图5为自编码器的结构图；

图6为自编码器(autoencoder)的训练模型；

图7为使用自编码器(autoencoder)提取目标块特征的模型；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参考图1，如图1所示的一种静态场景中的实时运动目标提取方法，包括以下步骤：

S1，从大规模数据库中离线学习图像块的结构化特征；

S3，使用这些特征对背景进行PCA方法建模，得到背景模型；

所述步骤S1包括以下步骤：

所述其中步骤S3具体为：

其中所述的每一个图像块的特征数据的组成成分由特征数据的协方差矩阵的特征值分解得到的前几个特征值及其对应的特征向量构成。

其中所述的每一个图像块的特征子空间由它的特征数据的组成成分构成。

所述步骤S4包括以下步骤：

首先提取当前帧每一个位置的图像块的特征，将得到的每一个位置的图像块投影到对应块的背景模型的特征子空间中，计算与这个特征子空间之间的欧氏距离；

所述进行背景模型的更新方法具体为：

本发明提供的静态场景中的实时运动目标提取方法按顺序进行下列步骤：

1)使用深度神经网络的自编码器结构，对大型的自然场景的图像块进行离线特征学习。这种特征能够很好地表示自然图像的纹理、边缘等重要信息，同时也能够很好地对原始图像进行重构，得到的特征可以表示为块的一个鲁棒的表达。

2)本发明基于块级特征表示，利用学习到的特征，对图像进行适当大小的分块，每一块用这些特征来进行表达。

3)使用这个特征可以进行快速背景建模方法进行背景建模。这里的背景建模方法是PCA背景建模的方法。首先取前m帧图像的特征，以每一块为单位计算出其均值、协方差矩阵。然后将协方差矩阵进行特征值分解，取最大的前q个特征值所对应的特征向量所构成的特征空间为背景的特征空间。

4)为了计算视频序列中心的一帧的背景与前景块，首先本发明将每一个图像块投影到背景的特征空间中去，计算与这个特征空间之间的距离。如果距离越大，这个块就越有可能属于前景；距离越接近则越可能属于背景。

5)可利用增量PCA进行定时的背景模型的更新。

本发明采用块级特征代替像素级特征进行图像的表示。使用块级特征的优点在于，它能够更好地表达视频帧局部的结构，从而保证了前景目标的完整性；另一方面，由于前景目标的像素相连，使用块级特征表示能够有效地降低计算量，能够达到实时性的要求。为了得到图像块的更好表达，避免人为特征提取中“经验”的影响，本发明通过深度学习算法计算得到足够鲁棒的特征表达。所以“离线特征学习”步骤是在背景减除的任务之前完成的，这个任务只需要进行离线学习，在背景减除的任务中可以直接使用这个离线学习得到的模型。

深度特征学习：

深度特征学习在背景减除工作之前进行，它的目的是为了能够使图像块用更加鲜明、一般化的特征来进行表达，本步骤输入自然场景下的图像块，输出特征表示函数所需要的参数。

基于自编码器的深度特征学习：

自编码器是神经网络的一种。所谓的神经网络，就是将许多个单一的“神经元”联接在一起，一个“神经元”的输出就是另一个神经元的输入。如图4所示。

其中+1的圆圈被称为偏置节点，神经网络的第一层叫做输入层，最右边一层叫做输出层，中间所有的节点组成的一层叫做隐藏层。本例神经网络参数(W，b)＝(W⁽¹⁾，b⁽¹⁾，W⁽²⁾，b⁽²⁾)，其中是第l层第j单元与第l+1层第i单元之间的联接参数，是第l+1层第i单元的偏置项。

用表示第l层第i单元的激活值。当l＝1时，,也就是第i个输入值。对于给定参数集合W，b，神经网络就可以按照函数h_W，b(x)来计算结果。本发明神经网络的计算步骤如下：

z⁽²⁾＝W⁽¹⁾x+b⁽¹⁾

a⁽²⁾＝f(z⁽²⁾)

z⁽³⁾＝W⁽²⁾a⁽²⁾+b⁽²⁾

h_W，b＝a⁽³⁾＝f(z⁽³⁾) 式(1)

上面的计算步骤叫做前向传播，其中f(·)函数可以取作sigmoid函数。当神经网络包含多层、多个节点的时候，前向传播的计算方法类似。按照之前描述的等式，按部就班，逐一计算第L₂层的所有激活值，然后是L₃，以此类推。

为了学习自编码器结构的深度神经网络的参数，需要通过反向传导的算法来进行实现。假设有一个固定样本集{(x⁽¹⁾，y⁽¹⁾，(x⁽²⁾，y⁽²⁾)，...，(x^(m)，y^(m))}，它包含了m个样本，可以使用批梯度下降法来求解神经网络，对于单个样本，其代价函数为：

J (W, b; x, y) = \frac{1}{2} {| | h_{W, b} (x) - y | |}^{2}

式(2)

直观意义上来讲J(W，b；x，y)表示的就是函数h_W，b(x)的值与y的距离接近程度。

给定一个包含m个样本的数据集，可以定义整体代价函数为：

J (W, b) = \frac{1}{m} Σ_{i = 1}^{m} J (W, b; x^{(i)}, y^{(i)}) + \frac{λ}{2} Σ_{l = 1}^{n_{l}} Σ_{i = 1}^{s_{l}} Σ_{j = 1}^{s_{l} + 1} {(W_{ji}^{(l)})}^{2}

式(3)

上式中第一项是一个均方差项，第二项是一个规则化项，其目的是减小权重的幅度，防止过度拟合。深度特征学习的求解目的是最小化整体代价函数J(W，b)，常见的方法是梯度下降法。梯度下降法中每一次迭代都按照如下公式对参数W和b进行更新：

W_{ij}^{(l)} = W_{ij}^{(l)} - α \frac{&PartialD; J (W, b)}{&PartialD; W_{ij}^{(l)}};

b_{i}^{(l)} = b_{i}^{(l)} - α \frac{&PartialD; J (W, b)}{&PartialD; b_{i}^{(l)}}

式(4)

其中α是学习速率。

自编码神经网络是一种无监督学习算法，它使用了反向传播的算法，并让目标值等于输入值，即y⁽ⁱ⁾＝x⁽ⁱ⁾，图5是自编码器的一个示例。

自编码神经网络尝试学习一个h_W，b(x)≈x的函数。换句话说，它尝试逼近一个恒等函数，从而使得输出接近于输入x，当为自编码器神经网络加入某些限制，比如限定隐藏神经元的数量，就可以从数据中发现一些图像块的重要结构。在本发明中，加入了稀疏性的限制，使输出活跃度大部分未被激活(值接近于0)，少数被激活(值接近1)。定义平均活跃度

{\hat{ρ}}_{j} = \frac{1}{m} Σ_{i = 1}^{m} [a_{j}^{(2)} (x^{(i)})]

式(5)

表示隐藏神经元j的平均活跃度。可以近似地加入一条限制

{\hat{ρ}}_{j} = ρ

式(6)

其中ρ是稀疏性参数，通常是一个接近于0的比较小的值。换句话说，要让隐藏神经元的平均活跃度接近0.05。为了实现这一限制，本发明会在优化目标函数中加入一个额外的惩罚因子，选择相对熵来度量这个惩罚因子

Σ_{j = 1}^{s_{2}} KL (ρ | | {\hat{ρ}}_{j}) = Σ_{j = 1}^{s_{2}} [ρ \log \frac{ρ}{{\hat{ρ}}_{j}} + (1 - ρ) \log \frac{1 - ρ}{1 - {\hat{ρ}}_{j}}]

式(7)

整体代价函数可以由(3)修改为

J_{sparse} (W, b) = J (W, b) + β Σ_{j = 1}^{s_{2}} KL (ρ | | {\hat{ρ}}_{j})

式(8)

然后使用前面所说的梯度下降法求解最小值，即得到了优化后的(W，b)

本发明训练模型：

本方案需要提取8×8的图像块的特征，使用100000张32×32自然场景图片进行离线的特征学习。首先从每幅图像提取8×8的小块，一幅图像有16块这样的小块，这样一共提取1600000个训练样本。使用这1600000个训练样本进行离线特征训练。具体的训练细节如下：

离线训练的主要目的是为了训练一个能够更好地表示原始数据的特征。本方案使用上面所述的自编码器结构，训练出输入层为64个节点，中间分别包含128、64、32个隐含节点、输出层为16个节点的特征向量。然后再利用这个特征向量去重构原始图像，得到一个重构误差。自编码器的目的就是使这1600000个训练目标的平均重构误差最小，从而可以得到能够表示大部分图像的一般化特征。训练框图如图6。

这里输入的是1600000个自然场景提取出来的的图像块x⁽ⁱ⁾＝[x₁，x₂，...x₆₄]^T，i＝1，2，...，160000，训练一个深度神经网络，使神经网络的输出x′⁽ⁱ⁾＝[x′₁，x′₂，...，x′₆₄]^T和X之间的距离越小。也就是要求解如下的优化问题：

\begin{matrix} \min_{W, W^{'}, b, b^{'}} J_{sparse} (W, b) = \min_{W, W^{'}, b, b^{'}} J (W, b) + β Σ_{j = 1}^{s_{2}} KL (ρ | | {\hat{ρ}}_{j}) \\ = \min_{W, W^{'}, b, b^{'}} \frac{1}{1600000} Σ_{i = 1}^{1600000} \frac{1}{2} {| | h_{W, b} (x^{(i)}) - x^{(i)} | |}^{2} + \frac{λ}{2} Σ_{l = 1}^{n_{l}} Σ_{i = 1}^{s_{l}} Σ_{j = 1}^{s_{l} + 1} {(W_{ji}^{(l)})}^{2} + β Σ_{j = 1}^{128} KL (ρ | | {\hat{ρ}}_{j}) \end{matrix}

式(9)

其中W，b是神经网络的各层参数。λ是正则化因子，β控制稀疏惩罚因子的权重，ρ是稀疏惩罚因子，在实际中，取λ＝0.0001，β＝0.01。上式可以通过式(4)的反向传播算法求解局部最优解，取学习速率α＝0.01。输入的第一层到第二层、输出的倒数第二层到最后一层的关系满足：

h_i＝f(Wx_i+b)

x′_i＝f(W′h_i+b′) 式(10)

第二层的训练输入就是第一层的输出h_i，然后对该层的系数进行训练，依此类推，最终训练得到如图6所示的深度神经网络。第一层训练出来的特征，经过可视化之后输出的每一个节点表示的特征如图6(其中每一个小块表示每一个节点表示的特征)。这里本发明使用了9层的深度神经网络进行特征学习，每一层的节点数为64(输入层)、128、64、32、16、32、64、128、64(输出层)，在训练过程中，按照式(10)所述将自编码器训练分成64→128→64，学习得到参数W⁽¹⁾，b⁽¹⁾和W⁽⁸⁾，b⁽⁸⁾；然后将上一个自编码器的中间层输出(即128个隐藏神经元的值)作为下一个自编码器128→64→128的输入，学习得到参数W⁽²⁾，b⁽²⁾和W⁽⁷⁾，b⁽⁷⁾，接下来步骤类似。最终经过学习得到了系数W⁽¹⁾，b⁽¹⁾；W⁽²⁾，b⁽²⁾；...；W⁽⁸⁾，b⁽⁸⁾，从而建立一个和W，b相关的特征提取的函数y＝h_W，b(x)，只要根据系数W，b，就可以通过这个函数来计算出输入x的特征y：

a⁽¹⁾＝x

a⁽²⁾＝f(W⁽¹⁾a⁽¹⁾+b⁽¹⁾)

a⁽³⁾＝f(W⁽²⁾a⁽²⁾+b⁽²⁾)

a⁽⁴⁾＝f(W⁽³⁾a⁽³⁾+b⁽³⁾)

a⁽⁵⁾＝f(W⁽⁴⁾a⁽⁴⁾+b⁽⁴⁾)

y＝a⁽⁵⁾ 式(11)

特征表示：

假定已经使用(1)所描述的方法得到了各层之间的参数来进行特征的变换与表达，也就是W⁽¹⁾，b⁽¹⁾；W⁽²⁾，b⁽²⁾；W⁽³⁾，b⁽³⁾；W⁽⁴⁾，b⁽⁴⁾。使用8×8为了获取一个8×8图像块的特征，可以将这个图像块表示为64维的向量，输入图7所示的神经网络，通过式(11)计算得到能够鲁棒的表示输入图像块x的特征y＝[y₁，y₂，...，y₁₆]^T，换句话说，每一个8×8的图像块将会被有16个系数的向量y所表示。本发明对整幅图像提取特征，那么，一幅640×480的图像将会有80×60数量的块，每一个块将有16个系数来表示它。这个特征不仅反映了图像块的整体、纹理、边缘等重要信息，而且对图像块的维度降低，使数据的处理量降低。

背景减除：

得到了背景图像块的特征之后，本发明可以利用这个特征进行背景建模。这里使用PCA方法进行背景建模，具体实现如下：

假设固定某个位置的图像块以视频序列的顺序采样为记为{x⁽ⁱ⁾}_{i＝1，2，...m，}利用式(11)，分别计算得到它的特征，得到{y⁽ⁱ⁾}_{i＝1，2，...m}，其中m为训练样本数，本发明取m＝100。计算得到它的均值

μ = E {y^{(i)}}_{i = 1,2, . . . m} = \frac{1}{m} Σ_{i = 1}^{m} y^{(i)}

式(12)

及协方差矩阵

C = E {{\hat{y}}^{(i)} {\hat{y}}^{(i) T}}_{i = 1,2, . . ., m} = \frac{1}{m} Σ_{i = 1}^{m} {\hat{y}}^{(i)} {\hat{y}}^{(i) T},

式(13)

其中那么可以将协方差矩阵C进行特征值分解得到

D＝Φ^TCΦ，式(14)

则Φ的各列为矩阵C的特征向量，Φ^T为Φ的转置矩阵，对角矩阵D的对角元为C的特征值。本发明选择q＝4个最大特征值对应的特征向量构成矩阵Φ_q。当需要判断一个新的图像块的特征z是否为前景块还是背景块的时候，首先计算它与均值(12)之间的差值

\hat{z} = z - μ

式(15)

将投影到特征空间中，计算它们之间的重构距离：

d = \hat{z} - {Φ_{q}}^{T} Φ_{q} \hat{z}

式(16)

设定前景背景分离阈值为λ，那么如果d＞λ，那么图像块可以被判断为前景；反之，图像块认作背景。

该实现方案在NVIDIA 660Ti GPU上完成。对于768×576的视频序列，能够达到20-30帧每秒的处理速度，达到了实时处理的要求。

本发明成果可以直接利用在实时监控视频中的背景减除和前景提取的应用中。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种静态场景中的实时运动目标提取方法，其特征在于，包括以下步骤：

S1，从大规模数据库中离线学习图像块的结构化特征；

S3，使用这些特征对背景进行PCA方法建模，得到背景模型；

2.根据权利要求1所述的静态场景中的实时运动目标提取方法，其特征在于，所述步骤S1包括以下步骤：

在自然图像数据库中随机得到大量的图像块，图像块的大小与背景减除中的图像块大小一致；

训练一个自编码器结构的深度神经网络，用来最大程度地恢复原始图像块；

3.根据权利要求2所述的静态场景中的实时运动目标提取方法，其特征在于，所述步骤S1还包括：为了得到能够表示图像块结构的特征，在训练前将训练数据加入一定的噪声。

4.根据权利要求2所述的静态场景中的实时运动目标提取方法，其特征在于，所述步骤S1还包括：为了得到表达特征的稀疏性，在训练过程中增加系数惩罚因子。

5.根据权利要求1所述的静态场景中的实时运动目标提取方法，其特征在于，所述步骤S2具体为：使用离线特征学习得到的神经网络参数，对图像块进行编码，得到一个维度比原始图像块的维度低的特征表示。

6.根据权利要求1所述的静态场景中的实时运动目标提取方法，其特征在于，所述其中步骤S3具体为：

7.根据权利要求6所述的静态场景中的实时运动目标提取方法，其特征在于，其中所述的每一个图像块的特征数据的组成成分由特征数据的协方差矩阵的特征值分解得到的前几个特征值及其对应的特征向量构成。

8.根据权利要求6所述的静态场景中的实时运动目标提取方法，其特征在于，其中所述的每一个图像块的特征子空间由它的特征数据的组成成分构成。

9.根据权利要求1所述的静态场景中的实时运动目标提取方法，其特征在于，所述步骤S4包括以下步骤：

当得到的欧氏距离大于第一阈值时，判断该图像块不属于背景；

当得到的欧氏距离小于第一阈值时，判断为背景；

10.根据权利要求1至9任一所述的静态场景中的实时运动目标提取方法，其特征在于，所述进行背景模型的更新方法为：