CN103458261A

CN103458261A - 一种基于立体视觉的视频场景变化检测方法

Info

Publication number: CN103458261A
Application number: CN2013104053126A
Authority: CN
Inventors: 乐振春; 赵文彬; 吴玺宏; 粟俊
Original assignee: SHANGHAI ENERGYFUTURE CO Ltd; Peking University; East China Grid Co Ltd
Current assignee: SHANGHAI ENERGYFUTURE CO Ltd; Peking University; East China Grid Co Ltd
Priority date: 2013-09-08
Filing date: 2013-09-08
Publication date: 2013-12-18
Anticipated expiration: 2033-09-08
Also published as: CN103458261B

Abstract

本发明公开了一种基于立体视觉的视频场景变化检测方法，包括以下步骤：(a)在当前时刻，利用变分法通过聚焦分别恢复双目相机所获取的左眼图像和右眼图像中的场景深度信息；(b)利用双目立体匹配方法获得当前场景深度，并利用(a)得到的场景深度信息对双目立体匹配方法无法获取深度的区域进行插值；(c)将(b)得到的当前场景深度与前一时刻获得的场景深度进行比较，得到对应的场景变化。本发明计算过程收敛快速、并可减少立体视觉致密匹配方法在重复纹理区域和遮挡区域容易产生的错误。

Description

一种基于立体视觉的视频场景变化检测方法

技术领域

本发明涉及视频内容分析技术，特别是涉及一种基于立体视觉的视频场景变化的检测方法。

背景技术

检测视频场景的变化是视频监控领域中视频内容自动分析技术的一个主要内容，对于在监控环境中及时发现入侵物或异物具有重要意义。

现有的单目相机只能获得场景的二维信息，这种方式下异物目标的检测最终还是需要采用目标外观建模的方式完成，因而需要事先采集异物目标在各种情况下的图像作为异物模型的训练样本，如：不同光照条件下，不同场景下的异物等。这种方式不仅费时费力而且难以穷尽各种情况。另外，传统方法只能检测学习过的场景和目标对象，当场景或目标发生外观、姿态或光照等变化时，系统就难以准确检测到异物目标，造成漏报和误报。

为了提高检测的识别率和准确性，业内已经出现了基于双目视觉的视频场景变化检测技术。从双目相机拍摄的左眼图像和右眼图像可以获取深度信息，通过检测深度信息的变化来检测场景变化。然而，现有的获取深度信息的方法，例如立体视觉致密匹配方法，对于重复纹理区域和遮挡区域处理效果不佳，并且收敛速度较慢，不利于在实时场合下的应用。

发明内容

针对现有技术的不足，本发明的目的在于提出一种基于立体视觉的视频场景变化检测方法。该方法将基于变分法的、通过聚焦恢复深度的方法与立体视觉致密匹配方法相结合，可以得到监控场景的深度信息，并由此实现对于视频场景变化的检测。

为了实现以上发明目的，本发明采用的技术方案如下：

一种基于立体视觉的视频场景变化检测方法，包括以下步骤：

(a)在当前时刻，利用变分法通过聚焦分别恢复双目相机所获取的左眼图像和右眼图像中的场景深度信息；

(b)利用双目立体匹配方法获得当前场景深度，并用(a)中得到的场景深度信息对所述当前场景深度中遮挡部分的像素对应的深度值进行插值优化，得到优化后的当前场景深度；

(c)将(b)得到的优化后的当前场景深度与前一时刻获得的场景深度进行比较，计算深度差异，得到对应的场景变化。

本发明具有以下有益的效果：计算过程收敛快速、并可减少立体视觉致密匹配方法在重复纹理区域和遮挡区域容易产生的错误。

附图说明

图1为本发明提出的基于立体视觉的视频场景变化检测方法的整体流程示意图；

图2为基于变分法的通过聚焦恢复深度信息的方法的流程示意图；

图3为基于变分法的通过聚焦恢复深度信息的方法中使用的拉普拉斯算子示意图。

具体实施方式

以下结合附图对本发明的技术方案进行详细说明。

参见图1，本发明提出的基于立体视觉的视频场景变化检测方法包括以下三个主要步骤：

(b)利用双目立体匹配方法获得当前场景深度，并用(a)中得到的场景深度信息进行插值优化；

(c)将(b)得到的当前场景深度与前一时刻获得的场景深度进行比较，得到对应的场景变化。

对于步骤(a)，在当前的t时刻，双目相机获取监控场景的左眼图像和右眼图像。利用变分法通过聚焦分别恢复双目相机所获取的左眼图像和右眼图像中的场景深度信息。物体深度信息的一个强线索是其模糊程度，它随物体表面远离摄像机焦距而增加。连续调整摄像机成像平面到透镜的距离，图像中同一点的清晰度会随之发生变化，通过选取整个对焦过程中图像中每一点达到最大清晰度时对焦点的位置，根据镜头法则1/z_0+1/z_i=1/f，就可以计算得到该点到镜头的距离(也即深度信息)。

具体方法流程图图2所示。

首先，初始设置摄像机对焦位置为摄像机可达范围的最近点。在本特定实施例中，摄像机最近对焦点位置为1.4米。连续调整摄像机对焦位置，使摄像机对焦点距离匀速增大，并以预定帧率(例如每秒30帧)的速度采集摄像机图像。

接着，利用拉普拉斯算子计算每幅图像每个像素点的清晰度。现有方法通常使用一个区域内梯度平方的均值或者精心设计的有理多项式滤波器对图像清晰度进行评价，这些方法难以包含所有朝向的边缘响应，并且具有较高的计算复杂度。因此，本发明使用拉普拉斯算子对图像清晰度进行评价，使用的拉普拉斯算子包含所有朝向的边缘响应，并且可以利用积分图像进行快速计算，计算复杂度较低。本实施例中，使用的拉普拉斯算子核为

(\begin{matrix} 1 & 1 & 1 \\ 1 & - 8 & 1 \\ 1 & 1 & 1 \end{matrix}) .

在连续调整摄像机对焦位置的过程中，对每个像素点利用设计的拉普拉斯核进行滤波，得到每个像素点在时域上的清晰度变化曲线。如图3所示。

然后，根据所有图像的每个像素点的所述清晰度变化曲线，利用变分法估计场景深度。在得到图像中每个像素点在连续调整摄像机成像平面过程中清晰度的变化曲线后，现有技术通常通过选取整条变化曲线的最大值的位置或曲线中清晰度较高的前几个位置的平均值作为该点的准确对焦位置。这些方法速度较快但易受图像中噪声的影响，并且缺乏图像中相邻点之间深度的局部一致性约束，在此引入变分法来选取对焦点。

为了利用变分法完成对焦点的选取，需要进行以下两个假设：

1、准确的对焦点对应于最大的清晰度

2、相邻像素对应的深度是平滑的，即相邻像素的深度值不会发生剧烈变化，可根据需要设置阈值来规定平滑。

基于以上两个假设，为每个图像中的像素点选取准确的对焦点位置就等价于使以下能量公式最小

E=E_Data+αE_Smooth

其中E_Data是关于图像中每个点的清晰度的函数，每个点的对焦位置选取越准确，该点对应的清晰度越大，E_Data值越小。E_Data的计算公式如下所示：

E_{Data} = \underset{Ω}{&Integral;} F (x, y, d) dxdy

F (x, y, d) = \max_{d_{i} &Element; D} (L (x, y, d_{i})) - L (x, y, d)

其中Ω表示图像中所有像素点位置的集合，F(x，y，d)表示位置(x，y)∈Ω对焦点位置为d∈D时的模糊程度，通过计算该位置整个序列所有对焦点位置d_i∈D的最大清晰度

和对焦位置为d时的清晰度的差得到。

另外，E_Smooth项用来约束相邻像素之间的深度平滑性，

为深度图梯度的平方，描述相邻像素深度差的大小，并引入关于每个点清晰度L(x，y，d)的非线性函数g(L(x，y，d))来减弱平滑性约束对边缘部分的影响，其中ε用来调整图像清晰度L(x，y，d)对平滑性约束影响的权重，α用来调整数据项和平滑项所占的比例。

E_{Smooth} = \underset{Ω}{&Integral;} g (L (x, y, d)) {| &dtri; d |}^{2} dxdy

g (L (x, y, d)) = \frac{1}{\sqrt{1 + \frac{L (x, y, d)}{ϵ}}}

最后，上述能量公式的最小化可通过欧拉-拉格朗日方程求解完成，求解结果为每个像素点对应的对焦点的位置，即该点的深度值。

对于步骤(b)，利用双目立体匹配方法计算左眼图像和右眼图像之间的视差，从而计算左眼图像和右眼图像对应的深度图。在本实施例中，作为示例，双目立体匹配方法可以采用文献[1]所提出的方法。其中，计算每个像素p对应视差为disp时的代价S(p，disp)＝∑_rL_r(p，disp)，其中r为方向，L_r(p，disp)为像素p对应视差为disp时在方向r上的匹配代价和平滑代价之和：

L_{r} (p, disp) = C (p, disp) + \min (L_{r} (p - r, disp), L_{r} (p - r, disp - 1) +

P_{1}, L_{r} (p - r, disp + 1) + P_{1}, \min_{i} L_{r} (p - r, i) + P_{2}) - \min_{k} L_{r} (p - r, k)

，其中P₁为深度差为1时的像素间深度平滑代价，P₂为深度差大于1时的像素间深度平滑代价。C(p，disp)为像素p对应视差为disp时的匹配代价，即左眼图像中像素p邻域内像素灰度值和与右眼图像中像素p+disp邻域内像素灰度值和的差C(p，disp)＝|∑_i∈N(p)I_left(i)-∑_{j∈N(p+disp)}I_right(j)|，N(p)与N(p+disp)表示像素p和p+disp的邻域像素的集合，I_left(i)和I_right(j)分别表示左眼图像像素i和右眼图像像素j对应的灰度值。对于像素p，通过选取使S(p，disp)最小的视差disp，计算像素p对应的深度值d＝B·f/disp，其中B为两个摄像机中心的距离，f为摄像机焦距长度。

需要指出，通常的双目立体匹配方法对于图像区域中产生遮挡的部分很难获得准确的深度值，因此对于遮挡部分的像素点q，其对应的深度值可通过(a)中得到的场景深度信息进行插值得到。对于左眼图像或右眼图像中遮挡部分的像素q对应的深度值，可以实用公式

计算，其中，N为q邻域内可利用立体匹配方法计算深度的像素集合，|N|表示N中像素点的数目，d_k为N中一点k利用立体匹配方法计算得到的深度值，和

分别为(a)中利用左眼或右眼输入图像序列计算得到的深度图中像素q和k对应的深度值。

对于步骤(c)，将步骤(b)得到的当前场景深度与前一时刻(即，t-1时刻)获得的场景深度进行比较，计算深度差异，即得到对应的场景变化。

以上利用具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于立体视觉的视频场景变化检测方法，包括以下步骤：

(c)将(b)得到的优化后的当前场景深度与前一时刻的场景深度进行比较，计算深度差异，得到对应的场景变化。

2.根据权利要求1所述的基于立体视觉的视频场景变化检测步骤，步骤(a)包括以下步骤：

初始设置摄像机对焦位置为摄像机可达范围的最近点，然后连续调整摄像机对焦位置，使摄像机对焦点距离匀速增大，并以预定帧率(例如每秒30帧)的速度采集摄像机图像；

利用拉普拉斯算子计算每幅图像每个像素点的清晰度，得到每个像素点在时域上的清晰度变化曲线；

根据所有图像的每个像素点的所述清晰度变化曲线，利用变分法估计场景深度。

3.根据权利要求2所述的基于立体视觉的视频场景变化检测步骤，其中，步骤(a)使用的拉普拉斯算子核为

(\begin{matrix} 1 & 1 & 1 \\ 1 & - 8 & 1 \\ 1 & 1 & 1 \end{matrix}) .

4.根据权利要求2所述的基于立体视觉的视频场景变化检测步骤，其中，所述根据所有图像的每个像素点的所述清晰度变化曲线，利用变分法估计场景深度具体为：

为每个图像中的像素点选取准确的对焦点位置等价于使以下能量公式(1)最小化，

E=E_Data+αE_Smooth (1)

其中E_Data是关于图像中每个点的清晰度的函数，计算公式如下：

E_{Data} = \underset{Ω}{&Integral;} F (x, y, d) dxdy

F (x, y, d) = \max_{d_{i} &Element; D} (L (x, y, d_{i})) - L (x, y, d)

其中，Ω表示图像中所有像素点位置的集合，F(x，y，d)表示位置(x，y)∈Ω对焦点位置为d∈D时的模糊程度，E_Smooth为用来约束相邻像素之间的深度平滑性的项，其计算公式如下：

E_{Smooth} = \underset{Ω}{&Integral;} g (L (x, y, d)) {| &dtri; d |}^{2} dxdy

g (L (x, y, d)) = \frac{1}{\sqrt{1 + \frac{L (x, y, d)}{ϵ}}}

其中，

为深度图梯度的平方，描述相邻像素深度差的大小，g(L(x，y，d))为关于每个点清晰度L(x，y，d)的非线性函数，用来减弱平滑性约束对边缘部分的影响，其中ε用来调整图像清晰度L(x，y，d)对平滑性约束影响的权重，a用来调整数据项和平滑项所占的比例；

通过欧拉-拉格朗日方程求解所述能量公式(1)的最小化，求解结果为每个像素点对应的对焦点的位置，即该点的深度值。

5.根据权利要求1所述的基于立体视觉的视频场景变化检测步骤，所述步骤(b)包括：

对于左眼图像或右眼图像中遮挡部分的像素点q，其对应的深度值

d_{q} = \frac{1}{| N |} Σ_{k &Element; N} (d_{k} * \frac{\tilde{d_{q}}}{\tilde{d_{k}}})

其中，N为q邻域内利用所述双目立体匹配方法计算得到的深度的像素集合，|N|表示N中像素点的数目，d_k为N中一点k利用所述双目立体匹配方法计算得到的深度值，

和

分别为步骤(a)中利用相应的左眼图像或右眼图像序列计算得到的深度图中像素q和k对应的深度值。