CN107240123B

CN107240123B - 一种用于背景建模的训练图像序列的收敛方法

Info

Publication number: CN107240123B
Application number: CN201710380582.4A
Authority: CN
Inventors: 袁志勇; 张贵安; 童倩倩; 袁田琛
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2017-05-25
Filing date: 2017-05-25
Publication date: 2019-07-09
Anticipated expiration: 2037-05-25
Also published as: CN107240123A

Abstract

本发明公开了一种用于背景建模的训练图像序列的收敛方法，首先找出训练数据中的所有唯一数据并剔除一次，得到经过去噪的训练数据。然后每次从去噪训练数据的开头以长度为1，2，…，N得到N个子序列并分别求解方差；设置滑动窗口起始位置为方差序列的起始数据，每计算完窗口中方差子序列的方差后便将窗口向右滑动一次。最后得到双重方差序列，双重方差序列便是以一个“归一化”的标准来判断数据序列的收敛性。该方法以数字特征—方差为基础，从数据本身的特性出发，以一个简单易行的方式得到数据序列的收敛点，提高了背景模型在训练时的效率；同时采用灰度值个数减一的方法对训练数据进行去噪，提高了训练数据的质量，从而保证了模型的准确性。

Description

一种用于背景建模的训练图像序列的收敛方法

技术领域

本发明属于计算机视觉技术领域，尤其涉及一种运用于训练背景模型时的训练数据的收敛方法。

背景技术

在计算机视觉领域，背景建模主要用于对前景目标的检测与识别，更进一步地可对检测的目标进行一些高级操作，如姿态判断、动作分析等。因此，背景模型的建立作为首要任务，其准确性对后续的应用起到至关重要的作用。从灵长类动物对目标(即前景)的理解来看，不同于背景且具有可移动性的对象，如动物、交通工具、短暂停留的物体等，都可以理解为前景。帧差法(differencing of adjacent frames)作为最初的背景模型是由RAMESH JAIN和H.-H.NAGEL(文献1)提出的，根据对前景的理解，对于在静态场景中检测运动目标会有效果，但是如果背景中存在动态物体的话，该方法将不能适应，因为该模型没有获取到背景在时间轴上的演变属性。在现实场景中，尤其在室外，动态的背景对象如风中摇摆的树木、荡漾的水面、摆动的旗帜、喷泉和电梯等，都不是一帧图像可以刻画和描述的，而是需要对连续多帧图像的学习来实现对背景的“理解”，即对模型参数的学习。根据模型的不同，需要求解的参数也各不相同。

统计学方法以对象的发生数据为基础，在研究对象的不确定性(uncertainty)方面具有优势，目前主要分为有参估计和无参估计。单高斯模型的代表Pfinder(文献2)是Christopher Wren等人提出的有参模型，在背景学习时通过将一段相对较长的“空背景(empty background)”视频帧作为数据源来学习模型关于每个像素的颜色属性，如方差等。在此基础上，对其扩展的混合高斯模型(MoG)得到众多科研人员的青睐和长足的发展，最近的归一化区域混合高斯模型(regularized region MoG,RRMoG)(文献3)通过引入一个动量项(momentum term)来加快RRMoG的收敛速度，并证明该速率为O(1/k²)，因此提高了算法的性能。然而，该方法假定了一些局限性条件，如估计函数含有一个Lipschitz连续梯度，且具有光滑、可凸和可微属性等，这在面对现实场景中的数据时有些不具可操作性。AhmedElgammal等人提出的无参估计模型(文献4)在处理复杂场景如杂乱的树林、波动的物体等时，可以不用关心参数问题，并具有很高的灵敏度。在此基础上，Pierre-Luc St-Charles等人(文献5)通过引入时空信息和LBSP(local binary similarity pattern)特征来增加模型的鲁棒性，并使用循环反馈的方式来更新模型的参数，从而使得模型具有更高的适应性。这些方法都取得了不错的结果，但是，在模型训练时，它们都是简单地采用最近的一段长度为N的背景数据作为训练数据，基于这样的一种假设：只有最近的信息才会对当前产生影响，过去的信息不会产生影响。这其中忽略了一个问题：最近的信息有可能存在重复，即模型训练有可能不需要N个数据，因此存在着效率问题；同时，忽略了噪声在模型训练时的影响。

相关文献：

【文献1】R.Jain and H.Nagel,“On the Analysis of Accumulative DifferencePictures from Image Sequences of Real World Scenes”,IEEE Trans.PatternAnalysis and Machine Intelligence,1979.

【文献2】C.Wren,A.Azarbayejani,T.Darrel,and A.Pentland,“Pfinder:RealTime Tracking of the Human Body”,IEEE Trans.Pattern Analysis and MachineIntelligence,1997.

【文献3】Varadarajan,Sriram,et al.“Fast convergence of regularizedRegion-based Mixture of Gaussians for dynamic background modelling”,ComputerVision and Image Understanding 136(2015):45-58.

【文献4】Elgammal,Ahmed,David Harwood,and Larry Davis.“Non-parametricmodel for background subtraction”,Computer Vision—ECCV 2000(2000):751-767.

【文献5】St-Charles,Pierre-Luc,Guillaume-Alexandre Bilodeau,and RobertBergevin.“Subsense:A universal change detection method with local adaptivesensitivity”,IEEE Transactions on Image Processing 24.1(2015):359-373.

发明内容

针对以往背景模型在训练时没有考虑训练数据的个数而产生的效率问题。本发明以统计学中关于随机变量的数字特征为理论基础，以实际发生的数据为数据基础，提出了一种用于判断一个位置上的灰度值在多长时间内达到收敛状态的方法—双重方差法(bivariation)；同时为了避免噪声的干扰，提出了一种简单且有效地去除噪声的方法。

本发明所采用的技术方案是：一种用于背景建模的训练图像序列的收敛方法，其特征在于，包括以下步骤：

步骤1：获取场景位置P在时间T内的灰度值信息，设为序列S_origin＝{x_i；i＝1…T}，其中x_i表示i时刻该位置的灰度值；

步骤2：按照灰度值大小排序并剔除重复的值，得到灰度值序列S_intensity(length(S_intensity)≤length(S_origin))，其中length(S_intensity)表示排序后序列S_intensity的长度，length(S_origin)表示原始序列S_origin的长度；

步骤3：每次都从S_origin的第一个位置开始搜索每一个S_intensity中的元素第一次出现的位置并删除，得到去噪后的序列S_new，长度为T_new；

步骤4：对去噪后的序列S_new，计算方差序列V：{v_k；v_k＝std(x₁…x_k),k＝1…T_new}，其中std(x₁…x_k)表示标准差；

步骤5：设置滑动窗口，长度为L_win；

步骤6：计算方差序列W：

步骤7：判断收敛；

当方差w_j连续cnt次低于预设值ε时，则序列W在j-L_win+1处开始收敛。

与现有技术相比，本发明具有以下的创新与优势：

本发明提出了一种双重方差法来计算训练数据的收敛性，依据设置的阈值(cnt和ε)获得最佳的收敛点，从而减少重复训练数据参与模型的训练，提高了训练效率。本发明提出的灰度值个数减一法可以有效地去除噪声的干扰，提高了训练数据的质量，从而保证了最后获得的模型的准确性。

附图说明

图1是本发明实施例的流程图；

图2是本发明实施例中在一个背景模型数据集中随机选取的两个位置的灰度值分布的示意图；

图3是图2中两个位置灰度值的方差的结果图；

图4是图2中两个位置灰度值的双重方差的结果图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种用于背景建模的训练图像序列的收敛方法，包括以下步骤：

步骤1：获取每个位置的每个通道在时间T内(针对不同的背景数据集，通常都会有一个默认的训练长度)的灰度值信息，由于针对每个通道的处理方式一样，即以位置P的一个通道为例，记灰度序列为：

S_origin＝{x_i；i＝1…T} (1)；

其中x_i表示i时刻该位置的灰度值；

步骤2：根据灰度值大小对其进行排序，得到如x'₁₁,x'₁₂,x'₂₁,x'₂₂,x'₂₃,...,x'_T6序列，其中，每个灰度值下标的第一个数字表示灰度值标签，第二个数字表示相同灰度值的时间顺序。如x'_T6则表示有6个相同的灰度值x'_T。提取灰度值序列：

S_intensity＝{x_i'；i'＝1…T',T'≤T} (2)；

即序列x'₁₁,x'₂₁,...,x'_T1。

步骤3：去噪方法，即灰度值个数减一法；

对S_intensity中的每一个元素x_i'，从头遍历S_origin，将第一次遇到的x_i'从S_origin中删除并结束此次遍历，直到S_intensity中的所有元素都访问完毕。记去噪后的序列为：

S_new＝{x_k；k＝1…T_new，T_new＝T-T'} (3)；

步骤4：对去噪后的序列S_new进行方差求解；

首先，每次从S_new的第一个元素开始，分别以长度为1，2，…，T_new形成T_new个子序列然后对S_{new_subs}求取方差V：

{v_k；v_k＝std(x₁…x_k),k＝1…T_new} (4)；

其中std(x₁…x_k)表示标准差；

步骤5：为了发现数据的规律性(这里主要是收敛性)，并以一个统一的标准来判断收敛点，采用滑动窗口的方式在V上滑动求取方差，设置窗口长度为L_win；

步骤6：对方差序列V进行方差求解，首先，从V的第一个元素开始，以L_win为固定长度，依次向方差序列V的右侧移动，直到位置为T_new-L_win+1，此时得到最后一个子序列，其末尾元素为最后，得到方差子序列然后对V_subs求取方差W，即双重方差：

步骤7：通过双重方差的求解，将收敛的判断标准统一为0，即达到0时可以认为序列已经收敛。但是现实中很少有这样标准的数据，因此，将判断标准设置为一个很小的正常数ε。同时，为了保证收敛的稳定性，设置收敛次数cnt，即达到cnt次收敛时即可认为序列已经稳定，且此时的收敛点为j-L_win+1。

以下通过实验验证本发明方法的准确性和高效性。

通过在公开数据集ChangeDetection.net(N.Goyette,P.-M.Jodoin,F.Porikli,J.Konrad,and P.Ishwar,changedetection.net:A new change detection benchmarkdataset,in Proc.IEEE Workshop on Change Detection(CDW-2012)at CVPR-2012,Providence,RI,16-21 Jun.,2012)上选取一个分类Shadow下的busStation视频序列，随机选取两个位置p₁(217，332)和p₂(15，52)为例，其灰度值的分布如图2所示。从图中可以看出，这两个位置的灰度分布呈现出一定的规律性，如p₁是在47上下以幅度2左右进行震动，p₂是在54上下以幅度4左右进行震动。因此，可以利用方差来发现其中的规律。它们的方差如图3所示。经过一段时间的波动，p₁大约在50帧处开始趋于平稳，方差约为0.95，p₂大约在60帧处开始稳定，方差大约为3.9。从此处可以看出一个问题，即对于多个数据序列，没有统一的标准来判断其是否稳定，或收敛。因此，双重方差的目的就是让有规律变化但偏离程度不同的随机变量可以以统一的标准(接近0的一个正常数ε)收敛。图4展示的是p₁和p₂的双重方差。如果设定阈值ε为0.04的话，则这两点的收敛位置分别大约为30帧和60帧处。如果设置为其他值，则收敛的位置随之而变。ε值越大，包容性则强，序列收敛的早；ε值越小，则显得越苛刻，序列收敛的晚。

综上所述，本发明通过定义并求解随机变量的双重方差来“归一化”其收敛标准，即让有规律变化但偏离程度不同的随机变量可以以统一的标准判断其收敛，该方法有效地避免了“重复”训练数据的运算，提高了模型的效率；并且在求解过程中先对训练数据进行了去噪处理，该方法简单有效，提高了数据的质量，从而保证了模型的准确性。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种用于背景建模的训练图像序列的收敛方法，其特征在于，包括以下步骤：

步骤5：设置滑动窗口，长度为L_win；

步骤6：计算方差序列W：

步骤7：判断收敛；

2.根据权利要求1所述的用于背景建模的训练图像序列的收敛方法，其特征在于：步骤7中，当收敛次数达到预设值cnt时，则序列稳定，此时的收敛点为j-L_win+1。