CN107230221A

CN107230221A - 一种基于卷积神经网络自适应背景建模物体检测方法

Info

Publication number: CN107230221A
Application number: CN201710379934.4A
Authority: CN
Inventors: 黄靖; 孙毅; 姜文; 周高景
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2017-05-25
Filing date: 2017-05-25
Publication date: 2017-10-03
Anticipated expiration: 2037-05-25
Also published as: CN107230221B

Abstract

本发明公开了一种基于卷积神经网络自适应背景建模物体检测方法。本发明对现有的基于区域块背景建模方法做出了以下两点改进。第一点针对现有的基于区域块背景建模方法以离散余弦变换系数描述作为区域特性表示方面的不足，提出一种基于卷积神经网络区域特征提取的方法，来改善其特征表示能力。第二点提出了一种边缘区域中心像素类型判断方法，通过考虑边缘区域中心像素与其临近像素的关系判断中心像素是前景像素还是背景像素类型。本发明结合了相应实验验证了，相比已有的基于区域块背景建模方法，本方法提出的两种改进能够带来更好的效果。

Description

一种基于卷积神经网络自适应背景建模物体检测方法

技术领域

本发明属于背景建模技术领域，涉及一种基于区域块的背景建模物体检测方法，具体涉及一种基于卷积神经网络自适应背景建模物体检测方法。

背景技术

在背景建模技术领域，基于区域块的背景建模方法流程一般主要分为两部分：(1)将每一帧图像划分成若干个区域块(小的样本区域)；(2)在区域块的级别上建立背景模型(这样的方法可以有效利用图像的上下文信息)。

在基于区域块的背景建模方法研究中，H.Grabner提出了针对每一个背景区域块，利用在线学习的优势训练一系列相同的分类器，而分类器中置信度低的样本区域块被判断为前景。M.Seki提出了出一种基于图像在空间上变化一致的背景建模方法，认为相邻区域块之间的变化有很强的相关性；方法在不要求背景图像在时间上连续的前提下，动态缩小每个输入图像背景的变化范围，提高算法的检测率。Reddy V提出一种基于概率决策级联分类器的前景检测方法，该方法获取样本区域的DCT系数作为区域的特征表示，在此特征上建立一个单高斯背景模型，最后通过多个概率决策级联分类器确定该区域的类型。

针对以上的研究现状，目前基于区域块的背景建模方法存在的问题是：

(1)基于区域块的方法在区域的特征提取方面不够完善；

(2)没有详细对区域块内的中心像素进行分析，在检测率和正确率方面并没有到达很好的结果。

发明内容

为了解决上述技术问题，本发明提供了一种基于卷积神经网络自适应背景建模物体检测方法。

本发明所采用的技术方案是：一种基于卷积神经网络自适应背景建模物体检测方法，其特征在于，包括以下步骤：

步骤1：利用第一帧图像初始化混合高斯背景模型；

步骤2：读取视频中图像序列，获取当前视频帧；

步骤3：将视频帧划分为若干区域；

步骤4：将各区域块送入到自编码卷积神经网络中获取对应的卷积特征；

步骤5：对得到的卷积特征进行池化操作，得到图像最后的特征表示；

步骤6：利用自适应区域判断法判断区域类型；

若区域类型为背景区域，则标记区域中心像素为背景像素，更新该中心像素对应的混合高斯背景模型中的各个高斯模型参数；并执行下述步骤7；

若区域类型为前景区域，则标记区域中心像素为前景像素，添加新的高斯背景模型到混合高斯背景模型中，并执行下述步骤7；

若区域类型为边缘区域，则利用边缘区域中心像素判断法进行判断，若属于背景像素，则标记为背景像素；若属于前景像素，则标记为前景像素；并执行下述步骤7；

步骤7：通过各像素的判断结果，得到视频帧中的运动目标检测结果。

本发明相比已有基于区域块的背景建模方法的不足做出以下改进：

(1)针对已有基于区域块背景建模方法中以离散余弦变换(DCT)系数描述作为区域特性表示方面的不足，提出一种基于卷积神经网络(CNN)区域特征提取的方法；并用区域块经过卷积神经网络提取得到的卷积特征对各个区域建立相对应的混合高斯背景模型，实现连续视频帧中的运动目标检测；

(2)针对现有的基于区域块背景建模方法中以区域类型武断地判断区域中心像素类型的不足，提出一种基于区域变化速率的自适应区域类型判断方法，利用自适应区域类型判断方法检测出边缘区域之后，结合边缘区域中心像素与其临近像素的关系，提出一种边缘区域中心像素类型的判断方法。

附图说明

图1为本发明实施例的流程图；

图2为本发明实施例的基于卷积神经网络的区域特征表示示意图；

图3为本发明实施例的两种特征的结果对比示意图，从左到右分别是原图、groundtruth、DCT结果、本发明的卷积特征结果示意图；

图4为本发明实施例的三种区域类型示意图，从左到右分别是背景区域、边缘区域和前景区域示意图；

图5为本发明实施例的数据集Li上的实验结果示意图，从上到下分别是针对不同场景下的数据处理示意图，从左到右分别是原图、ground truth和本发明采用的方法处理得到的结果示意图；

图6为本发明实施例的CDNet2014数据集上的实验结果示意图，从上到下的视频序列分别是backdoor、dining room、highway、street light、turnpike-0.5fps，从左到右分别是原始图像，RMOG方法的结果，第三列为本发明方法的结果；

图7为本发明实施例的自有数据集上的实验效果示意图，从左到右分别是原图、MOG方法的实验结果、本发明方法的实验结果。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于卷积神经网络自适应背景建模物体检测方法，包括以下步骤：

步骤1：利用第一帧图像初始化混合高斯背景模型；

混合高斯模型可以看做是一种利用多个高斯分布来表示的一种函数，这个函数的输入是卷积神经网络提取的中心像素周围的区域得到的特征，函数的输出是判断该像素是属于前景区域还是背景区域还是边缘区域的概率；下面是对混合高斯背景模型的概念介绍：

混合高斯模型概念介绍：

混合高斯模型是由多个高斯背景模型组成的一个函数，而高斯背景模型其含义就是一个正态分布通过设置一个定值q，判断输入特征值X>q时属于A类别，X<q时属于B类别，根据正态分布概率公式可以知道X>q时的概率，即高斯背景模型就是一个概率函数，它的输入是特征值，输出时该特征值所对应的类别的概率。

多个高斯模型意思就是，输入特征值到多个参数不同的高斯模型(如均值参数、方差参数不同)，每个高斯函数都会对该输入特征值输出一个对应的所属类型以及其概率。例如混合高斯模型由三个高斯模型组成，这三个高斯模型分别输出，前景(类型)-0.9(概率)、前景(类型)-0.3(概率)、前景(类型)-0.7(概率)。根据输出的概率乘以各个高斯模型相应的权重即可得到混合高斯模型对该特征的所属类型判断概率。例如三个高斯模型权重分别为0.5、0.3、0.2则可得到该特征值对应的前景概率为：

0.5*0.9+0.3*0.3+0.2*0.7＝0.68；

使用第一帧图像初始化混合高斯模型方式介绍：

在输入各个像素所对应的区域块到卷积神经网络中后，卷积神经网络提取各个区域特征，各个区域的特征表示为：

其中，参数“t”表示视频中第t帧图像，用“F_t”表示视频中第t帧图像中所有经过划分的图像块的特征表示；表示第t帧图像中第i行第j列像素对应的图像区域块的特征表示：

其中参数表示第t帧图像中第i行第j列像素对应的图像区域块，将该图像区域块送到设计好的卷积神经网络中进行特征提取操作即“cnn()”，获得其对应特征表示并在此基础上建立对应的混合高斯背景模型。令图像区域块所对应的混合高斯背景模型为：

其中，参数“t”表示视频中第t帧图像，表示由n个高斯模型组成的混合高斯模型，用于判断第t帧图像中第i行第j列像素所对应的是哪一个区域；表示对应第t帧图像中第i行第j列像素的单个高斯模型中均值；表示对应第t帧图像中第i行第j列像素单个高斯模型的方差；表示对应第t帧图像中第i行第j列像素单个高斯模型的权重；n表示建立的单个高斯模型个数，一般取3-5个。

例如，对于第一帧图像I_t的单独的区域对应的背景模型由以下方式进行初始化：

上式中除了“I”的所有参数前面都已介绍，“I”是指当前第一帧图像数据的像素值。这三个式子表达了统一对所有的单高斯模型进行相同的初始化，均值、方差以及权重全部相同。表示用区域的特征表示作为高斯模型的均值中表示高斯模型的标准差，初始化为一个固定的值，I表示对应维度的单位矩阵。表示所有高斯模型的权重都为1/n。建立每个图像区域的背景模型后，就可以从第二帧开始进行前景检测和模型更新。

对于第t时刻图像I_t的每个区域首先根据计算区域特征为接着利用建立的混合高斯模型判断该区域属于背景区域，属于前景区域。若该区域属于背景，则令该区域的中心像素为背景像素，并以当前区域的特征更新对应的背景模型。若该区域为前景区域，则令该区域的中心像素为前景像素，并把当前区域的特征添加到高斯模型中。利用建立好的混合高斯背景模型，可以计算出出当前图像区域块的特征属于背景模型的概率，也就是特征属于区域对应背景模型的概率为：

表示高斯概率密度函数：

步骤2：读取视频中图像序列，获取当前视频帧；

步骤3：将视频帧划分为若干区域；

步骤6：利用自适应区域判断法判断区域类型；

若区域类型为背景区域，则标记区域中心像素为背景像素，更新该中心像素对应的混合高斯背景模型中的各个高斯模型参数；并执行下述步骤7；(混合高斯背景模型，实验中每个区域对应一个混合高斯背景模型，每个混合高斯模型对应三到五个高斯模型)

更新该中心像素对应的混合高斯背景模型中的各个高斯模型参数，以下详细介绍具体更新过程：对于第t时刻图像I_t的每个区域首先根据式(2-4)计算区域特征为接着利用建立的混合高斯模型判断该区域属于背景区域，属于前景区域。若该区域属于背景，则令该区域的中心像素为背景像素，并以当前区域的特征更新对应的背景模型。若该区域为前景区域，则令该区域的中心像素为前景像素，并把当前区域的特征添加到高斯模型中。利用建立好的混合高斯背景模型，可以计算出出当前图像区域块的特征属于背景模型的概率，也就是特征属于区域对应背景模型的概率为：

上式中参数前面都有介绍，表示高斯概率密度函数：

其中D表示特征的维数，是一个列向量。由于建立的背景模型包含多个高斯分布函数，在进行前景检测的过程中需要逐个对比特征与各个模型之间的差异，如果这个差异符合条件，就认为该特征落在该高斯分布内。如果这个差异过大，则认为该特征不落在该高斯分布内。具体判断的条件为：

其中ε是一个固定的值，表示特征相对于均值变化是否在标准差的ε个倍数内。若有多个高斯分布满足式(2-11)的条件，需要从中找到最接近的高斯分布，评价方法为：

要求寻找到与最接近的高斯分布模型，并更新该模型对应的参数。具体参数的更新方法为：

上面学习速率α表示模型对外界新变化的学习速度快慢，若α过小，则需要经过很多帧才会认为该变化属于背景模型；若α过大，仅仅需要几帧就会认为该变化属于背景模型；因根据背景的特性，选择合适大小的学习速率α。学习速率ρ表示参数学习的速度，可以直接计算得到，对应高斯模型色权值越小，参数的学习速度越快。

本发明主要包括卷积神经网络的特征提取方法、自适应区域判断两个方面的内容。

(1)基于卷积神经网络的区域特征提取方法；

与已有基于区域块背景建模方法中以离散余弦变换(DCT)系数描述提取区域特征不同，本发明采用基于卷积神经网络的区域特征提取方法，该卷积神经网络是以自编码神经网络以及卷积池化操作为基础而建立的模型。整个模型对自编码神经网络提取的特征进行一次卷积操作和一次池化操作，最后得到区域的特征表示。具体来说将分辨率为M*N大小的图像区域划分成若干个areasize*areasize小的区域，把这些小的区域送到自编码神经网络中，就可以获得图像区域的卷积特征。然后对得到的卷积特征进行池化操作就可以得到图像最后的特征表示，下面分别针对卷积神经网络所涉及到的自编码神经网络的参数训练以及最后的区域特征表示两个方面，来描述区域特征提取的具体步骤。

对areasize*areasize大小图像区域提取区域特征之前，需要训练好自编码神经网络的参数，自编码神经网络输入大小与所选择的卷积大小是一致的。

areasize*areasize为算法涉及到的卷积神经网络输入区域大小，采用卷积大小为convolvedsize*convolvedsize，池化大小为pooledsize*pooledsize。

本发明采用无监督的学习方法进行自编码神经网络的训练，不要求有标签的样本数据。仅需要给出满足要求的训练样本，即可以训练好对应的各个参数。对于每个目标视频，可以按固定间隔取出若干帧图像。对于每张取出的图像，从中按取出若干个大小为convolvedsize*convolvedsize的不重叠图像样本块。以取出的若干个大小为convolvedsize*convolvedsize的图像样本块作为训练样本，既可以训练好网络的参数。假如目标视频有N帧，为了避免相邻帧之间区域的重复性，可以每隔k帧(k取值视具体情况而定，只要最后能取得足够的样本数量即可)取一张图像作为训练样本来源。假如目标视频有1200帧，则每隔10帧取一张图像，一共取120张图像。每一张图像划分为若干个convolvedsize*convolvedsize大小的不重叠区域作为训练样本，假如图像大小为M*N，则可以划分为[N/aeasize]*[M/aeasize]个convolvedsize*convolvedsize大小的图像样本块。通过获取的样本，利用反向转播算法训练好自编码神经网络的参数之后，就可以进行区域的特征提取。利用训练好的模型，把areasize*areasize大小的区域块送到卷积神经网络中，既可以得到其对应的特征表示。如图2所示，假定输入图像块大小为9*9,所采用卷积大小为4*4，池化大小为3*3，那么结合自编码神经网络进行卷积操作后的卷积特征大小为6*6。然后对得到的卷积特征作池化操作，得到的池化特征大小为2*2，令自编码神经网络中隐藏神经元的个数为63，则最后的区域块特征维数为63*2*2*252。

对图像区域块的特征提取进行更一般的表述，设自编码神经网络隐藏层的节点个数为hiddensize，输入图像区域块经过卷积之后的特征大小为(areasize*convolvedsize*1)*(areasize*convolvedsize*1)，经过池化后特征大小为((areasize*convolvedsize*1)/pooledsize)*((areasize*convolvedsize*1)/pooledsize)。由于最后的池化特征大小必须是整数，所以要求卷积之后的尺寸(areasize*convolvedsize*1)是池化大小pooledsize的整数倍。

针对所要处理的视频中的每张分辨率大小为M*N的图片数据，进行扩展之后的大小为(M+2*[areasize/2])*(N+2*[areasize/2])，因此原图中每个像素都对应一个areasize*areasize大小的区域块。经过扩展之后的图像划分为若干个区域块为：

上式中A_t表示视频中第t张图片所有经过划分的图像块，表示图片中第i行第j列像素所对应的区域块，其大小为areasize*areasize。得到图像的各个区域块之后，将每个areasize*areasize大小的图像区域块送入卷积神经网络得到所对应的区域特征表示。对应各个区域的特征表示为：

上式中，F_t表示图像中所有经过划分的图像块的特征表示；表示图像中第i行第j列像素对应的图像区域块的特征表示：

将图像区域块送到设计好的自编码卷积神经网络中，获得其对应特征表示在此基础上建立对应的混合高斯背景模型；令图像区域块所对应的混合高斯背景模型为：

上式中表示由n个高斯模型组成的混合高斯模型公式；

使用本发明所采用的卷积神经网络提取得到的图片中各个区域的特征代入到该公式随后进行一般的混合高斯背景建模流程操作。混合高斯背景建模基于对图片进行卷积神经网络提取得到的特征判断图片中属于背景像素的部分，或者为前景像素。至此达到通过基于卷积神经网络进行图片特征提取，将特征输入混合高斯模型中进行背景建模的目的；

不同于已有的基于DCT系数的区域块特征描述方法，本发明采用区域卷积特征建立混合高斯背景模型。下面给出相关实验结果的对比分析，如图3所示。

(2)自适应区域判断方法判断区域类型；

接着上一步通过卷积神经网络提取图片区域块特征进行混合高斯背景建模操作，由于混合高斯背景建模对区域所代表的像素判断为前景区域或背景区域时会存在一些难以分辨的情况，即该区域中既有前景像素又有背景像素时我们称之为边缘区域，如下图4所示，左边的图中，前景像素的个数较小，所占的比例在1/3左右；中间的图中，前景像素的个数适中，所占的比例在1/2左右；右边的图中，前景像素的个数较多，所占的比例在2/3左右。对于第一种情况，对该区域进行卷积神经网络特征提取、混合高斯建模判定其为背景区域，该区域所对应的中心像素是背景像素。对于第二种情况，本发明认为该区域为边缘区域，所对应的中心像素的类型需要通过自适应区域判断方法判断区域类型才能得到，这也是本发明做出的第二点创新。对于第三种情况，对该区域进行卷积神经网络特征提取、混合高斯建模判定其为前景区域，该区域所对应的中心像素是前景像素。针对边缘区域情况我们提出一种自适应区域判断方法判断区域类型来判断边缘区域所对应的像素是属于背景还是前景；

对边缘区域的中心像素进行额外的判断，主要结合基于中心像素在区域中的相邻像素的类型，能够较好确定中心像素的类型。下面详细介绍利用相邻像素间的关系判断边缘区域对应中心像素类型的方法。具体说来，获取待处理区域ai，j中心像素pi，j，以该像素为中心，在原图中取大小为m*m的区域作为模板区域。获取中心像素p_i,j对应模板区域内的各个像素，并把模板区域内的各像素划分成两类：

上式表示区域内各像素值与中心像素值是否接近，η是判断两像素值之间是否接近的一个阈值(是一个可调节变量)。如果两个像素值p_i,j和p_x,y之间的差异小于η，则认为两个像素是相似的，记为close(p_i,j,p_x,y)＝1；反之则记为

close(p_i,j,p_x,y)＝0；

对模板区域内各个像素与中心像素关系判断完成后，获得与中心像素值接近的像素总数：

基于以上规则计算区域内与中心像素相似的像素数量计算，获取相似像素值的个数之后，在相近像素值中判断属于背景像素的个数：

p_x,y表示该像素属于背景像素类型，由此得到区域中与中心像素相似的像素中，属于背景像素的个数；然后通过以下式子比较b和s判断中心像素属于背景或前景：

上式表示判断模板区域内相近像素中是否超过一半的像素为背景像素，超过一半则认为像素p_i,j属于背景像素，不超过一半则认为像素p_i,j属于前景像素。

为了验证本发明的有效性，在两个公共数据集以及一个自有数据集上进行测试，分别包括Li、CDNet2014和Yangtze-boat数据集。三个数据集中都提供若干组视频序列，视频序列分别涉及背景建模现在所面临的各种挑战性问题，例如光照变化、动态背景、阴影等。由于篇幅限制，这里列举了本发明与其他方法在公有数据集中的一部分对比结果进行展示，在定量的对比分析时，用公认的F-score作为评价标准，来衡量算法的优劣。在公共数据集Li上，将数据集的正确标注groundtruth与本发明的方法处理数据集所得的结果进行比较，选取了以下光照变化问题的视频序列ws、涉及移动窗帘动态背景问题的视频序列mr、涉及阴影问题的视频序列ft、涉及摇晃树叶动态背景问题的视频序列cam上的对比结果，对相关的实验结果给出定性和定量的分析如图5和表1所示。在公共数据集CDNet2014上，利用数据集官网上给出的RMOG方法的实验结果，与本发明的方法进行定性的对比分析，如图6所示，第一列为原始图像，第二列为RMOG方法的结果，第三列为本发明方法的结果。相对于RMOG方法的实验结果，本发明的方法成功检测出前景的大部分像素，取得较好的实验效果。在自有数据集Yangtze-boat上，如图7所示，本发明所采用方法与传统的MOG方法进行定性对比分析。由于MOG方法对单独像素的变化十分敏感，由此造成水面上的错误前景像素点较多。而本发明的方法对单个区域块的变化十分敏感，这样可以充分把像素空间上的特性考虑在内。例如第二和第三组视频中，对于单个像素变化不大的船身，MOG方法无法检测出类似的像素点，使之被错误检测为背景像素，而本发明的方法能正确把类似像素成功检测为前景像素点。在Yangtze-boat数据集中三组视频数据上，与MOG方法的实验结果对比，可以发现本发明的方法在前景检测方面取得较好的实验结果。

表1 F-score标准下各种方法的定量对比分析

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于卷积神经网络自适应背景建模物体检测方法，其特征在于，包括以下步骤：

步骤1：利用第一帧图像初始化混合高斯背景模型；

步骤2：读取视频中图像序列，获取当前视频帧；

步骤3：将视频帧划分为若干区域；

步骤6：利用自适应区域判断法判断区域类型；

2.根据权利要求1所述的基于卷积神经网络自适应背景建模物体检测方法，其特征在于：步骤3中，将分辨率为M*N大小的视频帧划分成若干个areasize*areasize小的区域。

3.根据权利要求1所述的基于卷积神经网络自适应背景建模物体检测方法，其特征在于：步骤4中，在各区域块送到自编码卷积神经网络中之前，需要训练好自编码卷积神经网络的参数，自编码卷积神经网络输入大小与所选择的卷积大小是一致的；areasize*areasize为自编码卷积神经网络输入区域大小，采用卷积大小为convolvedsize*convolvedsize，池化大小为pooledsize*pooledsize。

4.根据权利要求3所述的基于卷积神经网络自适应背景建模物体检测方法，其特征在于：采用无监督学习方法进行自编码卷积神经网络的参数训练，具体实现过程是对于取出的图像集，从中取出若干个大小为convolvedsize*convolvedsize的不重叠图像样本块作为训练样本，既可训练好网络的参数。

5.根据权利要求4所述的基于卷积神经网络自适应背景建模物体检测方法，其特征在于：所述图像集，假如目标视频有N帧，每隔k帧取一张图像作为训练样本来源，组成图像集。

6.根据权利要求3所述的基于卷积神经网络自适应背景建模物体检测方法，其特征在于，步骤5的具体实现包括以下子步骤：

步骤5.1：设自编码神经网络隐藏层的节点个数为hiddensize，输入图像区域块经过卷积之后的特征大小为(areasize*convolvedsize*1)*(areasize*convolvedsize*1)，经过池化后特征大小为((areasize*convolvedsize*1)/pooledsize)*((areasize*convolvedsize*1)/pooledsize)；由于最后的池化特征大小必须是整数，所以要求卷积之后的尺寸(areasize*convolvedsize*1)是池化大小pooledsize的整数倍；

步骤5.2：扩展所要处理的分辨率为M*N大小的视频帧，进行扩展之后的大小为(M+2*[areasize/2])*(N+2*[areasize/2])，因此原图中每个像素都对应一个areasize*areasize大小的区域块；经过扩展之后的图像划分为若干个区域块为：

<mrow> <msub> <mi>A</mi> <mi>t</mi> </msub> <mo>=</mo> <mo>{</mo> <msubsup> <mi>a</mi> <mrow> <mn>1</mn> <mo>,</mo> <mn>1</mn> </mrow> <mi>t</mi> </msubsup> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msubsup> <mi>a</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mi>t</mi> </msubsup> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msubsup> <mi>a</mi> <mrow> <mi>M</mi> <mo>,</mo> <mi>N</mi> </mrow> <mi>t</mi> </msubsup> <mo>}</mo> <mo>;</mo> </mrow> 1

上式中A_t表示视频中第t张图片所有经过划分的图像块，表示图片中第i行第j列像素所对应的区域块，其大小为areasize*areasize；

步骤5.3：得到图像的各个区域块之后，将每个areasize*areasize大小的图像区域块送入自编码卷积神经网络得到所对应的区域特征表示；对应各个区域的特征表示为：

步骤5.4：将图像区域块送到设计好的自编码卷积神经网络中，获得其对应特征表示在此基础上建立对应的混合高斯背景模型；令图像区域块所对应的混合高斯背景模型为：

<mrow> <msubsup> <mi>M</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mi>t</mi> </msubsup> <mo>=</mo> <mo>{</mo> <mrow> <mo>(</mo> <msubsup> <mi>&mu;</mi> <mrow> <mn>1</mn> <mo>,</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mi>t</mi> </msubsup> <mo>,</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mn>1</mn> <mo>,</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mi>t</mi> </msubsup> <mo>,</mo> <msubsup> <mi>w</mi> <mrow> <mn>1</mn> <mo>,</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mi>t</mi> </msubsup> <mo>)</mo> </mrow> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mrow> <mo>(</mo> <msubsup> <mi>&mu;</mi> <mrow> <mi>n</mi> <mo>,</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mi>t</mi> </msubsup> <mo>,</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>n</mi> <mo>,</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mi>t</mi> </msubsup> <mo>,</mo> <msubsup> <mi>w</mi> <mrow> <mi>n</mi> <mo>,</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mi>t</mi> </msubsup> <mo>)</mo> </mrow> <mo>}</mo> <mo>;</mo> </mrow>

上式中表示由n个高斯模型组成的混合高斯模型公式；

步骤5.5：将使用自编码卷积神经网络提取得到的图像中各个区域的特征代入到步骤5.4中的公式，随后进行一般的混合高斯背景建模流程操作。

7.根据权利要求1所述的基于卷积神经网络自适应背景建模物体检测方法，其特征在于：步骤6中所述边缘区域，是区域中既有前景像素又有背景像素时的区域为边缘区域。

8.根据权利要求7所述的基于卷积神经网络自适应背景建模物体检测方法，其特征在于：步骤6中所述利用边缘区域中心像素判断法进行判断，若属于背景像素，则标记为背景像素；若属于前景像素，则标记为前景像素；具体实现过程是：

获取待处理区域a_i,j中心像素p_i,j，以p_i,j为中心，在原图中取大小为m*m的区域作为模板区域；获取中心像素p_i,j；

对应模板区域内的各个像素，并把模板区域内的各像素划分成两类：

<mrow> <mi>c</mi> <mi>l</mi> <mi>o</mi> <mi>s</mi> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>p</mi> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> <mo>|</mo> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>p</mi> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> </msub> <mo>|</mo> <mo>&GreaterEqual;</mo> <mi>&eta;</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>1</mn> <mo>,</mo> <mo>|</mo> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>p</mi> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> </msub> <mo>|</mo> <mo><</mo> <mi>&eta;</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>;</mo> </mrow>

上式表示区域内各像素值与中心像素值是否接近，η是判断两像素值之间是否接近预设阈值；如果两个像素值p_i,j和p_x,y之间的差异小于η，则认为两个像素是相似的，记为close(p_i,j,p_x,y)＝1；反之则记为close(p_i,j,p_x,y)＝0；

<mrow> <mi>s</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>x</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>y</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mi>c</mi> <mi>l</mi> <mi>o</mi> <mi>s</mi> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>p</mi> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

<mrow> <mi>b</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>x</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>y</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mi>c</mi> <mi>l</mi> <mi>o</mi> <mi>s</mi> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>p</mi> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>