CN111028245B

CN111028245B - 一种多模态复合的高清高速视频背景建模方法

Info

Publication number: CN111028245B
Application number: CN201911242660.XA
Authority: CN
Inventors: 童玉娟; 江海兵
Original assignee: Quzhou University
Current assignee: Quzhou University
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2023-08-01
Anticipated expiration: 2039-12-06
Also published as: CN111028245A

Abstract

本发明公开了一种多模态的高清高速视频背景建模方法，用于解决现有的高分辨率视频的高效背景建模方法运算效率低、实时性不足等问题。所述方法包括：将彩色视频转化为灰度视频；按预定分割规则将所述灰度视频的视频场景划分为预定数量个子区域；对所述灰度视频的每个子区域，构建多模态的视频场景实时背景模型。该方法对场景中复杂动态性的描述更准确，实时性强，运算效率高。

Description

一种多模态复合的高清高速视频背景建模方法

技术领域

本发明涉及视频数据挖掘技术领域，尤其涉及一种多模态复合的高清高速视频背景建模方法。

背景技术

高清高速视频拍摄技术是科研领域和高精尖工业产品研发领域中，观察分析高速运动目标物体时空变化细节的一种常用技术手段。由于高清高速视频的时空信息量十分巨大，很难凭靠人工进行量化分析，因此必须依赖于自动化分析手段对此类视频数据进行挖掘。

视频背景建模是一种最常用的视频数据挖掘技术，该技术的实质是通过对已有视频数据的学习，实现对视频中每个像素点特定视觉特征动态变化范围的数学建模。视频背景建模技术通常被用于自动检测新输入视频帧中的显著性异常变化，即当新输入视频帧中某个像素点的特定视觉特征值明显不符合该像素点对应的数学模型时，该异常像素点将被计算机自动辨识出来并做进一步分析处理。因此，高清高速视频背景建模技术可被用于自动检测高速运动目标物体的多种异常时空微变化。

目前，最常用的视频背景建模技术是逐点式实时建模法，该类方法需要为视频中每一个像素点分别构建一套独立的数学模型，并逐帧对所有像素点的数学模型进行迭代更新。对于具有高帧率(每秒数百帧以上)、高分辨率(每帧数百万像素点)的高清高速视频而言，逐点式实时建模法不仅需要构建并存储数百万个独立的数学模型，并且需要在一秒钟内对数百万个数学模型进行数百次以上地迭代更新，这显然需要极高的计算性能和内存资源，普通计算机设备难以满足如此苛刻的性能要求。因此，在实际应用中传统的逐点式实时建模法往往不适用于面向高清高速视频的背景建模。

专利(ZL201610072455.3)提出了一种非逐点式的实时建模方法，该专利的核心方法是对视频中处于同一个灰度(或称亮度)等级上的所有像素点统一建模，以此替代对每一个像素点进行单独建模。由于视频中灰度等级的数量远远少于像素点的数量，因此所需构建的数学模型的数量也大幅度减少。该专利方法的优点是：提供了一种适用于高分辨率视频的高效背景建模方法，能够在不增加任何软硬件计算资源的条件下，高效地实现对固定场景的高分辨率视频的背景建模，显著降低建模运算量，提高计算效率，减小存储资源的消耗，克服了传统逐点式实时建模法不适用于高分辨率视频背景建模的问题。

然而，上述专利(ZL201610072455.3)也存在以下几方面的不足：1)所构建的单模态背景模型无法足够精确地描述具有复杂动态性的像素点；2)所用的训练样本不能实时更新，导致模型精度会随着时间的增长而下降；3)只适合处理正常帧率的高清视频，在处理高速的高清视频时计算效率仍然明显不足。综上所述，上述专利方法用于对包含复杂动态性场景的高清高速视频背景建模时，会存在运算效率低、实时性不足、存储资源消耗大、准确性不足、精度衰减快等突出问题。

发明内容

本发明提供一种多模态复合的高清高速视频背景建模方法，用于解决现有的高分辨率视频的高效背景建模方法运算效率低、实时性不足、存储资源消耗大、准确性不足、精度衰减快等问题，本发明相对于现有技术运算效率提高，实时性强，精度衰减慢，准确性高。

本发明提供一种多模态的高清高速视频背景建模方法，包括以下步骤：

将彩色视频转化为灰度视频；

按预定分割规则将所述灰度视频的视频场景划分为预定数量个子区域；

对所述灰度视频的每个子区域，构建多模态的视频场景实时背景模型。

在一个实施例中，所述按预定分割规则将视频场景划分为预定数量个子区域，包括：

将所述视频场景划分为上下对称的两个区域；

将视频场景的上半部分区域，从左到右划分为M个大小相同的矩形子区域；

将视频场景的下半部分区域，从右到左划分为M个大小相同的矩形子区域；

其中，M为预定数量，取值为正整数。

在一个实施例中，所述M取值为4。

在一个实施例中，所述对所述灰度视频的每个子区域，构建多模态的视频场景实时背景模型，包括：

从所述灰度视频中，选取第k帧到第n帧的一段连续视频，作为背景建模的视频训练样本；其中，k和n均为正整数；

根据所述视频训练样本，构建每个子区域的实时背景模型。

在一个实施例中，所述根据所述视频训练样本，构建每个子区域的实时背景模型，包括：

对第m个子区域内的每个像素点，计算各像素点在所述第k帧到第n帧内的像素值的中位数、平均数和众数，将每个像素点在所述第k帧到第n帧内的像素值的中位数、平均数和众数的集合作为该像素点在第n帧时的多模态背景估计值；其中，所述m＝1,…,2M；

对于第m个子区域，统计该区域内所有像素点的像素值在所述第k帧到第n帧内变化为其他像素值的概率，得到第m个子区域在第n帧时的背景模型学习率；

由所述第m个子区域内每个像素点在第n帧时的多模态背景估计值和第m个子区域在第n帧时的背景模型学习率，组成所述第m个子区域在第n帧时的背景模型。

在一个实施例中，所述对第m个子区域内的每个像素点，计算各像素点在所述第k帧到第n帧内的像素值的中位数，包括：

对第m个子区域内坐标为(i,j)的像素点A_m(i,j)，获取该像素点A_m(i,j)在所述第k帧到第n帧内的像素值；

将获取的n-k+1个像素值按照像素值大小顺序排列，得到所述第m个子区域内坐标为(i,j)的像素点A_m(i,j)对应的像素值序列；

判断n-k+1是否为奇数，若是，则选取所述像素值序列中的第个像素值作为所述中位数；

若n-k+1为偶数，则计算所述像素值序列中的第个像素值和第/>个像素值的平均值，作为所述中位数。

在一个实施例中，所述对于第m个子区域，统计该区域内所有像素点的像素值在所述第k帧到第n帧内变化为其他像素值的概率，得到第m个子区域在第n帧时的背景模型学习率，包括：

统计从第p帧到第p+1帧，第m个子区域内所有像素点的像素值从θ₁跳变为θ₂的总次数，得到第p+1帧时的第一矩阵；其中，p＝k，k+1，…，n；θ₁和θ₂为不同的像素值；

将第k帧到第n帧时的第一矩阵求和，得到第n帧时的第二矩阵；

将所述第n帧时的第二矩阵的值归一化为[0,1]之间的概率值，得到第m个子区域在第n帧时的背景模型学习率。

在一个实施例中，在所述由所述第m个子区域内每个像素点在第n帧时的多模态背景估计值和第m个子区域在第n帧时的背景模型学习率，组成所述第m个子区域在第n帧时的背景模型之后，还包括：

读取所述灰度视频中的第n+1帧；

对第m个子区域内的每个像素点，根据该像素点在第n+1帧的像素值，按照以下公式计算，得到第m个子区域内该像素点在第n+1时的多模态背景估计值：

对于第m个子区域，统计该区域内所有像素点的像素值在所述第k+1帧到第n+1帧内变化为其他像素值的概率，得到第m个子区域在第n+1帧时的背景模型学习率；

将所述第m个子区域的背景模型的组成更新为所述第m个子区域内每个像素点在第n+1帧时的多模态背景估计值和第m个子区域在第n+1帧时的背景模型学习率；

其中，是第m个子区域内的像素点A_m(i,j)在n+1帧时的多模态背景估计值，F(θ₁,θ₂)|_n是第m个子区域在第n帧时的背景模型学习率，I(i,j)|_n+1则是第m个子区域内的像素点A_m(i,j)在n+1帧时的像素值，θ₁的取值在上述3个公式中依次为/>θ₂的取值为I(i,j)|_n+1。

在一个实施例中，所述将彩色视频转化为灰度视频采用以下公式：

Gray＝R×0.299+G×0.587+B×0.114

其中，R代表所述彩色视频中红色通道的像素值，G代表所述彩色视频中绿色通道的像素值，B代表所述彩色视频中蓝色通道的像素值，Gray代表转化后灰度视频中相应像素点的像素值。

在一个实施例中，n-k≥50。

本发明提供了一种适用于高清高速视频背景建模方法，克服了传统逐点式实时建模方法运算效率低、实时性不足、存储资源消耗大等问题；相比于现有类似专利的技术，本发明具有以下优点：(1)构建的多模态背景模型对场景中复杂动态性的描述更准确；(2)通过在线实时更新训练样本消除了现有类似专利方法中模型精度随时间退化的弊病；(3)通过采用视频多分块并行计算的架构，显著提高了算法的整体运算效率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种多模态的高清高速视频背景建模方法的流程图；

图2为本发明提供的一种视频场景实例中将视频场景划分为8个子区域的示意图；

图3为图1中步骤S2的方法流程图；

图4为图1中步骤S3的方法流程图；

图5所示为图4中步骤S32的一种实施方法流程图；

图6为本发明实施例中背景学习率的获取示意图；

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1为本发明实施例中一种多模态的高清高速视频背景建模方法的流程图。如图1所示，该方法包括以下步骤S1-S3：

S1：将彩色视频转化为灰度视频。

本实施例中，采用以下公式(1)将彩色视频转化为灰度视频：

Gray＝R×0.299+G×0.587+B×0.114 (1)

本发明实施例中，以图2所示的一段分辨率为2160*1486、帧率为500帧/秒，RGB三个通道均为8位深度(即256级灰阶)的彩色高清高速汽车碰撞测试实验视频为例来说明本发明提供的方法，对于该实例，执行本步骤S1后得到的灰度化视频中的像素值具有256级灰阶。

S2：按预定分割规则将所述灰度视频的视频场景划分为预定数量个子区域。

在一可选实施例中，如图3所示，步骤S2可以包括如下步骤：

S21：将所述视频场景划分为上下对称的两个区域；

S22：将视频场景的上半部分区域，从左到右划分为M个大小相同的矩形子区域；其中，M为预定数量，取值为正整数。

S23：将视频场景的下半部分区域，从右到左划分为M个大小相同的矩形子区域。

优选地，M取值为4，即将视频场景划分为8个子区域。以图2所示的视频场景为例，对该视频场景的划分情况方法为：首先，将整个视频场景划分为上下对称的两个区域；其次，将视频场景的上半部分区域，从左到右划分为4个大小相同的矩形子区域，如图2中所示，分别记为A₁，A₂，A₃，A₄；再次，将视频场景的下半部分区域，从右到左划分为4个大小相同的矩形子区域，分别记为A₅，A₆，A₇，A₈。

S3：对所述灰度视频的每个子区域，构建多模态的视频场景实时背景模型。

本实施例中，对于每个子区域，构建每个帧对应时刻的背景模型时，采用像素点的多个模态估计值，并且背景模型随着新增视频帧而实时更新，相对于现有技术，构建的多模态背景模型对场景中复杂动态性的描述更准确。

在一可选实施例中，如图4所示，步骤S3可以包括步骤：

S31：从所述灰度视频中，选取第k帧到第n帧的一段连续视频，作为背景建模的视频训练样本；

其中，k和n均为正整数。优选地，n-k≥50。

例如：对于图2所示视频场景，若连续采集该视频场景的高清高速视频图像，例如一共采集了100多帧视频图像，得到该视频场景对应的高清高速连续视频集，若k取值为1，n取值为100，则从所述高清高速视频集中，选取从第1帧到第100帧的一段连续视频片段作为背景建模的视频训练样本。

S32：根据所述视频训练样本，构建每个子区域的实时背景模型。

图5所示为图4中步骤S32的一种实施方法流程图，如图5中所示，上述步骤S32可以包括以下步骤：

S321：对第m个子区域内的每个像素点，计算各像素点在所述第k帧到第n帧内的像素值的中位数、平均数和众数，将每个像素点在所述第k帧到第n帧内的像素值的中位数、平均数和众数的集合作为该像素点在第n帧时的多模态背景估计值。

其中，所述m＝1,…,2M。

优选地，步骤S321中，中位数的计算方法可以包括以下步骤(1)-(5)：

(1)对第m个子区域内坐标为(i,j)的像素点A_m(i,j)，获取该像素点A_m(i,j)在所述第k帧到第n帧内的像素值；

(2)将获取的n-k+1个像素值按照像素值大小顺序排列，得到所述第m个子区域内坐标为(i,j)的像素点A_m(i,j)对应的像素值序列；

此步骤中，将上一步骤中获取的第m个子区域内坐标为(i,j)的像素点对应的n-k+1个像素值从大到小或者从小到大排列，得到第m个子区域内坐标为(i,j)的像素点A_m(i,j)对应的像素值序列。

(3)判断n-k+1是否为奇数，若是，则执行步骤(4)，否则，若n-k+1为偶数，则执行步骤(5)。

(4)选取所述像素值序列中的第个像素值作为所述中位数。

(5)计算所述像素值序列中的第个像素值和第/>个像素值的平均值，作为所述中位数。

以上述实例中的A₁区域内坐标为(1,1)的像素点A₁(1,1)为例，首先，将第1帧到第100帧中A₁(1,1)位置上依次出现的100个像素值保存在数组M₁(1,1)[x](x为数组下标，y＝1,...,100)中，然后对数组M₁(1,1)[x]中的数值进行从大到小(或从小到大)的排序，例如若排序后得到的像素序列中M₁(1,1)[1]的值最大，而M₁(1,1)[100]的值最小，即像素系列为{M₁(1,1)[1]，M₁(1,1)[2]，…M₁(1,1)[99],M₁(1,1)[100]}，则此时数组M₁(1,1)[x]的中位数M₁(1,1)[Median]的计算方法如下：M₁(1,1)[Median]即为A₁(1,1)在1～100帧内的像素值序列的中位数。

S322：对于第m个子区域，统计该区域内所有像素点的像素值在所述第k帧到第n帧内变化为其他像素值的概率，得到第m个子区域在第n帧时的背景模型学习率。

优选地，此步骤中可以包括以下步骤(a)-(c)：

(a)统计从第p帧到第p+1帧，第m个子区域内所有像素点的像素值从θ₁跳变为θ₂的总次数，得到第p+1帧时的第一矩阵；

其中，p＝k，k+1，…，n；θ₁和θ₂为不同的像素值。

此步骤具体可以通过如下公式(2)-(4)实现：

θ₁＝I(i,j)|_p，θ₂＝I(i,j)|_p+1 (2)

E(θ₁→θ₂)＝1 (3)

H(θ₁,θ₂)|_p+1＝∑E(θ₁→θ₂) (4)

其中，I(i,j)|_p和I(i,j)|_p+1分别代表第m个子区域内坐标为(i,j)的像素点A_m(i,j)在第p帧和第p+1帧的像素值，并分别简记为θ₁和θ₂，由于灰度化视频中的像素值具有256级灰阶，故有：所以有：θ₁∈[0，255]，θ₂∈[0，255]；E(θ₁→θ₂)＝1表示检测到以下的事件1次：A_m(i,j)的像素值从p帧中的θ₁灰阶跳变为p+1帧中的θ₂灰阶；∑E(θ₁→θ₂)是统计第m个子区域内所有像素点的像素值从p帧中的θ₁灰阶跳变为p+1帧中的θ₂灰阶的次数，将∑E(θ₁→θ₂)的值记录在第一矩阵H(θ₁,θ₂)|_p+1的对应位置上。

例如，若在视频训练样本中，第m个子区域内的像素值在相邻两帧中由θ₁＝10跳变为θ₂＝50的情况一共出现了5次，这5次分别是：像素(1,2)和像素(30,50)从第k帧到第k+1帧，像素(5,8)和像素(15,15)从第k+4帧到第k+5帧，像素(10,13)从第k+10帧到第k+11帧，则经过此步骤(a)后得到的方阵H(θ₁,θ₂)|_k+1中的第(10,50)个元素值为2，H(θ₁,θ₂)|_k+5中的第(10,50)个元素值为2，H(θ₁,θ₂)|_k+11中的第(10,50)个元素值为1。

(b)将第k帧到第n帧时的第一矩阵求和，得到第n帧时的第二矩阵。

此步骤中，对于第m个子区域，根据公式(5)对第k帧到第n帧时的第一矩阵求和，计算得到第n帧时的第二矩阵Z(θ₁,θ₂)|_n：

第二矩阵Z(θ₁,θ₂)|_n是对视频训练样本中的k～n帧内第一矩阵值的累加，Z(θ₁,θ₂)|_n中记录了视频训练样本内检测到的像素值从θ₁灰阶跳变为θ₂灰阶的总次数。

(c)将所述第n帧时的第二矩阵的值归一化为[0,1]之间的概率值，得到第m个子区域在第n帧时的背景模型学习率。

此步骤中，根据公式(6)将所述第n帧时的第二矩阵的值归一化为[0,1]之间的概率值，得到第m个子区域在第n帧时的背景模型学习率F(θ₁,θ₂)|_n：

其中，Y₂为θ₂的值域上限。例如上述实例中，θ₂∈[0，255]时，Y₂＝255。

S323：由所述第m个子区域内每个像素点在第n帧时的多模态背景估计值和第m个子区域在第n帧时的背景模型学习率，组成所述第m个子区域在第n帧时的背景模型。

本发明实施例中，在第n帧时，每个子区域的实时背景模型由以下两部分复合构成：1)每个像素点独有的多模态背景估计值2)所有像素点共享的背景模型学习率F(θ₁,θ₂)|_n。

在另一优选实施例中，为了进一步解决现有技术存在的训练样本不能实时更新，导致模型精度会随着时间的增长而下降的问题，本发明提供的上述多模态的高清高速视频背景建模方法中，在步骤S323之后，还可以包括：根据当前读取的新的视频帧，将第m个子区域在上一帧时的背景模型实时更新为当前视频帧时的背景模型的步骤。以下以将第m个子区域在第n帧时的背景模型实时更新为第n+1帧时的背景模型方法进行说明。

优选地，将第m个子区域在第n帧时的背景模型实时更新为第n+1帧时的背景模型方法可以包括以下步骤A-步骤D：

步骤A：读取所述灰度视频中的第n+1帧。

步骤B：对第m个子区域内的每个像素点，根据该像素点在第n+1帧的像素值，按照以下公式计算，得到第m个子区域内该像素点在第n+1时的多模态背景估计值：

其中，是第m个子区域内的像素点A_m(i,j)在n+1帧时的多模态背景估计值，F(θ₁,θ₂)|_n是第m个子区域在第n帧时的背景模型学习率，I(i,j)|_n+1则是第m个子区域内的像素点A_m(i,j)在n+1帧时的像素值，θ₁的取值在公式(7)-(9)中依次为/>θ₂的取值为I(i,j)|_n+1。

步骤C：对于第m个子区域，统计该区域内所有像素点的像素值在所述第k+1帧到第n+1帧内变化为其他像素值的概率，得到第m个子区域在第n+1帧时的背景模型学习率。

此步骤C的实施方法类似于上述步骤S322，此处不再赘述。

步骤D：将所述第m个子区域的背景模型的组成更新为所述第m个子区域内每个像素点在第n+1帧时的多模态背景估计值和第m个子区域在第n+1帧时的背景模型学习率。

显然，可以继续读取当前所述灰度视频中的第n+2帧，采用上述步骤A-D的方法将第m个子区域在第n+1帧时的背景模型实时更新为第n+2帧时的背景模型，如此以往，以实现对目标背景模型的实时更新。

例如，对于上述k＝1，n＝100的实例，在新读入101帧时，对A₁子区域内的每一个像素点A₁(i,j)，根据公式(10)-(12)更新A₁(i,j)的多模态背景估计值：

其中，和F(θ₁,θ₂)|₁₀₀分别是A₁(i,j)在100帧时的多模态背景估计值和背景模型学习率，I(i,j)|₁₀₁则是A₁(i,j)在101帧时的像素值，θ₁的取值在式(10)～(12)中分别为/>θ₂的取值在式(11)～(12)中均为I(i,j)|₁₀₁。如前所述，本实例中，F(θ₁,θ₂)|₁₀₀是大小为256×256的方阵，由于θ₁、θ₂分别是该方阵的行坐标和列坐标，因此将θ₁、θ₂的具体值代入F(θ₁,θ₂)|₁₀₀即可获取方阵中第θ₁行、第θ₂列的单元位置上对应的背景模型学习率；若F(θ₁,θ₂)|₁₀₀如图6所示，F(120,118)|₁₀₀的值就是该方阵中第120行、第118列的单元位置上对应的背景模型学习率，即0.074。随后，采用与步骤S322相同的方法，在101帧时，计算视频A₁区域内所有像素点的像素值在2至101帧内从θ₁灰阶跃迁为θ₂灰阶的概率，生成A₁区域在101帧时的背景模型学习率F(θ₁,θ₂)|₁₀₁。以此类推，在新读入100+i帧时，采用与上述步骤A-D中相同的方法，更新视频A₁区域在100+i帧时刻的背景模型，其包含：A₁区域内每个像素点独有的多模态背景估计值/>以及所有像素点共享的背景模型学习率F(θ₁,θ₂)|_100+i。

上述实例中以子区域A₁的实时背景模型的生成及更新为例进行详细说明，显然，采用并行计算的方法，对视频场景中的其它子区域，也采用相同的方法分别构建各子区域的实时背景模型，从而完成对整个视频场景的背景建模。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种多模态的高清高速视频背景建模方法，其特征在于，包括以下步骤：

将彩色视频转化为灰度视频；

按预定分割规则将所述灰度视频的视频场景划分为预定数量个子区域；包括：将所述视频场景划分为上下对称的两个区域；将视频场景的上半部分区域，从左到右划分为M个大小相同的矩形子区域；将视频场景的下半部分区域，从右到左划分为M个大小相同的矩形子区域；其中，M为预定数量，取值为正整数；

对所述灰度视频的每个子区域，构建多模态的视频场景实时背景模型；

所述对所述灰度视频的每个子区域，构建多模态的视频场景实时背景模型，包括：

根据所述视频训练样本，构建每个子区域的实时背景模型；

所述根据所述视频训练样本，构建每个子区域的实时背景模型，包括：

由所述第m个子区域内每个像素点在第n帧时的多模态背景估计值和第m个子区域在第n帧时的背景模型学习率，组成所述第m个子区域在第n帧时的背景模型；

所述对于第m个子区域，统计该区域内所有像素点的像素值在所述第k帧到第n帧内变化为其他像素值的概率，得到第m个子区域在第n帧时的背景模型学习率，包括：

统计从第p帧到第p+1帧，第m个子区域内所有像素点的像素值从θ₁跳变为θ₂的总次数，得到第p+1帧时的第一矩阵；其中，p＝k，k+1，…，n；θ₁和θ₂为不同的像素值；通过如下公式(2)-(4)实现：

θ₁＝I(i,j)|_p，θ₂＝I(i,j)|_p+1 (2)

E(θ₁→θ₂)＝1 (3)

H(θ₁,θ₂)|_p+1＝∑E(θ₁→θ₂) (4)

其中，I(i,j)|_p和I(i,j)|_p+1分别代表第m个子区域内坐标为(i,j)的像素点A_m(i,j)在第p帧和第p+1帧的像素值，并分别简记为θ₁和θ₂，由于灰度化视频中的像素值具有256级灰阶，所以有：θ₁∈[0，255]，θ₂∈[0，255]；E(θ₁→θ₂)＝1表示检测到以下的事件1次：A_m(i,j)的像素值从p帧中的θ₁灰阶跳变为p+1帧中的θ₂灰阶；∑E(θ₁→θ₂)是统计第m个子区域内所有像素点的像素值从p帧中的θ₁灰阶跳变为p+1帧中的θ₂灰阶的次数，将∑E(θ₁→θ₂)的值记录在第一矩阵H(θ₁,θ₂)|_p+1的对应位置上；

将第k帧到第n帧时的第一矩阵求和，得到第n帧时的第二矩阵；对于第m个子区域，根据公式(5)对第k帧到第n帧时的第一矩阵求和，计算得到第n帧时的第二矩阵Z(θ₁,θ₂)|_n：

第二矩阵Z(θ₁,θ₂)|_n是对视频训练样本中的k～n帧内第一矩阵值的累加，Z(θ₁,θ₂)|_n中记录了视频训练样本内检测到的像素值从θ₁灰阶跳变为θ₂灰阶的总次数；

将所述第n帧时的第二矩阵的值归一化为[0,1]之间的概率值，得到第m个子区域在第n帧时的背景模型学习率；根据公式(6)将所述第n帧时的第二矩阵的值归一化为[0,1]之间的概率值，得到第m个子区域在第n帧时的背景模型学习率F(θ₁,θ₂)|_n：

其中，Y₂为θ₂的值域上限，θ₂∈[0，255]时，Y₂＝255；

所述对第m个子区域内的每个像素点，计算各像素点在所述第k帧到第n帧内的像素值的中位数，包括：

若n-k+1为偶数，则计算所述像素值序列中的第个像素值和第/>个像素值的平均值，作为所述中位数；

在所述由所述第m个子区域内每个像素点在第n帧时的多模态背景估计值和第m个子区域在第n帧时的背景模型学习率，组成所述第m个子区域在第n帧时的背景模型之后，还包括：

读取所述灰度视频中的第n+1帧；

其中，是第m个子区域内的像素点A_m(i,j)在n+1帧时的多模态背景估计值，F(θ₁,θ₂)|_n是第m个子区域在第n帧时的背景模型学习率，I(i,j)|_n+1则是第m个子区域内的像素点A_m(i,j)在n+1帧时的像素值，θ₁的取值在公式(7)-公式(9)中依次为/> θ₂的取值为I(i,j)|_n+1。

2.如权利要求1所述的多模态的高清高速视频背景建模方法，其特征在于，所述M取值为4。

3.如权利要求1所述的多模态的高清高速视频背景建模方法，其特征在于，所述将彩色视频转化为灰度视频采用以下公式：

Gray＝R×0.299+G×0.587+B×0.114

4.如权利要求1-3任一项所述的多模态的高清高速视频背景建模方法，其特征在于，n-k≥50。