CN111028262A

CN111028262A - 一种多通道复合的高清高速视频背景建模方法

Info

Publication number: CN111028262A
Application number: CN201911244258.5A
Authority: CN
Inventors: 童玉娟; 应振根
Original assignee: Quzhou University
Current assignee: Quzhou University
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2020-04-17

Abstract

本发明公开了一种多通道复合的高清高速视频背景建模方法，用于解决现有的高分辨率视频的高效背景建模方法运算效率低、实时性不足等问题。所述方法包括：按预定分割规则将视频场景划分为预定数量个子区域；从同一视频场景对应的高清高速连续视频集中，选取第k帧到第n帧的一段连续视频，作为背景建模的视频训练样本；其中，k和n均为正整数；根据所述视频训练样本，分别构建每个子区域在R、G、B通道上的背景模型。该方法运算效率高、实时性强、精度衰减慢，准确性高。

Description

一种多通道复合的高清高速视频背景建模方法

技术领域

本发明涉及视频数据挖掘技术领域，尤其涉及一种多通道复合的高清高速视频背景建模方法。

背景技术

高清高速视频拍摄技术是科研领域和高精尖工业产品研发领域中，观察分析高速运动目标物体时空变化细节的一种常用技术手段。由于高清高速视频的时空信息量十分巨大，很难凭靠人工进行量化分析，因此必须依赖于自动化分析手段对此类视频数据进行挖掘。

视频背景建模是一种最常用的视频数据挖掘技术，该技术的实质是通过对已有视频数据的学习，实现对视频中每个像素点特定视觉特征动态变化范围的数学建模。视频背景建模技术通常被用于自动检测新输入视频帧中的显著性异常变化，即当新输入视频帧中某个像素点的特定视觉特征值明显不符合该像素点对应的数学模型时，该异常像素点将被计算机自动辨识出来并做进一步分析处理。因此，高清高速视频背景建模技术可被用于自动检测高速运动目标物体的多种异常时空微变化。

目前，最常用的视频背景建模技术是逐点式实时建模法，该类方法需要为视频中每一个像素点分别构建一套独立的数学模型，并逐帧对所有像素点的数学模型进行迭代更新。对于具有高帧率(每秒数百帧以上)、高分辨率(每帧数百万像素点)的高清高速视频而言，逐点式实时建模法不仅需要构建并存储数百万个独立的数学模型，并且需要在一秒钟内对数百万个数学模型进行数百次以上地迭代更新，这显然需要极高的计算性能和内存资源，普通计算机设备难以满足如此苛刻的性能要求。因此，在实际应用中传统的逐点式实时建模法往往不适用于面向高清高速视频的背景建模。

专利(ZL201610072455.3)提出了一种非逐点式的实时建模方法，该专利的核心方法是对视频中处于同一个灰度(或称亮度)等级上的所有像素点统一建模，以此替代对每一个像素点进行单独建模。由于视频中灰度等级的数量远远少于像素点的数量，因此所需构建的数学模型的数量也大幅度减少。该专利方法的优点是：提供了一种适用于高分辨率视频的高效背景建模方法，能够在不增加任何软硬件计算资源的条件下，高效地实现对固定场景的高分辨率视频的背景建模，显著降低建模运算量，提高计算效率，减小存储资源的消耗，克服了传统逐点式实时建模法不适用于高分辨率视频背景建模的问题。

然而，上述专利(ZL201610072455.3)也存在以下几方面的不足：1)一律将彩色视频转换为灰度视频，未充分利用视频中的彩色信息；2)未充分利用不同视频通道中的不同视觉特征；3)所构建的单模态背景模型无法足够精确地描述具有复杂动态性的像素点；4)所用的训练样本不能实时更新，导致模型精度会随着时间的增长而下降；5)只适合处理正常帧率的高清视频，在处理高速的高清视频时计算效率仍然明显不足。综上所述，上述专利方法用于对包含复杂动态性场景的高清高速视频背景建模时，会存在运算效率低、实时性不足、存储资源消耗大、准确性不足、精度衰减快等突出问题。

发明内容

本发明提供一种多通道复合的高清高速视频背景建模方法，用于解决现有的高分辨率视频的高效背景建模方法运算效率低、实时性不足、存储资源消耗大、准确性不足、精度衰减快等问题，本发明相对于现有技术运算效率提高，实时性强，精度衰减慢，准确性高。

本发明提供一种多通道复合的高清高速视频背景建模方法，包括以下步骤：

按预定分割规则将视频场景划分为预定数量个子区域；

从同一视频场景对应的高清高速连续视频集中，选取第k帧到第n帧的一段连续视频，作为背景建模的视频训练样本；其中，k和n均为正整数；

根据所述视频训练样本，分别构建每个子区域在R、G、B通道上的背景模型。

在一个实施例中，所述按预定分割规则将视频场景划分为预定数量个子区域，包括：

将所述视频场景划分为上下对称的两个区域；

将视频场景的上半部分区域，从左到右划分为M个大小相同的矩形子区域；

将视频场景的下半部分区域，从右到左划分为M个大小相同的矩形子区域；

其中，M为预定数量，取值为正整数。

在一个实施例中，所述M取值为4。

在一个实施例中，根据所述视频训练样本，分别构建第m个子区域在R/G/B通道上的背景模型，包括：

在R/G/B通道上，对第m个子区域内的每个像素点，计算该像素点在所述第k帧到第n帧内的像素值的中位数，作为在第n帧时第m个子区域内该像素点在R/G/B通道上的背景估计值；所述m＝1,…,2M；

在R/G/B通道上，对于第m个子区域，统计该区域内所有像素点的像素值在所述第k帧到第n帧内变化为其他像素值的概率，得到在第n帧时第m个子区域在R/G/B通道上的背景模型学习率；

由在第n帧时第m个子区域内每个像素点在R/G/B通道上的背景估计值和第m个子区域在R/G/B通道上的背景模型学习率，组成所述第m个子区域在R/G/B通道上的背景模型。

在一个实施例中，所述在R/G/B通道上，对第m个子区域内的每个像素点，计算该像素点在所述第k帧到第n帧内的像素值的中位数，包括：

在R/G/B通道上，对第m个子区域内坐标为(i,j)的像素点A_m(i,j)，获取该像素点A_m(i,j)在所述第k帧到第n帧内的像素值；

将获取的n-k+1个像素值按照像素值大小顺序排列，得到所述第m个子区域内坐标为(i,j)的像素点A_m(i,j)对应的像素值序列；

判断n-k+1是否为奇数，若是，则选取所述像素值序列中的第

个像素值作为所述中位数；

若n-k+1为偶数，则计算所述像素值序列中的第

个像素值和第

个像素值的平均值，作为所述中位数。

在一个实施例中，所述在R/G/B通道上，对于第m个子区域，统计该区域内所有像素点的像素值在所述第k帧到第n帧内变化为其他像素值的概率，得到在第n帧时第m个子区域在R/G/B通道上的背景模型学习率，包括：

在R/G/B通道上，统计从第p帧到第p+1帧，第m个子区域内所有像素点的像素值从θ₁跳变为θ₂的总次数，得到第p+1帧时的第一矩阵；其中，p＝k，k+1，…，n-1；θ₁和θ₂为不同的像素值；

将第k帧到第n帧时的第一矩阵求和，得到第n帧时的第二矩阵；

将所述第n帧时的第二矩阵的值归一化为[0,1]之间的概率值，得到在第n帧时第m个子区域在R/G/B通道上的背景模型学习率。

在一个实施例中，在构建每个子区域在R、G、B通道上的背景模型之后，还包括：

更新第m个子区域在R、G、B通道上的背景模型。

在一个实施例中，所述更新第m个子区域在R、G、B通道上的背景模型，包括：

在R/G/B通道上，对第m个子区域内的每个像素点，根据该像素点在第n+1帧的像素值，按照公式

更新第m个子区域内该像素点在第n+1帧时在R/G/B通道上的背景估计值；其中，

是第m个子区域内坐标为(i,j)的像素点A_m(i,j)在n+1帧的x通道上的像素值，

是A_m(i,j)在n+1帧时在x通道上的背景估计值，

是A_m(i,j)在n帧时在x通道上的背景估计值，

是第n帧时第m个子区域在x通道上的背景模型学习率，

x＝R,G,B；

在R/G/B通道上，对于第m个子区域，统计该区域内所有像素点的像素值在所述第k+1帧到第n+1帧内变化为其他像素值的概率，得到在第n+1帧时第m个子区域在R/G/B通道上的背景模型学习率；

将所述第m个子区域在R/G/B通道上的背景模型的组成更新为所述第n+1帧时第m个子区域内每个像素点在R/G/B通道上的背景估计值和第m个子区域在R/G/B通道上的背景模型学习率。

在一个实施例中，n-k≥50。

本发明具有以下有益效果：

本发明提供了一种适用于高清高速视频背景建模方法，克服了传统逐点式实时建模方法运算效率低、实时性不足、存储资源消耗大等问题；相比于现有类似专利的技术，本发明有以下几方面改进：(1)充分利用视频中的彩色信息，结果更准确；(2)复合视频多通道视觉信息构建的背景模型，对复杂场景以及场景中复杂动态性的描述更准确；(3)通过在线实时更新训练样本消除了现有类似专利方法中模型精度随时间退化的弊病；(4)通过采用视频多分块并行计算的架构，显著提高了算法的整体运算效率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种多通道复合的高清高速视频背景建模方法的流程图；

图2为图1中步骤S1的方法流程图；

图3为本发明提供的一种多通道复合的高清高速视频背景建模方法中将视频场景划分为8个子区域的示意图；

图4为图1中步骤S3的方法流程图；

图5为本发明实施例中背景学习率的获取示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1为本发明实施例中一种多通道复合的高清高速视频背景建模方法的流程图。如图1所示，该方法包括以下步骤S1-S3：

S1：按预定分割规则将视频场景划分为预定数量个子区域。

在一可选实施例中，如图2所示，步骤S1可以包括如下步骤：

S11：将所述视频场景划分为上下对称的两个区域；

S12：将视频场景的上半部分区域，从左到右划分为M个大小相同的矩形子区域；其中，M为预定数量，取值为正整数。

S13：将视频场景的下半部分区域，从右到左划分为M个大小相同的矩形子区域。

优选地，M取值为4，即将视频场景划分为8个子区域。以图3所示的一段分辨率为2160*1486、帧率为500帧/秒，RGB三个通道均为8位深度(即256级灰阶)的彩色高清高速汽车碰撞测试实验视频为例，对该视频场景的划分情况方法为：首先，将整个视频场景划分为上下对称的两个区域；其次，将视频场景的上半部分区域，从左到右划分为4个大小相同的矩形子区域，如图3中所示，分别记为A₁，A₂，A₃，A₄；再次，将视频场景的下半部分区域，从右到左划分为4个大小相同的矩形子区域，分别记为A₅，A₆，A₇，A₈。

S2：从同一视频场景对应的高清高速连续视频集中，选取第k帧到第n帧的一段连续视频，作为背景建模的视频训练样本；

其中，k和n均为正整数。优选地，n-k≥50。

例如：对于图3所示视频场景，若连续采集该视频场景的高清高速视频图像，例如一共采集了100多帧视频图像，得到该视频场景对应的高清高速连续视频集，若k取值为1，n取值为100，则从所述高清高速视频集中，选取从第1帧到第100帧的一段连续视频片段作为背景建模的视频训练样本。

S3：根据所述视频训练样本，分别构建每个子区域在R、G、B通道上的背景模型。

例如：对于图3所示视频场景划分的8个子区域A₁～A₈，此步骤中分别构建子区域A_m在R、G、B通道上的背景模型，即对于每个子区域A_m，构建其在R通道上的背景模型，在G通道上的背景模型，在B通道上的背景模型。

本实施例提供的适用于高清高速视频背景建模方法，通过将视频场景划分为多个子区域，对于每个子区域，采用一段时间内的连续视频图像作为训练样本，分R、G、B三个通道分别训练出每个子区域在多通道上的背景模型，通过采用视频多分块并行计算的架构，显著提高了算法的整体运算效率，克服了传统逐点式实时建模方法运算效率低、实时性不足、存储资源消耗大等问题，一方面充分利用视频中的彩色信息，建模结果更准确，另一方面，由于复合了视频多通道视觉信息构建的背景模型，对复杂场景以及场景中复杂动态性的描述更准确。

图4所示为步骤S3的一种实施方法流程图，如图4中所示，上述步骤S3可以包括以下步骤：

S31：在R/G/B通道上，对第m个子区域内的每个像素点，计算该像素点在所述第k帧到第n帧内的像素值的中位数，作为在第n帧时第m个子区域内该像素点在R/G/B通道上的背景估计值；

其中，所述m＝1,…,2M。

例如，对于上述实施例中的例子，即将图2所示视频场景划分的8个子区域A₁～A₈，并选取关于该视频场景的从第1帧到第100帧的一段连续视频片段作为背景建模的视频训练样本，若要计算子区域A₁内的像素点在R通道上的背景估计值，则此步骤S31中，在R通道上对视频A₁区域内坐标为(i,j)的像素点A₁(i,j)，计算A₁(i,j)在1～100帧内的像素值序列的中位数，以该中位数作为在第100帧时A₁(i,j)在R通道上的背景估计值

根据同样的方法可计算出A₁(i,j)在G通道上第100帧时的背景估计值

根据同样的方法可计算出A₁(i,j)在B通道上第100帧时的背景估计值

显然，第p帧时第m个子区域内各像素点在R/G/B通道上的背景估计值也类似计算，此处不再赘述。其中，p＝k，k+1，…，n-1；i，j均为正整数。

优选地，步骤S31可以包括以下步骤S311-S315：

S311：在R/G/B通道上，对第m个子区域内坐标为(i,j)的像素点A_m(i,j)，获取该像素点A_m(i,j)在所述第k帧到第n帧内的像素值；

S312：将获取的n-k+1个像素值按照像素值大小顺序排列，得到所述第m个子区域内坐标为(i,j)的像素点A_m(i,j)对应的像素值序列；

此步骤中，将上一步骤中获取的第m个子区域内坐标为(i,j)的像素点对应的n-k+1个像素值从大到小或者从小到大排列，得到第m个子区域内坐标为(i,j)的像素点A_m(i,j)对应的像素值序列。

S313：判断n-k+1是否为奇数，若是，则执行步骤S314；否则，若n-k+1为偶数，则执行步骤S315。

S314：选取所述像素值序列中的第

个像素值作为所述中位数。

S315：计算所述像素值序列中的第

个像素值和第

个像素值的平均值；，作为所述中位数。

以上述例子中的A₁区域内坐标为(1,1)的像素点A₁为例，步骤S31中，先将第1帧到第100帧中A₁(1,1)位置上依次出现的100个像素值保存在数组M₁(1,1)[y](y为数组下标，y＝1,...,100)中，然后对数组M₁(1,1)[y]中的数值进行从大到小(或从小到大)的排序，例如若排序后得到的像素序列中M₁(1,1)[1]的值最大，而M₁(1,1)[100]的值最小，即像素系列为{M₁(1,1)[1]，M₁(1,1)[2]，…M₁(1,1)[99],M₁(1,1)[100]}，则此时数组M₁(1,1)[y]的中位数M₁(1,1)[Median]的计算方法如下：

M₁(1,1)[Median]即为A₁(1,1)在1～100帧内的像素值序列的中位数。

S32：在R/G/B通道上，对于第m个子区域，统计该区域内所有像素点的像素值在所述第k帧到第n帧内变化为其他像素值的概率，得到在第n帧时第m个子区域在R/G/B通道上的背景模型学习率。

优选地，此步骤中可以包括以下步骤S321-S323：

S321：在R/G/B通道上，统计从第p帧到第p+1帧，第m个子区域内所有像素点的像素值从θ₁跳变为θ₂的总次数，得到第p+1帧时的第一矩阵；

其中，p＝k，k+1，…，n-1；θ₁和θ₂为不同的像素值。

此步骤具体可以通过如下公式实现：

E(θ₁→θ₂)＝1

其中，

和

分别代表第m个子区域内坐标为(i,j)的像素点A_m(i,j)在第p帧和第p+1帧的x通道上的像素值，并分别简记为θ₁和θ₂，x＝R,G,B。对于上述实施例中的具体实例，视频的R、G、B三个通道均为8位深度，即每个通道中像素值具有256级灰阶，所以有：θ₁∈[0，255]，θ₂∈[0，255]；E(θ₁→θ₂)＝1表示检测到以下的事件1次：A_m(i,j)的像素值从p帧中的θ₁灰阶跳变为p+1帧中的θ₂灰阶；∑E(θ₁→θ₂)是统计第m个子区域内所有像素点的像素值从p帧中的θ₁灰阶跳变为p+1帧中的θ₂灰阶的次数，将∑E(θ₁→θ₂)的值记录在第一矩阵

的对应位置上。

例如，若在视频训练样本中，第m个子区域内的像素值在R通道上在相邻两帧中由θ₁＝10跳变为θ₂＝50的情况一共出现了5次，这5次分别是：像素(1,2)和像素(30,50)从第k帧到第k+1帧，像素(5,8)和像素(15,15)从第k+4帧到第k+5帧，像素(10,13)从第k+10帧到第k+11帧，则经过此步骤S321后得到的方阵

中的第(10,50)个元素值为2，

中的第(10,50)个元素值为2，

中的第(10,50)个元素值为1。

S322：将第k帧到第n帧时的第一矩阵求和，得到第n帧时的第二矩阵。

此步骤中，根据公式

对第k帧到第n帧时第x通道上的第一矩阵求和，计算得到第n帧时第x通道上的第二矩阵

第二矩阵

是对视频训练样本中的k～n帧内第一矩阵值的累加，

中记录了视频训练样本内检测到的像素值从θ₁灰阶跳变为θ₂灰阶的总次数。

S323：将所述第n帧时的第二矩阵的值归一化为[0,1]之间的概率值，得到在第n帧时第m个子区域在R/G/B通道上的背景模型学习率。

此步骤中，根据公式

将第所述第n帧时的第二矩阵的值归一化为[0,1]之间的概率值，得到第n帧时第m个子区域在x通道上的背景模型学习率

其中，Y₂为θ₂的值域上限。例如上述实例中，θ₂∈[0，255]时，Y₂＝255。

上述步骤S321-S323中，每个子区域在每个通道(R、G、B)通道上的背景模型学习率分别单独计算。

S33：由在第n帧时第m个子区域内每个像素点在R/G/B通道上的背景估计值和第m个子区域在R/G/B通道上的背景模型学习率，组成所述第m个子区域在R/G/B通道上的背景模型。

本发明实施例中，每个子区域在每个通道上的背景模型由以下两部分复合构成：1)该子区域内每个像素点独有的背景估计值

2)该子区域的背景模型学习率

在另一优选实施例中，为了进一步解决现有技术存在的训练样本不能实时更新，导致模型精度会随着时间的增长而下降的问题，本发明提供的上述多通道复合的高清高速视频背景建模方法中，在步骤S3之后，还可以包括：更新第m个子区域在R、G、B通道上的背景模型的步骤。

具体的，更新方法为：

(1)在R/G/B通道上，对第m个子区域内的每个像素点，根据该像素点在第n+1帧的像素值，按照公式

更新第m个子区域内该像素点在第n+1帧时在R/G/B通道上的背景估计值；

其中，

是A_m(i,j)在n+1帧时在x通道上的背景估计值，

是A_m(i,j)在n帧时在x通道上的背景估计值，

是第n帧时第m个子区域在x通道上的背景模型学习率，

x＝R,G,B；

(2)在R/G/B通道上，对于第m个子区域，统计该区域内所有像素点的像素值在所述第k+1帧到第n+1帧内变化为其他像素值的概率，得到在第n+1帧时第m个子区域在R/G/B通道上的背景模型学习率；

(3)将所述第m个子区域在R/G/B通道上的背景模型的组成更新为所述第n+1帧时第m个子区域内每个像素点在R/G/B通道上的背景估计值和第m个子区域在R/G/B通道上的背景模型学习率。

显然，之后在每一次采集新视频帧时，采用步骤(1)-(3)的方法实时更新该视频背景下的每个子区域在每个通道(R、G、B通道)上的背景模型。

例如，对于上述k＝1，n＝100的实例，在新读入101帧时，在R通道上对视频A₁区域内的每一个像素点A₁(i,j)，根据下式更新A₁(i,j)的背景估计值：

其中，

是A₁(i,j)在101帧时的像素值，

是A₁(i,j)在101帧时的背景估计值，

和

分别是A₁(i,j)在100帧时在R通道上的背景估计值和背景模型学习率，θ₁的取值为

θ₂的取值为

如前所述，本实例中，

是大小为256×256的方阵，由于θ₁、θ₂分别是该方阵的行坐标和列坐标，因此将θ₁、θ₂的具体值代入

即可获取方阵中第θ₁行、第θ₂列的单元位置上对应的背景模型学习率；若

如图5所示，

的值就是该方阵中第120行、第118列的单元位置上对应的背景模型学习率，即0.074。随后，采用与步骤S32相同的方法，在R通道上计算在101帧时，计算A₁区域内所有像素点的像素值在2至101帧内从θ₁灰阶跃迁为θ₂灰阶的概率，生成更新的第101帧时A₁区域在R通道上的背景模型学习率

以此类推，在新读入100+i帧时，采用与上述步骤(1)、(2)中相同的方法，更新A₁区域在100+i帧时刻在R通道上的背景模型，其包含：每个像素点独有的背景估计值

和所有像素点共享的背景模型学习率

上述实例中以子区域A₁在R通道的背景模型的生成及更新为例进行详细说明，显然，区域A₁在G通道和B通道的背景模型的生成及更新也采用类似的方法，此处不再赘述。显然，采用并行计算的方法，对视频场景中的其它子区域，也采用相同的方法同步分别构建RGB三通道复合的视频场景实时背景模型，从而完成对整个视频场景的背景建模。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。