CN111028245B - 一种多模态复合的高清高速视频背景建模方法 - Google Patents
一种多模态复合的高清高速视频背景建模方法 Download PDFInfo
- Publication number
- CN111028245B CN111028245B CN201911242660.XA CN201911242660A CN111028245B CN 111028245 B CN111028245 B CN 111028245B CN 201911242660 A CN201911242660 A CN 201911242660A CN 111028245 B CN111028245 B CN 111028245B
- Authority
- CN
- China
- Prior art keywords
- frame
- video
- pixel
- sub
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000002131 composite material Substances 0.000 title description 4
- 239000011159 matrix material Substances 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 15
- 239000000203 mixture Substances 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 238000013178 mathematical model Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013329 compounding Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20004—Adaptive image processing
- G06T2207/20008—Globally adaptive
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明公开了一种多模态的高清高速视频背景建模方法,用于解决现有的高分辨率视频的高效背景建模方法运算效率低、实时性不足等问题。所述方法包括:将彩色视频转化为灰度视频;按预定分割规则将所述灰度视频的视频场景划分为预定数量个子区域;对所述灰度视频的每个子区域,构建多模态的视频场景实时背景模型。该方法对场景中复杂动态性的描述更准确,实时性强,运算效率高。
Description
技术领域
本发明涉及视频数据挖掘技术领域,尤其涉及一种多模态复合的高清高速视频背景建模方法。
背景技术
高清高速视频拍摄技术是科研领域和高精尖工业产品研发领域中,观察分析高速运动目标物体时空变化细节的一种常用技术手段。由于高清高速视频的时空信息量十分巨大,很难凭靠人工进行量化分析,因此必须依赖于自动化分析手段对此类视频数据进行挖掘。
视频背景建模是一种最常用的视频数据挖掘技术,该技术的实质是通过对已有视频数据的学习,实现对视频中每个像素点特定视觉特征动态变化范围的数学建模。视频背景建模技术通常被用于自动检测新输入视频帧中的显著性异常变化,即当新输入视频帧中某个像素点的特定视觉特征值明显不符合该像素点对应的数学模型时,该异常像素点将被计算机自动辨识出来并做进一步分析处理。因此,高清高速视频背景建模技术可被用于自动检测高速运动目标物体的多种异常时空微变化。
目前,最常用的视频背景建模技术是逐点式实时建模法,该类方法需要为视频中每一个像素点分别构建一套独立的数学模型,并逐帧对所有像素点的数学模型进行迭代更新。对于具有高帧率(每秒数百帧以上)、高分辨率(每帧数百万像素点)的高清高速视频而言,逐点式实时建模法不仅需要构建并存储数百万个独立的数学模型,并且需要在一秒钟内对数百万个数学模型进行数百次以上地迭代更新,这显然需要极高的计算性能和内存资源,普通计算机设备难以满足如此苛刻的性能要求。因此,在实际应用中传统的逐点式实时建模法往往不适用于面向高清高速视频的背景建模。
专利(ZL201610072455.3)提出了一种非逐点式的实时建模方法,该专利的核心方法是对视频中处于同一个灰度(或称亮度)等级上的所有像素点统一建模,以此替代对每一个像素点进行单独建模。由于视频中灰度等级的数量远远少于像素点的数量,因此所需构建的数学模型的数量也大幅度减少。该专利方法的优点是:提供了一种适用于高分辨率视频的高效背景建模方法,能够在不增加任何软硬件计算资源的条件下,高效地实现对固定场景的高分辨率视频的背景建模,显著降低建模运算量,提高计算效率,减小存储资源的消耗,克服了传统逐点式实时建模法不适用于高分辨率视频背景建模的问题。
然而,上述专利(ZL201610072455.3)也存在以下几方面的不足:1)所构建的单模态背景模型无法足够精确地描述具有复杂动态性的像素点;2)所用的训练样本不能实时更新,导致模型精度会随着时间的增长而下降;3)只适合处理正常帧率的高清视频,在处理高速的高清视频时计算效率仍然明显不足。综上所述,上述专利方法用于对包含复杂动态性场景的高清高速视频背景建模时,会存在运算效率低、实时性不足、存储资源消耗大、准确性不足、精度衰减快等突出问题。
发明内容
本发明提供一种多模态复合的高清高速视频背景建模方法,用于解决现有的高分辨率视频的高效背景建模方法运算效率低、实时性不足、存储资源消耗大、准确性不足、精度衰减快等问题,本发明相对于现有技术运算效率提高,实时性强,精度衰减慢,准确性高。
本发明提供一种多模态的高清高速视频背景建模方法,包括以下步骤:
将彩色视频转化为灰度视频;
按预定分割规则将所述灰度视频的视频场景划分为预定数量个子区域;
对所述灰度视频的每个子区域,构建多模态的视频场景实时背景模型。
在一个实施例中,所述按预定分割规则将视频场景划分为预定数量个子区域,包括:
将所述视频场景划分为上下对称的两个区域;
将视频场景的上半部分区域,从左到右划分为M个大小相同的矩形子区域;
将视频场景的下半部分区域,从右到左划分为M个大小相同的矩形子区域;
其中,M为预定数量,取值为正整数。
在一个实施例中,所述M取值为4。
在一个实施例中,所述对所述灰度视频的每个子区域,构建多模态的视频场景实时背景模型,包括:
从所述灰度视频中,选取第k帧到第n帧的一段连续视频,作为背景建模的视频训练样本;其中,k和n均为正整数;
根据所述视频训练样本,构建每个子区域的实时背景模型。
在一个实施例中,所述根据所述视频训练样本,构建每个子区域的实时背景模型,包括:
对第m个子区域内的每个像素点,计算各像素点在所述第k帧到第n帧内的像素值的中位数、平均数和众数,将每个像素点在所述第k帧到第n帧内的像素值的中位数、平均数和众数的集合作为该像素点在第n帧时的多模态背景估计值;其中,所述m=1,…,2M;
对于第m个子区域,统计该区域内所有像素点的像素值在所述第k帧到第n帧内变化为其他像素值的概率,得到第m个子区域在第n帧时的背景模型学习率;
由所述第m个子区域内每个像素点在第n帧时的多模态背景估计值和第m个子区域在第n帧时的背景模型学习率,组成所述第m个子区域在第n帧时的背景模型。
在一个实施例中,所述对第m个子区域内的每个像素点,计算各像素点在所述第k帧到第n帧内的像素值的中位数,包括:
对第m个子区域内坐标为(i,j)的像素点Am(i,j),获取该像素点Am(i,j)在所述第k帧到第n帧内的像素值;
将获取的n-k+1个像素值按照像素值大小顺序排列,得到所述第m个子区域内坐标为(i,j)的像素点Am(i,j)对应的像素值序列;
判断n-k+1是否为奇数,若是,则选取所述像素值序列中的第个像素值作为所述中位数;
若n-k+1为偶数,则计算所述像素值序列中的第个像素值和第/>个像素值的平均值,作为所述中位数。
在一个实施例中,所述对于第m个子区域,统计该区域内所有像素点的像素值在所述第k帧到第n帧内变化为其他像素值的概率,得到第m个子区域在第n帧时的背景模型学习率,包括:
统计从第p帧到第p+1帧,第m个子区域内所有像素点的像素值从θ1跳变为θ2的总次数,得到第p+1帧时的第一矩阵;其中,p=k,k+1,…,n;θ1和θ2为不同的像素值;
将第k帧到第n帧时的第一矩阵求和,得到第n帧时的第二矩阵;
将所述第n帧时的第二矩阵的值归一化为[0,1]之间的概率值,得到第m个子区域在第n帧时的背景模型学习率。
在一个实施例中,在所述由所述第m个子区域内每个像素点在第n帧时的多模态背景估计值和第m个子区域在第n帧时的背景模型学习率,组成所述第m个子区域在第n帧时的背景模型之后,还包括:
读取所述灰度视频中的第n+1帧;
对第m个子区域内的每个像素点,根据该像素点在第n+1帧的像素值,按照以下公式计算,得到第m个子区域内该像素点在第n+1时的多模态背景估计值:
对于第m个子区域,统计该区域内所有像素点的像素值在所述第k+1帧到第n+1帧内变化为其他像素值的概率,得到第m个子区域在第n+1帧时的背景模型学习率;
将所述第m个子区域的背景模型的组成更新为所述第m个子区域内每个像素点在第n+1帧时的多模态背景估计值和第m个子区域在第n+1帧时的背景模型学习率;
其中,是第m个子区域内的像素点Am(i,j)在n+1帧时的多模态背景估计值,F(θ1,θ2)|n是第m个子区域在第n帧时的背景模型学习率,I(i,j)|n+1则是第m个子区域内的像素点Am(i,j)在n+1帧时的像素值,θ1的取值在上述3个公式中依次为/>θ2的取值为I(i,j)|n+1。
在一个实施例中,所述将彩色视频转化为灰度视频采用以下公式:
Gray=R×0.299+G×0.587+B×0.114
其中,R代表所述彩色视频中红色通道的像素值,G代表所述彩色视频中绿色通道的像素值,B代表所述彩色视频中蓝色通道的像素值,Gray代表转化后灰度视频中相应像素点的像素值。
在一个实施例中,n-k≥50。
本发明提供了一种适用于高清高速视频背景建模方法,克服了传统逐点式实时建模方法运算效率低、实时性不足、存储资源消耗大等问题;相比于现有类似专利的技术,本发明具有以下优点:(1)构建的多模态背景模型对场景中复杂动态性的描述更准确;(2)通过在线实时更新训练样本消除了现有类似专利方法中模型精度随时间退化的弊病;(3)通过采用视频多分块并行计算的架构,显著提高了算法的整体运算效率。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种多模态的高清高速视频背景建模方法的流程图;
图2为本发明提供的一种视频场景实例中将视频场景划分为8个子区域的示意图;
图3为图1中步骤S2的方法流程图;
图4为图1中步骤S3的方法流程图;
图5所示为图4中步骤S32的一种实施方法流程图;
图6为本发明实施例中背景学习率的获取示意图;
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1为本发明实施例中一种多模态的高清高速视频背景建模方法的流程图。如图1所示,该方法包括以下步骤S1-S3:
S1:将彩色视频转化为灰度视频。
本实施例中,采用以下公式(1)将彩色视频转化为灰度视频:
Gray=R×0.299+G×0.587+B×0.114 (1)
其中,R代表所述彩色视频中红色通道的像素值,G代表所述彩色视频中绿色通道的像素值,B代表所述彩色视频中蓝色通道的像素值,Gray代表转化后灰度视频中相应像素点的像素值。
本发明实施例中,以图2所示的一段分辨率为2160*1486、帧率为500帧/秒,RGB三个通道均为8位深度(即256级灰阶)的彩色高清高速汽车碰撞测试实验视频为例来说明本发明提供的方法,对于该实例,执行本步骤S1后得到的灰度化视频中的像素值具有256级灰阶。
S2:按预定分割规则将所述灰度视频的视频场景划分为预定数量个子区域。
在一可选实施例中,如图3所示,步骤S2可以包括如下步骤:
S21:将所述视频场景划分为上下对称的两个区域;
S22:将视频场景的上半部分区域,从左到右划分为M个大小相同的矩形子区域;其中,M为预定数量,取值为正整数。
S23:将视频场景的下半部分区域,从右到左划分为M个大小相同的矩形子区域。
优选地,M取值为4,即将视频场景划分为8个子区域。以图2所示的视频场景为例,对该视频场景的划分情况方法为:首先,将整个视频场景划分为上下对称的两个区域;其次,将视频场景的上半部分区域,从左到右划分为4个大小相同的矩形子区域,如图2中所示,分别记为A1,A2,A3,A4;再次,将视频场景的下半部分区域,从右到左划分为4个大小相同的矩形子区域,分别记为A5,A6,A7,A8。
S3:对所述灰度视频的每个子区域,构建多模态的视频场景实时背景模型。
本实施例中,对于每个子区域,构建每个帧对应时刻的背景模型时,采用像素点的多个模态估计值,并且背景模型随着新增视频帧而实时更新,相对于现有技术,构建的多模态背景模型对场景中复杂动态性的描述更准确。
在一可选实施例中,如图4所示,步骤S3可以包括步骤:
S31:从所述灰度视频中,选取第k帧到第n帧的一段连续视频,作为背景建模的视频训练样本;
其中,k和n均为正整数。优选地,n-k≥50。
例如:对于图2所示视频场景,若连续采集该视频场景的高清高速视频图像,例如一共采集了100多帧视频图像,得到该视频场景对应的高清高速连续视频集,若k取值为1,n取值为100,则从所述高清高速视频集中,选取从第1帧到第100帧的一段连续视频片段作为背景建模的视频训练样本。
S32:根据所述视频训练样本,构建每个子区域的实时背景模型。
图5所示为图4中步骤S32的一种实施方法流程图,如图5中所示,上述步骤S32可以包括以下步骤:
S321:对第m个子区域内的每个像素点,计算各像素点在所述第k帧到第n帧内的像素值的中位数、平均数和众数,将每个像素点在所述第k帧到第n帧内的像素值的中位数、平均数和众数的集合作为该像素点在第n帧时的多模态背景估计值。
其中,所述m=1,…,2M。
优选地,步骤S321中,中位数的计算方法可以包括以下步骤(1)-(5):
(1)对第m个子区域内坐标为(i,j)的像素点Am(i,j),获取该像素点Am(i,j)在所述第k帧到第n帧内的像素值;
(2)将获取的n-k+1个像素值按照像素值大小顺序排列,得到所述第m个子区域内坐标为(i,j)的像素点Am(i,j)对应的像素值序列;
此步骤中,将上一步骤中获取的第m个子区域内坐标为(i,j)的像素点对应的n-k+1个像素值从大到小或者从小到大排列,得到第m个子区域内坐标为(i,j)的像素点Am(i,j)对应的像素值序列。
(3)判断n-k+1是否为奇数,若是,则执行步骤(4),否则,若n-k+1为偶数,则执行步骤(5)。
(4)选取所述像素值序列中的第个像素值作为所述中位数。
(5)计算所述像素值序列中的第个像素值和第/>个像素值的平均值,作为所述中位数。
以上述实例中的A1区域内坐标为(1,1)的像素点A1(1,1)为例,首先,将第1帧到第100帧中A1(1,1)位置上依次出现的100个像素值保存在数组M1(1,1)[x](x为数组下标,y=1,...,100)中,然后对数组M1(1,1)[x]中的数值进行从大到小(或从小到大)的排序,例如若排序后得到的像素序列中M1(1,1)[1]的值最大,而M1(1,1)[100]的值最小,即像素系列为{M1(1,1)[1],M1(1,1)[2],…M1(1,1)[99],M1(1,1)[100]},则此时数组M1(1,1)[x]的中位数M1(1,1)[Median]的计算方法如下:M1(1,1)[Median]即为A1(1,1)在1~100帧内的像素值序列的中位数。
S322:对于第m个子区域,统计该区域内所有像素点的像素值在所述第k帧到第n帧内变化为其他像素值的概率,得到第m个子区域在第n帧时的背景模型学习率。
优选地,此步骤中可以包括以下步骤(a)-(c):
(a)统计从第p帧到第p+1帧,第m个子区域内所有像素点的像素值从θ1跳变为θ2的总次数,得到第p+1帧时的第一矩阵;
其中,p=k,k+1,…,n;θ1和θ2为不同的像素值。
此步骤具体可以通过如下公式(2)-(4)实现:
θ1=I(i,j)|p,θ2=I(i,j)|p+1 (2)
E(θ1→θ2)=1 (3)
H(θ1,θ2)|p+1=∑E(θ1→θ2) (4)
其中,I(i,j)|p和I(i,j)|p+1分别代表第m个子区域内坐标为(i,j)的像素点Am(i,j)在第p帧和第p+1帧的像素值,并分别简记为θ1和θ2,由于灰度化视频中的像素值具有256级灰阶,故有:所以有:θ1∈[0,255],θ2∈[0,255];E(θ1→θ2)=1表示检测到以下的事件1次:Am(i,j)的像素值从p帧中的θ1灰阶跳变为p+1帧中的θ2灰阶;∑E(θ1→θ2)是统计第m个子区域内所有像素点的像素值从p帧中的θ1灰阶跳变为p+1帧中的θ2灰阶的次数,将∑E(θ1→θ2)的值记录在第一矩阵H(θ1,θ2)|p+1的对应位置上。
例如,若在视频训练样本中,第m个子区域内的像素值在相邻两帧中由θ1=10跳变为θ2=50的情况一共出现了5次,这5次分别是:像素(1,2)和像素(30,50)从第k帧到第k+1帧,像素(5,8)和像素(15,15)从第k+4帧到第k+5帧,像素(10,13)从第k+10帧到第k+11帧,则经过此步骤(a)后得到的方阵H(θ1,θ2)|k+1中的第(10,50)个元素值为2,H(θ1,θ2)|k+5中的第(10,50)个元素值为2,H(θ1,θ2)|k+11中的第(10,50)个元素值为1。
(b)将第k帧到第n帧时的第一矩阵求和,得到第n帧时的第二矩阵。
此步骤中,对于第m个子区域,根据公式(5)对第k帧到第n帧时的第一矩阵求和,计算得到第n帧时的第二矩阵Z(θ1,θ2)|n:
第二矩阵Z(θ1,θ2)|n是对视频训练样本中的k~n帧内第一矩阵值的累加,Z(θ1,θ2)|n中记录了视频训练样本内检测到的像素值从θ1灰阶跳变为θ2灰阶的总次数。
(c)将所述第n帧时的第二矩阵的值归一化为[0,1]之间的概率值,得到第m个子区域在第n帧时的背景模型学习率。
此步骤中,根据公式(6)将所述第n帧时的第二矩阵的值归一化为[0,1]之间的概率值,得到第m个子区域在第n帧时的背景模型学习率F(θ1,θ2)|n:
其中,Y2为θ2的值域上限。例如上述实例中,θ2∈[0,255]时,Y2=255。
S323:由所述第m个子区域内每个像素点在第n帧时的多模态背景估计值和第m个子区域在第n帧时的背景模型学习率,组成所述第m个子区域在第n帧时的背景模型。
本发明实施例中,在第n帧时,每个子区域的实时背景模型由以下两部分复合构成:1)每个像素点独有的多模态背景估计值2)所有像素点共享的背景模型学习率F(θ1,θ2)|n。
在另一优选实施例中,为了进一步解决现有技术存在的训练样本不能实时更新,导致模型精度会随着时间的增长而下降的问题,本发明提供的上述多模态的高清高速视频背景建模方法中,在步骤S323之后,还可以包括:根据当前读取的新的视频帧,将第m个子区域在上一帧时的背景模型实时更新为当前视频帧时的背景模型的步骤。以下以将第m个子区域在第n帧时的背景模型实时更新为第n+1帧时的背景模型方法进行说明。
优选地,将第m个子区域在第n帧时的背景模型实时更新为第n+1帧时的背景模型方法可以包括以下步骤A-步骤D:
步骤A:读取所述灰度视频中的第n+1帧。
步骤B:对第m个子区域内的每个像素点,根据该像素点在第n+1帧的像素值,按照以下公式计算,得到第m个子区域内该像素点在第n+1时的多模态背景估计值:
其中,是第m个子区域内的像素点Am(i,j)在n+1帧时的多模态背景估计值,F(θ1,θ2)|n是第m个子区域在第n帧时的背景模型学习率,I(i,j)|n+1则是第m个子区域内的像素点Am(i,j)在n+1帧时的像素值,θ1的取值在公式(7)-(9)中依次为/>θ2的取值为I(i,j)|n+1。
步骤C:对于第m个子区域,统计该区域内所有像素点的像素值在所述第k+1帧到第n+1帧内变化为其他像素值的概率,得到第m个子区域在第n+1帧时的背景模型学习率。
此步骤C的实施方法类似于上述步骤S322,此处不再赘述。
步骤D:将所述第m个子区域的背景模型的组成更新为所述第m个子区域内每个像素点在第n+1帧时的多模态背景估计值和第m个子区域在第n+1帧时的背景模型学习率。
显然,可以继续读取当前所述灰度视频中的第n+2帧,采用上述步骤A-D的方法将第m个子区域在第n+1帧时的背景模型实时更新为第n+2帧时的背景模型,如此以往,以实现对目标背景模型的实时更新。
例如,对于上述k=1,n=100的实例,在新读入101帧时,对A1子区域内的每一个像素点A1(i,j),根据公式(10)-(12)更新A1(i,j)的多模态背景估计值:
其中,和F(θ1,θ2)|100分别是A1(i,j)在100帧时的多模态背景估计值和背景模型学习率,I(i,j)|101则是A1(i,j)在101帧时的像素值,θ1的取值在式(10)~(12)中分别为/>θ2的取值在式(11)~(12)中均为I(i,j)|101。如前所述,本实例中,F(θ1,θ2)|100是大小为256×256的方阵,由于θ1、θ2分别是该方阵的行坐标和列坐标,因此将θ1、θ2的具体值代入F(θ1,θ2)|100即可获取方阵中第θ1行、第θ2列的单元位置上对应的背景模型学习率;若F(θ1,θ2)|100如图6所示,F(120,118)|100的值就是该方阵中第120行、第118列的单元位置上对应的背景模型学习率,即0.074。随后,采用与步骤S322相同的方法,在101帧时,计算视频A1区域内所有像素点的像素值在2至101帧内从θ1灰阶跃迁为θ2灰阶的概率,生成A1区域在101帧时的背景模型学习率F(θ1,θ2)|101。以此类推,在新读入100+i帧时,采用与上述步骤A-D中相同的方法,更新视频A1区域在100+i帧时刻的背景模型,其包含:A1区域内每个像素点独有的多模态背景估计值/>以及所有像素点共享的背景模型学习率F(θ1,θ2)|100+i。
上述实例中以子区域A1的实时背景模型的生成及更新为例进行详细说明,显然,采用并行计算的方法,对视频场景中的其它子区域,也采用相同的方法分别构建各子区域的实时背景模型,从而完成对整个视频场景的背景建模。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (4)
1.一种多模态的高清高速视频背景建模方法,其特征在于,包括以下步骤:
将彩色视频转化为灰度视频;
按预定分割规则将所述灰度视频的视频场景划分为预定数量个子区域;包括:将所述视频场景划分为上下对称的两个区域;将视频场景的上半部分区域,从左到右划分为M个大小相同的矩形子区域;将视频场景的下半部分区域,从右到左划分为M个大小相同的矩形子区域;其中,M为预定数量,取值为正整数;
对所述灰度视频的每个子区域,构建多模态的视频场景实时背景模型;
所述对所述灰度视频的每个子区域,构建多模态的视频场景实时背景模型,包括:
从所述灰度视频中,选取第k帧到第n帧的一段连续视频,作为背景建模的视频训练样本;其中,k和n均为正整数;
根据所述视频训练样本,构建每个子区域的实时背景模型;
所述根据所述视频训练样本,构建每个子区域的实时背景模型,包括:
对第m个子区域内的每个像素点,计算各像素点在所述第k帧到第n帧内的像素值的中位数、平均数和众数,将每个像素点在所述第k帧到第n帧内的像素值的中位数、平均数和众数的集合作为该像素点在第n帧时的多模态背景估计值;其中,所述m=1,…,2M;
对于第m个子区域,统计该区域内所有像素点的像素值在所述第k帧到第n帧内变化为其他像素值的概率,得到第m个子区域在第n帧时的背景模型学习率;
由所述第m个子区域内每个像素点在第n帧时的多模态背景估计值和第m个子区域在第n帧时的背景模型学习率,组成所述第m个子区域在第n帧时的背景模型;
所述对于第m个子区域,统计该区域内所有像素点的像素值在所述第k帧到第n帧内变化为其他像素值的概率,得到第m个子区域在第n帧时的背景模型学习率,包括:
统计从第p帧到第p+1帧,第m个子区域内所有像素点的像素值从θ1跳变为θ2的总次数,得到第p+1帧时的第一矩阵;其中,p=k,k+1,…,n;θ1和θ2为不同的像素值;通过如下公式(2)-(4)实现:
θ1=I(i,j)|p,θ2=I(i,j)|p+1 (2)
E(θ1→θ2)=1 (3)
H(θ1,θ2)|p+1=∑E(θ1→θ2) (4)
其中,I(i,j)|p和I(i,j)|p+1分别代表第m个子区域内坐标为(i,j)的像素点Am(i,j)在第p帧和第p+1帧的像素值,并分别简记为θ1和θ2,由于灰度化视频中的像素值具有256级灰阶,所以有:θ1∈[0,255],θ2∈[0,255];E(θ1→θ2)=1表示检测到以下的事件1次:Am(i,j)的像素值从p帧中的θ1灰阶跳变为p+1帧中的θ2灰阶;∑E(θ1→θ2)是统计第m个子区域内所有像素点的像素值从p帧中的θ1灰阶跳变为p+1帧中的θ2灰阶的次数,将∑E(θ1→θ2)的值记录在第一矩阵H(θ1,θ2)|p+1的对应位置上;
将第k帧到第n帧时的第一矩阵求和,得到第n帧时的第二矩阵;对于第m个子区域,根据公式(5)对第k帧到第n帧时的第一矩阵求和,计算得到第n帧时的第二矩阵Z(θ1,θ2)|n:
第二矩阵Z(θ1,θ2)|n是对视频训练样本中的k~n帧内第一矩阵值的累加,Z(θ1,θ2)|n中记录了视频训练样本内检测到的像素值从θ1灰阶跳变为θ2灰阶的总次数;
将所述第n帧时的第二矩阵的值归一化为[0,1]之间的概率值,得到第m个子区域在第n帧时的背景模型学习率;根据公式(6)将所述第n帧时的第二矩阵的值归一化为[0,1]之间的概率值,得到第m个子区域在第n帧时的背景模型学习率F(θ1,θ2)|n:
其中,Y2为θ2的值域上限,θ2∈[0,255]时,Y2=255;
所述对第m个子区域内的每个像素点,计算各像素点在所述第k帧到第n帧内的像素值的中位数,包括:
对第m个子区域内坐标为(i,j)的像素点Am(i,j),获取该像素点Am(i,j)在所述第k帧到第n帧内的像素值;
将获取的n-k+1个像素值按照像素值大小顺序排列,得到所述第m个子区域内坐标为(i,j)的像素点Am(i,j)对应的像素值序列;
判断n-k+1是否为奇数,若是,则选取所述像素值序列中的第个像素值作为所述中位数;
若n-k+1为偶数,则计算所述像素值序列中的第个像素值和第/>个像素值的平均值,作为所述中位数;
在所述由所述第m个子区域内每个像素点在第n帧时的多模态背景估计值和第m个子区域在第n帧时的背景模型学习率,组成所述第m个子区域在第n帧时的背景模型之后,还包括:
读取所述灰度视频中的第n+1帧;
对第m个子区域内的每个像素点,根据该像素点在第n+1帧的像素值,按照以下公式计算,得到第m个子区域内该像素点在第n+1时的多模态背景估计值:
对于第m个子区域,统计该区域内所有像素点的像素值在所述第k+1帧到第n+1帧内变化为其他像素值的概率,得到第m个子区域在第n+1帧时的背景模型学习率;
将所述第m个子区域的背景模型的组成更新为所述第m个子区域内每个像素点在第n+1帧时的多模态背景估计值和第m个子区域在第n+1帧时的背景模型学习率;
其中,是第m个子区域内的像素点Am(i,j)在n+1帧时的多模态背景估计值,F(θ1,θ2)|n是第m个子区域在第n帧时的背景模型学习率,I(i,j)|n+1则是第m个子区域内的像素点Am(i,j)在n+1帧时的像素值,θ1的取值在公式(7)-公式(9)中依次为/> θ2的取值为I(i,j)|n+1。
2.如权利要求1所述的多模态的高清高速视频背景建模方法,其特征在于,所述M取值为4。
3.如权利要求1所述的多模态的高清高速视频背景建模方法,其特征在于,所述将彩色视频转化为灰度视频采用以下公式:
Gray=R×0.299+G×0.587+B×0.114
其中,R代表所述彩色视频中红色通道的像素值,G代表所述彩色视频中绿色通道的像素值,B代表所述彩色视频中蓝色通道的像素值,Gray代表转化后灰度视频中相应像素点的像素值。
4.如权利要求1-3任一项所述的多模态的高清高速视频背景建模方法,其特征在于,n-k≥50。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911242660.XA CN111028245B (zh) | 2019-12-06 | 2019-12-06 | 一种多模态复合的高清高速视频背景建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911242660.XA CN111028245B (zh) | 2019-12-06 | 2019-12-06 | 一种多模态复合的高清高速视频背景建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111028245A CN111028245A (zh) | 2020-04-17 |
CN111028245B true CN111028245B (zh) | 2023-08-01 |
Family
ID=70204556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911242660.XA Active CN111028245B (zh) | 2019-12-06 | 2019-12-06 | 一种多模态复合的高清高速视频背景建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111028245B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583292B (zh) * | 2020-05-11 | 2023-07-07 | 浙江大学 | 一种面向双光子钙成像视频数据的自适应图像分割方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101777186B (zh) * | 2010-01-13 | 2011-12-14 | 西安理工大学 | 一种多模态自动更新替换的背景建模方法 |
CN102025981B (zh) * | 2010-12-23 | 2013-12-04 | 北京邮电大学 | 一种监控视频中的前景检测的方法 |
CN102609689B (zh) * | 2012-02-03 | 2016-12-28 | 江苏科海智能系统有限公司 | 一种基于多帧统计的视频车道背景建模方法 |
US9871967B2 (en) * | 2015-01-22 | 2018-01-16 | Huddly As | Video transmission based on independently encoded background updates |
CN105574896B (zh) * | 2016-02-01 | 2018-03-27 | 衢州学院 | 一种面向高分辨率视频的高效背景建模方法 |
CN106682108B (zh) * | 2016-12-06 | 2022-07-12 | 浙江大学 | 一种基于多模态卷积神经网络的视频检索方法 |
-
2019
- 2019-12-06 CN CN201911242660.XA patent/CN111028245B/zh active Active
Non-Patent Citations (1)
Title |
---|
贾云得等.《视频中人的动作分析与识别》.北京:北京理工大学出版社,2019,第36页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111028245A (zh) | 2020-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3540637B1 (en) | Neural network model training method, device and storage medium for image processing | |
US20220262032A1 (en) | Systems and Methods for Geolocation Prediction | |
CN109785385B (zh) | 视觉目标跟踪方法及系统 | |
CN109919032A (zh) | 一种基于动作预测的视频异常行为检测方法 | |
CN111476835B (zh) | 多视角图像一致性的无监督深度预测方法、系统、装置 | |
CN108734109B (zh) | 一种面向图像序列的视觉目标跟踪方法及系统 | |
Teed et al. | Deep patch visual odometry | |
CN110909657A (zh) | 一种隧道表观病害图像识别的方法 | |
CN109191511A (zh) | 一种基于卷积神经网络的双目立体匹配方法 | |
CN108460481A (zh) | 基于循环神经网络的无人机侦察目标演变规律预测方法 | |
CN110930378A (zh) | 基于低数据需求的肺气肿影像处理方法及系统 | |
CN111179272B (zh) | 一种面向道路场景的快速语义分割方法 | |
CN111028245B (zh) | 一种多模态复合的高清高速视频背景建模方法 | |
CN111047654A (zh) | 一种基于色彩信息的高清高速视频背景建模方法 | |
CN109934170B (zh) | 一种基于计算机视觉的矿山资源统计方法 | |
CN108520532B (zh) | 识别视频中物体运动方向的方法及装置 | |
CN110782480A (zh) | 一种基于在线模板预测的红外行人跟踪方法 | |
Liu et al. | Two-stream boundary-aware neural network for concrete crack segmentation and quantification | |
CN115984634B (zh) | 图像检测方法、装置、设备、存储介质和程序产品 | |
CN110991361B (zh) | 面向高清高速视频的多通道多模态背景建模方法 | |
US20220157050A1 (en) | Image recognition device, image recognition system, image recognition method, and non-transitry computer-readable recording medium | |
CN111008995B (zh) | 面向高清高速视频的单通道多模态背景建模方法 | |
CN110942469B (zh) | 面向高清高速视频的双通道双模态背景建模方法 | |
CN111028262A (zh) | 一种多通道复合的高清高速视频背景建模方法 | |
WO2020194583A1 (ja) | 異常検知装置、制御方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |