CN104123709A - 一种基于字典选择的关键帧提取方法 - Google Patents
一种基于字典选择的关键帧提取方法 Download PDFInfo
- Publication number
- CN104123709A CN104123709A CN201310142884.XA CN201310142884A CN104123709A CN 104123709 A CN104123709 A CN 104123709A CN 201310142884 A CN201310142884 A CN 201310142884A CN 104123709 A CN104123709 A CN 104123709A
- Authority
- CN
- China
- Prior art keywords
- prospect
- video
- frame
- dictionary
- key frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及一种基于字典选择的关键帧提取方法,包括以下步骤:对原始视频的每一帧采用VIBE背景建模方法判断每一帧是前景帧还是背景帧,提取出具有连续前景帧的前景视频段;使用视频语义分割方法对前景视频段进行二次分割得到视频段;提取每一个视频段特征,将视频段的特征集合构成字典;使用字典选择方法提取出关键帧。本发明使用关键帧代替完整视频,提高了监控效率,节省了监控视频的传输时间和存储空间,减少了资源浪费,提高了设备的利用率。
Description
技术领域
本发明涉及视频分析领域,具体的说是一种基于字典选择的关键帧提取方法。
背景技术
随着现代社会发展对安全需求的提高,遍布全社会的监控探头记录下了大量的监控视频。通常我们将监控视频从探头处传输到监控中心,使用人工察看监控视频并将完整的监控视频存储下来。但监控视频中大部分都是静止的背景图像,仅有那些出现前景物体的帧才是监控人员有必要观看的,而且即使是这些前景帧,有很多都是相似的,即内容冗余。随着观看视频时间的增加,监控人员会疲劳,从而漏过重要信息。夹杂大量冗余信息的监控视频,其传输、存储消耗了大量的时间和空间,即降低了监控系统的设备利用率,也形成了巨大的浪费。
为了提高监控效率,减少资源浪费,我们需要从监控视频中挑选出关键帧。一段监控视频所有的关键帧,其信息总量应与整段视频的信息总量相同或相近。因此我们仅仅将从监控地点挑选出的关键帧传输至监控中心并存储,监控人员也仅仅察看这些关键帧,而不是冗长的完整的监控视频。
这样做的好处有:一方面节省了人力资源,缩短监控人员观看监控视频的时间,提高监控效率;另一方面节省了监控视频的传输时间和存储空间,减少了资源浪费,提高了设备的利用率。例如对于电梯门口的视频,我们可以提取出关键帧给监控人员观看,监控人员就能很容易的知道在什么时候有什么人进入电梯,而不必长时间的观看无人的电梯口;又或者需要远程监控仓库,受限于网络速度,难以实时传回完整的监控视频,可以在监控的当地提取出关键帧,只将关键帧传回给监控中心,这就节省了大量的网络资源。
发明内容
针对现有技术中存在的上述问题,本发明提出了一种基于字典选择的关键帧提取方法。
本发明为实现上述目的所采用的技术方案是:一种基于字典选择的关键帧提取方法,包括以下步骤:
对原始视频的每一帧采用VIBE背景建模方法判断每一帧是前景帧还是背景帧,提取出具有连续前景帧的前景视频段;
使用视频语义分割方法对前景视频段进行二次分割得到子视频段;
提取每一个子视频段特征,将子视频段的特征集合构成字典;
使用字典选择方法提取出关键帧。
所述VIBE背景建模方法中的当前点和样本点特征为RGB值和LBP值。
所述子视频段特征包括前景部分像素数量、前景部分边缘像素数量、前景部分颜色直方图、前景进入点数量和离开点数量、前景位置特征、前景连通域数量、前景连通域平均面积及前景连通域时间变化。
所述使用字典选择方法提取出关键帧包括以下步骤:
根据字典得到系数矩阵X=(BTB+λI)-1BTB,其中,B为字典,λ为权重系数;
然后计算X的每一行的分值并将所有s(i)组成分值向量S,其中x(i,j)为系数矩阵X第i行第j列的元素;
得到S中k个最大值所对应的那些行,从子视频段中提取出那些行对应的帧即为关键帧。
本发明具有以下优点:
1.本发明针对监控视频的特点,采用背景建模方法获取前景帧,从前景帧中提取有效特征。
2.本发明使用背景建模方法和视频语义分割方法将原始视频切割成易于处理的子视频。
3.本发明利用从前景视频序列中提取的特征组成字典,使用所提出的字典选择模型来挑选出关键帧。
4.本发明使用关键帧代替完整视频,提高了监控效率,节省了监控视频的传输时间和存储空间,减少了资源浪费,提高了设备的利用率。
附图说明
图1为本发明方法流程图;
图2为本发明实施例视频处理过程示意图及关键帧结果实例图。
具体实施方式
下面结合附图及实施例对本发明做进一步的详细说明。
本发明是一种基于字典选择的关键帧提取方法,包括以下步骤:
对原始视频的每一帧采用改进型VIBE背景建模方法判断每一帧是前景帧还是背景帧,提取出具有连续前景帧的前景视频段;
使用视频语义分割方法对前景视频段进行二次分割;
对分割出来的每一个视频段,从其每一帧中提取出特征,该视频段的特征集合构成字典;
使用字典选择方法提取出关键帧。
其中,背景建模方法为使用RGB值和LBP值的改进型VIBE背景建模方法。
视频语义分割方法为使用边缘变化率(ECR)值进行分割。
特征可以是前景部分像素数量、前景部分边缘像素数量、前景部分颜色直方图、前景进入点数量和离开点数量、前景位置特征、前景连通域数量、平均面积及时间变化或上述特征的组合。
字典选择方法使用F范数,使用解析解求出系数矩阵,依据分值向量的极大值确定关键帧。
如图1所示,本发明具体包括如下步骤:
S01:前景视频段提取。利用VIBE背景建模方法,获得原始视频的前景图像序列,设定一个前景像素比例的的阈值,判定每一帧分为前景帧或背景帧,将连续的前景帧提取为前景视频段。
VIBE背景建模方法使用q个样本点作为样本集,每个点以其RGB值和LBP值作为特征。通过度量当前点与样本点的距离来标识当前点与样本点是否适合。若当前点与超过基数(pmin)个样本点适合,则该点被判定为背景,否则为前景。设cdk为当前点的第k维特征,相应的sdk为样本点的第k维特征(k=1,2,…,z),如果仅采用RGB值作为特征,则特征维数z为3;fi表示当前点与第i个样本点的适合度(i=1,2,…,q),pmin为基数,则有:
pmin为最小样本基数,若当前点与超过样本集中的pmin个点适合,即p(x,y)=0,则当前点被归为背景(0),否则当点(x,y)的类别p(x,y)=1时为前景(1)。这里R为距离阈值,z为特征维数,每个像素都具有q个样本点。在载入视频第一帧的时候,随机选择q个当前点的邻域点作为样本点,就完成了样本集的初始化。当某个点被判定为背景时,有一定的几率更新其自身和邻域点的样本集。
基本的LBP值是将八个邻域像素以其中心像素的灰度为阈值进行比较,并产生一个8位的无符号数,即得到该像素的LBP(Local Binary Patterns)值,如下式所示:
这里gc是中心像素(xc,yc)的灰度值,gp是八个邻域像素的灰度值。而函数s(x)定义如下:
至此,我们在基于Vibe方法的背景提取中,每个像素使用了4个特征值,即像素的RGB值和LBP值,因此式(1)中,特征维数z=4。
在没有有效信息的背景帧中,肯定不存在关键帧,因此我们依据下式将图像划分为背景帧或前景帧:
其中图像宽高分别为w和h,AN为图像的总像素数,即AN=w*h,ε为前景占比阈值。FN为前景像素数。当一副图像中,前景像素占整幅图像像素的比例低于ε时,我们简单地判定其为背景帧。对于背景帧,我们将其从待处理的原始视频中剔除,这样就从原始视频中提取出了前景视频段。
S02:对于由连续前景帧组成的前景视频段通常还是太长,难以用字典选择方法提取关键帧,因此,需要使用视频语义分割技术对视频再次分割。
考虑监控视频的亮度变化(例如一天之中自然光的亮度变化),因此使用边缘作为检测的特征。用σn表示第n帧的边缘像素的数量,用σn-1表示第n-1帧边缘像素的数量,和分别表示进入第n帧和离开第n-1帧的边缘点的数量,由此定义边缘变化率为:
其取值范围为[0,1]。为应对物体运动影响度量的准确性,一幅图像与另一幅图像相应位置处邻近的边缘像素不再被看做进入或离开的边缘像素。因此,在计算ECR之前,若相邻两帧中两个边缘点的距离小于τ(一般取值3或5),则这将这两个点视作同一位置的边缘点。
我们仅在具有连续前景的子视频中计算ECR值,然后用求取ECR的局部极大值所对应的帧将连续前景视频段分割成更短的子视频。
S03:监控视频图像中背景画面所占比例较大,其特征值不明显,因此从视频的前景部分提取特征。本方法所提取的特征包括:
1.前景面积,即前景部分像素点的数量;
2.前景区域的周长,即前景中边缘点的数量;
3.前景的归一化RGB直方图,每个颜色值的取值范围为0-255,因此归一化RGB直方图共有768维;
4.前景的时间差异,包括进入点数量和离开点数量。进入点数量即上一帧为背景,当前帧为前景的像素的数量;离开点数量即即上一帧为前景,当前帧为背景的像素的数量。由于每一帧的前景像素数量不会相同,因此对进入点数量和离开点数量还需进行归一化处理,即对进入点数量除以当前帧前景像素总数,离开点数量除以上一帧前景像素总数。
5.前景位置特征,即将画面中心作为原点,计算每个前景点到原点的距离,并累加所有前景点的该距离值,最后进行归一化处理,即除以所有点到中心点的距离和,得到前景位置特征。
6.前景连通域数量c;
7.前景连通域平均面积:
这里c为前景连通域总数,c(i)为第i个连通域的面积(即像素数量)。
8.连通域时间变化|c-p|,这里c为当前帧的前景连通域数量,p为上一帧的前景连通域数量。
从以上所述可知,我们从每一帧视频中提取出776维特征(768维加上述8维特征),即特征维数d=776,若某个子视频段有n帧,则所有这些帧的特征集合成字典B,
S04:我们使用字典选择方法从子视频段中提取关键帧,即从原始字典B中挑选出具有最小尺寸的最优字典这样,我们就从n帧视频中挑选出了m帧作为关键帧。字典选择的原理如下:
这里λ为权重系数,X是系数矩阵,且||X||F为F范数。使上式最小的系数矩阵X即对应于最优字典B′,即B′抽取自B中满足以下条件的那些行:||Xi.||2≠0的所有样本i组成,这里Xi.表示X的第i行。在实际应用中,为了抽取指定数量的关键帧(例如指定抽取m帧),计算X每一行的分值s(i):
这里x(i,j)为系数矩阵X第i行第j列的元素。所有s(i)组成分值向量S,且求出S中m个最大值所对应的那些行,即r=1,2,…m,则从子视频段中提取出对应的帧作为关键帧。
从式(8)中求出系数矩阵X的方法如下:
F范数可被看作是L2范数的一种,可以写为而tr(A)=∑iAii为矩阵A的迹。因此我们可重写式(8):
Fs=argminBtr((B-BX)T(B-BX))+λtr(XTX) (10)
这里而为了解出该等式,我们对其求导:
显然,这是一个凸优化问题,可以使用多项式优化方法解出来,即:
因此可得:
则有:
-2BTB+2BTBX+λ2X=0 (15)
即:
(BTB+λI)X=BTB (16)
此处为单位阵。一般来说,λ>0因此(BTB+λI)是满秩矩阵,肯定存在逆矩阵,于是得到X的解析解:
X=(BTB+λI)-1BTB (17)
由上所述,我们根据式(17),由字典B可求出系数矩阵X。
如图2所示,第一行表示首先使用VIBE背景建模方法标记出原始视频中的前景视频段,如#150~#8250。接着第二行表示针对每一个前景视频段,使用视频语义分割技术对其进行再次分割,得到每一个待处理的子视频段,如#200~#5200。第三行表示从子视频段的每一帧里提取出特征,组成原始字典,最后使用字典选择方法挑选出关键帧,如#506、#786、#923等等,显示在最后三行的图片墙里。
Claims (4)
1.一种基于字典选择的关键帧提取方法,其特征在于,包括以下步骤:
对原始视频的每一帧采用VIBE背景建模方法判断每一帧是前景帧还是背景帧,提取出具有连续前景帧的前景视频段;
使用视频语义分割方法对前景视频段进行二次分割得到子视频段;
提取每一个子视频段特征,将子视频段的特征集合构成字典;
使用字典选择方法提取出关键帧。
2.根据权利要求1所述的一种基于字典选择的关键帧提取方法,其特征在于:所述VIBE背景建模方法中的当前点和样本点特征为RGB值和LBP值。
3.根据权利要求1所述的一种基于字典选择的关键帧提取方法,其特征在于:所述子视频段特征包括前景部分像素数量、前景部分边缘像素数量、前景部分颜色直方图、前景进入点数量和离开点数量、前景位置特征、前景连通域数量、前景连通域平均面积及前景连通域时间变化。
4.根据权利要求1所述的一种基于字典选择的关键帧提取方法,其特征在于:所述使用字典选择方法提取出关键帧包括以下步骤:
根据字典得到系数矩阵X=(BTB+λI)-1BTB,其中,B为字典,λ为权重系数;
然后计算X的每一行的分值并将所有s(i)组成分值向量S,其中x(i,j)为系数矩阵X第i行第j列的元素;
得到S中k个最大值所对应的那些行,从子视频段中提取出那些行对应的帧即为关键帧。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310142884.XA CN104123709B (zh) | 2013-04-23 | 2013-04-23 | 一种基于字典选择的关键帧提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310142884.XA CN104123709B (zh) | 2013-04-23 | 2013-04-23 | 一种基于字典选择的关键帧提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104123709A true CN104123709A (zh) | 2014-10-29 |
CN104123709B CN104123709B (zh) | 2016-12-28 |
Family
ID=51769108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310142884.XA Active CN104123709B (zh) | 2013-04-23 | 2013-04-23 | 一种基于字典选择的关键帧提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104123709B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108012117A (zh) * | 2017-11-30 | 2018-05-08 | 江西洪都航空工业集团有限责任公司 | 一种基于背景建模的城市摆摊设点检测方法 |
CN109785356A (zh) * | 2018-12-18 | 2019-05-21 | 北京中科晶上超媒体信息技术有限公司 | 一种视频图像的背景建模方法 |
CN111090778A (zh) * | 2019-12-26 | 2020-05-01 | 北京百度网讯科技有限公司 | 一种图片生成方法、装置、设备及存储介质 |
CN113326399A (zh) * | 2021-06-16 | 2021-08-31 | 中国人民解放军91388部队 | 一种视频浓缩的方法、装置、电子设备及存储介质 |
CN114979728A (zh) * | 2022-05-24 | 2022-08-30 | 东南大学 | 一种基于深度学习的联盟链场景下视频数据上链有害性审核方法 |
CN117640900A (zh) * | 2024-01-25 | 2024-03-01 | 广东天耘科技有限公司 | 全局安防视频系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070183674A1 (en) * | 2002-10-18 | 2007-08-09 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding and decoding key value data of coordinate interpolator |
CN101122914A (zh) * | 2007-09-14 | 2008-02-13 | 湘潭大学 | 一种基于本体和注释技术的视频检索方法 |
CN102542302A (zh) * | 2010-12-21 | 2012-07-04 | 中国科学院电子学研究所 | 基于分等级对象语义图的复杂目标自动识别方法 |
CN102663015A (zh) * | 2012-03-21 | 2012-09-12 | 上海大学 | 基于特征袋模型和监督学习的视频语义标注方法 |
CN102663095A (zh) * | 2012-04-11 | 2012-09-12 | 北京中科希望软件股份有限公司 | 一种对音、视频内容进行语义描述的方法和系统 |
-
2013
- 2013-04-23 CN CN201310142884.XA patent/CN104123709B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070183674A1 (en) * | 2002-10-18 | 2007-08-09 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding and decoding key value data of coordinate interpolator |
CN101122914A (zh) * | 2007-09-14 | 2008-02-13 | 湘潭大学 | 一种基于本体和注释技术的视频检索方法 |
CN102542302A (zh) * | 2010-12-21 | 2012-07-04 | 中国科学院电子学研究所 | 基于分等级对象语义图的复杂目标自动识别方法 |
CN102663015A (zh) * | 2012-03-21 | 2012-09-12 | 上海大学 | 基于特征袋模型和监督学习的视频语义标注方法 |
CN102663095A (zh) * | 2012-04-11 | 2012-09-12 | 北京中科希望软件股份有限公司 | 一种对音、视频内容进行语义描述的方法和系统 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108012117A (zh) * | 2017-11-30 | 2018-05-08 | 江西洪都航空工业集团有限责任公司 | 一种基于背景建模的城市摆摊设点检测方法 |
CN109785356A (zh) * | 2018-12-18 | 2019-05-21 | 北京中科晶上超媒体信息技术有限公司 | 一种视频图像的背景建模方法 |
CN109785356B (zh) * | 2018-12-18 | 2021-02-05 | 北京中科晶上超媒体信息技术有限公司 | 一种视频图像的背景建模方法 |
CN111090778A (zh) * | 2019-12-26 | 2020-05-01 | 北京百度网讯科技有限公司 | 一种图片生成方法、装置、设备及存储介质 |
CN111090778B (zh) * | 2019-12-26 | 2023-06-27 | 北京百度网讯科技有限公司 | 一种图片生成方法、装置、设备及存储介质 |
CN113326399A (zh) * | 2021-06-16 | 2021-08-31 | 中国人民解放军91388部队 | 一种视频浓缩的方法、装置、电子设备及存储介质 |
CN114979728A (zh) * | 2022-05-24 | 2022-08-30 | 东南大学 | 一种基于深度学习的联盟链场景下视频数据上链有害性审核方法 |
CN114979728B (zh) * | 2022-05-24 | 2024-04-02 | 东南大学 | 一种基于深度学习的联盟链场景下视频数据上链有害性审核方法 |
CN117640900A (zh) * | 2024-01-25 | 2024-03-01 | 广东天耘科技有限公司 | 全局安防视频系统 |
CN117640900B (zh) * | 2024-01-25 | 2024-04-26 | 广东天耘科技有限公司 | 全局安防视频系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104123709B (zh) | 2016-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | A computer vision system for early stage grape yield estimation based on shoot detection | |
CN110909690B (zh) | 一种基于区域生成的遮挡人脸图像检测方法 | |
CN104123709A (zh) | 一种基于字典选择的关键帧提取方法 | |
CN111209810A (zh) | 向可见光与红外图像准确实时行人检测的边界框分割监督深度神经网络架构 | |
CN110084165A (zh) | 基于边缘计算的电力领域开放场景下异常事件的智能识别与预警方法 | |
KR101183105B1 (ko) | 자동 구름 정보 산출방법 | |
CN110555420B (zh) | 一种基于行人区域特征提取和重识别融合模型网络及方法 | |
CN102521565A (zh) | 低分辨率视频的服装识别方法及系统 | |
CN111353452A (zh) | 一种基于rgb图像的行为识别方法、装置、介质及设备 | |
CN110390308B (zh) | 一种基于时空对抗生成网络的视频行为识别方法 | |
CN104376105A (zh) | 一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统及方法 | |
CN104598883A (zh) | 一种多摄像机监控网络中目标再识别的方法 | |
Rong et al. | Pest Identification and Counting of Yellow Plate in Field Based on Improved Mask R‐CNN | |
Wang et al. | Observing the natural world with Flickr | |
CN103530638A (zh) | 多摄像头下的行人匹配方法 | |
CN103617414A (zh) | 一种基于最大间距准则的火灾颜色模型及火灾火焰和烟雾识别方法 | |
CN104463232A (zh) | 一种基于hog特征和颜色直方图特征的密度人群计数的方法 | |
CN103164693A (zh) | 一种监控视频行人检测匹配方法 | |
Hao et al. | An Object‐Based Change Detection Approach Using Uncertainty Analysis for VHR Images | |
CN105513080A (zh) | 一种红外图像目标显著性评估方法 | |
CN110751191A (zh) | 一种图像的分类方法及系统 | |
CN102156968B (zh) | 一种基于颜色立方先验的单一图像能见度复原方法 | |
EP3396596B1 (en) | Heat ranking of media objects | |
CN101876993B (zh) | 一种地基数字云图的纹理特征抽取和检索方法 | |
CN116912184B (zh) | 一种基于篡改区域分离和区域约束损失的弱监督深度修复图像篡改定位方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |