CN103345764A - 一种基于对象内容的双层监控视频摘要生成方法 - Google Patents
一种基于对象内容的双层监控视频摘要生成方法 Download PDFInfo
- Publication number
- CN103345764A CN103345764A CN2013102944412A CN201310294441A CN103345764A CN 103345764 A CN103345764 A CN 103345764A CN 2013102944412 A CN2013102944412 A CN 2013102944412A CN 201310294441 A CN201310294441 A CN 201310294441A CN 103345764 A CN103345764 A CN 103345764A
- Authority
- CN
- China
- Prior art keywords
- target
- video
- frame
- frequency band
- bgv
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
一种基于对象内容的双层监控视频摘要生成方法,其包括如下步骤:1)读入原始视频帧后将原始视频分段为静态视频段、目标密集视频段和摘要基本段落;2)得到的视频基本段与视频密集段分别进行基于多特征融合的运动目标检测与跟踪,来获得该视频段内的目标的轨迹序列集合;3)利用融合记分板方法完成对于摘要基本段落的目标轨迹序列集合与最佳背景模型之间的轨迹融合;4)通过轨迹融合后得到摘要结果帧序列为该段摘要基本段的摘要视频,按照步骤1)分割顺序将这些视频段落依次合并,输出为摘要视频;5)根据摘要视频的轨迹序列,生成可供用户搜索的语义摘要信息。
Description
技术领域
本发明涉及一种基于对象内容的双层监控视频摘要生成方法。
背景技术
视频摘要,就是以自动或半自动的方式,通过对视频的结构和内容的分析,从原视频中提取有意义的部分,将它们以某种方式合并而成的紧凑的、能充分表现视频语义内容的视频浓缩。根据表现形式的不,视频摘要可分为静态的视频摘要和动态的视频摘要两类。
静态的视频摘要,是从视频流中抽取或生成的有代表性的图像。即通过一系列关键帧组成相应的语义单元,概括表示视频镜头的内容,如标题、故事板、幻灯片等。目前国内外静态视频摘要的研究主要是基于关键帧,即从原始视频中提取的按照一定顺序和一定形式排列的多帧代表帧图像序列给用户提供视频的总体描述,在浏览中也可以方便地定位到用户感兴趣的部分。基于关键帧的视频摘要的最小单位是“帧”,存储空间较小且方便传输,但并不能完整表示每个目标的完整行为运动轨迹,不利于视频目标检索;同时,帧选择依赖于阈值的选择;计算量大,不能做到实时处理。
动态的视频摘要,是图像序列及其伴音的集合,它本身也是一段视频,但比原视频要短得多。监控领域动态视频摘要发展到现在主要是基于对象的视频摘要。这种方法可以大大缩短视频长度,方便用于对视频的观看、分析和检索。基于对象的视频摘要的最小单位是“对象”,最大限度的减少时间-空间冗余,且为视频检索等上层开发提供对象结构,能在监控安防中快速响应紧急事件,定位到事件相关“对象”,但存在处理复杂,摘要生成困难的问题。但现行的基于对象的视频摘要系统存在难以处理大视频文件、目标轨迹组合最优解求解困难且耗时过长,轨迹间冲突较大,目标轨迹融合痕迹明显、不能生成高层视频语义特征的问题。
发明内容
本发明的目的在于提供一种能处理大视频文件,且目标轨迹组合最优解求解简单,并能生成高层视频语义特征的一种基于对象内容的双层监控视频摘要生成方法。
本发明一种基于对象内容的双层监控视频摘要生成方法,其包括如下步骤:
1)读入原始视频帧后将原始视频分段为静态视频段、目标密集视频段和摘要基本段落;
2)步骤1)得到的摘要基本段落与目标密集视频段分别进行基于多特征融合的运动目标检测与跟踪,来获得该视频段内的目标的轨迹序列集合;
3)利用融合记分板方法完成对于摘要基本段落的目标轨迹序列集合与最佳背景模型之间的轨迹融合;
4)通过轨迹融合后得到摘要结果帧序列为该段摘要基本段的摘要视频,按照步骤1)分割顺序将这些视频段落依次合并,输出为摘要视频;
5)根据摘要视频的轨迹序列,生成可供用户搜索的语义摘要信息。
在上述技术方案的基础上,所述步骤1)包括,
(1)对原始视频帧进行混合高斯背景建模,得到原始视频帧对象场景的背景模型序列及运动前景帧序列;
(2)对原始视频每帧对应的运动前景帧计算运动率对每一视频帧对应的运动前景图像计算运动率sat(k);
FG(i,j,k)为第k帧前景图像第i行j列的像素值,W与H为前景图像的宽和高;
(3)计算每一运动前景图对应的视频帧的动静标记R(k),Tq为静止阈值,则视频帧存在{0...0,-1...-1,0...0,-1...-1...}的连续0与连续1的动静结构,提取连续的0与连续的1分别划分为{Q1,M1...Qi,Mi...}这样的动视频段Mi与静视频段Qi;
(4)对每一个动视频段Mi计算计算其运动疏密度MS(i),及疏密标记MR(i),将Mi划分为目标密集视频段与运动稀疏视频段,对于所有目标密集视频段,进入步骤2),所有运动目标稀疏视频段进入步骤(5):
Nmi为Mi总共帧数,βs为单一运动饱和率;
(5)对所有运动稀疏视频段进行稀疏合并,生成摘要基本段:
(5a)如果Mi为第一个运动稀疏视频段,初始化V1,标记V1为未饱和,将Mi放入V1中,更新V1的背景候选集BGV(1)={BG(i)},段落饱和度MSV(1)=MS(i),其中BG(i)为Mi的背景模型序列中第[Nmi/2」帧图像。
(5b)如果Mi不为第一个运动稀疏视频段,找到第一个未饱和的摘要基本段Vj,将Mi加入到Vj中,更新背景候选集BGV(j),并计算MRV(j);
BGV(j)=BGV(j)∪{BG(i)}
其中,NV(j)是摘要基本段Vj的总帧数,βc为连接饱和度,a,b,c为常数;
(5c)如果Vj成为饱和摘要基本段,新建Vj+1;
(6)对所有静止视频段Qi,寻找离其起始序号最近的摘要基本段Vj1与终止帧最近的摘要基本段Vj2,分别将Qi的起始帧背景模型,中间帧背景模型,终止帧背景模型加入到BGV(j1)与BGV(j2)中,作为其待选背景模型;
(7)计算所有摘要基本段Vj对应的最佳背景模型,BGV(j)中第k个背景模型BGV(j,k)的重叠度为CRVj(k),选择其中重叠度最低的背景模型作为摘要基本段的最佳背景模型。
W与H为背景图像的宽和高,nb为BGV(j)中背景模型的个数。
TRm=<Bm,Fs,Fe>
其中Bm是该目标从起始帧Fs到终止帧Fe内所有的边界矩形。
在上述技术方案的基础上,所述步骤3)包括以下步骤:
(1)生成融合记分板
每一摘要视频帧k的融合记分板CBk(i,j)表示(i,j)位置有多少个目标发生融合,遍历每视频摘要帧k的融合目标的边缘矩形,得出CBk(i,j);
(2)动态融合系数生成
(2a)对每一摘要帧k计算融合结果,若CBk(i,j)为0,则摘要结果视频帧REk(i,j)的像素值为BGVbe(i,j);
(2b)若CBk(i,j)为1,计算若CBk(i,j)的行百分比RowPer与列百分比ColPer:
RowPer=DR/(Height/2)
ColPer=DC/(Width/2)
对于矩形内任一点(i,j),
DR=|j-y-Height/2|
DC=|i-x-Width/2|
则摘要结果帧中该位置权重背景权重WBg(i,j),目标权重WO(i,j)为:
WBg(i,j)=1-MAX(RowPer,ColPer)
WO(i,j)=1-WBg(i,j)
REk(i,j)=WBg(i,j)*BGVbe(i,j)+WO(i,j)*FOm(i,j)
其中,FOm(i,j)为融合目标在原始视频中位置(i,j)的像素值;
(2c)若CBk(i,j)大于1,计算摘要结果帧像素值REk(i,j):
在上述技术方案的基础上,所述步骤5)包括以下步骤:
(1)生成关键特征图:
(2)获取用户输入的语义搜索条件;
(3)搜索与待搜索图像匹配的目标轨迹;
(4)搜索与待搜索目标主体颜色匹配的目标轨迹;
(5)搜索在场景中持续逗留时间为T秒的目标,并将搜索结果返回为候选目标;
(6)搜索越过用户指定的直线位置的目标,返回后供用户查阅;
(7)搜索进入用户指定的矩形区域的目标,并返回所有进入用户指定的矩形区域的目标给用户查阅;
(8)搜索与其他目标发生接触的目标,并返回所述与其他目标发生接触的目标并供用户查阅。
在上述技术方案的基础上,所述步骤5)中步骤(1)包括以下步骤:
(1b)求目标关键特征图BLm
在上述技术方案的基础上,所述步骤5)中步骤(3)包括以下步骤:
(3a)计算待搜索图像与每个目标的关键特征图BLm的RGB颜色直方图:{Hr,Hg,Hb},其中,Hr={hri},Hg={hgi},Hb={hbi},且,ri、gi和bi分别为RGB三个直方图的灰度级数,取值范围均为[0,255],hri、hgi和hbi分别为对应灰度级数的像素个数;
(3b)归一化颜色直方图;
(3c)计算待搜索图像与第m个目标的轨迹TRm的关键特征图BLm的颜色直方图相交距离;
对于直方图Ha和Hb,其相交距离为
令待搜索图像的颜色直方图为:{Hr′,Hg′,Hb′},BLm的颜色直方图为:
(3d)返回候选目标;
计算所有目标的关键特征图与待搜索图像的颜色直方图相交距离,将颜色直方图相交距离大于阈值Th的目标按颜色直方图相交距离由大到小排序返回给用户查阅。
在上述技术方案的基础上,所述步骤5)中步骤(4)包括以下步骤:
(4a)计算各目标的颜色直方图;
(4b)提取各目标的主体颜色;
关键特征图BLm的主体颜色为颜色直方图高度最高的索引对应的颜色值,令为RGB(rm,gm,bm),转换到HSI颜色空间为HSI(hm,sm,im);
(4c)计算相似度;
设待搜索目标的主体颜色为RGB(rt,gt,bt),转换到HSI颜色空间为HSI(ht,st,it),则待搜索主体颜色与关键特征图BLm的主体颜色的相似度为
(4d)返回候选目标;
在上述技术方案的基础上,所述步骤5)中步骤(5)包括以下步骤:
(5a)计算每个目标的场景逗留时间;
目标TRm的逗留时间其中fps为视频帧率;
(5b)返回候选目标
搜索持续逗留时间大于T的目标为对应的目标TRm,并供用户查阅;
搜索持续逗留时间为T左右的目标为对应的目标TRm,其中α为时间匹配模糊度,0<α<1,并供用户查阅。
在上述技术方案的基础上,所述步骤5)中步骤(6)包括以下步骤:
令用户指定的直线一般式为:f(x,y)=ax+by+c=0
则判断目标是否越过用户指定直线的步骤为:
相对于现有技术来说,本发明具有以下优点:解决了传统基于关键帧技术的视频摘要方法中不能完整表示目标行为轨迹的问题,在底层摘要视频生成中,可将原始视频压缩成可快速查阅的摘要视频,压缩比可达(0.1~0.01),在高层语义视频摘要生成中,可提供每个目标的特征照片供用户快速搜索目标,也同时可以为用户提供部分如逗留时间、到达特定区域、主体颜色等语义信息,供用户快速定位到部分目标,提高了监控视频领域中的相应紧急事件的速度,且准确定位到整个事件相关对象。
附图说明
图1 是视频摘要系统整体框架图;
图2 是视频分段方法的程序流程图;
图3 是轨迹最优组合方法的程序流程图;
图4 是轨迹融合方法的流程图。
具体实施方式
如附图1所示,本发明基于对象内容的双层视频摘要生成方法,分为以下几个具体步骤完成。
1、视频分段
如附图2所示,本视频分段部分主要完成将超大视频文件及来自网络摄像头的实时视频流,在读入原始视频帧后快速根据视频摘要处理的特殊性将原始视频分段为静态视频段、目标密集视频段和摘要基本段落,同时为每个摘要基本段落生成其最佳背景模型。
(1)运动段落划分
a)混合高斯背景建模
对原始视频帧进行混合高斯背景建模,得到原始视频帧对象场景的背景模型序列及运动前景帧序列。具体的方法参见论文Z.Zivkovic,“Improved adaptivegausian mixture model for background subtraction,”in Proc.IEEE Int.Conf.PatternRecognit.,Cambridge,U.K.,Aug.2004,vol.2,pp.28-31.
b)运动率计算
对原始视频每帧对应的运动前景帧计算运动率对每一视频帧对应的运动前景图像计算运动率sat(k);
其中FG(i,j,k)为第k帧前景图像第i行j列的像素值,W与H为前景图像的宽和高。
c)静止标记计算
计算每一运动前景图对应的视频帧的动静标记R(k),Tq为静止阈值。
d)运动与静止段落划分
视频帧的动静结构必然是“……动-静-动-静……”这样的动静段落,则动静标记必然存在{0...0,-1...-1,0...0,-1...-1...}的连续0与连续1的动静结构,提取连续的0与连续的1分别划分为{Q1,M1...Qi,Mi...}这样的动视频段Mi与静视频段Qi;
(2)运动稀疏段落划分
a)视频段落疏密度计算
对每一个动视频段Mi计算计算其运动疏密度MS(i):
Nmi为Mi总共帧数。
b)疏密度标记计算
对每一个动视频段Mi计算疏密标记MR(i):
Nmi为Mi总共帧数,βs为单一运动饱和率。
c)目标密集与稀疏视频段划分
由每个动视频段Mi计算疏密标记MR(i)可将,将Mi划分为目标密集视频段与运动稀疏视频段,对于所有目标密集视频段可直接进行步骤2的目标轨迹提取,所有运动目标稀疏视频段进行步骤(3):
(3)摘要基本段落生成
a)摘要基本段落生成
对所有运动稀疏视频段进行稀疏合并,生成摘要基本段:
(3a1)如果Mi为第一个运动稀疏视频段,初始化V1,标记V1为未饱和,将Mi放入V1中,更新V1的背景候选集BGV(1)={BG(i)},段落饱和度MSV(1)=MS(i),其中BG(i)为Mi的背景模型序列中第[Nmi/2」帧图像。
(3a2)如果Mi不为第一个运动稀疏视频段,找到第一个未饱和的摘要基本段Vj,将Mi加入到Vj中,更新背景候选集BGV(j),并计算MRV(j);
BGV(j)=BGV(j)∪{BG(i)}
其中,NV(j)是摘要基本段Vj的总帧数,βc为连接饱和度,a,b,c为常数。
(3a3)如果Vj成为饱和摘要基本段,新建Vj+1;
b)静态段落处理
对所有静止视频段Qi,寻找离其起始序号最近的摘要基本段Vj1与终止帧最近的摘要基本段Vj2,分别将Qi的起始帧背景模型,中间帧背景模型,终止帧背景模型加入到BGV(j1)与BGV(j2)中,作为其待选背景模型。
c)基本段落的最佳背景模型生成
计算所有摘要基本段Vj对应的最佳背景模型,BGV(j)中第k个背景模型BGV(j,k)的重叠度为CRVj(k),选择其中重叠度最低的背景模型作为摘要基本段的最佳背景模型。
W与H为背景图像的宽和高,nb为BGV(j)中背景模型的个数。
2、轨迹提取
对视频分段部分得到的视频基本段与目标密集视频段分别进行基于多特征融合的运动目标检测与跟踪(参见论文Yumin Tian,Mingqian Tang,Ankui Meng,and Yuejiang Li.Robust Multi-objects Detection and Tracking Algorithm UnderComplex Circumstance[C].//2012 16th International Conference on Image Processing,Computer Vision,& Pattern Recognition(IPCV2012).[V.2].2012:1001-1004.),来获得该视频段内的M个目标的轨迹序列集合第m个目标的轨迹是TRm:
TRm=<Bm,Fs,Fe>
其中Bm是该目标从起始帧Fs到终止帧Fe内所有的边界矩形。
3、轨迹融合
轨迹融合部分是按照各目标的融合顺序将该运动视频段的背景视频与该目标的原始图像黏贴融合,由于不可避免目标间会存在一定的碰撞,所以,需要对重叠区域动态计算融合系数,从而满足以下条件:
●融合结果在目标矩形边缘尽量不出现强边缘效应;
●多目标重叠区域各个目标均可见。
于是可以将融合问题分为两部分:轨迹图像与背景图像之间的融合,轨迹图像之间的重叠融合。
如附图4所示,其基本步骤如下:
(1)融合记分板生成
每一摘要视频帧k的融合记分板CBk(i,j)表示(i,j)位置有多少个目标发生融合。遍历每视频摘要帧k的融合目标的边缘矩形,得出CBk(i,j)。
(2)动态融合系数生成
a)对每一摘要帧k计算融合结果,若CBk(i,j)为0,则摘要结果视频帧REk(i,j)的像素值为BGVbe(i,j)。
b)若CBk(i,j)为1,如附图5所示,计算若CBk(i,j)的行百分比RowPer与列百分比ColPer:
RowPer=DR/(Height/2)
ColPer=DC/(Width/2)
对于矩形内任一点(i,j),
DR=|j-y-Height/2|
DC=|i-x-Width/2|
则摘要结果帧中该位置权重背景权重WBg(i,j),目标权重WO(i,j)为:
WBg(i,j)=1-MAX(RowPer,ColPer)
WO(i,j)=1-WBg(i,j)
REk(i,j)=WBg(i,j)*BGVbe(i,j)+WO(i,j)*FOm(i,j)
其中,FOm(i,j)为融合目标在原始视频中位置(i,j)的像素值。
c)若CBk(i,j)大于1,计算摘要结果帧像素值REk(i,j):
(3)摘要视频生成
通过对每个基本视频段内的轨迹与摘要帧进行轨迹融合后,得到摘要结果帧序列为该段摘要基本段Vj的摘要视频,然后将目标密集视频段的轨迹提取后的图像序列标记其原始视频帧上,作为该目标密集段的摘要视频,然后按照Vj的分割顺序将这些视频段落依次合并,输出为摘要视频。
4、视频语义摘要
视频语义摘要是通过对底层摘要视频(即包含摘要基本段落中的摘要视频也包含目标密集段落的摘要视频)的轨迹序列,生成可供用户搜索的语义摘要信息,如附图6所示,其主要步骤如下:
(1)生成关键特征图:
b)求目标关键特征图BLm
(2)获取用户输入的语义搜索条件:
为方便用户快速检索特定目标,允许用户输入以下语义搜索条件:
●待搜索图像;
●待搜索目标主体颜色值;
●待搜索目标在场景中持续逗留时间T;
●待搜索目标越过用户指定的直线位置;
●待搜索目标进入用户指定的矩形区域;
●待搜索目标运动过程中与其他目标发生接触。
(3)搜索与待搜索图像匹配的目标轨迹:
a)计算待搜索图像与每个目标的关键特征图BLm的RGB颜色直方图:{Hr,Hg,Hb},其中,Hr={hri},Hg={hgi},Hb={hbi},且,ri、gi和bi分别为RGB三个直方图的灰度级数,取值范围都是[0,255],hri、hgi和hbi分别为对应灰度级数的像素个数;
b)归一化颜色直方图;
c)计算待搜索图像的颜色直方图与第m个目标关键特征图BLm间颜色直方图相交距离
c)计算待搜索图像与第m个目标的轨迹TRm的关键特征图BLm的颜色直方图相交距离;
对于直方图Ha和Hb,其相交距离为
于是令待搜索图像的颜色直方图为:{Hr′,Hg′,Hb′},BLm的颜色直方图为:
d)返回候选目标;
计算所有目标的关键特征图与待搜索图像的颜色直方图相交距离,将颜色直方图相交距离大于阈值Th的目标按颜色直方图相交距离由大到小排序返回给用户查阅。
(4)搜索与待搜索目标主体颜色匹配的目标轨迹:
a)计算各目标的颜色直方图,步骤参考5(3)(a);
b)提取各目标的主体颜色;
关键特征图BLm的主体颜色为颜色直方图高度最高的索引对应的颜色值,令为RGB(rm,gm,bm),转换到HSI颜色空间为HSI(hm,sm,im);
c)计算相似度;
设待搜索目标的主体颜色为RGB(rt,gt,bt),转换到HSI颜色空间为HSI(ht,st,it),则待搜索主体颜色与关键特征图BLm的主体颜色的相似度为
d)返回候选目标;
相似度阈值其中αs、αi和αh用户可调阈值因子,一般情况下有αs=0.15,αi=0.2,αh=30,而这三个阈值因子的取之范围分别为:0<αs≤1,0<αi≤1,0<αh≤180。于是一般情况下相似度阈值为
(5)搜索在场景中持续逗留时间为T(单位:秒)的目标:
a)计算每个目标的场景逗留时间;
b)返回候选目标
搜索持续逗留时间为T左右的目标为对应的目标TRm,其中α为时间匹配模糊度,0<α<1,其值可以由用户指定,一般取0.3。
(6)搜索越过用户指定的直线位置的目标:
令用户指定的直线一般式为:f(x,y)=ax+by+c=0
则判断目标是否越过用户指定直线的步骤为:
(7)搜索进入用户指定的矩形区域的目标:
令用户指定的矩形区域为(l,t,r,b),其中l为矩形左侧x轴坐标,r为矩形右侧x轴坐标,t为矩形上侧y轴坐标,b为矩形下侧y轴坐标;目标TRm的边界矩形列表中,若存在 为目标TRm的边界矩形个数,使得 为重心的x轴坐标,为重心的y轴坐标,表明目标TRm进入指定矩形区域,否则表明TRm没有进入指定矩形区域。
返回所有进入用户指定的矩形区域的目标给用户查阅。
(8)搜索与其他目标发生接触的目标:
Claims (10)
1.一种基于对象内容的双层监控视频摘要生成方法,其特征在于:其包括如下步骤:
1)读入原始视频帧后将原始视频分段为静态视频段、目标密集视频段和摘要基本段落;
2)步骤1)得到的摘要基本段落与目标密集视频段分别进行基于多特征融合的运动目标检测与跟踪,来获得该视频段内的目标的轨迹序列集合;
3)利用融合记分板方法完成对于摘要基本段落的目标轨迹序列集合与最佳背景模型之间的轨迹融合;
4)通过轨迹融合后得到摘要结果帧序列为该段摘要基本段的摘要视频,按照步骤1)分割顺序将这些视频段落依次合并,输出为摘要视频;
5)根据摘要视频的轨迹序列,生成可供用户搜索的语义摘要信息。
2.如权利要求1所述的一种基于对象内容的双层监控视频摘要生成方法,其特征在于:所述步骤1)包括,
(1)对原始视频帧进行混合高斯背景建模,得到原始视频帧对象场景的背景模型序列及运动前景帧序列;
(2)对原始视频每帧对应的运动前景帧计算运动率,对每一视频帧对应的运动前景图像计算运动率sat(t);
FG(i,j,k)为第k帧前景图像第i行j列的像素值,W与H为前景图像的宽和高;
(3)计算每一运动前景图对应的视频帧的动静标记R(k),Tq为静止阈值,则视频帧存在{0…0,-1…-1,0…0,-1…-1…}的连续0与连续1的动静结构,提取连续的0与连续的1分别划分为{Q1,M1…Qi,Mi…}这样的动视频段Mi与静视频段Qi;
(4)对每一个动视频段Mi计算计算其运动疏密度MS(i),及疏密标记MR(i),将Mi划分为目标密集视频段与运动稀疏视频段,对于所有目标密集视频段,进入步骤2),所有运动目标稀疏视频段进入步骤(5):
Nmi为Mi总共帧数,βs为单一运动饱和率;
(5)对所有运动稀疏视频段进行稀疏合并,生成摘要基本段:
(5a)如果Mi为第一个运动稀疏视频段,初始化V1,标记V1为未饱和,将Mi放入V1中,更新v1的背景候选集BGV(1)={BG(i)},段落饱和度MSV(1)=MS(i),其中BG(i)为Mi的背景模型序列中第帧图像;
(5b)如果Mi不为第一个运动稀疏视频段,找到第一个未饱和的摘要基本段Vj,将Mi加入到Vj中,更新背景候选集BGV(j),并计算MRV(j);
BGV(j)=BGV(j)∪{BG(i)}
其中,NV(j)是摘要基本段Vj的总帧数,βc为连接饱和度,a,b,c为常数;
(5c)如果Vj成为饱和摘要基本段,新建Vj+1;
(6)对所有静止视频段Qi,寻找离其起始序号最近的摘要基本段Vj1与终止帧最近的摘要基本段Vj2,分别将Qi的起始帧背景模型,中间帧背景模型,终止帧背景模型加入到BGV(j1)与BGV(j2)中,作为其待选背景模型;
(7)计算所有摘要基本段Vj对应的最佳背景模型,BGV(j)中第k个背景模型BGV(j,k)的重叠度为CRVj(k),选择其中重叠度最低的背景模型作为摘要基本段的最佳背景模型,
W与H为背景图像的宽和高,nb为BGV(j)中背景模型的个数。
4.如权利要求1所述的一种基于对象内容的双层监控视频摘要生成方法,其特征在于:所述步骤3)包括以下步骤:
(1)生成融合记分板
每一摘要视频帧k的融合记分板CBk(i,j)表示(i,j)位置发生融合的目标数量,遍历每视频摘要帧k的融合目标的边缘矩形,得出CBk(i,j);
(2)动态融合系数生成
(2a)对每一摘要帧k计算融合结果,若CBk(i,j)为0,则摘要结果视频帧REk(i,j)的像素值为BGVbe(i,j);
(2b)若CBk(i,j)为1,计算若CBk(i,j)的行百分比RowPer与列百分比ColPer:
RowPer=DR/(Height/2)
ColPer=DC/(Width/2)
对于矩形内任一点(i,j),
DR=|j-y-Height/2|
DC=|i-x-Width/2|
则摘要结果帧中该位置权重背景权重WBg(i,j),目标权重WO(i,j)为:
WBg(i,j)=1-MAX(RowPer,ColPer)
WO(i,j)=1-WBg(i,j)
REk(i,j)=WBg(i,j)*BGVbe(i,j)+WO(i,j)*FOm(i,j)
其中,FOm(i,j)为融合目标在原始视频中位置(i,j)的像素值;
(2c)若CBk(i,j)大于1,计算摘要结果帧像素值REk(i,j):
F待搜索目标运动过程中与其他目标发生接触。
5.如权利要求1所述的一种基于对象内容的双层监控视频摘要生成方法,其特征在于:所述步骤5)包括以下步骤:
(1)生成关键特征图:
(2)获取用户输入的语义搜索条件;
(3)搜索与待搜索图像匹配的目标轨迹;
(4)搜索与待搜索目标主体颜色匹配的目标轨迹;
(5)搜索在场景中持续逗留时间为T秒的目标,并将搜索结果返回为候选目标;
(6)搜索越过用户指定的直线位置的目标,返回后供用户查阅;
(7)搜索进入用户指定的矩形区域的目标,并返回所有进入用户指定的矩形区域的目标给用户查阅;
(8)搜索与其他目标发生接触的目标,并返回所述与其他目标发生接触的目标并供用户查阅。
7.如权利要求6所述的一种基于对象内容的双层监控视频摘要生成方法,其特征在于:所述步骤5)中步骤(3)包括以下步骤:
(3a)计算待搜索图像与每个目标的关键特征图BLm的RGB颜色直方图:{Hr,Hg,Hb},其中,Hr={hri},Hg={hgi},Hb={hbi},且,ri、gi和bi分别为RGB三个直方图的灰度级数,取值范围均为[0,255],hri、hgi和hbi分别为对应灰度级数的像素个数;
(3b)归一化颜色直方图;
(3c)计算待搜索图像与第m个目标的轨迹TRm的关键特征图BLm的颜色直方图相交距离;
对于直方图Hα和Hb,其相交距离为
(3d)返回候选目标;
计算所有目标的关键特征图与待搜索图像的颜色直方图相交距离,将颜色直方图相交距离大于阈值Th的目标按颜色直方图相交距离由大到小排序返回给用户查阅。
8.如权利要求6所述的一种基于对象内容的双层监控视频摘要生成方法,其特征在于:所述步骤5)中步骤(4)包括以下步骤:
(4a)计算各目标的颜色直方图;
(4b)提取各目标的主体颜色;
关键特征图BLm的主体颜色为颜色直方图高度最高的索引对应的颜色值,令为RGB(rm,gm,bm),转换到HSI颜色空间为HSI(hm,sm,im);
(4c)计算相似度;
设待搜索目标的主体颜色为RGB(rt,gt,bt),转换到HSI颜色空间为HSI(ht,st,it),则待搜索主体颜色与关键特征图BLm的主体颜色的相似度为:
(4d)返回候选目标;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310294441.2A CN103345764B (zh) | 2013-07-12 | 2013-07-12 | 一种基于对象内容的双层监控视频摘要生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310294441.2A CN103345764B (zh) | 2013-07-12 | 2013-07-12 | 一种基于对象内容的双层监控视频摘要生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103345764A true CN103345764A (zh) | 2013-10-09 |
CN103345764B CN103345764B (zh) | 2016-02-10 |
Family
ID=49280557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310294441.2A Active CN103345764B (zh) | 2013-07-12 | 2013-07-12 | 一种基于对象内容的双层监控视频摘要生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103345764B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104253981A (zh) * | 2014-09-28 | 2014-12-31 | 武汉烽火众智数字技术有限责任公司 | 一种用于视频侦查的运动目标按颜色排序的方法 |
CN104954892A (zh) * | 2015-06-15 | 2015-09-30 | 海信集团有限公司 | 一种展示视频主题内容的方法及装置 |
CN105025198A (zh) * | 2015-07-22 | 2015-11-04 | 东方网力科技股份有限公司 | 一种基于时空因素的视频运动目标的分组方法 |
WO2015184768A1 (zh) * | 2014-10-23 | 2015-12-10 | 中兴通讯股份有限公司 | 一种视频摘要生成方法及装置 |
CN106664467A (zh) * | 2014-09-04 | 2017-05-10 | 英特尔公司 | 实时视频摘要 |
CN107220616A (zh) * | 2017-05-25 | 2017-09-29 | 北京大学 | 一种基于自适应权重的双路协同学习的视频分类方法 |
CN107426631A (zh) * | 2016-05-23 | 2017-12-01 | 安讯士有限公司 | 从源视频序列生成摘要视频序列 |
CN107729809A (zh) * | 2017-09-11 | 2018-02-23 | 汕头大学 | 一种自适应生成视频摘要的方法、装置及其可读存储介质 |
CN109919295A (zh) * | 2017-12-12 | 2019-06-21 | 北京大学深圳研究生院 | 一种基于轻量级卷积神经网络的嵌入式音频事件检测方法 |
CN110519532A (zh) * | 2019-09-02 | 2019-11-29 | 中移物联网有限公司 | 一种信息获取方法及电子设备 |
CN111078174A (zh) * | 2019-12-13 | 2020-04-28 | 电子科技大学中山学院 | 一种计算电子纸彩色转换时间系统及其应用 |
CN115037977A (zh) * | 2022-05-17 | 2022-09-09 | 西安猫兜灵智能科技有限公司 | 一种一体化的多模态视频快速摘注和派生系统 |
CN115941997A (zh) * | 2022-12-01 | 2023-04-07 | 石家庄铁道大学 | 片段-自适应的监控视频浓缩方法 |
US12100209B2 (en) | 2019-01-23 | 2024-09-24 | Huawei Cloud Computing Technologies Co., Ltd. | Image analysis method and system |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005004473A (ja) * | 2003-06-11 | 2005-01-06 | Sony Corp | 発話生成装置および方法、並びにプログラム |
CN102184221A (zh) * | 2011-05-06 | 2011-09-14 | 北京航空航天大学 | 一种基于用户偏好的实时视频摘要生成方法 |
CN102708182A (zh) * | 2012-05-08 | 2012-10-03 | 浙江捷尚视觉科技有限公司 | 一种快速视频浓缩摘要方法 |
CN103150373A (zh) * | 2013-03-08 | 2013-06-12 | 北京理工大学 | 一种高满意度视频摘要生成方法 |
-
2013
- 2013-07-12 CN CN201310294441.2A patent/CN103345764B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005004473A (ja) * | 2003-06-11 | 2005-01-06 | Sony Corp | 発話生成装置および方法、並びにプログラム |
CN102184221A (zh) * | 2011-05-06 | 2011-09-14 | 北京航空航天大学 | 一种基于用户偏好的实时视频摘要生成方法 |
CN102708182A (zh) * | 2012-05-08 | 2012-10-03 | 浙江捷尚视觉科技有限公司 | 一种快速视频浓缩摘要方法 |
CN103150373A (zh) * | 2013-03-08 | 2013-06-12 | 北京理工大学 | 一种高满意度视频摘要生成方法 |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10755105B2 (en) | 2014-09-04 | 2020-08-25 | Intel Corporation | Real time video summarization |
CN106664467A (zh) * | 2014-09-04 | 2017-05-10 | 英特尔公司 | 实时视频摘要 |
CN106664467B (zh) * | 2014-09-04 | 2019-09-17 | 英特尔公司 | 视频数据流捕获和摘要的方法、系统、介质和设备 |
CN104253981A (zh) * | 2014-09-28 | 2014-12-31 | 武汉烽火众智数字技术有限责任公司 | 一种用于视频侦查的运动目标按颜色排序的方法 |
WO2015184768A1 (zh) * | 2014-10-23 | 2015-12-10 | 中兴通讯股份有限公司 | 一种视频摘要生成方法及装置 |
CN105530554A (zh) * | 2014-10-23 | 2016-04-27 | 中兴通讯股份有限公司 | 一种视频摘要生成方法及装置 |
CN104954892A (zh) * | 2015-06-15 | 2015-09-30 | 海信集团有限公司 | 一种展示视频主题内容的方法及装置 |
CN104954892B (zh) * | 2015-06-15 | 2018-12-18 | 海信集团有限公司 | 一种展示视频主题内容的方法及装置 |
CN105025198A (zh) * | 2015-07-22 | 2015-11-04 | 东方网力科技股份有限公司 | 一种基于时空因素的视频运动目标的分组方法 |
CN107426631B (zh) * | 2016-05-23 | 2019-05-28 | 安讯士有限公司 | 从源视频序列生成摘要视频序列的方法和视频处理装置 |
CN107426631A (zh) * | 2016-05-23 | 2017-12-01 | 安讯士有限公司 | 从源视频序列生成摘要视频序列 |
CN107220616A (zh) * | 2017-05-25 | 2017-09-29 | 北京大学 | 一种基于自适应权重的双路协同学习的视频分类方法 |
CN107729809A (zh) * | 2017-09-11 | 2018-02-23 | 汕头大学 | 一种自适应生成视频摘要的方法、装置及其可读存储介质 |
CN107729809B (zh) * | 2017-09-11 | 2021-06-08 | 汕头大学 | 一种自适应生成视频摘要的方法、装置及其可读存储介质 |
CN109919295B (zh) * | 2017-12-12 | 2022-10-28 | 北京大学深圳研究生院 | 一种基于轻量级卷积神经网络的嵌入式音频事件检测方法 |
CN109919295A (zh) * | 2017-12-12 | 2019-06-21 | 北京大学深圳研究生院 | 一种基于轻量级卷积神经网络的嵌入式音频事件检测方法 |
US12100209B2 (en) | 2019-01-23 | 2024-09-24 | Huawei Cloud Computing Technologies Co., Ltd. | Image analysis method and system |
CN110519532A (zh) * | 2019-09-02 | 2019-11-29 | 中移物联网有限公司 | 一种信息获取方法及电子设备 |
CN111078174A (zh) * | 2019-12-13 | 2020-04-28 | 电子科技大学中山学院 | 一种计算电子纸彩色转换时间系统及其应用 |
CN111078174B (zh) * | 2019-12-13 | 2021-07-27 | 电子科技大学中山学院 | 一种计算电子纸彩色转换时间系统及其应用 |
CN115037977A (zh) * | 2022-05-17 | 2022-09-09 | 西安猫兜灵智能科技有限公司 | 一种一体化的多模态视频快速摘注和派生系统 |
CN115941997A (zh) * | 2022-12-01 | 2023-04-07 | 石家庄铁道大学 | 片段-自适应的监控视频浓缩方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103345764B (zh) | 2016-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103345764A (zh) | 一种基于对象内容的双层监控视频摘要生成方法 | |
Zhong et al. | Spatio-temporal video search using the object based video representation | |
Nie et al. | Compact video synopsis via global spatiotemporal optimization | |
CN103200463A (zh) | 一种视频摘要生成方法和装置 | |
WO2007020897A1 (ja) | 映像シーン分類装置および映像シーン分類方法 | |
Sreeja et al. | Towards genre-specific frameworks for video summarisation: A survey | |
US9805268B2 (en) | System and method for processing a video stream to extract highlights | |
Meng et al. | Object instance search in videos via spatio-temporal trajectory discovery | |
Kolekar et al. | Semantic concept mining in cricket videos for automated highlight generation | |
Silva et al. | Towards semantic fast-forward and stabilized egocentric videos | |
Zhang et al. | Aesthetics-guided summarization from multiple user generated videos | |
JP5116017B2 (ja) | 動画検索方法およびシステム | |
Wachman et al. | Tools for browsing a TV situation comedy based on content specific attributes | |
Cayllahua-Cahuina et al. | A static video summarization approach with automatic shot detection using color histograms | |
Sigari et al. | Counterattack detection in broadcast soccer videos using camera motion estimation | |
e Souza et al. | Survey on visual rhythms: A spatio-temporal representation for video sequences | |
Tsingalis et al. | Svm-based shot type classification of movie content | |
Ramos et al. | Personalizing fast-forward videos based on visual and textual features from social network | |
RU2493602C1 (ru) | Способ и система для выделения ключевых кадров из видео последовательностей | |
Kiani et al. | Flexible soccer video summarization in compressed domain | |
Siles | Temporal segmentation of association football from tv broadcasting | |
Cohendet et al. | Transfer Learning for Video Memorability Prediction. | |
Chen et al. | Robust video text detection through parametric shape regression, propagation and fusion | |
Fu et al. | Object-centered narratives for video surveillance | |
Lotfi | A Novel Hybrid System Based on Fractal Coding for Soccer Retrieval from Video Database |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |