CN102156702B - 一种由粗到精的视频事件的快速定位方法 - Google Patents

一种由粗到精的视频事件的快速定位方法 Download PDF

Info

Publication number
CN102156702B
CN102156702B CN 201010593169 CN201010593169A CN102156702B CN 102156702 B CN102156702 B CN 102156702B CN 201010593169 CN201010593169 CN 201010593169 CN 201010593169 A CN201010593169 A CN 201010593169A CN 102156702 B CN102156702 B CN 102156702B
Authority
CN
China
Prior art keywords
empty
time
video
sample
sky
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201010593169
Other languages
English (en)
Other versions
CN102156702A (zh
Inventor
吴娴
杨兴锋
王春芙
张东明
何崑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANFANG DAILY GROUP
Original Assignee
NANFANG DAILY GROUP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NANFANG DAILY GROUP filed Critical NANFANG DAILY GROUP
Priority to CN 201010593169 priority Critical patent/CN102156702B/zh
Publication of CN102156702A publication Critical patent/CN102156702A/zh
Application granted granted Critical
Publication of CN102156702B publication Critical patent/CN102156702B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种由粗到精的视频事件的快速定位方法,首先对查询事件和真实视频进行粗匹配获得真实视频时间分割的起止点,然后提取真实视频中的每帧图像的感兴趣区域完成真实视频的空间分割,然后真实视频经空间分割和时间分割后得到一系列感兴趣空时体,在感兴趣空时体和查询事件之间进行精匹配,从而构造出相关体,在相关体上利用全局显著性测试判断每个感兴趣空时体是否存在与查询样本相似的事件。最后采用后处理方法控制最佳匹配显著点周围的空时区域定位和显示。本发明通过预先采用粗匹配方法可排除大量“无关”空时区域,有效地降低匹配搜索空间,使得精匹配只需在感兴趣空时体与查询事件之间进行,加快了搜索速度。

Description

一种由粗到精的视频事件的快速定位方法
技术领域
本发明属于视频事件定位方法研究领域,特别涉及一种由粗到精的视频事件的快速定位方法。
背景技术
视频事件的定位在视频检索、视频浏览、智能监控和人体运动分析等方面有着广泛的应用。目前视频事件的定位方法主要分为两类:基于学习的方法和无需学习的方法。基于学习的方法需要对每种查询事件建立训练模型,但是因为模型的训练需要调整多项参数,可能出现过拟合现象。无需学习的方法不需要训练只需用户提供相应的查询事件即可以进行视频事件的定位,搜索得到查询事件在真实视频中所处的空时位置。这类方法以查询事件作为模板在真实视频中进行匹配搜索,但真实视频通常持续较长时间,且其搜索区域是X-Y-T三维空间,从而会产生巨大的计算花费,因此穷举搜索法显得不太可行。为了降低巨大的搜索空间,现在多采用对真实视频进行下采样的方法,或是只在时间和空间固定尺度上的采样空间中进行简单定位,但这种做法查全率较低,并且大量时间仍被浪费在真实视频中不可能存在查询事件的空时位置上,不够实用。
E.Shechtman,和M.Irani在2007年的CVPR(Computer Vision and PatternRecognition,计算机视觉与模式识别)会议上发表了一篇名称为:Matching localself-similarities across images and videos的文章,该文章公开了一种根据局部自相似特征来测量视频事件相似性的方法,该方法通过在X-Y-T方向上不重叠地划分视觉体,然后挖掘局部自相似特征从而度量图像或视频的相似性。
H.J.Seo和P.Milanfar在2009年的IEEE International Conference onComputer Vision杂志上发表了一篇名称为:Detection of human actions from asingle example的文章,该文章公开了的算法是先计算显著的空时局部回归核特征,然后采用余弦相似测度度量查询事件与输入视频中每个立方体相似的可能性。
以上两种方法仅提供了可视化的实验结果,并没有对检测率进行统计,无法定量地进行精确比较。并且采用以上两种方法实现查询事件在视频中的定位必须在X-Y-T的完全空间中进行搜索,为了降低巨大的搜索空间,它们均对原始视频进行下采样,这种做法比较容易产生漏检,且大量计算代价仍被花费在不可能包含查询事件的空时位置上。以上的技术缺陷使得现有视频事件的定位方法无论从性能还是时间效率上,并没有达到实用要求,限制了此方法的应用范围。
因此,研究一种既能精确定位又无需大量搜索时间的视频事件的快速定位方法成为一个有实际意义的课题。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种由粗到精的视频事件的快速定位方法,其既能精确定位又无需大量搜索时间,减少计算代价。
本发明的目的通过以下的技术方案实现:一种由粗到精的视频事件的快速定位方法,具体包括以下步骤:
(1)感兴趣空时体的粗搜索:通过对真实视频的时间分割得到一组最有可能包含查询事件的视频片断,通过对真实视频的空间分割得到每帧图像的感兴趣区域,将视频片断中每帧图像的感兴趣区域规范化后按时序堆叠起来即构成感兴趣空时体集合,其中对真实视频的时间分割包括空时兴趣点检测、对空时分体进行HOG(Histograms of Oriented Gradients,梯度方向直方图)特征和HOF(Histograms of Optical Flow,光流直方图)特征提取、采用卡方距离方法对空时分体进行特征匹配、采用分类算法确定视频片段起止点;对真实视频的空间分割包括利用历史帧和当前帧信息构造时间显著图、根据时间显著图的计算结果确定空间感兴趣区域;
(2)感兴趣空时体集合与查询事件的精匹配:采用空时自相似性算子对查询事件和目标体的局部几何结构分别进行描述,并将所有像素的自相似体转化为向量,然后采用PCA(Principal Component Analysis,主成分分析)方法提取显著特征并采用余弦相似性进行度量,构造出相关体,然后在相关体上采用全局显著性测试得到显著点,最后根据显著点分布来判断在每个目标体中是否存在与查询样本相似的事件;
(3)查询事件的精确定位:采用区域增长/分裂合并技术和非最大值抑制方法进行后处理,用于控制最佳匹配显著点周围的空时区域定位。最后根据事先记录的每个目标体在真实视频中的空时位置,将目标体映射到真实视频,以Y方向上的尺寸为基准,采用固定大小的矩形边框在真实视频的每帧图像中显示视频事件的精确定位结果。
所述步骤(1)中对真实视频的时间分割算法具体步骤如下:
(11-1)空时兴趣点检测:首先在单一的空间和时间尺度上检测空时兴趣点,方法具体如下:首先对空时图像序列f建模:
Figure BDA0000038905160000031
其中,设定空间方差为
Figure BDA0000038905160000032
,时间方差为
Figure BDA0000038905160000033
,则空时可分的高斯核定义为:
g ( x , y , t ; σ l 2 , τ l 2 ) = 1 ( 2 π ) 3 σ l 4 τ l 2 exp ( - ( x 2 + y 2 ) 2 σ l 2 - t 2 2 τ l 2 )
对于给定尺度集合
Figure BDA0000038905160000035
Figure BDA0000038905160000036
在单一尺度上进行空时兴趣点的检测,定义s=1;计算空时二阶矩,并通过与高斯权重函数的卷积得:
μ = g ( · ; σ i 2 , τ i 2 ) * L x 2 L x L y L x L t L x L y L y 2 L y L t L x L t L y L t L t 2
其中一阶导数被定义为:
L x ( · ; σ l 2 , τ l 2 ) = ∂ x ( g * f )
L y ( · ; σ l 2 , τ l 2 ) = ∂ y ( g * f )
L t ( · ; σ l 2 , τ l 2 ) = ∂ t ( g * f )
然后找到μ中相对较大的特征值λ1、λ2和λ3,由此需要计算函数:
H=det(μ)-k trace3(μ)
 =λ1λ2λ3-k(λ123)3
为了更好地显示具有较大λ1、λ2和λ3值的点与H中正的局部最大值的点之间的对应关系,定义α=λ21,β=λ31,将H重新表示为:
H = λ 1 3 ( αβ - k ( 1 + α + β ) 3 )
若要满足H≥0,则k≤αβ/(1+α+β)3。f的空时兴趣点检测等价于寻找H中局部正的空时最大值在空时体中的对应点。通过以上方法检测空时兴趣点并且以每个检测得到的空时兴趣点为中心,在时间和空间方向上按照固定大小取得空时分体;
(11-2)空时分体特征提取:对得到的每个空时分体中的每帧图像提取其HOG特征和HOF特征,将提取得到的单帧HOG特征按时序连接起来作为整个空时分体的表观特征,将提取得到的单帧HOF特征按时序接连起来作为整个空时分体的局部运动特征,空时分体的特征由表观和运动特征共同构成;
(11-3)空时分体特征匹配:查询行为样本中第i个空时兴趣点所对应的分体用SVi表示,输入视频中第j个空时兴趣点所对应的分体用SVj表示,直方图形式的分体特征用His表示,码矩阵M中的元素Mij为His(SVi)和His(SVj)之间的卡方距离,具体计算公式如下:
M ij = χ 2 ( His ( SV i ) , His ( SV j ) )
= Σ b = 1 B ( His ( SV i ) b - His ( SV j ) b ) 2 His ( SV i ) b + His ( SV j ) b
其中b为每个直方图的仓库(bins)索引,计算出码矩阵M中的所有元素后,取一定阈值对码矩阵进行二值化;然后求出该空时分体的码矩阵列向量的和,得到一个向量colsum(M),若colsum(M)j>δ,δ为设定的阈值,则认为输入视频中第j个空时兴趣点所对应的空时分体是显著的;
(11-4)确定视频片段起止点:将显著空时分体的时间位置作为样本数据,记作P={P1,P2,L Pl},其中l为显著分体的个数,具体算法如下:首先将P1作为一类,假设事件之间同一动作点发生的时间间隔至少大于1秒,以30fps的视频序列为考察对象,那么同一类所包含的时间位置样本数据间隔应该在30帧以内,以此假设为根据,若P2与P1差值在30帧之内,则初步判断P2与P1相近,将P1和P2归为一类,通过计算该类内整个样本数据的均值来重新确定这类的中心;若否,则确定P2为一个新类别,依此类推,直到判断完所有显著空时分体,并得到一系列的类,然后忽略样本数少于查询事件中显著分体个数的30%的孤立类,剩下的每个类则代表真实视频中分割出的时间片断,将每个类内的最小值Tstart和最大值Tend取出来,然后设定一个阈值Ex,用于补偿可能产生的分割误差,那么[Tstart-Ex,Tend+Ex]区间内的视频片断即为真实视频的时间分割结果。
所述步骤(11-1)中的空时分体的大小为32×32×10,32×32为所取空时分体图像大小,10指10帧图像。
所述步骤(11-2)中所采用的HOG特征是在统计梯度方向8个直方图仓库(Histogram bins)的直方图并归一化消除光照的影响后得到的。
所述步骤(11-2)中的梯度方向直方图和光流直方图均为128维。
所述步骤(11-3)中的阈值为计算得到的码矩阵M中的最大元素值的20%。
所述步骤(1)中对真实视频的空间分割算法具体步骤如下:
(12-1)历史帧与当前帧集合的样本空间表示:设当前帧为Im0,空时体由当前帧和历史N-1帧构成,即为Im0,Im1,L,ImN-1,然后将空时体分成互不重叠的若干个空时片,每个空时片大小为M×M×N,用xi表示空时片中第i个块灰度图像的向量,则时间向量集合X为:
X={x0,x1,L,xN-1};
然后利用PCA方法从X中得到投影矩阵W和q个最主要成分,并将结果写入大小为q×N的矩阵Y中,所得Y={y0,y1,L,yN-1},即X中每个M2维向量xi转变成Y中q维向量yi
(12-2)样本空间的概率密度估计:采用非参数核密度估计方法对样本空间Y进行密度建模,得到密度估计公式为:
f ^ ( y ) = 1 N Σ i = 0 N - 1 | | H ( y i ) | | - 1 / 2 κ ( H ( y i ) - 1 / 2 ( y - y i ) )
其中H表示样本点yi周围核的带宽矩阵;用h(yi)表示样本yi到第k个近邻点的距离,有H(yi)=h(yi)I;其中κ表示核函数,I表示与带宽矩阵相同大小的全1矩阵;
(12-3)时间显著图的计算:根据步骤(12-2)计算出的
Figure BDA0000038905160000052
信息,将块(r,s)的时间显著图扩展到大小为M×M的块,得到如下表示:
Figure BDA0000038905160000053
其中ones(M)为创建一个大小为M×M的全1矩阵,对当前帧Im0的每个互不重叠的块重复以上计算,则得到它的整体时间显著图;
(12-4)确定空间感兴趣区域:根据时间显著图检测出视频事件中包含运动信息的空间区域,将其进行预处理和二值化后,初步提取出空间感兴趣区域。
所述步骤(12-2)中,采用高斯核函数,则密度估计为:
f ^ ( y ) = 1 ( 2 π ) q / 2 N Σ i = 0 N - 1 [ | | h ( y i ) I | | - 1 / 2 exp ( - 1 2 ( y - y i ) T ( ( h ( y i ) ) - 1 I ) ( y - y i ) ) ]
所述步骤(2)中感兴趣空时体集合与查询事件的精匹配的具体步骤如下:
(2-1)设Q为查询事件,{V(1),V(2),L,V(p)}为感兴趣空时体的集合,将感兴趣的空时体统一地称为目标体V,采用空时自相似性算子对查询事件Q和目标体V的局部几何结构分别进行描述,具体算法如下:
(2-1-1)对于每一个像素q,采用典型的SSD标准(Sum of SquareDifferences,差的平方和)比较其周围大小为l×m×n的片P与大小为x×y×t的空时窗口W,计算如下:
SSDq(x,y,t)=∑lmn[W(x+l,y+m,t+n)-P(l,m,n)]2
=∑lmnW2(x+l,y+m,t+n)-...
       ...-2*W(x+l,y+m,t+n)*P(l,m,n)+P2(l,m,n)]
=∑lmnW2(x+l,y+m,t+n)H(l,m,n)-...
       ...-2*W(x+l,y+m,t+n)*P(l,m,n)+P2(l,m,n)]
其中H(l,m,n)是一个三维的门限函数,空时窗口W包含片P的区域被定义为1,其它区域为0;SSD的计算通过FFT(Fast Fourier Transformation,快速傅立叶变换)和IFFT(Inverse Fast Fourier Transformation,反快速傅立叶变换)实现;
(2-1-2)由步骤(2-1-1)计算出SSD后,可由以下公式求出局部自相似体:
C q ( x , y , t ) = exp ( - SSD q ( x , y , t ) var auto × patchsize 2 )
其中分母为片大小的平方与可估的光度方差的乘积;
(2-2)将步骤(2-1-2)得到的局部自相似体转为一个向量,并将所有像素上向量化的局部自相似体串接起来构成DQ和DV,用以下公式计算:
Figure BDA0000038905160000062
Figure BDA0000038905160000063
其中N为局部自相似体中像素点个数,nQ和nV分别为查询行为Q和目标体V中有效像素点个数,vec表示局部自相似体的向量化表示形式;对于查询事件样本的几何结构描述DQ,采用PCA方法通过投影矩阵
Figure BDA0000038905160000064
提取最大d个成分作为其显著特征
Figure BDA0000038905160000065
同时对于目标体几何结构描述DV,利用投影矩阵Pr得到其显著特征
(2-3)对于目标体V的每个像素i,记为Vi,计算
Figure BDA0000038905160000067
与所有特征向量
Figure BDA0000038905160000068
的余弦相似度并求和得Si
S i = Σ l = 1 n Q F ( D Q l ) T F ( D V i ) | | F ( D Q l ) | | | | F ( D V i ) | |
根据对应的像素点将Si,i=1,2,L,nV组合为与目标体V相同大小的体,则相关体由统计函数计算得到,计算公式如下:
CV i = S i 2 / ( 1 - S i 2 ) ;
相关体中的点值表示在此空时位置上查询事件与目标体相似的可能性;
(2-4)选取余弦相似度在置信方差δ之内的所有像素点作为显著点,即|Si|>1-δ的被认为是显著点,设定一个阈值τ,统计满足条件CVi>τ的显著点数目,如果目标体中显著点个数大于查询事件像素点个数的一定比率,则认为这一目标体至少存在一个与查询样本相似的事件,并记录目标体所在的空时位置,否则认为这一目标体不存在与查询样本相似的事件。
所述步骤(2-4)中采用假设-验证的简单方法来判断在同一目标体中是否存在多个与查询样本相似的事件,具体方法如下:假设目标体中存在两个与查询样本相似的事件,根据显著点的X-Y-T坐标将其分为两类,如果两类的中心距离小于设定阈值ζ,则认为只存在一个与查询样本相似的事件,并合并这两类,否则判断两个与查询样本相似的事件同时存在。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明提出的由粗到精的定位方法可大大降低视频体的搜索空间,计算花费更低。传统的无需学习的视频事件定位方法需在真实视频体中所有X-Y-T的空间进行穷举搜索,对计算能力要求甚高,且大部分的计算资源均被用于在视频体中的“无关”区域进行匹配搜索。而本发明通过预先采用粗匹配方法可排除大量“无关”空时区域,有效地降低匹配搜索空间,使得精匹配只需在感兴趣空时体与查询事件之间进行,加快了搜索速度。
2、本发明相对于传统的基于学习的方法不需要对查询事件的大量样本进行训练学习。在实际检索时,用户一般只提供若干个查询事件,并要求确定真实视频中是否包含此查询事件。这时采用基于学习的方法就变得不可行。
3、本发明利用局部几何结构挖掘视频体之间的相关性。虽然事件发生的场景、事件中人物穿着、动作幅度不尽相同,但类似事件的几何结构具有不变性。通过局部范围内三维片断与周围空时区域的相关性,并利用空时子相似性算子描述其几何特征,提取其显著成分进行相似性度量。实验证明,局部几何特征更优于传统的颜色、形状、纹理等特征。
附图说明
图1是本发明方法的算法流程图;
图2(a)-(d)是本发明中查询事件与真实视频中空时兴趣点检测以及空时分体划分结果的单帧图像显示图;
图3是本发明中真实视频时间显著图的构造过程图;
图4是以图2(a)作为查询事件所构建的码矩阵以及标示出的视频片断起止点;
图5(A-G)是由图4所得到的7个视频片段时间分割的三维体可视化示意图;
图6(A-G)是由图4所得到的7个视频片段空间分割的三维体可视化示意图;
图7是本发明中局部自相似体的可视化例子;
图8是本发明在真实视频中定位的实验效果图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
如图1所示,一种由粗到精的视频事件的快速定位方法,具体包括以下步骤:
(1)感兴趣空时体的粗搜索:通过对真实视频的时间分割得到一组最有可能包含查询事件的视频片断,通过对真实视频的空间分割得到每帧图像的感兴趣区域,将视频片断中每帧图像的感兴趣区域规范化后按时序堆叠起来即构成感兴趣空时体集合,其中对真实视频的时间分割包括空时兴趣点检测、对空时分体进行HOG特征和HOF特征提取、采用卡方距离方法对空时分体进行特征匹配、采用分类算法确定视频片段起止点;对真实视频的空间分割包括利用历史帧和当前帧信息构造时间显著图、根据时间显著图的计算结果确定空间感兴趣区域;
(2)感兴趣空时体集合与查询事件的精匹配:采用空时自相似性算子对查询事件和目标体的局部几何结构分别进行描述,并将所有像素的自相似体转化为向量,然后采用PCA方法提取显著特征并采用余弦相似性进行度量,构造出相关体,然后在相关体上采用全局显著性测试得到显著点,最后根据显著点分布来判断在每个目标体中是否存在与查询样本相似的事件;
(3)查询事件的精确定位:采用区域增长/分裂合并技术和非最大值抑制方法进行后处理,用于控制最佳匹配显著点周围的空时区域定位。最后根据事先记录的每个目标体在真实视频中的空时位置,将目标体映射到真实视频,以Y方向上的尺寸为基准,采用固定大小的矩形边框在真实视频的每帧图像中显示视频事件的精确定位结果。
所述步骤(1)中对真实视频的时间分割算法具体步骤如下:
(11-1)空时兴趣点检测:首先在单一的空间和时间尺度上检测空时兴趣点,方法具体如下:首先对空时图像序列f建模:
Figure BDA0000038905160000091
其中,设定空间方差为,时间方差为
Figure BDA0000038905160000093
,则空时可分的高斯核定义为:
g ( x , y , t ; σ l 2 , τ l 2 ) = 1 ( 2 π ) 3 σ l 4 τ l 2 exp ( - ( x 2 + y 2 ) 2 σ l 2 - t 2 2 τ l 2 )
对于给定尺度集合
Figure BDA0000038905160000095
Figure BDA0000038905160000096
在单一的空间和时间尺度上检测空时兴趣点,取s=1。计算空时二阶矩,并通过与高斯权重函数的卷积得:
μ = g ( · ; σ i 2 , τ i 2 ) * L x 2 L x L y L x L t L x L y L y 2 L y L t L x L t L y L t L t 2
其中一阶导数被定义为:
L x ( · ; σ l 2 , τ l 2 ) = ∂ x ( g * f )
L y ( · ; σ l 2 , τ l 2 ) = ∂ y ( g * f )
L t ( · ; σ l 2 , τ l 2 ) = ∂ t ( g * f )
然后找到μ中相对较大的特征值λ1、λ2和λ3,由此需要计算函数:
H=det(μ)-k trace3(μ)
 =λ1λ2λ3-k(λ123)3
为了更好地显示具有较大λ1、λ2和λ3值的点与H中正的局部最大值的点之间的对应关系,定义α=λ21,β=λ31,将H重新表示为:
H = λ 1 3 ( αβ - k ( 1 + α + β ) 3 )
若要满足H≥0,则k≤αβ/(1+α+β)3。f的空时兴趣点检测等价于寻找H中局部正的空时最大值在空时体中的对应点。通过以上方法检测空时兴趣点并且以每个检测得到的空时兴趣点为中心,在时间和空间方向上按照固定大小取得空时分体;
(11-2)空时分体特征提取:对得到的每个空时分体中的每帧图像提取其HOG特征和HOF特征,将提取得到的单帧HOG特征按时序连接起来作为整个空时分体的表观特征,将提取得到的单帧HOF特征按时序接连起来作为整个空时分体的局部运动特征,空时分体的特征由表观和运动特征共同构成;
(11-3)空时分体特征匹配:查询行为样本中第i个空时兴趣点所对应的分体用SVi表示,输入视频中第j个空时兴趣点所对应的分体用SVj表示,直方图形式的分体特征用His表示,码矩阵M中的元素Mij为His(SVi)和His(SVj)之间的卡方距离,具体计算公式如下:
M ij = χ 2 ( His ( SV i ) , His ( SV j ) )
= Σ b = 1 B ( His ( SV i ) b - His ( SV j ) b ) 2 His ( SV i ) b + His ( SV j ) b
其中b为每个直方图的仓库索引,计算出码矩阵M中的所有元素后,取一定阈值对码矩阵进行二值化;然后求出该空时分体的码矩阵列向量的和,得到一个向量colsum(M),若colsum(M)j>δ,δ为设定的阈值,则认为输入视频中第j个空时兴趣点所对应的空时分体是显著的。在本实施例中取δ为5。
(11-4)确定视频片段起止点:将显著空时分体的时间位置作为样本数据,记作P={P1,P2,L Pl},其中l为显著分体的个数,具体算法如下:首先将P1作为一类,假设事件之间同一动作点发生的时间间隔至少大于1秒,以30fps的视频序列为考察对象,那么同一类所包含的时间位置样本数据间隔应该在30帧以内,以此假设为根据,若P2与P1差值在30帧之内,则初步判断P2与P1相近,将P1和P2归为一类,通过计算该类内整个样本数据的均值来重新确定这类的中心;若否,则确定P2为一个新类别,依此类推,直到判断完所有显著空时分体,并得到一系列的类,然后忽略样本数少于查询事件中显著分体个数的30%的孤立类,剩下的每个类则代表真实视频中分割出的时间片断,将每个类内的最小值Tstart和最大值Tend取出来,然后设定一个阈值Ex,用于补偿可能产生的分割误差,那么[Tstart-Ex,Tend+Ex]区间内的视频片断即为真实视频的时间分割结果。在本实施例中取Ex为10。图4显示了以图2(a)所示芭蕾舞跳步作为查询事件所构建的码矩阵,并在码矩阵图上标示出的视频片断起止点。图5给出了所得到视频片段时间分割的三维体可视化示意图,即为最有可能包含查询事件的视频片断。
所述步骤(11-1)中的空时分体的大小为32×32×10,32×32为所取空时分体图像大小,10指10帧图像。
所述步骤(11-2)中所采用的HOG特征是在统计梯度方向8个直方图仓库的直方图并归一化消除光照的影响后得到的。
所述步骤(11-2)中的梯度方向直方图和光流直方图均为128维。
所述步骤(11-3)中的阈值为计算得到的码矩阵M中的最大元素值的20%。
图3给出了时间显著图的构造过程,结合图3详细说明步骤(1)中对真实视频的空间分割算法的具体步骤,如下:
(12-1)历史帧与当前帧集合的样本空间表示:设当前帧为Im0,空时体由当前帧和历史N-1帧构成,即为Im0,Im1,L,ImN-1,然后将空时体分成互不重叠的若干个空时片,每个空时片大小为M×M×N,用xi表示空时片中第i个块灰度图像的向量,则时间向量集合X为:
X={x0,x1,L,xN-1};
然后利用PCA方法从X中得到投影矩阵W和q个最主要成分,并将结果写入大小为q×N的矩阵Y中,所得Y={y0,y1,L,yN-1},即X中每个M2维向量xi转变成Y中q维向量yi
(12-2)样本空间的概率密度估计:采用非参数核密度估计方法对样本空间Y进行密度建模,得到密度估计公式为:
f ^ ( y ) = 1 N Σ i = 0 N - 1 | | H ( y i ) | | - 1 / 2 κ ( H ( y i ) - 1 / 2 ( y - y i ) )
其中H表示样本点yi周围核的带宽矩阵;用h(yi)表示样本yi到第k个近邻点的距离,有H(yi)=h(yi)I;其中κ表示核函数,I表示与带宽矩阵相同大小的全1矩阵。
(12-3)时间显著图的计算:根据步骤(12-2)计算出的信息,将块(r,s)的时间显著图扩展到大小为M×M的块,得到如下表示:其中ones(M)为创建一个大小为M×M的全1矩阵,对当前帧Im0的每个互不重叠的块重复以上计算,则得到它的整体时间显著图。在本实施例中取参数N=20,即对于当前帧是否包含运动信息需要考察其历史19帧信息通过密度估计得到,其它参数q=4,M=4,k=3。
(12-4)确定空间感兴趣区域:根据时间显著图检测出视频事件中包含运动信息的空间区域,将其进行预处理和二值化后,初步提取出空间感兴趣区域。
所述步骤(12-2)中,采用高斯核函数,则密度估计为:
f ^ ( y ) = 1 ( 2 π ) q / 2 N Σ i = 0 N - 1 [ | | h ( y i ) I | | - 1 / 2 exp ( - 1 2 ( y - y i ) T ( ( h ( y i ) ) - 1 I ) ( y - y i ) ) ]
图6给出了所得到视频片段空间分割的三维体可视化示意图,即为每帧图像的感兴趣区域。
所述步骤(2)中感兴趣空时体集合与查询事件的精匹配的具体步骤如下:
(2-1)设Q为查询事件,{V(1),V(2),L,V(p)}为感兴趣空时体的集合,将感兴趣的空时体统一地称为目标体V,采用空时自相似性算子对查询事件Q和目标体V的局部几何结构分别进行描述,具体算法如下:
(2-1-1)对于每一个像素q,采用典型的SSD标准比较其周围5×5×1大小的片P与30×30×5大小的空时窗口W,其中0≤x≤29,0≤y≤29,计算如下:
SSD q ( x , y , t ) = Σ n = 0 Σ m = 0 4 Σ l = 0 4 [ W ( x + l , y + m , t + n ) - P ( l , m , n ) ] 2
= Σ n = 0 Σ m = 0 4 Σ l = 0 4 [ W 2 ( x + l , y + m , t + n ) - 2 * W ( x + l , y + m , t + n ) * P ( l , m , n ) + P 2 ( l , m , n ) ]
= Σ n = 0 Σ m = 0 4 Σ l = 0 4 [ W 2 ( x + l , y + m , t + n ) H ( l , m , n ) - 2 * W ( x + l , y + m , t + n ) * P ( l , m , n ) + P 2 ( l , m , n ) ]
其中H(l,m,n)是一个三维的门限函数,空时窗口W包含片P的区域被定义为1,其它区域为0;SSD的计算通过FFT和IFFT实现。加入门限函数后,上述公式的第一项由FFT和IFFT计算得到,第二项为查询事件样本与目标体的相关函数,第三项为查询行为样本的能量,是一个常数。
(2-1-2)由步骤(2-1-1)计算出SSD后,可由以下公式求出局部自相似体:
C q ( x , y , t ) = exp ( - SSD q ( x , y , t ) var auto × patchsize 2 )
其中分母为片大小的平方与可估的光度方差的乘积。借助于色图,三维局部自相似体的可视化例子如附图7,其中1-4分别对应于原始帧图像中绿色标记像素点的局部自相似体。
(2-2)将步骤(2-1-2)得到的局部自相似体转为一个向量,并将所有像素上向量化的局部自相似体串接起来构成DQ和DV,用以下公式计算:
Figure BDA0000038905160000126
其中N为局部自相似体中像素点个数,nQ和nV分别为查询行为Q和目标体V中有效像素点个数,vec表示局部自相似体的向量化表示形式;对于查询事件样本的几何结构描述DQ,采用PCA方法通过投影矩阵
Figure BDA0000038905160000127
提取最大d个成分作为其显著特征
Figure BDA0000038905160000131
同时对于目标体几何结构描述DV,利用投影矩阵Pr得到其显著特征
Figure BDA0000038905160000132
在本实施例中取d=30。
(2-3)对于目标体V的每个像素i,记为Vi,计算与所有特征向量
Figure BDA0000038905160000134
的余弦相似度并求和得Si
S i = Σ l = 1 n Q F ( D Q l ) T F ( D V i ) | | F ( D Q l ) | | | | F ( D V i ) | |
余弦相似度Si变化幅度从-1到1,通常-1表示完全相反,1表示完全相同,0表示不相关。根据对应的像素点将Si,i=1,2,L,nV组合为与目标体V相同大小的体,则相关体由统计函数计算得到,计算公式如下:
Figure BDA0000038905160000136
相关体中的点值表示在此空时位置上查询事件与目标体相似的可能性;
(2-4)选取余弦相似度在置信方差δ之内的所有像素点作为显著点,即|Si|>1-δ的被认为是显著点,设定一个阈值τ,统计满足条件CVi>τ的显著点数目,如果目标体中显著点个数大于查询事件像素点个数的一定比率,则认为这一目标体至少存在一个与查询样本相似的事件,并记录目标体所在的空时位置,否则认为这一目标体不存在与查询样本相似的事件。为了尽量避免由于运动幅度不同而造成的漏检,这里的比率设置要适当,在实验环境中,一般取10%-15%。本实施例中选取置信度δ为5%,设定的阈值τ为10
所述步骤(2-4)中采用假设-验证的简单方法来判断在同一目标体中是否存在多个与查询样本相似的事件,具体方法如下:假设目标体中存在两个与查询样本相似的事件,根据显著点的X-Y-T坐标将其分为两类,如果两类的中心小于设定阈值ζ,一般情况下,阈值ζ设定为X-Y-T坐标差位于5个像素点之内,则认为只存在一个与查询样本相似的事件,并合并这两类,否则判断两个与查询样本相似的事件同时存在。
最后图8给出了本发明在四段真实视频中定位的实验效果图,其中彩色区域表示显著点集中区域,红色到蓝色显著度依次递减,以最显著点为中心采用固定大小方框表示已定位视频事件的单帧图像显示结果。图8(a)中两名舞蹈演员的前向交换腿的跳步均已被正确检测出。图8(b)以行走这一查询事件的正面和镜面反射作为查询样本在真实视频中进行搜索。图8(c)是在游泳赛事视频中查询运动员入水事件。图8(d)测试了多种查询事件在真实视频中的定位结果:跳、行走、拍手和挥手。
与已有方法相比,由粗到精的视频事件的快速定位方法精确度高,计算复杂度低,运行所需时间少,具有很好的应用前景。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (9)

1.一种由粗到精的视频事件的快速定位方法,其特征在于,具体包括以下步骤:
(1)感兴趣空时体的粗搜索:通过对真实视频的时间分割得到一组最有可能包含查询事件的视频片断,通过对真实视频的空间分割得到每帧图像的感兴趣区域,将视频片断中每帧图像的感兴趣区域规范化后按时序堆叠起来即构成感兴趣空时体集合,其中对真实视频的时间分割包括空时兴趣点检测、对空时分体进行HOG特征和HOF特征提取、采用卡方距离方法对空时分体进行特征匹配、采用分类算法确定视频片段起止点;对真实视频的空间分割包括利用历史帧和当前帧信息构造时间显著图、根据时间显著图的计算结果确定空间感兴趣区域;
(2)感兴趣空时体集合与查询事件的精匹配:采用空时自相似性算子对查询事件和目标体的局部几何结构分别进行描述,并将所有像素的自相似体转化为向量,然后采用PCA方法提取显著特征并采用余弦相似性进行度量,构造出相关体,然后在相关体上采用全局显著性测试得到显著点,最后根据显著点分布来判断在每个目标体中是否存在与查询样本相似的事件;
具体步骤如下:
(2-1)设Q为查询事件,{V(1),V(2),…,V(p)}为感兴趣空时体的集合,将感兴趣的空时体统一地称为目标体V,采用空时自相似性算子对查询事件Q和目标体V的局部几何结构分别进行描述,具体算法如下:
(2-1-1)对于每一个像素q,采用典型的SSD标准比较其周围大小为l×m×n的片P与大小为x×y×t的空时窗口W,计算如下:
SSDq(x,y,t)=∑lmn[W(x+l,y+m,t+n)-P(l,m,n)]2
=∑lmnW2(x+l,y+m,t+n)-...
    ...-2*W(x+l,y+m,t+n)*P(l,m,n)+P2(l,m,n)];
=∑lmnW2(x+l,y+m,t+n)H(l,m,n)-...
    ...-2*W(x+l,y+m,t+n)*P(l,m,n)+P2(l,m,n)]
其中H(l,m,n)是一个三维的门限函数,空时窗口W包含片P的区域被定义为1,其它区域为0;SSD的计算通过FFT和IFFT实现;
(2-1-2)由步骤(2-2-1)计算出SSD后,可由以下公式求出局部自相似体:
C q ( x , y , t ) = exp ( - SSD q ( x , y , t ) var auto × patchsize 2 )
其中分母为片大小patchsize的平方与可估的光度方差varauto的乘积;
(2-2)将步骤(2-1-2)得到的局部自相似体转为一个向量,并将所有像素上向量化的局部自相似体串接起来构成DQ和DV,用以下公式计算:
Figure FDA00001885552400022
Figure FDA00001885552400023
其中N为局部自相似体中像素点个数,nQ和nV分别为查询行为Q和目标体V中有效像素点个数,vec表示局部自相似体的向量化表示形式;对于查询事件样本的几何结构描述DQ,采用PCA方法通过投影矩阵
Figure FDA00001885552400024
提取最大d个成分作为其显著特征
Figure FDA00001885552400025
同时对于目标体几何结构描述DV,利用投影矩阵Pr得到其显著特征
(2-3)对于目标体V的每个像素i,记为Vi,计算
Figure FDA00001885552400027
与所有特征向量
Figure FDA00001885552400028
的余弦相似度并求和得Si
S i = Σ l = 1 n Q F ( D Q l ) T F ( D V i ) | | F ( D Q l ) | | | | F ( D V i ) | |
根据对应的像素点将Si,i=1,2,…,nV组合为与目标体V相同大小的体,则相关体由统计函数计算得到,计算公式如下:
CV i = S i 2 / ( 1 - S i 2 )
相关体中的点值表示在此空时位置上查询事件与目标体相似的可能性;
(2-4)选取余弦相似度在置信方差δ之内的所有像素点作为显著点,即|Si|>1-δ的被认为是显著点,设定一个阈值τ,统计满足条件CVi>τ的显著点数目,如果目标体中显著点个数大于查询事件像素点个数的一定比率,则认为这一目标体至少存在一个与查询样本相似的事件,并记录目标体所在的空时位置,否则认为这一目标体不存在与查询样本相似的事件;
(3)查询事件的精确定位:采用区域增长/分裂合并技术和非最大值抑制方法进行后处理,用于控制最佳匹配显著点周围的空时区域定位;最后根据事先记录的每个目标体在真实视频中的空时位置,将目标体映射到真实视频,以Y方向上的尺寸为基准,采用固定大小的矩形边框在真实视频的每帧图像中显示视频事件的精确定位结果。
2.根据权利要求1所述的一种由粗到精的视频事件的快速定位方法,其特征在于,所述步骤(1)中对真实视频的时间分割算法具体步骤如下:
(11-1)空时兴趣点检测:首先在单一的空间和时间尺度上检测空时兴趣点,方法具体如下:首先对空时图像序列f建模:
Figure FDA00001885552400031
其中,设定空间方差为
Figure FDA00001885552400032
时间方差为
Figure FDA00001885552400033
则空时可分的高斯核定义为:
g ( x , y , t ; σ l 2 , τ l 2 ) = 1 ( 2 π ) 3 σ l 4 τ l 2 exp ( - ( x 2 + y 2 ) 2 σ l 2 - t 2 2 τ l 2 )
对于给定尺度集合
Figure FDA00001885552400035
Figure FDA00001885552400036
在单一的空间和时间尺度上检测空时兴趣点,取s=1,计算空时二阶矩,并通过与高斯权重函数的卷积得:
μ = g ( · ; σ i 2 , τ i 2 ) * L x 2 L x L y L x L t L x L y L y 2 L y L t L x L t L y L t L t 2
其中一阶导数被定义为:
L x ( · ; σ l 2 , τ l 2 ) = ∂ x ( g * f )
L y ( · ; σ l 2 , τ l 2 ) = ∂ y ( g * f )
L t ( · ; σ l 2 , τ l 2 ) = ∂ t ( g * f )
然后找到μ中相对较大的特征值λ1、λ2和λ3,由此需要计算函数:
H=det(μ)-ktrace3(μ)
 =λ1λ2λ3-k(λ123)3
然后定义α=λ21,β=λ31,将H重新表示为:
H = λ 1 3 ( αβ - k ( 1 + α + β ) 3 )
其中若要满足H≥0,则k≤αβ/(1+α+β)3,f的空时兴趣点检测等价于寻找H中局部正的空时最大值在空时体中的对应点;
通过以上方法检测出空时兴趣点后,以每个检测得到的空时兴趣点为中心,在时间和空间方向上按照固定大小取得空时分体;
(11-2)空时分体特征提取:对得到的每个空时分体中的每帧图像提取其HOG特征和HOF特征,将提取得到的单帧HOG特征按时序连接起来作为整个空时分体的表观特征,将提取得到的单帧HOF特征按时序接连起来作为整个空时分体的局部运动特征,空时分体的特征由表观和运动特征共同构成;
(11-3)空时分体特征匹配:查询行为样本中第i个空时兴趣点所对应的分体用SVi表示,输入视频中第j个空时兴趣点所对应的分体用SVj表示,直方图形式的分体特征用His表示,码矩阵M中的元素Mij为His(SVi)和His(SVj)之间的卡方距离,具体计算公式如下:
M ij = χ 2 ( His ( SV i ) , His ( SV j ) )
= Σ b = 1 B ( His ( SV i ) b - His ( SV j ) b ) 2 His ( SV i ) b + His ( SV j ) b
其中b为每个直方图的仓库索引,计算出码矩阵M中的所有元素后,取一定阈值对码矩阵进行二值化;然后求出该空时分体的码矩阵列向量的和,得到一个向量colsum(M),若colsum(M)j>δ,δ为设定的阈值,则认为输入视频中第j个空时兴趣点所对应的空时分体是显著的;
(11-4)确定视频片段起止点:将显著空时分体的时间位置作为样本数据,记作P={P1,P2,…Pl},其中l为显著分体的个数,具体算法如下:首先将P1作为一类,假设事件之间同一动作点发生的时间间隔至少大于1秒,以30fps的视频序列为考察对象,那么同一类所包含的时间位置样本数据间隔应该在30帧以内,以此假设为根据,若P2与P1差值在30帧之内,则初步判断P2与P1相近,将P1和P2归为一类,通过计算该类内整个样本数据的均值来重新确定这类的中心;若否,则确定P2为一个新类别,依此类推,直到判断完所有显著空时分体,并得到一系列的类,然后忽略样本数少于查询事件中显著分体个数的30%的孤立类,剩下的每个类则代表真实视频中分割出的时间片断,将每个类内的最小值Tstart和最大值Tend取出来,然后设定一个阈值Ex,用于补偿可能产生的分割误差,那么[Tstart-Ex,Tend+Ex]区间内的视频片断即为真实视频的时间分割结果。
3.根据权利要求2所述的一种由粗到精的视频事件的快速定位方法,其特征在于,所述步骤(11-1)中的空时分体的大小为32×32×10,32×32为所取空时分体图像大小,10指10帧图像。
4.根据权利要求2所述的一种由粗到精的视频事件的快速定位方法,其特征在于,所述步骤(11-2)中所采用的HOG特征是在统计梯度方向8个直方图仓库的直方图并归一化消除光照的影响后得到的。
5.根据权利要求2所述的一种由粗到精的视频事件的快速定位方法,其特征在于,所述步骤(11-2)中的梯度方向直方图和光流直方图均为128维。
6.根据权利要求2所述的一种由粗到精的视频事件的快速定位方法,其特征在于,所述步骤(11-3)中的阈值为计算得到的码矩阵M中的最大元素值的20%。
7.根据权利要求1所述的一种由粗到精的视频事件的快速定位方法,其特征在于,所述步骤(1)中对真实视频的空间分割算法具体步骤如下:
(12-1)历史帧与当前帧集合的样本空间表示:设当前帧为Im0,空时体由当前帧和历史N-1帧构成,即为Im0,Im1,…,ImN-1,然后将空时体分成互不重叠的若干个空时片,每个空时片大小为M×M×N,用xi表示空时片中第i个块灰度图像的向量,则时间向量集合X为:
X={x0,x1,…,xN-1};
然后利用PCA方法从X中得到投影矩阵W和q个最主要成分,并将结果写入大小为q×N的矩阵Y中,所得Y={y0,y1,…,yN-1},即X中每个M2维向量xi转变成Y中q维向量yi
(12-2)样本空间的概率密度估计:采用非参数核密度估计方法对样本空间Y进行密度建模,得到密度估计公式为:
f ^ ( y ) = 1 N Σ i = 0 N - 1 | | H ( y i ) | | - 1 / 2 κ ( H ( y i ) - 1 / 2 ( y - y i ) )
其中H表示样本点yi周围核的带宽矩阵;用h(yi)表示样本yi到第k个近邻点的距离,有H(yi)=h(yi)I;其中κ表示核函数,I表示与带宽矩阵相同大小的全1矩阵;
(12-3)时间显著图的计算:根据步骤(12-2)计算出的
Figure FDA00001885552400052
信息,将块(r,s)的时间显著图扩展到大小为M×M的块,得到如下表示:
Figure FDA00001885552400053
其中ones(M)为创建一个大小为M×M的全1矩阵,对当前帧Im0的每个互不重叠的块重复以上计算,则得到它的整体时间显著图;
(12-4)确定空间感兴趣区域:根据时间显著图检测出视频事件中包含运动信息的空间区域,将其进行预处理和二值化后,初步提取出空间感兴趣区域。
8.根据权利要求7所述的一种由粗到精的视频事件的快速定位方法,其特征在于,所述步骤(12-2)中,采用高斯核函数,则密度估计为:
f ^ ( y ) = 1 ( 2 π ) q / 2 N Σ i = 0 N - 1 [ | | h ( y i ) I | | - 1 / 2 exp ( - 1 2 ( y - y i ) T ( ( h ( y i ) ) - 1 I ) ( y - y i ) ) ]
9.根据权利要求1所述的一种由粗到精的视频事件的快速定位方法,其特征在于,所述步骤(2-4)中采用假设-验证的简单方法来判断在同一目标体中是否存在多个与查询样本相似的事件,具体方法如下:假设目标体中存在两个与查询样本相似的事件,根据显著点的X-Y-T坐标将其分为两类,如果两类的中心小于设定阈值ζ,则认为只存在一个与查询样本相似的事件,并合并这两类,否则判断两个与查询样本相似的事件同时存在。
CN 201010593169 2010-12-17 2010-12-17 一种由粗到精的视频事件的快速定位方法 Expired - Fee Related CN102156702B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010593169 CN102156702B (zh) 2010-12-17 2010-12-17 一种由粗到精的视频事件的快速定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010593169 CN102156702B (zh) 2010-12-17 2010-12-17 一种由粗到精的视频事件的快速定位方法

Publications (2)

Publication Number Publication Date
CN102156702A CN102156702A (zh) 2011-08-17
CN102156702B true CN102156702B (zh) 2012-12-12

Family

ID=44438201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010593169 Expired - Fee Related CN102156702B (zh) 2010-12-17 2010-12-17 一种由粗到精的视频事件的快速定位方法

Country Status (1)

Country Link
CN (1) CN102156702B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978561A (zh) * 2015-03-25 2015-10-14 浙江理工大学 融合梯度和光流特征的视频动作行为识别方法

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521301B (zh) * 2011-11-30 2015-05-06 北京中盾安全技术开发公司 一种监控视音频信息的检索方法及检索系统
CN103020992B (zh) * 2012-11-12 2016-01-13 华中科技大学 一种基于运动颜色关联的视频图像显著性检测方法
CN103297851B (zh) * 2013-05-16 2016-04-13 中国科学院自动化研究所 长视频中目标内容的快速统计与自动审核方法及装置
CN103383745B (zh) * 2013-06-28 2016-08-10 中国航天科技集团公司第五研究院第五一三研究所 一种焊点质量检测系统检测窗优化布局的方法
CN103399893B (zh) * 2013-07-23 2017-02-08 中国科学技术大学 一种基于分层感知的目标检索方法
CN104573624A (zh) * 2014-10-16 2015-04-29 芜湖扬宇机电技术开发有限公司 母羊产前行为识别方法
CN105578198B (zh) * 2015-12-14 2019-01-11 上海交通大学 基于时偏特征的视频同源Copy-Move检测方法
CN105868403B (zh) * 2016-04-20 2019-10-18 浙江宇视科技有限公司 提取录像的方法及装置
CN106295644B (zh) * 2016-08-11 2020-06-09 海信集团有限公司 符号识别方法及装置
CN106599158A (zh) * 2016-12-07 2017-04-26 国家海洋局第二海洋研究所 基于时空双重近似索引的台风海域Argo资料的快速查询方法
CN108133482A (zh) * 2018-01-16 2018-06-08 中国人民解放军陆军装甲兵学院 基于图像局部自相似性的目标定位方法
CN108664919A (zh) * 2018-05-04 2018-10-16 南京邮电大学 一种基于单样本的行为识别与检测方法
CN109618236B (zh) * 2018-12-13 2023-04-07 连尚(新昌)网络科技有限公司 视频评论处理方法和装置
CN110287938B (zh) * 2019-07-02 2021-06-04 齐鲁工业大学 基于关键片段检测的事件识别方法、系统、设备及介质
CN114004223B (zh) * 2021-10-12 2022-05-24 北京理工大学 一种基于行为基的事件知识表示方法
CN115357755B (zh) * 2022-08-10 2023-04-07 北京百度网讯科技有限公司 视频生成方法、视频展示方法和装置
CN117668298B (zh) * 2023-12-15 2024-05-07 青岛酒店管理职业技术学院 一种应用数据分析的人工智能方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1885823A (zh) * 2006-06-06 2006-12-27 北京北大方正电子有限公司 一种基于预测搜索的网络文件传输方法
CN101673403A (zh) * 2009-10-10 2010-03-17 安防制造(中国)有限公司 复杂干扰场景下的目标跟踪方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100889936B1 (ko) * 2007-06-18 2009-03-20 한국전자통신연구원 디지털 비디오 특징점 비교 방법 및 이를 이용한 디지털비디오 관리 시스템
US8358840B2 (en) * 2007-07-16 2013-01-22 Alexander Bronstein Methods and systems for representation and matching of video content

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1885823A (zh) * 2006-06-06 2006-12-27 北京北大方正电子有限公司 一种基于预测搜索的网络文件传输方法
CN101673403A (zh) * 2009-10-10 2010-03-17 安防制造(中国)有限公司 复杂干扰场景下的目标跟踪方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978561A (zh) * 2015-03-25 2015-10-14 浙江理工大学 融合梯度和光流特征的视频动作行为识别方法

Also Published As

Publication number Publication date
CN102156702A (zh) 2011-08-17

Similar Documents

Publication Publication Date Title
CN102156702B (zh) 一种由粗到精的视频事件的快速定位方法
Kong et al. Hypernet: Towards accurate region proposal generation and joint object detection
Lopez-Antequera et al. Appearance-invariant place recognition by discriminatively training a convolutional neural network
CN105488517B (zh) 一种基于深度学习的车辆品牌型号识别方法
CN101551809B (zh) 基于高斯混合模型分类的sar图像检索方法
CN101551863B (zh) 基于非下采样轮廓波变换的遥感图像道路提取方法
CN101515328B (zh) 一种用于鉴别具有统计不相关性的局部保持投影方法
CN103258324B (zh) 基于可控核回归和超像素分割的遥感图像变化检测方法
CN111898432B (zh) 一种基于改进YOLOv3算法的行人检测系统及方法
CN105354568A (zh) 基于卷积神经网络的车标识别方法
CN103295032B (zh) 基于空间Fisher向量的图像分类方法
CN109492583A (zh) 一种基于深度学习的车辆重识别方法
CN103886329A (zh) 基于张量分解降维的极化图像分类方法
CN114627447A (zh) 基于注意力机制和多目标跟踪的公路车辆跟踪方法及系统
CN109255284A (zh) 一种基于运动轨迹的3d卷积神经网络的行为识别方法
CN104657717A (zh) 一种基于分层核稀疏表示的行人检测方法
CN103500345A (zh) 一种基于距离度量学习行人重验证的方法
CN104361351A (zh) 一种基于区域统计相似度的合成孔径雷达图像分类方法
Yang et al. Visual tracking with long-short term based correlation filter
CN114241422A (zh) 一种基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法
CN109635726A (zh) 一种基于对称式深度网络结合多尺度池化的滑坡识别方法
CN103984746A (zh) 基于半监督分类与区域距离测度的sar图像识别方法
CN113239753A (zh) 基于YOLOv4改进的交通标志检测与识别方法
Li et al. An aerial image segmentation approach based on enhanced multi-scale convolutional neural network
CN101794383B (zh) 基于隐马尔科夫模型的拥塞交通场景的视频车辆检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121212

Termination date: 20131217