CN104700086A - 一种用于视频分析的人机交互主题动作挖掘方法 - Google Patents

一种用于视频分析的人机交互主题动作挖掘方法 Download PDF

Info

Publication number
CN104700086A
CN104700086A CN201510123014.7A CN201510123014A CN104700086A CN 104700086 A CN104700086 A CN 104700086A CN 201510123014 A CN201510123014 A CN 201510123014A CN 104700086 A CN104700086 A CN 104700086A
Authority
CN
China
Prior art keywords
matrix
video
theme
action
analyzed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510123014.7A
Other languages
English (en)
Other versions
CN104700086B (zh
Inventor
刘华平
滕辉
孙富春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201510123014.7A priority Critical patent/CN104700086B/zh
Publication of CN104700086A publication Critical patent/CN104700086A/zh
Application granted granted Critical
Publication of CN104700086B publication Critical patent/CN104700086B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及一种用于视频分析的人机交互主题动作挖掘方法,属于图像处理技术领域。首先从视频中提取时空兴趣点,并利用方向梯度直方图和光流直方图对其提取特征描述子,采用K-均值的方法对特征描述子进行聚类,进一步形成词袋模型。利用向量化的方法得到最终的特征矩阵,通过带有约束项的非负矩阵分解法得到特定个数的主题动作,并将主题动作以不同的颜色绘制在视频序列整个时间轴上。相比于一般的非负矩阵分解,通过增加边缘权值矩阵和约束项等,主题动作分割更加准确。本发明方法基于非负矩阵分解,通过对删除、添加和融合算法的设计,用户可以根据主观意图挖掘视频中的主题动作信息,从而保证了视频分析中主题动作的主观性和准确性。

Description

一种用于视频分析的人机交互主题动作挖掘方法
技术领域
本发明涉及一种用于视频分析的人机交互主题动作挖掘方法,属于图像处理技术领域。
背景技术
最近几年,网络的日趋流行,更多的视频片段信息呈现出来。相比于文字,视频中有更多的信息,也更难以人为主观的加以区分和概括。用户如何能根据自身的主观意图去挖掘视频中的内在信息,是视频动作挖掘的主要难点。
已有技术中,文献[Interest point detection and scale selection in space-time,Ivan Laptev and Tony Lindeberg]使用时空兴趣点特征描述子来检测视频中运动剧烈部分,在动作识别中得到了较为广泛的应用,并结合词袋模型取得了较好的效果。该方法并不依赖于预处理过程,识别过程对于噪声、背景混乱和光照的改变都具有较好的鲁棒性,但所识别的动作很难满足不同主观性。已有技术中,文献[User-driven topic modelingbased on interactive nonnegative matrix factorization,Choo J,Lee C,Reddy C K,et al.UTOPIAN]公开了一种利用非负矩阵分解方法,通过交互的方式,来挖掘文本中的主题摘要文字。对于文本信息而言,一段文本有明确的主题摘要,但对于视频来说,由于用户的主观性,很难找到一个最为精准的主题,不同的用户获得的主题摘要完全依赖于自身的主观意图。
发明内容
本发明的目的是提出一种用于视频分析的人机交互主题动作挖掘方法,以针对人机交互用户的主观意图来挖掘视频中用户感兴趣的主题动作,更具有针对性和准确性。
本发明提出的用于视频分析的人机交互主题动作挖掘方法,包括以下步骤:
(1)提取待分析视频序列的特征矩阵V,具体过程如下:
(1-1)设待分析视频序列为I(x,y,t),其中x,y为第t帧图像中的像素点在该图像中的坐标,对视频序列I进行高斯卷积,得到高斯卷积后的视频图像序列L:
L ( x , y , t ; σ l 2 , τ l 2 ) = g ( x , y , t ; σ l 2 , τ l 2 ) * I ( x , y , t )
其中,为时空高斯平滑滤波器:
g ( x , y , t ; σ l 2 , τ l 2 ) = 1 ( 2 π ) 3 σ l 4 τ l 2 e - x 2 + y 2 2 σ l 2 - t 2 2 τ l 2 ,
其中,σll分别为高斯平滑滤波器中空间和时间维度的标准差;
(1-2)根据上述步骤(1-1)的L,按照下式计算得到待分析视频序列的时空二阶矩矩阵μ:
μ = g ( x , y , t ; σ l 2 , τ l 2 ) * L x 2 L x L y L x L t L x L y L y 2 L y L t L x L t L y L t L t 2 ,
其中Lx为L在x方向上的偏导,Ly为L在y方向上的偏导,Lt为L在t方向上的偏导;
(1-3)利用上述步骤(1-2)得到的时空二阶矩矩阵μ,构造一个判别函数R:
R=λ1λ2λ3-k(λ123)2
其中,λ1,λ2,λ3为时空二阶矩矩阵μ的三个特征值,k为常数,取值范围为0.1~10;
(1-4)计算上述判别函数R在时间和坐标上的所有正极大值点,所有正极大值点在待分析视频序列中的位置,即为时空兴趣点集合{xk,yk,tkkk},k=1,2,…M,其中,M为时空兴趣点个数;
(1-5)提取上述步骤(1-4)的时空兴趣点的特征描述子,具体步骤如下:
(1-5-1)在上述时空兴趣点的四周得到一个长方体区域(Δxyt),Δx=Δy=2σl,Δt=2τl,σll分别为上述高斯平滑滤波器中空间和时间维度的标准差,对长方体区域(Δxyt)进行归一化处理,得到长方体区域(Δxyt)的方向梯度直方图HOG描述子和光流直方图HOF描述子;
(1-5-2)将方向梯度直方图HOG描述子和光流直方图HOF描述子拼接成为HOG/HOF联合描述子,作为时空兴趣点的特征描述子q;
(1-6)重复上述步骤(1-5),遍历时空兴趣点集合{xk,yk,tkkk}中的所有时空兴趣点,提取特征描述子,得到所有时空兴趣点特征描述子集合Q=[q1,q2,…,qd],其中,d为特征描述子个数;
(1-7)利用K-均值方法,对上述特征描述子集合Q进行聚类,得到N个聚类中心向量,并得到聚类中心向量矩阵B:B=[B1,B2,…,BN];
(1-8)根据步骤(1-6)的时空兴趣点特征描述子和步骤(1-7)的聚类中心向量,按照如下公式计算编码向量ci
对于任意i,满足约束条件‖ci0=1,‖ci1=1,ci≥0,
得到编码矩阵CN×d:C=[c1,c2,…,cd];
(1-9)利用上述编码矩阵CN×d,得到待分析视频的特征矩阵V:V=CT,特征矩阵V为d×N的非负矩阵,其中,CT为编码矩阵CN×d的转置;
(2)利用上述步骤(1)得到的待分析视频的特征矩阵V,提取待处理视频中的主题动作,具体步骤如下:
(2-1)对特征矩阵V=[v1,v2,…,vi,…,vN],按照公式进行归一化处理,得到归一化后的特征矩阵V′=[v′1,v′2,…,v′i,…,v′N],V′为d×N的非负矩阵,其中,N为聚类数,即为待分析视频聚类后的片段个数,d为上述特征描述子个数,令V=V′;
(2-2)设定一个N维向量m,m=[m1,m2,…,mi,…,mN],N为待分析视频聚类后的片段个数,定义一个边缘权值矩阵PW其中,Np(mi)为与mi距离为p的所有点的集合,设p=1,得到边缘权值矩阵 P W = 1 1 1 1 1 1 1 1 . . . . . . . . . 1 1 1 1 1 N × N , PW为N×N的方阵;
(2-3)利用上述边缘权值矩阵PW,定义一个对角矩阵PD,使PD为N×N的对角阵;
(2-4)设非负矩阵V≈WH,其中W为d×r的非负矩阵,H为r×N的非负矩阵,d为特征描述子个数,N为待分析视频聚类后的片段个数,r为人机交互中用户设定的主题动作数,利用非负矩阵分解法,分别得到非负矩阵W和非负矩阵H,具体步骤如下:
(2-4-1)初始化非负矩阵W为一个d×r的随机矩阵,每个元素值取为0到1之间的随机数,初始化非负矩阵H为r×N的随机矩阵,每个元素值取为0到1之间的随机数;
(2-4-2)设定一个约束系数λ,0≤λ≤50,按照如下迭代规则分别对W、H进行更新,得到更新后的非负矩阵W和H:
W ij ← W ij ( VH T ) ij ( WHH T ) ij
H αβ ← H αβ ( W T V + λHP w ) αβ ( W T WH + λHP D ) αβ
其中,HT为非负矩阵H的转置,PW为上述边缘权值矩阵,PD为上述对角矩阵,i、j、α和β分别为矩阵中相应元素的位置;
(2-4-3)重复上述步骤(2-4-2),迭代1000次,分别得到更新后的非负矩阵W和非负矩阵H,其中,非负矩阵W为d×r的矩阵,非负矩阵W中的每一列分别为挖掘的主题动作的特征描述子,非负矩阵H为r×N的矩阵,非负矩阵H中的每一列为聚类后片段的主题动作分布;
(2-5)使上述步骤(2-4-3)的非负矩阵W=[w1,w2,…,wr],按照如下公式,分别计算非负矩阵W的第1列与特征矩阵V中的每一列的相似度,共得到N个相似度值Sim:
Sim ( w 1 , v &eta; ) = < w 1 , v &eta; > | w 1 | | v &eta; | ,
其中<w1,vη>为w1和vη的内积,w1为非负矩阵W的第1列,vη为特征矩阵V中的所有列,η=1,2,…,N,令w1=v,v为相似度值Sim最大时特征矩阵V中的对应列,将w1作为挖掘出的待分析视频主题动作的特征描述子,用该主题动作的特征描述子的下标表示待分析视频聚类后的对应视频片段数,即为主题动作数,该对应视频片段即为与该特征描述子相对应的主题动作;
(2-6)遍历上述步骤(2-4-3)的非负矩阵W的所有列,重复上述步骤(2-5),挖掘出待分析视频中的r个主题动作和r个主题动作数;
(2-7)利用上述步骤(2-4)得到的非负矩阵Hr×N,计算得到待分析视频中N个片段主题动作分布的熵值,具体步骤如下:
(2-7-1)对上述步骤(2-4)得到的非负矩阵H=[h1 h2 ... hN]进行归一化,得到归一化后的非负矩阵 H &OverBar; = P 1 P 2 . . . P N , 中的每一行即为待分析视频的一个片段,
其中, 为hz的转置,Pz为1×r的向量,r为人机交互中用户设定的主题动作数;
(2-7-2)设上述非负矩阵的第一行P1=[p1,p2,…,pr],计算非负矩阵第一行的熵值S1
其中r为人机交互中用户设定的主题动作数;
(2-7-3)遍历非负矩阵的所有行,得到非负矩阵的所有行的熵值S, S = S 1 S 2 . . . S N , S即为待分析视频的N个片段主题动作分布的熵值;
(2-8)从上述熵值S中选取5个最大的熵值,将5个最大的熵值的下标作为5个备选主题动作的片段数,将上述步骤(2-1)的特征矩阵V中与该5个片段数相对应的列作为5个备选主题动作的特征描述子[w′1,…,w′s];
(2-9)用不同的颜色绘制待分析视频的N个片段在时间轴上的分布,具体步骤如下:
(2-9-1)利用上述步骤(2-7-1)的非负矩阵,由于中的每一行表示待分析视频的一个片段,取中每一个行向量中r个元素中的最大值,以该最大值的下标作为该行即该片段的主题动作数;
(2-9-2)遍历非负矩阵的N行,分别得到非负矩阵所有行所对应的主题动作数,相同的主题动作数用同一种颜色绘制在时间轴上,得到主题动作时间分布图;
(3)利用人机交互,在r个主题动作中添加感兴趣的主题动作,具体包括以下几个步骤:
(3-1)利用上述步骤(2-6)挖掘出的r个主题动作的特征描述子W=[w1,w2,…,wr],人机交互用户从上述步骤(2-8)中的备选主题动作的特征描述子[w′1,…,w′5]中选择g个备选主题动作特征描述子,将该g个备选主题动作特征描述子添加到主题动作特征描述子中,其中0<g<5,得到r+g个特征描述子矩阵其中为d×(r+g)的矩阵;
(3-2)根据上述特征描述子矩阵,按照如下迭代公式,迭代1000次,重新计算非负矩阵H:
H &alpha;&beta; &LeftArrow; H &alpha;&beta; ( W &OverBar; T V + &lambda;HP w ) &alpha;&beta; ( W &OverBar; T W &OverBar; H + &lambda;HP D ) &alpha;&beta; ;
(3-3)根据上述步骤(3-2)的非负矩阵H,重复上述步骤(2-9),更新待分析视频的N个片段在时间轴上的分布;
(3-4)将上述步骤(2-8)的5个备选动作片段数中的g个片段数,添加到r个主题动作数中,得到r+g个主题动作数,将与待分析视频片段数中的r+g个主题动作数相对应的片段作为挖掘的待分析视频的初始主题动作;
(4)利用人机交互,从上述初始主题动作中删除不感兴趣的主题动作,具体步骤如下:
(4-1)根据上述步骤(3)的特征描述子人机交互用户删除特征描述子中的第f列,其中,0≤f<r-1,f为整数,得到r+g-1个主题动作的特征描述子使 W &OverBar; = [ w 1 , w 2 , . . . , w r + g - 1 ] ;
(4-2)根据上述步骤(4-1)的特征描述子按照如下迭代公式,迭代1000次,重新计算非负矩阵H,
H &alpha;&beta; &LeftArrow; H &alpha;&beta; ( W &OverBar; T V + &lambda;HP w ) &alpha;&beta; ( W &OverBar; T W &OverBar; H + &lambda;HP D ) &alpha;&beta; ;
(4-3)利用上述步骤(4-2)的非负矩阵H,重复上述步骤(2-9),更新待分析视频的N个片段在时间轴上的分布;
(4-4)删除r+g个主题动作数中的第f个主题动作数,得到r+g-1个主题动作数,将与待分析视频片段数中的r+g-1个主题动作数相对应的片段作为挖掘的待分析视频的中间主题动作;
(5)根据上述中间主题动作,利用人机交互融合用户感兴趣的主题动作,具体步骤如下:
(5-1)人机交互的用户从上述步骤(4)的中间主题动作中挑选相近似的第t和第t+b个动作,从上述步骤(4)的特征描述子中删除第t+b列,得到特征描述子 其中,t和b均为正整数,0<t<t+b<5;
(5-2)将主题动作数为t和t+b的主题动作标记为同一种颜色,更新待分析视频的N个片段在时间轴上的分布;
(5-3)人机交互的用户从上述步骤(4)的中间主题动作数中删除第t+b个主题动作数,得到r+g-2个主题动作数,与待分析视频片段数中的r+g-2个主题动作数相对应的片段即为人机交互挖掘的待分析视频的主题动作。
本发明提出的用于视频分析的人机交互主题动作挖掘方法,具有以下优点:
1、本发明提出的视频分析的交互式动作挖掘方法采用时空兴趣点描述子结合词袋模型来提取视频序列特征,对视频序列中的动作剧烈部分捕捉可靠。
2、本发明采用的挖掘算法基于非负矩阵分解,同时加入了边缘权值矩阵、对角阵以及约束系数,对视频序列中的主题动作有更加准确的挖掘。
3、本发明的挖掘算法利用熵值,得到了5个备选主题动作,可为用户挖掘主题动作提供选择。
4、本发明的交互式挖掘算法采用了对主题动作的删除、添加和融合,分别可以删除用户不关心的主题动作,添加任意多个备选动作,融合相似的主题动作,并将主题动作以不同的颜色绘制在整个视频时间轴上,加以区分。
具体实施方式
本发明提出的用于视频分析的人机交互主题动作挖掘方法,包括以下步骤:
(1)提取待分析视频序列的特征矩阵V,具体过程如下:
(1-1)设待分析视频序列为I(x,y,t),其中x,y为第t帧图像中的像素点在该图像中的坐标,对视频序列I进行高斯卷积,得到高斯卷积后的视频图像序列L:
L ( x , y , t ; &sigma; l 2 , &tau; l 2 ) = g ( x , y , t ; &sigma; l 2 , &tau; l 2 ) * I ( x , y , t )
其中,为时空高斯平滑滤波器:
g ( x , y , t ; &sigma; l 2 , &tau; l 2 ) = 1 ( 2 &pi; ) 3 &sigma; l 4 &tau; l 2 e - x 2 + y 2 2 &sigma; l 2 - t 2 2 &tau; l 2 ,
其中,σll分别为高斯平滑滤波器中空间和时间维度的标准差;
(1-2)根据上述步骤(1-1)的L,按照下式计算得到待分析视频序列的时空二阶矩矩阵μ:
&mu; = g ( x , y , t ; &sigma; l 2 , &tau; l 2 ) * L x 2 L x L y L x L t L x L y L y 2 L y L t L x L t L y L t L t 2 ,
其中Lx为L在x方向上的偏导,Ly为L在y方向上的偏导,Lt为L在t方向上的偏导;
(1-3)利用上述步骤(1-2)得到的时空二阶矩矩阵μ,构造一个判别函数R:
R=λ1λ2λ3-k(λ123)2
其中,λ1,λ2,λ3为时空二阶矩矩阵μ的三个特征值,k为常数,取值范围为0.1~10;
(1-4)计算上述判别函数R在时间和坐标上的所有正极大值点,所有正极大值点在待分析视频序列中的位置,即为时空兴趣点集合{xk,yk,tkkk},k=1,2,…M,其中,M为时空兴趣点个数;
(1-5)提取上述步骤(1-4)的时空兴趣点的特征描述子,具体步骤如下:
(1-5-1)在上述时空兴趣点的四周得到一个长方体区域(Δxyt),Δx=Δy=2σl,Δt=2τl,σll分别为上述高斯平滑滤波器中空间和时间维度的标准差,对长方体区域(Δxyt)进行归一化处理,得到长方体区域(Δxyt)的方向梯度直方图HOG描述子和光流直方图HOF描述子;
(1-5-2)将方向梯度直方图HOG描述子和光流直方图HOF描述子拼接成为HOG/HOF联合描述子,作为时空兴趣点的特征描述子q;
(1-6)重复上述步骤(1-5),遍历时空兴趣点集合{xk,yk,tkkk}中的所有时空兴趣点,提取特征描述子,得到所有时空兴趣点特征描述子集合Q=[q1,q2,…,qd],其中,d为特征描述子个数;
(1-7)利用K-均值方法,对上述特征描述子集合Q进行聚类,得到N个聚类中心向量,并得到聚类中心向量矩阵B:B=[B1,B2,…,BN];
(1-8)根据步骤(1-6)的时空兴趣点特征描述子和步骤(1-7)的聚类中心向量,按照如下公式计算编码向量ci
对于任意i,满足约束条件‖ci0=1,‖ci1=1,ci≥0,
得到编码矩阵CN×d:C=[c1,c2,…,cd];
(1-9)利用上述编码矩阵CN×d,得到待分析视频的特征矩阵V:V=CT,特征矩阵V为d×N的非负矩阵,其中,CT为编码矩阵CN×d的转置;
(2)利用上述步骤(1)得到的待分析视频的特征矩阵V,提取待处理视频中的主题动作,具体步骤如下:
(2-1)对特征矩阵V=[v1,v2,…,vi,…,vN],按照公式进行归一化处理,得到归一化后的特征矩阵V′=[v′1,v′2,…,v′i,…,v′N],V′为d×N的非负矩阵,其中,N为聚类数,即为待分析视频聚类后的片段个数,d为上述特征描述子个数,令V=V′;
(2-2)设定一个N维向量m,m=[m1,m2,…,mi,…,mN],N为待分析视频聚类后的片段个数,定义一个边缘权值矩阵PW其中,Np(mi)为与mi距离为p的所有点的集合,设p=1,得到边缘权值矩阵 P W = 1 1 1 1 1 1 1 1 . . . . . . . . . 1 1 1 1 1 N &times; N , PW为N×N的方阵;
(2-3)利用上述边缘权值矩阵PW,定义一个对角矩阵PD,使PD为N×N的对角阵;
(2-4)设非负矩阵V≈WH,其中W为d×r的非负矩阵,H为r×N的非负矩阵,d为特征描述子个数,N为待分析视频聚类后的片段个数,r为人机交互中用户设定的主题动作数,利用非负矩阵分解法,分别得到非负矩阵W和非负矩阵H,具体步骤如下:
(2-4-1)初始化非负矩阵W为一个d×r的随机矩阵,每个元素值取为0到1之间的随机数,初始化非负矩阵H为r×N的随机矩阵,每个元素值取为0到1之间的随机数;
(2-4-2)设定一个约束系数λ,0≤λ≤50,按照如下迭代规则分别对W、H进行更新,得到更新后的非负矩阵W和H:
W ij &LeftArrow; W ij ( VH T ) ij ( WHH T ) ij
H &alpha;&beta; &LeftArrow; H &alpha;&beta; ( W T V + &lambda;HP w ) &alpha;&beta; ( W T WH + &lambda;HP D ) &alpha;&beta;
其中,HT为非负矩阵H的转置,PW为上述边缘权值矩阵,PD为上述对角矩阵,i、j、α和β分别为矩阵中相应元素的位置;
(2-4-3)重复上述步骤(2-4-2),迭代1000次,分别得到更新后的非负矩阵W和非负矩阵H,其中,非负矩阵W为d×r的矩阵,非负矩阵W中的每一列分别为挖掘的主题动作的特征描述子,非负矩阵H为r×N的矩阵,非负矩阵H中的每一列为聚类后片段的主题动作分布;
(2-5)使上述步骤(2-4-3)的非负矩阵W=[w1,w2,…,wr],按照如下公式,分别计算非负矩阵W的第1列与特征矩阵V中的每一列的相似度,共得到N个相似度值Sim:
Sim ( w 1 , v &eta; ) = < w 1 , v &eta; > | w 1 | | v &eta; | ,
其中<w1,vη>为w1和vη的内积,w1为非负矩阵W的第1列,vη为特征矩阵V中的所有列,η=1,2,…,N,令w1=v,v为相似度值Sim最大时特征矩阵V中的对应列,将w1作为挖掘出的待分析视频主题动作的特征描述子,用该主题动作的特征描述子的下标表示待分析视频聚类后的对应视频片段数,即为主题动作数,该对应视频片段即为与该特征描述子相对应的主题动作;
(2-6)遍历上述步骤(2-4-3)的非负矩阵W的所有列,重复上述步骤(2-5),挖掘出待分析视频中的r个主题动作和r个主题动作数;
(2-7)利用上述步骤(2-4)得到的非负矩阵Hr×N,计算得到待分析视频中N个片段主题动作分布的熵值,具体步骤如下:
(2-7-1)对上述步骤(2-4)得到的非负矩阵H=[h1 h2 ... hN]进行归一化,得到归一化后的非负矩阵 H &OverBar; = P 1 P 2 . . . P N , 中的每一行即为待分析视频的一个片段,
其中, 为hz的转置,Pz为1×r的向量,r为人机交互中用户设定的主题动作数;
(2-7-2)设上述非负矩阵的第一行P1=[p1,p2,…,pr],计算非负矩阵第一行的熵值S1
其中r为人机交互中用户设定的主题动作数;
(2-7-3)遍历非负矩阵的所有行,得到非负矩阵的所有行的熵值S, S = S 1 S 2 . . . S N , S即为待分析视频的N个片段主题动作分布的熵值;
(2-8)从上述熵值S中选取5个最大的熵值,将5个最大的熵值的下标作为5个备选主题动作的片段数,将上述步骤(2-1)的特征矩阵V中与该5个片段数相对应的列作为5个备选主题动作的特征描述子[w′1,…,w′5];
(2-9)用不同的颜色绘制待分析视频的N个片段在时间轴上的分布,具体步骤如下:
(2-9-1)利用上述步骤(2-7-1)的非负矩阵由于中的每一行表示待分析视频的一个片段,取中每一个行向量中r个元素中的最大值,以该最大值的下标作为该行即该片段的主题动作数;
(2-9-2)遍历非负矩阵的N行,分别得到非负矩阵所有行所对应的主题动作数,相同的主题动作数用同一种颜色绘制在时间轴上,得到主题动作时间分布图;
(3)利用人机交互,在r个主题动作中添加感兴趣的主题动作,具体包括以下几个步骤:
(3-1)利用上述步骤(2-6)挖掘出的r个主题动作的特征描述子W=[w1,w2,…,wr],人机交互用户从上述步骤(2-8)中的备选主题动作的特征描述子[w′1,…,w′5]中选择g个备选主题动作特征描述子,将该g个备选主题动作特征描述子添加到主题动作特征描述子中,其中0<g<5,得到r+g个特征描述子矩阵其中为d×(r+g)的矩阵;
(3-2)根据上述特征描述子矩阵,按照如下迭代公式,迭代1000次,重新计算非负矩阵H:
H &alpha;&beta; &LeftArrow; H &alpha;&beta; ( W &OverBar; T V + &lambda;HP w ) &alpha;&beta; ( W &OverBar; T W &OverBar; H + &lambda;HP D ) &alpha;&beta; ;
(3-3)根据上述步骤(3-2)的非负矩阵H,重复上述步骤(2-9),更新待分析视频的N个片段在时间轴上的分布;
(3-4)将上述步骤(2-8)的5个备选动作片段数中的g个片段数,添加到r个主题动作数中,得到r+g个主题动作数,将与待分析视频片段数中的r+g个主题动作数相对应的片段作为挖掘的待分析视频的初始主题动作;
若用户需要多次添加感兴趣的主题动作,则可以重复上述步骤(3-1)~步骤(3-4),进行多次人机交互,以添加感兴趣的主题动作。
(4)利用人机交互,从上述初始主题动作中删除不感兴趣的主题动作,具体步骤如下:
(4-1)根据上述步骤(3)的特征描述子人机交互用户删除特征描述子中的第f列,其中,0≤f<r-1,f为整数,得到r+g-1个主题动作的特征描述子使 W &OverBar; = [ w 1 , w 2 , . . . , w r + g - 1 ] ;
(4-2)根据上述步骤(4-1)的特征描述子按照如下迭代公式,迭代1000次,重新计算非负矩阵H,
H &alpha;&beta; &LeftArrow; H &alpha;&beta; ( W &OverBar; T V + &lambda;HP w ) &alpha;&beta; ( W &OverBar; T W &OverBar; H + &lambda;HP D ) &alpha;&beta; ;
(4-3)利用上述步骤(4-2)的非负矩阵H,重复上述步骤(2-9),更新待分析视频的N个片段在时间轴上的分布;
(4-4)删除r+g个主题动作数中的第f个主题动作数,得到r+g-1个主题动作数,将与待分析视频片段数中的r+g-1个主题动作数相对应的片段作为挖掘的待分析视频的中间主题动作;
若用户需要多次删除不感兴趣的主题动作,则可以重复上述步骤(4-1)~步骤(4-4),进行多次人机交互,以删除不感兴趣的主题动作。
(5)根据上述中间主题动作,利用人机交互融合用户感兴趣的主题动作,具体步骤如下:
(5-1)人机交互的用户从上述步骤(4)的中间主题动作中挑选相近似的第t和第t+b个动作,从上述步骤(4)的特征描述子中删除第t+b列,得到特征描述子 其中,t和b均为正整数,0<t<t+b<5;
(5-2)将主题动作数为t和t+b的主题动作标记为同一种颜色,更新待分析视频的N个片段在时间轴上的分布;
(5-3)人机交互的用户从上述步骤(4)的中间主题动作数中删除第t+b个主题动作数,得到r+g-2个主题动作数,与待分析视频片段数中的r+g-2个主题动作数相对应的片段即为人机交互挖掘的待分析视频的主题动作。
若用户需要多次融合相近似的主题动作,则可以重复上述步骤(5-1)~步骤(5-3),进行多次人机交互,以融合相近似的主题动作。

Claims (1)

1.一种用于视频分析的人机交互主题动作挖掘方法,其特征在于该方法包括以下步骤:
(1)提取待分析视频序列的特征矩阵V,具体过程如下:
(1-1)设待分析视频序列为I(x,y,t),其中x,y为第t帧图像中的像素点在该图像中的坐标,对视频序列I进行高斯卷积,得到高斯卷积后的视频图像序列L:
L ( x , y , t ; &sigma; l 2 , &tau; l 2 ) = g ( x , y , t ; &sigma; l 2 , &tau; l 2 ) * I ( x , y , t )
其中,为时空高斯平滑滤波器:
g ( x , y , t ; &sigma; l 2 , &tau; l 2 ) = 1 ( 2 &pi; ) 3 &sigma; l 4 &tau; l 2 e - x 2 + y 2 2 &sigma; l 2 - t 2 2 &tau; l 2 ,
其中,σll分别为高斯平滑滤波器中空间和时间维度的标准差;
(1-2)根据上述步骤(1-1)的L,按照下式计算得到待分析视频序列的时空二阶矩矩阵μ:
&mu; = g ( x , y , t ; &sigma; l 2 , &tau; l 2 ) * L x 2 L x l y L x L t L x L y L y 2 L y L t L x L t L y L t L t 2 ,
其中Lx为L在x方向上的偏导,Ly为L在y方向上的偏导,Lt为L在t方向上的偏导;
(1-3)利用上述步骤(1-2)得到的时空二阶矩矩阵μ,构造一个判别函数R:
R=λ1λ2λ3-k(λ123)2
其中,λ1,λ2,λ3为时空二阶矩矩阵μ的三个特征值,k为常数,取值范围为0.1~10;
(1-4)计算上述判别函数R在时间和坐标上的所有正极大值点,所有正极大值点在待分析视频序列中的位置,即为时空兴趣点集合{xk,yk,tkkk},k=1,2,…M,其中,M为时空兴趣点个数;
(1-5)提取上述步骤(1-4)的时空兴趣点的特征描述子,具体步骤如下:
(1-5-1)在上述时空兴趣点的四周得到一个长方体区域(Δxyt),Δx=Δy=2σl,Δt=2τl,σll分别为上述高斯平滑滤波器中空间和时间维度的标准差,对长方体区域(Δxyt)进行归一化处理,得到长方体区域(Δxyt)的方向梯度直方图HOG描述子和光流直方图HOF描述子;
(1-5-2)将方向梯度直方图HOG描述子和光流直方图HOF描述子拼接成为HOG/HOF联合描述子,作为时空兴趣点的特征描述子q;
(1-6)重复上述步骤(1-5),遍历时空兴趣点集合{xk,yk,tkkk}中的所有时空兴趣点,提取特征描述子,得到所有时空兴趣点特征描述子集合Q=[q1,q2,…,qd],其中,d为特征描述子个数;
(1-7)利用K-均值方法,对上述特征描述子集合Q进行聚类,得到N个聚类中心向量,并得到聚类中心向量矩阵B:B=[B1,B2,…,BN];
(1-8)根据步骤(1-6)的时空兴趣点特征描述子和步骤(1-7)的聚类中心向量,按照如下公式计算编码向量ci
对于任意i,满足约束条件||ci||0=1,||ci||1=1,ci≥0,
得到编码矩阵CN×d:C=[c1,c2,…,cd];
(1-9)利用上述编码矩阵CN×d,得到待分析视频的特征矩阵V:V=CT,特征矩阵V为d×N的非负矩阵,其中,CT为编码矩阵CN×d的转置;
(2)利用上述步骤(1)得到的待分析视频的特征矩阵V,提取待处理视频中的主题动作,具体步骤如下:
(2-1)对特征矩阵V=[v1,v2,…,vi,…,vN],按照公式进行归一化处理,得到归一化后的特征矩阵V'=[v′1,v'2,…,v′i,…,v'N],V'为d×N的非负矩阵,其中,N为聚类数,即为待分析视频聚类后的片段个数,d为上述特征描述子个数,令V=V';
(2-2)设定一个N维向量m,m=[m1,m2,…,mi,…,mN],N为待分析视频聚类后的片段个数,定义一个边缘权值矩阵PW其中,Np(mi)为与mi距离为p的所有点的集合,设p=1,得到边缘权值矩阵 P W = 1 1 1 1 1 1 1 1 &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; &CenterDot; 1 1 1 1 1 N &times; N , PW为N×N的方阵;
(2-3)利用上述边缘权值矩阵PW,定义一个对角矩阵PD,使PD为N×N的对角阵;
(2-4)设非负矩阵V≈WH,其中W为d×r的非负矩阵,H为r×N的非负矩阵,d为特征描述子个数,N为待分析视频聚类后的片段个数,r为人机交互中用户设定的主题动作数,利用非负矩阵分解法,分别得到非负矩阵W和非负矩阵H,具体步骤如下:
(2-4-1)初始化非负矩阵W为一个d×r的随机矩阵,每个元素值取为0到1之间的随机数,初始化非负矩阵H为r×N的随机矩阵,每个元素值取为0到1之间的随机数;
(2-4-2)设定一个约束系数λ,0≤λ≤50,按照如下迭代规则分别对W、H进行更新,得到更新后的非负矩阵W和H:
W ij &LeftArrow; W ij ( VH T ) ij ( WHH T ) ij
H &alpha;&beta; &LeftArrow; H &alpha;&beta; ( W T V + &lambda; HP w ) &alpha;&beta; ( W T WH + &lambda; HP D ) &alpha;&beta;
其中,HT为非负矩阵H的转置,PW为上述边缘权值矩阵,PD为上述对角矩阵,i、j、α和β分别为矩阵中相应元素的位置;
(2-4-3)重复上述步骤(2-4-2),迭代1000次,分别得到更新后的非负矩阵W和非负矩阵H,其中,非负矩阵W为d×r的矩阵,非负矩阵W中的每一列分别为挖掘的主题动作的特征描述子,非负矩阵H为r×N的矩阵,非负矩阵H中的每一列为聚类后片段的主题动作分布;
(2-5)使上述步骤(2-4-3)的非负矩阵W=[w1,w2,…,wr],按照如下公式,分别计算非负矩阵W的第1列与特征矩阵V中的每一列的相似度,共得到N个相似度值Sim:
Sim ( w 1 , v &eta; ) = < w 1 , v &eta; > | w 1 | | v &eta; | ,
其中<w1,vη>为w1和vη的内积,w1为非负矩阵W的第1列,vη为特征矩阵V中的所有列,η=1,2,…,N,令w1=v,v为相似度值Sim最大时特征矩阵V中的对应列,将w1作为挖掘出的待分析视频主题动作的特征描述子,用该主题动作的特征描述子的下标表示待分析视频聚类后的对应视频片段数,即为主题动作数,该对应视频片段即为与该特征描述子相对应的主题动作;
(2-6)遍历上述步骤(2-4-3)的非负矩阵W的所有列,重复上述步骤(2-5),挖掘出待分析视频中的r个主题动作和r个主题动作数;
(2-7)利用上述步骤(2-4)得到的非负矩阵Hr×N,计算得到待分析视频中N个片段主题动作分布的熵值,具体步骤如下:
(2-7-1)对上述步骤(2-4)得到的非负矩阵H=[h1 h2 ... hN]进行归一化,得到归一化后的非负矩阵 H &OverBar; = P 1 P 2 &CenterDot; &CenterDot; &CenterDot; P N , 中的每一行即为待分析视频的一个片段,
其中,z=1,2,…N,为hz的转置,Pz为1×r的向量,r为人机交互中用户设定的主题动作数;
(2-7-2)设上述非负矩阵的第一行P1=[p1,p2,…,pr],计算非负矩阵第一行的熵值S1
其中r为人机交互中用户设定的主题动作数;
(2-7-3)遍历非负矩阵的所有行,得到非负矩阵的所有行的熵值S, S = S 1 S 2 &CenterDot; &CenterDot; &CenterDot; S N , S即为待分析视频的N个片段主题动作分布的熵值;
(2-8)从上述熵值S中选取5个最大的熵值,将5个最大的熵值的下标作为5个备选主题动作的片段数,将上述步骤(2-1)的特征矩阵V中与该5个片段数相对应的列作为5个备选主题动作的特征描述子[w′1,…,w'5];
(2-9)用不同的颜色绘制待分析视频的N个片段在时间轴上的分布,具体步骤如下:
(2-9-1)利用上述步骤(2-7-1)的非负矩阵由于中的每一行表示待分析视频的一个片段,取中每一个行向量中r个元素中的最大值,以该最大值的下标作为该行即该片段的主题动作数;
(2-9-2)遍历非负矩阵的N行,分别得到非负矩阵所有行所对应的主题动作数,相同的主题动作数用同一种颜色绘制在时间轴上,得到主题动作时间分布图;
(3)利用人机交互,在r个主题动作中添加感兴趣的主题动作,具体包括以下几个步骤:
(3-1)利用上述步骤(2-6)挖掘出的r个主题动作的特征描述子W=[w1,w2,…,wr],人机交互用户从上述步骤(2-8)中的备选主题动作的特征描述子[w′1,…,w'5]中选择g个备选主题动作特征描述子,将该g个备选主题动作特征描述子添加到主题动作特征描述子中,其中0<g<5,得到r+g个特征描述子矩阵其中为d×(r+g)的矩阵;
(3-2)根据上述特征描述子矩阵按照如下迭代公式,迭代1000次,重新计算非负矩阵H:
H &alpha;&beta; &LeftArrow; H &alpha;&beta; ( W &OverBar; T V + &lambda; HP w ) &alpha;&beta; ( W &OverBar; T W &OverBar; H + &lambda; HP D ) &alpha;&beta; ;
(3-3)根据上述步骤(3-2)的非负矩阵H,重复上述步骤(2-9),更新待分析视频的N个片段在时间轴上的分布;
(3-4)将上述步骤(2-8)的5个备选动作片段数中的g个片段数,添加到r个主题动作数中,得到r+g个主题动作数,将与待分析视频片段数中的r+g个主题动作数相对应的片段作为挖掘的待分析视频的初始主题动作;
(4)利用人机交互,从上述初始主题动作中删除不感兴趣的主题动作,具体步骤如下:
(4-1)根据上述步骤(3)的特征描述子人机交互用户删除特征描述子中的第f列,其中,0≤f<r-1,f为整数,得到r+g-1个主题动作的特征描述子使 W &OverBar; = [ w 1 , w 2 , &CenterDot; &CenterDot; &CenterDot; , w r + g - 1 ] ;
(4-2)根据上述步骤(4-1)的特征描述子按照如下迭代公式,迭代1000次,重新计算非负矩阵H,
H &alpha;&beta; &LeftArrow; H &alpha;&beta; ( W &OverBar; T V + &lambda; HP w ) &alpha;&beta; ( W &OverBar; T W &OverBar; H + &lambda; HP D ) &alpha;&beta; ;
(4-3)利用上述步骤(4-2)的非负矩阵H,重复上述步骤(2-9),更新待分析视频的N个片段在时间轴上的分布;
(4-4)删除r+g个主题动作数中的第f个主题动作数,得到r+g-1个主题动作数,将与待分析视频片段数中的r+g-1个主题动作数相对应的片段作为挖掘的待分析视频的中间主题动作;
(5)根据上述中间主题动作,利用人机交互融合用户感兴趣的主题动作,具体步骤如下:
(5-1)人机交互的用户从上述步骤(4)的中间主题动作中挑选相近似的第t和第t+b个动作,从上述步骤(4)的特征描述子中删除第t+b列,得到特征描述子 其中,t和b均为正整数,0<t<t+b<5;
(5-2)将主题动作数为t和t+b的主题动作标记为同一种颜色,更新待分析视频的N个片段在时间轴上的分布;
(5-3)人机交互的用户从上述步骤(4)的中间主题动作数中删除第t+b个主题动作数,得到r+g-2个主题动作数,与待分析视频片段数中的r+g-2个主题动作数相对应的片段即为人机交互挖掘的待分析视频的主题动作。
CN201510123014.7A 2015-03-20 2015-03-20 一种用于视频分析的人机交互主题动作挖掘方法 Active CN104700086B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510123014.7A CN104700086B (zh) 2015-03-20 2015-03-20 一种用于视频分析的人机交互主题动作挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510123014.7A CN104700086B (zh) 2015-03-20 2015-03-20 一种用于视频分析的人机交互主题动作挖掘方法

Publications (2)

Publication Number Publication Date
CN104700086A true CN104700086A (zh) 2015-06-10
CN104700086B CN104700086B (zh) 2017-10-27

Family

ID=53347185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510123014.7A Active CN104700086B (zh) 2015-03-20 2015-03-20 一种用于视频分析的人机交互主题动作挖掘方法

Country Status (1)

Country Link
CN (1) CN104700086B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446757A (zh) * 2016-05-20 2017-02-22 北京九艺同兴科技有限公司 一种人体运动数据相似度自动评价方法
CN106446922A (zh) * 2015-07-31 2017-02-22 中国科学院大学 一种人群异常行为分析方法
CN108241849A (zh) * 2017-08-28 2018-07-03 北方工业大学 基于视频的人体交互动作识别方法
CN108416801A (zh) * 2018-02-28 2018-08-17 哈尔滨工程大学 一种面向立体视觉三维重建的Har-SURF-RAN特征点匹配方法
CN110020680A (zh) * 2019-03-26 2019-07-16 武汉大学 一种基于随机矩阵理论和模糊c均值聚类算法的pmu数据分类方法
CN112347879A (zh) * 2020-10-27 2021-02-09 中国搜索信息科技股份有限公司 一种针对视频运动目标的主题挖掘及行为分析方法
CN112433655A (zh) * 2020-12-04 2021-03-02 崔秀芬 基于云计算的信息流交互处理方法及云计算验证互动中心

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942575A (zh) * 2014-04-02 2014-07-23 公安部第三研究所 基于场景和马尔科夫逻辑网的智能行为分析系统及方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103942575A (zh) * 2014-04-02 2014-07-23 公安部第三研究所 基于场景和马尔科夫逻辑网的智能行为分析系统及方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
IVAN LAPTEV ET AL: "interest point detection and scale selection in space-time", 《SCALE-SPACE 2003,LNCS 2695》 *
JAEGUL CHOO ET AL: "utopian:user-driven topic modeling based on interactive nonnegative matrix factorization", 《IEEE TRANSACTIONS ON VISUALIZATION AND COMPUTER GRAPHICS》 *
MENG WANG ET AL: "intelligent photo clustering with user interaction and distance metric learning", 《PATTERN RECOGNITION LETTERS》 *
施惟: "基于话题模型的视频动作识别系统研究", 《计算机与现代化》 *
胡斐 等: "基于时空兴趣点和主题模型的动作识别", 《东南大学学报(自然科学版)》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446922A (zh) * 2015-07-31 2017-02-22 中国科学院大学 一种人群异常行为分析方法
CN106446922B (zh) * 2015-07-31 2019-10-22 中国科学院大学 一种人群异常行为分析方法
CN106446757A (zh) * 2016-05-20 2017-02-22 北京九艺同兴科技有限公司 一种人体运动数据相似度自动评价方法
CN108241849A (zh) * 2017-08-28 2018-07-03 北方工业大学 基于视频的人体交互动作识别方法
CN108241849B (zh) * 2017-08-28 2021-09-07 北方工业大学 基于视频的人体交互动作识别方法
CN108416801A (zh) * 2018-02-28 2018-08-17 哈尔滨工程大学 一种面向立体视觉三维重建的Har-SURF-RAN特征点匹配方法
CN108416801B (zh) * 2018-02-28 2022-02-22 哈尔滨工程大学 一种面向立体视觉三维重建的Har-SURF-RAN特征点匹配方法
CN110020680A (zh) * 2019-03-26 2019-07-16 武汉大学 一种基于随机矩阵理论和模糊c均值聚类算法的pmu数据分类方法
CN110020680B (zh) * 2019-03-26 2022-04-05 武汉大学 一种基于随机矩阵理论和模糊c均值聚类算法的pmu数据分类方法
CN112347879A (zh) * 2020-10-27 2021-02-09 中国搜索信息科技股份有限公司 一种针对视频运动目标的主题挖掘及行为分析方法
CN112347879B (zh) * 2020-10-27 2021-06-29 中国搜索信息科技股份有限公司 一种针对视频运动目标的主题挖掘及行为分析方法
CN112433655A (zh) * 2020-12-04 2021-03-02 崔秀芬 基于云计算的信息流交互处理方法及云计算验证互动中心

Also Published As

Publication number Publication date
CN104700086B (zh) 2017-10-27

Similar Documents

Publication Publication Date Title
CN104700086A (zh) 一种用于视频分析的人机交互主题动作挖掘方法
Hua et al. Recurrently exploring class-wise attention in a hybrid convolutional and bidirectional LSTM network for multi-label aerial image classification
Mnih et al. Learning to label aerial images from noisy data
Workman et al. Wide-area image geolocalization with aerial reference imagery
Wei et al. Boosting deep attribute learning via support vector regression for fast moving crowd counting
Khalel et al. Automatic pixelwise object labeling for aerial imagery using stacked u-nets
CN108596108B (zh) 基于三元组语义关系学习的航拍遥感图像变化检测方法
CN104331450B (zh) 基于多模式特征和张量分解的视频拷贝检测方法
Caruso et al. Measuring urban forms from inter-building distances: Combining MST graphs with a Local Index of Spatial Association
CN102393900B (zh) 基于鲁棒哈希的视频拷贝检测方法
CN103971115A (zh) 一种基于NDVI和PanTex指数的高分辨率遥感影像新增建设用地图斑自动提取方法
CN103309982B (zh) 一种基于视觉显著点特征的遥感影像检索方法
CN103489196A (zh) 基于Codebook背景建模的运动目标检测方法
CN109584203A (zh) 基于深度学习与语义信息的重定位图像质量评价方法
CN104217442A (zh) 基于多模型估计的航拍视频运动目标检测方法
Zou et al. Dual geometric perception for cross-domain road segmentation
Yuan et al. Wh-mavs: A novel dataset and deep learning benchmark for multiple land use and land cover applications
Chen et al. Recognition algorithm of street landscape in cold cities with high difference features based on improved neural network
Guo et al. Deep network with spatial and channel attention for person re-identification
CN109919927B (zh) 基于快速四元数极谐变换的多对象篡改检测方法
Duan et al. Buildings extraction from remote sensing data using deep learning method based on improved U-Net network
CN110059704B (zh) 一种视觉注意模型驱动的稀土矿区遥感信息智能提取方法
Babu Optimized performance and utilization analysis of real-time multi spectral data/image categorization algorithms for computer vision applications
CN103778439A (zh) 基于动态时空信息挖掘的人体轮廓重构方法
Du et al. A classification method of building structures based on multi-feature fusion of UAV remote sensing images

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant