CN106295564B - 一种邻域高斯结构和视频特征融合的动作识别方法 - Google Patents

一种邻域高斯结构和视频特征融合的动作识别方法 Download PDF

Info

Publication number
CN106295564B
CN106295564B CN201610651712.9A CN201610651712A CN106295564B CN 106295564 B CN106295564 B CN 106295564B CN 201610651712 A CN201610651712 A CN 201610651712A CN 106295564 B CN106295564 B CN 106295564B
Authority
CN
China
Prior art keywords
video
neighborhood
feature
vector
lark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610651712.9A
Other languages
English (en)
Other versions
CN106295564A (zh
Inventor
柏连发
张毅
韩静
崔议尹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201610651712.9A priority Critical patent/CN106295564B/zh
Publication of CN106295564A publication Critical patent/CN106295564A/zh
Application granted granted Critical
Publication of CN106295564B publication Critical patent/CN106295564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种邻域高斯结构和视频特征融合的动作识别方法。本方法首先用3D LARK算子提取视频的局部结构特征,为了能够表达整体结构,提出一种基于多维高斯拟合的邻域结构评估算法。其次,邻域高斯结构和3D LARK特征分别经过多尺度模板和待测视频的局部匹配和统计过程,得到两个目标动作存在的统计概率矩阵。最后,将两个统计概率矩阵融合来提取目标,双重约束提高了目标动作存在的准确性。本发明在传统的LARK算子上提出邻域关系约束整体的思想,提出了一种新的动作识别模型。对比现有方法,本发明提取的目标动作更精准,识别准确率更高,适用于各种复杂场景的可见光和红外视频。

Description

一种邻域高斯结构和视频特征融合的动作识别方法
技术领域
本发明属于计算机视觉领域的移动目标识别技术,特别是一种邻域高斯结构和视频特征融合的动作识别方法。
背景技术
提高视频中目标识别的准确率是开展图像科学研究的不懈追求,高效的计算机自动识别目标技术,对公共安全等领域具有重大意义。目标识别的过程主要分为训练和非训练两种方法,传统训练方法的识别严重依赖于样本的数量,且分类过程容易产生过拟合问题。现阶段,目标识别技术主要采用非训练的新方法。
LARK特征由Seo等人在2010年提出,与HOG特征,LBP特征,Haar特征,SIFT特征等相比,具有旋转和尺度不变性,抓住图像潜在结构而不受噪声影响和稳定性好等优点。它关注每个像素点灰度变化,鲁棒的描述了图像的局部结构。但是Seo的方法使用单尺度模板,不能识别多尺度目标。模板包含背景,采用目标与模板整体匹配,导致待测视频适用场景有限,与模板背景不类似的视频,检测效果不好。LARK特征是局部特征,不能描述目标整体的形状。对于结构稳定的目标,使用LARK特征识别效果较好,对于姿态变化多的非紧凑型目标,则不能排除结构与目标类似的物体。
发明内容
本发明的目的是提供一种邻域高斯结构和视频特征融合的动作识别方法。
实现本发明目的的技术解决方案为:一种邻域高斯结构和视频特征融合的动作识别方法,具体步骤为:
步骤1、构建无背景多尺度模板,具体是:首先将模板图片转成灰度图,之后将图片的背景去除,最后对其进行缩放处理;
步骤2、对步骤1得到的多尺度模板进行3D LARK特征提取,之后对提取出的3DLARK特征进行去冗余处理;
步骤3、对步骤2得到的特征向量矩阵WQ邻域窗口内的数据进行高斯拟合,之后对高斯拟合后的结果进行去冗余处理;
步骤4、将待测视频转换为灰度视频,然后提取显著区域,之后再提取显著区域内像素点的3D LARK特征,最后进行单个向量去冗余处理;
步骤5、将待测视频3D LARK特征集FT邻域9×9窗口内的数据进行高斯多维拟合,之后对高斯多维拟合后的结果进行去冗余处理,得到:R为实数域,m2为9×9窗口遍历待测视频后的循环次数。
步骤6、对3D LARK特征和邻域高斯结构特征的模板与待测视频进行局部匹配,并记录向量位置信息;
步骤7、对向量位置信息进行统计,具体是确定统计窗口内不重复的索引值个数,分别得到目标存在的统计概率矩阵T3DLK和TNRFM
步骤8、将统计概率矩阵T3DLK和TNRFM相乘融合得到最终的统计概率矩阵Tfinal,在最终的统计概率矩阵Tfinal中用非极大值抑制的方法,逐帧提取出目标动作。
本发明与现有技术相比,其显著优点为:(1)本发明提出了目标动作的邻域关系约束,优化了评估目标动作是否存在的方法,使得目标识别准确率得到提高。(2)本发明采用无背景模板,关注动作的本质特征,而忽略背景、灰度等,能够解除待测视频的场景限制,抑制视频拍摄角度产生的影响,同时避免了识别过程中对像素灰度的依赖性,而且能够准确地识别出待测视频中是否包含与感兴趣动作。(3)本发明中的多尺度模板可以识别同一帧图片里面的不同尺寸的目标动作。
附图说明
图1为邻域高斯结构和3D LARK融合的动作识别方法总流程图。
图2为邻域高斯结构计算和性能分析图,其中图(a)为邻域结构计算窗口示例图,图(b)为邻域结构相似性性能分析图。
图3为确定非极大值抑制法的搜索阈值σ值的分析图,其中图(a)(b)为单目标和双目标Tfinal的概率密度曲线;图(c)为Tfinal的概率分布曲线图。
图4为单独用3D LARK特征识别和3DLARK与邻域高斯结构特征融合处理后识别结果对比图,其中图(a)(c)为单独使用3D LARK特征统计匹配后的识别行走动作的结果;图(b)(d)为3D LARK特征与邻域高斯结构特征融合处理后识别结果。
图5为多视角多场景目标行走动作的识别结果对比图,其中图(a)(c)(e)为本发明的识别结果;图(b)(d)(f)为H.J.Seo的3D LSK方法识别结果。
图6为利用本发明识别跳远动作时,采用的未经缩放的模板。
图7为利用本发明的方法对跳远动作进行识别的任意四帧的结果图。
图8为利用本发明识别滑雪动作时,采用的未经缩放的模板。
图9为利用本发明的方法对滑雪动作进行识别的任意四帧的结果图。
具体实施方式
结合图1,本发明的一种邻域高斯结构和视频特征融合的动作识别方法,具体步骤为:
步骤1、构建无背景多尺度模板,具体是:首先将模板图片转成灰度图,之后将图片的背景去除,最后对其进行缩放处理;
所述模板图片为完成一个完整动作的几帧图片,对去背景后的图片序列进行缩放处理,具体是将去背景后的图片序列缩放为0.5倍、1倍和1.5倍。
步骤2、对步骤1得到的多尺度模板进行3D LARK特征提取,之后对提取出的3DLARK特征进行去冗余处理;具体为:
步骤2-1、对步骤1得到的多尺度模板进行3D LARK特征提取,得到特征向量矩阵为WQ∈Rp×n,所述3D LARK特征是用于提取时空显著特征的局部自适应回归核,其公式为
式中,xl是中心像素点,xi是中心像素点邻域内像素点,h是全局平滑参数,Cl∈R3×3是用于估算表面欧式距离ds2的协方差矩阵,用于确定中心像素点邻域大小的窗口为3×3×7,WQ∈Rp×n中p=3×3×7,为单个向量的维度;n为待测视频像素点的总个数;
步骤2-2、对步骤2-1得到的特征向量矩阵WQ进行单个向量和向量之间去冗余处理,其中,采用主成分分析法即PCA降低单个向量的维度;采用匹配余弦相似度,对相似向量只保留一个的方法,去除向量之间的冗余,最后得到模板3D LARK特征集为FQ
步骤3、对步骤2得到的特征向量矩阵WQ邻域窗口内的数据进行高斯拟合,之后对高斯拟合后的结果进行去冗余处理;具体为:
步骤3-1、对模板特征向量矩阵WQ邻域9×9窗口内的数据进行高斯多维拟合,得到模板邻域高斯结构特征NQ 1∈R8×m,m为9×9窗口遍历模板图片序列后的循环次数;
高斯多维拟合所用公式为:
其中,K为高斯分布的个数,μ为模型期望向量,δ为模型方差;
步骤3-2、对步骤3-1得到的特征向量矩阵NQ 1进行单个向量和向量之间去冗余处理,得到模板特征集为NQ
步骤4、将待测视频转换为灰度视频,然后提取显著区域,之后再提取显著区域内像素点的3D LARK特征,最后进行单个向量去冗余处理;具体为:
步骤4-1、将待测视频转换为灰度视频;
步骤4-2、提取灰度视频的显著区域;
步骤4-3、提取显著区域内像素点的3D LARK特征为WT
步骤4-4、对WT进行单个向量去冗余处理,得到待测视频3D LARK特征集FT
步骤5、将待测视频3D LARK特征集FT邻域9×9窗口内的数据进行高斯多维拟合,之后对高斯多维拟合后的结果进行去冗余处理,得到:R为实数域,m2为9×9窗口遍历待测视频后的循环次数;
步骤6、对3D LARK特征和邻域高斯结构特征的模板与待测视频进行局部匹配,并记录向量位置信息;具体为:
步骤6-1、对模板3D LARK特征集FQ和待测视频3D LARK特征集FT进行局部结构匹配,将匹配的相似度记录在时空相似度矩阵ρ3DLK;局部结构匹配所用公式为:
式中,为模板特征集中任意一个向量,为待测视频特征集中任意一个向量;
步骤6-2、将与待测视频3D LARK特征集中向量相似的模板特征集中向量的位置信息,记录在时空位置矩阵P3DLK中,相似度信息记录在时空相似度矩阵ρ3DLK中;
步骤6-3、对邻域高斯特征集NQ和待测视频邻域高斯特征集NT进行局部结构匹配,得到时空相似度矩阵ρNRFM
步骤6-4、将与待测视频邻域高斯特征集中向量相似的模板特征集中向量的位置信息,记录在时空位置矩阵PNRFM中,相似度信息记录在时空相似度矩阵ρNRFM中。
步骤7、对向量位置信息进行统计,具体是确定统计窗口内不重复的索引值个数,分别得到目标存在的统计概率矩阵T3DLK和TNRFM
步骤8、将统计概率矩阵T3DLK和TNRFM相乘融合得到最终的统计概率矩阵Tfinal,在最终的统计概率矩阵Tfinal中用非极大值抑制的方法,逐帧提取出目标动作。非极大值抑制方法中搜索阈值σ的取值为0.95~0.98。
本发明创建了整个动作识别方法,提出模板和目标的局部结构基于邻域高斯结构和3D LARK特征的统计匹配,将双重约束融合,优化了目标存在的统计图,使得目标识别准确率得到提高。
下面结合实施例对本发明的目标动作识别方法做进一步详细的描述:
实施例
本发明的一种邻域高斯结构和视频特征融合的动作识别方法是利用邻域高斯结构和3D LARK特征进行匹配统计的目标检测,其中视频预处理部分包含构建多尺度模板和对待测视频提取显著区域,对模板特征提取和基于特征的邻域多维高斯拟合,并分别去除冗余后得到两个多尺度模板集,待测视频提取显著区域后,对其特征提取和基于特征的邻域多维高斯拟合,得到两个待测视频特征集,相似性评估部分包含模板与待测视频的匹配,统计不相关结构和融合,以及最后目标动作提取。具体为:
第一步:构建一个无背景多尺度模板特征集,选取目标完成一个完整动作的几帧图像,去除背景。然后无背景模板缩放为0.5和1.5倍,对得到模板计算3D LARK特征。3DLARK能够很好的描述局部数据结构,对图像的放大,缩小和旋转具有鲁棒性,适用于本文的多尺度模板。时空局部自适应回归核(3D LARK)定义如下:
xl是中心像素点,xi是窗口内的局部像素点。h是全局平滑参数,Cl∈R3×3是根据表面弧长ds2算出的协方差矩阵。核K实质就是描述局部视频中,中心像素与时空邻域像素的相似度,这个相似度类似于表面弧长距离ds2。本发明设置计算LARK的3D小窗口为3×3×7,因此每个像素点的3D LARK向量大小为1×63,使用PCA降低单个向量的维度后为1×4。
再使用余弦相似度去冗余方法,降低3D LARK特征矩阵向量间的维度,最后得到局部结构之间互不相同的3D LARK模板特征集。用余弦相似度评估向量间相似性,对3D LARK特征做去除相似结构的处理,即去冗余。余弦相似度为:
在经过去冗余后,3D LARK模板特征集为FQ。去冗余时,对3D LARK矩阵和邻域高斯结构矩阵分别设置阈值α1和α2,相似度大于阈值的向量只保留一个。选取α1=0.925,α2=0.95,实验表明适当的减少相似的向量数目不但对识别结果没有影响,而且降低了计算量,提高了检测速度。减少模板向量数目之后,保留的向量进入到与待测视频的匹配过程。
第二步:基于对于目标姿态多变的认识,考虑目标各局部结构关系的方法,即邻域结构关系。计算邻域结构关系矩阵时,不以单个像素点为单位。先取3×3小窗口整体为一个单位,代表局部结构,再选取中心单位周围的八个单位为一个大窗口,大小为9×9。计算方式如图2(a)所示,由于3D LARK代表了窗口内视频的局部特征,采用每个小窗口的第一个像素点的经过PCA后的局部结构特征向量,作为每个小窗口的结构数据Wi。将大窗口内的结构数据Wi,i=1,2,…,9按序排列为一列向量,作为大窗口的邻域矩阵Ner,即Ner=[W1;W2;…;W9]∈9×4。邻域结构关系用向量rij表示,构造非线性函数f(Ner,rij)。根据邻域重建误差最小化和邻域权值归一化原则,引入约束条件rij≥0,非负非线性优化目标函数为:
根据约束条件求rij。由于高斯概率密度模型具有模型参数少,拟合性能好的特点,是应用最广泛的概率模型之一,使用多维高斯函数拟合可更快捷更高精度的表达数据关系。自然一组数据都有向某一中心值靠拢的集中趋势,近似复合高斯分布,因此选用多维高斯拟合。多维高斯分布概率密度函数定义:
其中,K为高斯分布的个数,μ为模型期望向量,δ为模型方差。将邻域矩阵Ner每一列都进行高斯多维拟合,得到期望和方差各4个,赋予邻域高斯结构特征向量rij∈1×8(i=1,2,…,m;j=1,2,…,n)。将9×9大窗口逐帧遍历整个视频,计算每一个大窗口内的邻域高斯结构向量,将向量按序排列,构成视频的邻域高斯结构关系矩阵N。
其中,C代表视频的第C帧。视频和模板的邻域高斯结构矩阵,经过余弦相似度去冗余以后,邻域高斯结构模板特征集为NQ
采用定性的评价方式,来评估本发明进行目标动作识别的效果。为了验证邻域高斯结构对目标和非目标的区分性能,我们选取滑雪模板作为目标,选取树木,窗户等作为非目标,分别计算他们的邻域高斯结构矩阵NSkiing和Ntree。以目标的邻域高斯结构矩阵为例,计算NSkiing的每一个向量与其中任意向量的相似性,代表目标与自身的相似性。然后计算NSkiing每一个向量与Ntree中任意一个向量的相似性,代表目标与非目标的相似性。同理,对非目标的邻域高斯结构也做相应的计算。以两种相似性作为坐标,得到在邻域高斯结构的区分下,目标和非目标的分布。根据图3(b)所示,“+”点为目标分布,“*”点为非目标分布,“+”点集中在45度角以下,说明NSkiing每一列与自身任一列相似度较大,而与树木等相似度较小。反之,“*”点集中在45度角以上,说明Ntree每一列与自身相似度较大,而与目标相似度较小。因此,邻域高斯结构,可以较好的区分出目标与非目标。
第三步,待测视频转成灰度图像序列,然后提取显著区域。为了减少大量不必要的计算量,只在显著区域内的像素点进行邻域结构和后续的匹配过程。用3D LARK特征提取待测视频的特征,经过PCA之后,得到待测视频3D LARK特征集FT
选取二维大窗口,遍历待测视频3D LARK特征集。对窗口内的3D LARK特征进行高斯多维拟合,得到的期望和方差作为邻域关系,经过PCA之后,得到待测视频的邻域高斯结构特征集NT
第四步,分别进行局部结构相似性评估。利用余弦相似度将待测视频和模板进行匹配,根据匹配相似度,判断待测视频中是否包含目标动作的局部结构。待测视频NT的每一个向量,与模板NQ中的所有向量匹配,得到该向量与模板中所有向量的相似度。保留最大相似值对应的那个向量,则找到了与待测视频最匹配的模板对应向量。设待测视频的大小为:mT×nT×tT,对所有向量重复操作,得到时空相似度矩阵:
同理,对LARK矩阵进行匹配得到ρ3DLK
ρ值小的代表相似度低,即为不匹配。对两个时空相似度矩阵设立两个阈值η1和η2,低于阈值的ρ值赋为0,达到去除不相似结构的目的。将保留下来的对应向量的位置信息,记录在时空位置矩阵P3DLK和PNRFM中:
第五步:评估整体结构相似性。两个向量相似,代表对应像素点周围窗口内的局部结构相似。为了评估目标整体与模板的相似性,得到时空位置矩阵之后,使用统计不相关结构的方法。设置3时空统计窗口m2×n2×t2,将窗口分别遍历P3DLK和PNRFM矩阵,并统计窗口内不重复的索引值个数。位置信息代表模板中第index个局部结构与待测视频相应结构相似。不同的索引值越多,表示窗口内的局部图像含有与模板相似的结构越多。我们记录下每个窗口的不重复索引值的个数,构建目标存在的统计概率矩阵TNRFM∈RA×B×C,A=mT-m2,B=nT-n2,C=tT-t2。对LARK矩阵的P3DLK,选取相同的统计窗口,重复上述操作,得到T3DLK∈RA×B×C
图4中列出了直接采用3D LARK算子识别与融合后的识别结果对比。融合的统计概率图拥有更清晰的轮廓,更准确的目标位置范围。选取两个视频当中的任意一帧图片,(a)、(c)是单独使用3D LARK代入模型的识别结果,(b)、(d)是与邻域高斯融合后得到的结果。实验证明,融合后提取的的目标更准确,更精细。由于在目标与环境存在对比度的情况下,视频显著性提取才准确,因此对比度约明显,统计概率图越能清晰的表示目标。如图4中第二行为红外视频,对比度明显,目标动作区域也更容易被识别到。
第六步,融合可以提取各信道中的有利信息,提高信息的准确度。将评估的整体结构相似性T3DLK和TNRFM整体关系相似性相乘融合处理,最后得到动作是否存在的评估矩阵Tfinal。其同时包含了LARK特征和邻域关系特征,其元素值有更大的对比度,能够更精准地识别目标与非目标。在评估矩阵中用非极大值抑制的方法提取目标。置循环体逐步将最大值周围区域提取出来。
我们要提取Tfinal概率大的区域,即目标区域。图3(a)(b)分别为单目标和双目标的Tfinal的概率密度曲线,(a)为单峰,(b)为双峰,表明Tfinal中分别有单个和两个目标区域。图3(c)为目标的概率分布曲线,在概率为0.96后,两幅图片的曲线均趋于直线,表明前0.04的数据包含了大部分目标区域。因此我们设提取目标阈值σ为0.96,只需提取Tfinal的前0.04的数据,代表目标区域。
图5列出了本发明所得识别三个视频中任意帧与H.J.Seo的3D LSK算法对比结果,左列(a)(c)(e)右列(b)(d)(f)为H.J.Seo的算法的识别结果。在背景复杂的地铁站内,商店内部,本发明均有很好的识别动作的结果,而H.J.Seo的3D LSK算法识别结果较为混乱。
本发明不仅可以识别最为常见的行走动作,图6到图9列出来其他动作的识别效果。图6为识别跳远动作采用的未经缩放的模板。图7为跳远动作运用本发明识别的结果。图8为识别滑雪动作采用的未经缩放的模板。图9为滑雪动作运用本发明识别的结果,不仅在对比度强烈的雪地里,本发明可以识别出滑雪动作,在目标滑至空中,背景中包含观众的时候,本发明仍可以识别出目标动作。
由上可知,本发明的邻域高斯结构和视频特征融合的动作识别方法,使得提取的目标动作更精准,识别准确率更高,本发明适用于各种复杂场景的可见光和红外视频。

Claims (7)

1.一种邻域高斯结构和视频特征融合的动作识别方法,其特征在于,具体步骤为:
步骤1、构建无背景多尺度模板,具体是:首先将模板图片转成灰度图,之后将图片的背景去除,最后对其进行缩放处理;
步骤2、对步骤1得到的多尺度模板进行3D LARK特征提取,之后对提取出的3DLARK特征进行去冗余处理;
步骤3、对步骤2得到的特征向量矩阵WQ邻域窗口内的数据进行高斯拟合,之后对高斯拟合后的结果进行去冗余处理;
步骤4、将待测视频转换为灰度视频,然后提取显著区域,之后再提取显著区域内像素点的3D LARK特征,最后进行单个向量去冗余处理;
步骤5、将待测视频3D LARK特征集FT邻域9×9窗口内的数据进行高斯多维拟合,之后对高斯多维拟合后的结果进行去冗余处理,得到:R为实数域,m2为9×9窗口遍历待测视频后的循环次数;
步骤6、对3D LARK特征和邻域高斯结构特征的模板与待测视频进行局部匹配,并记录向量位置信息;
步骤7、对向量位置信息进行统计,具体是确定统计窗口内不重复的索引值个数,分别得到目标存在的统计概率矩阵T12LK和TNRFM
步骤8、将统计概率矩阵T32LK和TNRFM相乘融合得到最终的统计概率矩阵Tfinal,在最终的统计概率矩阵Tfinal中用非极大值抑制的方法,逐帧提取出目标动作。
2.根据权利要求1所述的邻域高斯结构和视频特征融合的动作识别方法,其特征在于,步骤1中所述模板图片为完成一个完整动作的几帧图片,对去背景后的图片序列进行缩放处理,具体是将去背景后的图片序列缩放为0.5倍、1倍和1.5倍。
3.根据权利要求1所述的邻域高斯结构和视频特征融合的动作识别方法,其特征在于,步骤2中对步骤1得到的多尺度模板进行3D LARK特征提取,之后对提取出的3DLARK特征进行去冗余处理,具体为:
步骤2-1、对步骤1得到的多尺度模板进行3D LARK特征提取,得到特征向量矩阵为WQ∈Rp×n,所述3D LARK特征是用于提取时空显著特征的局部自适应回归核,其公式为
式中,xl是中心像素点,xi是中心像素点邻域内像素点,h是全局平滑参数,Cl∈R3×3是用于估算表面欧式距离ds2的协方差矩阵,用于确定中心像素点邻域大小的窗口为3×3×7,WQ∈Rp×n中p=3×3×7,为单个向量的维度;n为待测视频像素点的总个数;
步骤2-2、对步骤2-1得到的特征向量矩阵WQ进行单个向量和向量之间去冗余处理,其中,采用主成分分析法即PCA降低单个向量的维度;采用匹配余弦相似度,对相似向量只保留一个的方法,去除向量之间的冗余,最后得到模板3D LARK特征集为FQ
4.根据权利要求1所述的邻域高斯结构和视频特征融合的动作识别方法,其特征在于,步骤3对模板特征向量矩阵WQ邻域窗口内的数据进行高斯多维拟合,之后对高斯多维拟合后的结果进行去冗余处理,具体为:
步骤3-1、对模板特征向量矩阵WQ邻域9×9窗口内的数据进行高斯多维拟合,得到模板邻域高斯结构特征NQ 1∈R8×m,m为9×9窗口遍历模板图片序列后的循环次数;
高斯多维拟合所用公式为:
其中,K为高斯分布的个数,μ为模型期望向量,δ为模型方差;
步骤3-2、对步骤3-1得到的特征向量矩阵NQ 1进行单个向量和向量之间去冗余处理,得到模板特征集为NQ
5.根据权利要求1所述的邻域高斯结构和视频特征融合的动作识别方法,其特征在于,步骤4将待测视频转换为灰度视频,然后提取显著区域,之后再提取显著区域内像素点的3DLARK特征,最后进行单个向量去冗余处理,具体为:
步骤4-1、将待测视频转换为灰度视频;
步骤4-2、提取灰度视频的显著区域;
步骤4-3、提取显著区域内像素点的3D LARK特征为WT
步骤4-4、对WT进行单个向量去冗余处理,得到待测视频3D LARK特征集FT
6.根据权利要求1所述的邻域高斯结构和视频特征融合的动作识别方法,其特征在于,步骤6对3D LARK特征和邻域高斯结构特征的模板与待测视频进行局部匹配,并记录向量位置信息,具体为:
步骤6-1、对模板3D LARK特征集FQ和待测视频3D LARK特征集FT进行局部结构匹配,将匹配的相似度记录在时空相似度矩阵ρ32LK;局部结构匹配所用公式为:
式中,为模板特征集中任意一个向量,为待测视频特征集中任意一个向量;
步骤6-2、将与待测视频3D LARK特征集中向量相似的模板特征集中向量的位置信息,记录在时空位置矩阵P32LK中,相似度信息记录在时空相似度矩阵ρ32LK中;
步骤6-3、对邻域高斯特征集NQ和待测视频邻域高斯特征集NT进行局部结构匹配,得到时空相似度矩阵ρNRFM
步骤6-4、将与待测视频邻域高斯特征集中向量相似的模板特征集中向量的位置信息,记录在时空位置矩阵PNRFM中,相似度信息记录在时空相似度矩阵ρNRFM中。
7.根据权利要求1所述的邻域高斯结构和视频特征融合的动作识别方法,其特征在于,步骤8中非极大值抑制方法中搜索阈值σ的取值为0.95~0.98。
CN201610651712.9A 2016-08-11 2016-08-11 一种邻域高斯结构和视频特征融合的动作识别方法 Active CN106295564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610651712.9A CN106295564B (zh) 2016-08-11 2016-08-11 一种邻域高斯结构和视频特征融合的动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610651712.9A CN106295564B (zh) 2016-08-11 2016-08-11 一种邻域高斯结构和视频特征融合的动作识别方法

Publications (2)

Publication Number Publication Date
CN106295564A CN106295564A (zh) 2017-01-04
CN106295564B true CN106295564B (zh) 2019-06-07

Family

ID=57667768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610651712.9A Active CN106295564B (zh) 2016-08-11 2016-08-11 一种邻域高斯结构和视频特征融合的动作识别方法

Country Status (1)

Country Link
CN (1) CN106295564B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106887002B (zh) * 2017-04-01 2019-09-20 南京师范大学 一种红外图像序列显著性检测方法
CN107784266A (zh) * 2017-08-07 2018-03-09 南京理工大学 基于时空多尺度统计匹配模型的动作检测方法
CN109614854B (zh) * 2018-10-30 2021-03-02 深圳清华大学研究院 视频数据处理方法及装置、计算机装置及可读存储介质
CN110458037B (zh) * 2019-07-19 2021-09-10 天津理工大学 基于多视角间共性特性挖掘的多任务动作识别方法
CN110751034B (zh) * 2019-09-16 2023-09-01 平安科技(深圳)有限公司 行人行为识别方法及终端设备
CN111382309B (zh) * 2020-03-10 2023-04-18 深圳大学 一种基于图模型的短视频推荐方法、和智能终端和存储介质
CN111931615B (zh) * 2020-07-28 2024-01-09 五邑大学 一种机器人目标识别方法、系统、装置和存储介质
CN112800834B (zh) * 2020-12-25 2022-08-12 温州晶彩光电有限公司 一种基于跪拜行为识别来定位炫彩射灯的方法及系统
CN112926695B (zh) * 2021-04-16 2024-05-24 动员(北京)人工智能技术研究院有限公司 基于模板匹配的图像识别方法和系统
CN114239756B (zh) * 2022-02-25 2022-05-17 科大天工智能装备技术(天津)有限公司 一种虫害检测方法及系统
CN115442519B (zh) * 2022-08-08 2023-12-15 珠海普罗米修斯视觉技术有限公司 视频处理方法、装置及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799856A (zh) * 2012-06-15 2012-11-28 天津大学 基于双通道红外信息融合的人体动作识别方法
CN103955935A (zh) * 2014-05-07 2014-07-30 常州工学院 一种基于局部自适应回归的显著区域检测方法
CN105005798A (zh) * 2014-04-24 2015-10-28 南京理工大学 一种基于局部相似结构统计匹配的目标识别方法
CN105550678A (zh) * 2016-02-03 2016-05-04 武汉大学 基于全局显著边缘区域的人体动作特征提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799856A (zh) * 2012-06-15 2012-11-28 天津大学 基于双通道红外信息融合的人体动作识别方法
CN105005798A (zh) * 2014-04-24 2015-10-28 南京理工大学 一种基于局部相似结构统计匹配的目标识别方法
CN103955935A (zh) * 2014-05-07 2014-07-30 常州工学院 一种基于局部自适应回归的显著区域检测方法
CN105550678A (zh) * 2016-02-03 2016-05-04 武汉大学 基于全局显著边缘区域的人体动作特征提取方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A neighboring structure reconstructed matching algorithm based on LARK features;Taobei Xue 等;《Infrared Physics & Technology》;20151130;第73卷;8-18
Action Recognition from One Example;Hae Jong Seo 等;《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》;20110531;第33卷(第5期);867-882
Robust object detection based on local similar structure statistical matching;Feiyang Luo 等;《Infrared Physics & Technology》;20150131;第68卷;75-83
基于时空关键点的动作识别算法研究;刘浩;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120615(第06期);I138-1732
基于邻域结构和高斯混合模型的非刚性点集配准算法;彭磊 等;《电子与信息学报》;20160131;第38卷(第1期);47-52

Also Published As

Publication number Publication date
CN106295564A (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
CN106295564B (zh) 一种邻域高斯结构和视频特征融合的动作识别方法
CN109360226B (zh) 一种基于时间序列多特征融合的多目标跟踪方法
CN108665481B (zh) 多层深度特征融合的自适应抗遮挡红外目标跟踪方法
CN108734151B (zh) 基于相关滤波以及深度孪生网络的鲁棒长程目标跟踪方法
Jia et al. Visual tracking via adaptive structural local sparse appearance model
CN108062574B (zh) 一种基于特定类别空间约束的弱监督目标检测方法
CN110427905A (zh) 行人跟踪方法、装置以及终端
CN109816689A (zh) 一种多层卷积特征自适应融合的运动目标跟踪方法
CN107145862B (zh) 一种基于霍夫森林的多特征匹配多目标跟踪方法
CN107633226B (zh) 一种人体动作跟踪特征处理方法
CN104616316B (zh) 基于阈值矩阵和特征融合视觉单词的人物行为识别方法
CN110276785B (zh) 一种抗遮挡红外目标跟踪方法
CN107481264A (zh) 一种自适应尺度的视频目标跟踪方法
CN107103326A (zh) 基于超像素聚类的协同显著性检测方法
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
Lee et al. Place recognition using straight lines for vision-based SLAM
CN105022982A (zh) 手部运动识别方法和装置
CN109902565B (zh) 多特征融合的人体行为识别方法
CN105512618B (zh) 视频跟踪方法
Zhao et al. Accurate pedestrian detection by human pose regression
CN107564035B (zh) 基于重要区域识别和匹配的视频跟踪方法
CN104484890A (zh) 基于复合稀疏模型的视频目标跟踪方法
CN105279769A (zh) 一种联合多特征的层次粒子滤波跟踪方法
Ardiyanto et al. Partial least squares-based human upper body orientation estimation with combined detection and tracking
CN101354787B (zh) 一种智能视觉监控检索中提取目标运动轨迹特征的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant