CN108573241B - 一种基于融合特征的视频行为识别方法 - Google Patents

一种基于融合特征的视频行为识别方法 Download PDF

Info

Publication number
CN108573241B
CN108573241B CN201810382014.2A CN201810382014A CN108573241B CN 108573241 B CN108573241 B CN 108573241B CN 201810382014 A CN201810382014 A CN 201810382014A CN 108573241 B CN108573241 B CN 108573241B
Authority
CN
China
Prior art keywords
features
visual
video
vector
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810382014.2A
Other languages
English (en)
Other versions
CN108573241A (zh
Inventor
罗会兰
王婵娟
王吉源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi University of Science and Technology
Original Assignee
Jiangxi University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi University of Science and Technology filed Critical Jiangxi University of Science and Technology
Priority to CN201810382014.2A priority Critical patent/CN108573241B/zh
Publication of CN108573241A publication Critical patent/CN108573241A/zh
Application granted granted Critical
Publication of CN108573241B publication Critical patent/CN108573241B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种新的基于融合特征的视频行为识别方法。针对单一特征描述符在描述视频空间信息的不足,提出将位置信息映射到描述符中进行融合编码。即在特征提取阶段分别提取视频的描述符特征和位置信息,生成相对应的视觉词典和位置词典,然后将位置信息映射到描述符中进行编码。在编码阶段为了克服传统VLAD方法只考虑特征与其最接近聚类中心的不足,提出在其基础之上另外计算每个聚类中心与其最相似特征的差值,并将两者结合起来作为特征的编码向量,获取更全面的视频表示。在两个大型数据库UCF101及HMDB51数据库上的实验比较结果表明,本发明提出的方法比传统VLAD方法具有较大的性能提升。

Description

一种基于融合特征的视频行为识别方法
技术领域
本发明属于计算机视觉,行为识别技术领域,具体涉及基于手动提取特征的行为识别方法。
背景技术
视频中的行为识别作为计算机视觉的分支,应用领域非常广泛,比如智能监控、人机交互、基于内容的视频搜索等。现实环境录制的视频往往存在背景杂乱、相机抖动、尺度及视角变化等多种问题。且相同动作类之间可能存在差异、不同动作类之间又具有相似性。比如不同人走路的步子大小存在差异,蹲下和坐下这两个不同动作又有较大相似性。这些问题使得行为识别一直是计算机视觉领域一个非常具有挑战性的难题。
当前行为识别研究领域大体可以分为两类:基于深度学习的方法和基于传统的方法。深度学习中用于行为识别的主流方法是卷积神经网络CNN(Convolutional NeuralNetworks)及其衍生方法。CNN最先应用于图像识别领域并取得较大成功。但视频和图像不同,图像是静止的,视频是动态的。因此Annane等人提出构建双流CNN网络用于行为识别,将视频看做一段图像序列,空间流计算图像帧的CNN特征,时间流计算若干图像帧间的光流CNN特征,最后再将两者进行融合。这种方法虽然将立体的视频识别问题转化为了平面的图像识别问题,但却丢失了动作的时间关联信息。为了弥补双流架构在时间信息上的丢失,Wang L等人提出了三流CNN架构。该架构在二流架构的基础之上将时间流进一步细分,分为局部时间流和全局时间流。动作图像特征和光流特征分别作为空间流和局部时间流的输入,通过学习运动叠差图像MSDI(Motion Stacked Difference Image)的CNN特征作为全局时间流的输入。在UCF101及HMDB51数据库上的实验表明,基于三流CNN架构的识别准确度比两流CNN方法分别高了1.7%和1.9%。还有一些研究者对CNN特征提取对象做了改进,比如Gkioxtari等人提出不对整个图像帧学习特征,而是在图像帧上先选择一个包含人体的包围盒作为主区域,然后根据主区域定义若干个次区域,利用最大值函数计算次区域包含的信息量并将其得分给主区域。然后利用RCNN(Region-based Convolutional Net-workmethod)对主区域和次区域进行训练学习得到视频的特征表示。该方法在数据库PASAL VOCAction dataset上获得了90.2%的平均准确度均值,超出同期其他方法。Cheron等人提出P-CNN(Pose based CNN),该方法是先对输入的视频进行姿势估计,然后对身体不同部分提取CNN特征,再将各个部分的特征融合起来,该方法在数据库JHMDB和MPII Cookingdataset上均领先同期方法。
传统的方法就是对视频特征进行手动提取,然后再训练模型进行预测分类。相较于深度学习的端到端的方法,传统方法由于所提取特征可能并不能完全满足后续的分类任务要求,所以目前在性能上无法与端到端的方法相比。但手动提取的特征针对性更强,且在训练速度和对训练数据量的要求上都比基于深度模型的方法有优势。更何况经过多年的研究,许多优秀的特征提取和描述方法被开发出来并获得较好的识别效果。
Perronnin等提出利用费舍尔核函数对视觉单词进行编码得到均值和协方差,并将其进行串联用以表示图像,从而实现图像分类功能。该方法统计了1阶和2阶信息,因此识别准确度较高。但也因为需要计算的信息比较高阶,因此计算也较慢,常常需要配合降维处理。Jegou等人提出的VLAD(Vector of Aggragate Locally Descriptor)编码方法和费舍尔编码类似,不过只保留了1阶信息,因此较大减少了计算量,且识别准确度不逊色于费舍尔编码。Mironicai等人提出了一种基于VLAD编码的快速行为分类方法,该方法对每一帧图像的特征进行编码而不是对视频的局部时空特征进行编码,并且在词典生成时用随机森林法替代K均值,这种方法计算代价小,但相应的在识别准确度上也有损失。
发明内容
本发明通过补充提取特定的信息,改善特征编码能力,提高视频表征的效果,从而提高后续的行为识别准确度。
本发明通过以下技术方案实现的。
本发明所述的一种基于融合特征的视频行为识别方法,包括以下步骤:
步骤1:输入训练视频集并进行采样,得到兴趣点;
步骤2:对兴趣点进行特征提取,得到视觉特征和位置特征(x,y,t);
步骤3:对位置特征进行规范化处理,使得输入的任意视频的位置特征均在统一范围内。
步骤4:利用k均值分别对兴趣点的视觉特征和位置特征进行聚类,得到相应的视觉词典和位置词典;
步骤5:将视觉特征根据对应的视觉词典进行改进的聚合局部描述符编码得到视觉向量;
步骤6:为每个兴趣点分配一个残差特征和一个组特征,然后对这两个特征依据位置词典的划分方式进行聚类、编码得到相应的残差向量和组特征向量。
步骤7:将第6步得到的残差向量和组特征向量进行串联得到位置向量。
步骤8:将第5步的视觉向量和第7步的位置向量进行串联得到视频的全局表示向量。
步骤9:对第8步得到的全局表示向量进行归一化处理并将其与自身串联得到视频的规范后的视频表示向量。
步骤10:将第9步得到的视频表示向量用于线性SVM,训练并得到分类器。
更进一步地,本发明第5步所述的改进的聚合局部描述符编码的策略是在传统的聚合局部描述符编码的基础之上对编码系数求均值,并强化聚类中心的表达作用。即在该策略中,视觉单词的编码系数为该视觉单词与其包含的所有视觉特征的差值之和的均值加上该视觉单词与其最相似的视觉特征的差值。
更进一步地,本发明第6步所述的编码考虑到残差特征传递的是兴趣点的视觉特征与其所属聚类中心的差值,以及组特征传递的是兴趣点基于视觉特征相似性的分类信息,存在多个兴趣点的组特征相同的情况,所以编码时采取简化的改进聚合描述符编码策略,即每个视觉单词的编码系数为该视觉单词与其包含的所有视觉特征的差值之和的均值。
更进一步地,本发明第9步所述的归一化处理采用如下四种方式中的一种:
(1)方式1:对特征集、词典、单个样本特征及编码向量均做L2正则和PowerNormalization处理。
(2)方式2:对词典、单个样本特征及编码向量做L2正则和Power Normalization处理。
(3)方式3:只对编码向量做L2正则和Power Normalization处理。
(4)方式4:只对编码向量做L2正则。
更进一步地,本发明第1步所述的兴趣点的提取和描述方法为STIP,STIP方法是稀疏采样,本发明第2步所述的视觉特征包括STIP方法提取到的兴趣点特征HOG和HOF。
更进一步地,本发明第1步所述的兴趣点的提取和描述方法为IDT,IDT方法是稠密采样,本发明第2步所述的视觉特征包括IDT方法提取到的兴趣点特征HOG、HOF和MBH。
更进一步地,本发明第6步所述的残差特征定义为该兴趣点的视觉特征和其所属聚类中心的残差。
更进一步地,本发明第6步所述的组特征定义为该兴趣点在生成视觉词典时所属的聚类中心类别。
与现有的技术相比,本发明所述的行为识别方法采取了多种特征融合的视频表征方式,在视频的特征表达层面引入了位置信息,并在编码环节对原有的VLAD编码技术做了改进,强化了聚类中心的作用。能够保证视频的有效特征得到充分表达,通过在两个大型公开数据库UCF101和HMDB51上的实验结果对比,本发明提供的方法在识别准确度上有较大提升。
附图说明
图1为本发明Matlab仿真实验中用到的UCF101数据库部分示意图
图2为本发明Matlab仿真试验中用到的HMDB51数据库部分示意图
图3为本发明对视频依据Harris角点检测器提取到的兴趣点示意图
图4为本发明构建视频特征级表示流程示意图
图5为本发明构建视频向量级表示流程示意图
图6为本发明视频识别流程
图7为不同视觉及位置词典大小下识别准确度的变化
图8为不同归一化方式下识别准确度的变化
图9为向量串联前后准确度的变化
具体实施方式
下面结合实施实例和附图对本发明作进一步说明。
在UCF101数据库上分三次对数据库进行识别,取每次的识别准确度的均值作为本算法的识别准确度。其中第一次是取101个类中每个动作类的第8-25组为训练组,第1-7组为测试组;第二次是取101个类中每个动作类的1-7组和15-25组为训练组,8-14组为测试组;第三次是取101个类中每个动作类的1-14组合和22-25组为训练组,15-21组为测试组。选取了两种常用特征时空兴趣点特征和改进稠密轨迹特征作为视频的特征表示。基于改进稠密轨迹特征的位置词典和视觉词典大小设置为1000,位置词典大小设置为50;基于时空兴趣点特征的视觉词典大小设置为8000,位置词典大小为400。编码方式都采用了本文所提出的改进VLAD编码方法,在编码后对表示向量进行了L2归一化和Power Normalization,其中Power Normalization的规范参数设置为0.5;并将归一化后的向量与其自身串联作为视频的向量表示。先对训练视频依据角点探测器提取兴趣点,然后提取兴趣点的特征信息,包括方向梯度直方图HOG和光流方向信息直方图HOF以及位置信息p(x,y,t),其中x、y、t分别表示兴趣点在横轴、纵轴及时间轴上的值。
为了将任意视频的位置信息局限在统一区间范围内,便于后续处理计算,对位置信息作如下规范处理。即x、y、t分别除以视频的高、宽和帧数。这种规范化操作能保证对于输入的任意大小的视频,其位置信息都能规范在统一区间。
假设在一段视频中提取到n个兴趣点,那么这段视频的视觉特征可以表示为χ={x1,...,xn},相应的位置特征可以表示为P={p1,...,pn}其中xj和pj分别表示第j个兴趣点的视觉特征和位置特征。附图5示例了本发明中视频表示向量的构造过程。
由附图5可知,先对视觉特征构造视觉向量,用k均值聚类对视觉特征进行聚类,生成视觉词典。假设聚类得到的视觉词典VD1大小为k1,则表示为
Figure BDA0001640377490000041
其中Ci表示视觉词典中第i个聚类中心。
则第i个聚类中心的编码向量表示为:
Figure BDA0001640377490000042
其中xj表示聚类中心Ci所包含的第j个视觉特征,Ni表示聚类中心Ci所包含的视觉特征个数,xt表示聚类中心所包含的视觉特征中与其最相似的视觉特征。综上所述,当视觉字典大小为时k1,视频的视觉编码向量可以表示为:
Figure BDA0001640377490000043
由上文可知,兴趣点的位置特征和视觉特征一一对应,即每个兴趣点j都对应一个视觉特征xj和一个位置特征pj。为了将位置信息映射到视觉特征空间中,为每个兴趣点分配一个残差特征,兴趣点的残差特征值为视觉向量计算时该兴趣点的视觉特征与其所属聚类中心的残差。也就是说我们把上一步中第j个兴趣点与其所属聚类中心的残差赋值给rj,作为第j个兴趣点的残差表示。假设对位置特征进行聚类得到一个大小为k2的位置词典LD2,pj是LD2中第i个聚类中心Li所包含的第j个位置特征,则将对应的rj分配给第i个残差聚类中心,依照这种划分策略,就将所有兴趣点的残差特征聚类得到了k2个聚类中心。因为残差特征传递的是兴趣点的视觉特征与其所属聚类中心的差值,所以不再强化聚类中心的作用,则基于位置特征聚类策略的第i个聚类中心的残差向量可以编码表示为:
Figure BDA0001640377490000051
其中Ri表示依据位置特征聚类得到的对应的第i个残差聚类中心,Ni表示第i个聚类中心Ri所包含的残差数,rj表示聚类中心Ri包含的第j个残差。则视频基于位置特征划分的残差向量表示为:
Figure BDA0001640377490000052
为了保留上一步计算视觉向量时的聚类信息,为视频所提取的n个兴趣点分配一个组特征。也就是假设第j个兴趣点在计算视觉向量时属于第i个聚类中心,那么给第j个兴趣点分配一个gj表示第j个兴趣点的组类特征。gj定义为一个k1维的向量gj=[01000...000],其中1位元素为1,用以区分所属组别,其余元素均为0。因为组特征传递的是兴趣点基于视觉特征相似性的分类信息,存在多个兴趣点的组特征相同的情况,所以编码时也不额外增加聚类中心与其最相似特征的计算。即第i个聚类中心Gi的编码向量表示为:
Figure BDA0001640377490000053
其中Gi表示依据位置特征聚类策略得到的对应的第i个组特征聚类中心,Ni表示第i个聚类中心Gi所包含的组特征数,gj表示聚类中心Gi包含的第j个组特征。将组特征向量和残差特征向量串联起来,即为位置向量。则视频基于位置特征划分的组特征向量表示为:
Figure BDA0001640377490000054
位置向量表示为:
VLADl=[VLADr,VLADg]
将编码得到的视觉向量和位置向量串联得到视频动作的表征向量IVLAD,全称为Improved Vector of Locally Aggregated Descriptors,然后再将其与自身串联升维后得到本发明最终的表征向量如下所示:
IVLAD=[[VLADv,VLADl],[VLADv,VLADl]]
接着还需对表征向量进行归一化,本发明采取L2正则和Power Normalization的组合方式对向量进行归一化。即先对IVLAD进行L2归一化,再对归一化后的向量采用PowerNormalization策略二次归一化,并将二次归一化的向量与其自身叠加串联作为视频的最终表示向量,以期通过提升表示向量维度达到增强向量表示能力的效果。然后将最终表示向量输入到线性SVM中进行分类预测。本发明验证分析了不同归一化策略组合对识别性能的影响。
实验结果表明,本发明优选的具体实施例利用不同特征形成的聚合视频表示向量可以发现不同的视频信息,当组合这些不同信息时,可以得到显著的性能提升。本发明所述方法基于时空兴趣点特征在UCF101数据集上的识别准确度为87.18%,基于改进稠密轨迹特征在UCF101数据集上的识别准确度为90.60%。分别比基于融合向量的超级稀疏编码方法高了11.22%和8.29%,比深度网络中经典的双流方法高了2.6%。

Claims (8)

1.一种基于融合特征的视频行为识别方法,包括以下步骤:
步骤1:输入训练视频集并进行采样,得到兴趣点;
步骤2:对兴趣点进行特征提取,得到视觉特征和位置特征(x,y,t);
步骤3:对位置特征进行规范化处理,使得输入的任意视频的位置特征均在统一范围内;
步骤4:利用k均值分别对兴趣点的视觉特征和位置特征进行聚类,得到相应的视觉词典和位置词典;
步骤5:将视觉特征根据对应的视觉词典进行改进的聚合局部描述符编码得到视觉向量;
步骤6:为每个兴趣点分配一个残差特征和一个组特征,然后对这两个特征依据位置词典的划分方式进行聚类、编码得到相应的残差向量和组特征向量;
步骤7:将第5步得到的残差向量和组特征向量进行串联得到位置向量;
步骤8:将第5步的视觉向量和第7步的位置向量进行串联得到视频的全局表示向量;
步骤9:对第7步得到的全局表示向量进行归一化处理并将其与自身串联得到视频的规范后的视频表示向量;
步骤10:将第9步得到的视频表示向量用于线性SVM,训练并得到分类器。
2.如权利要求1所述的一种基于融合特征的视频行为识别方法,其特征在于:步骤5所述的改进的聚合局部描述符编码的策略是在传统的聚合局部描述符编码的基础之上对编码系数求均值,并强化聚类中心的表达作用; 即在该策略中,视觉单词的编码系数为该视觉单词与其包含的所有视觉特征的差值之和的均值加上该视觉单词与其最相似的视觉特征的差值。
3.如权利要求1所述的一种基于融合特征的视频行为识别方法,其特征在于:步骤6所述的编码考虑到残差特征传递的是兴趣点的视觉特征与其所属聚类中心的差值,以及组特征传递的是兴趣点基于视觉特征相似性的分类信息,存在多个兴趣点的组特征相同的情况,所以编码时采取简化的改进聚合描述符编码策略,即每个视觉单词的编码系数为该视觉单词与其包含的所有视觉特征的差值之和的均值。
4.如权利要求1所述的一种基于融合特征的视频行为识别方法,其特征在于:步骤9所述的归一化处理采用如下四种方式中的一种:
(1)方式1:对特征集、词典、单个样本特征及编码向量均做L2正则和PowerNormalization处理;
(2)方式2:对词典、单个样本特征及编码向量做L2正则和Power Normalization处理;
(3)方式3:只对编码向量做L2正则和Power Normalization处理;
(4)方式4:只对编码向量做L2正则。
5.如权利要求1所述的一种基于融合特征的视频行为识别方法,其特征在于:步骤1所述的兴趣点的提取和描述方法为STIP,STIP方法是稀疏采样,步骤2所述的视觉特征包括STIP方法提取到的兴趣点特征HOG和HOF。
6.如权利要求1所述的一种基于融合特征的视频行为识别方法,其特征在于:步骤1所述的兴趣点的提取和描述方法为IDT,IDT方法是稠密采样,步骤2所述的视觉特征包括IDT方法提取到的兴趣点特征HOG、HOF和MBH。
7.如权利要求1所述的一种基于融合特征的视频行为识别方法,其特征在于:步骤6所述的残差特征定义为该兴趣点的视觉特征和其所属聚类中心的残差。
8.如权利要求1所述的一种基于融合特征的视频行为识别方法,其特征在于:步骤6所述的组特征定义为该兴趣点在生成视觉词典时所属的聚类中心类别。
CN201810382014.2A 2018-04-25 2018-04-25 一种基于融合特征的视频行为识别方法 Active CN108573241B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810382014.2A CN108573241B (zh) 2018-04-25 2018-04-25 一种基于融合特征的视频行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810382014.2A CN108573241B (zh) 2018-04-25 2018-04-25 一种基于融合特征的视频行为识别方法

Publications (2)

Publication Number Publication Date
CN108573241A CN108573241A (zh) 2018-09-25
CN108573241B true CN108573241B (zh) 2022-07-15

Family

ID=63575279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810382014.2A Active CN108573241B (zh) 2018-04-25 2018-04-25 一种基于融合特征的视频行为识别方法

Country Status (1)

Country Link
CN (1) CN108573241B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376787B (zh) * 2018-10-31 2021-02-26 聚时科技(上海)有限公司 流形学习网络及基于其的计算机视觉图像集分类方法
CN109919220B (zh) * 2019-03-04 2020-06-26 北京字节跳动网络技术有限公司 用于生成视频的特征向量的方法和装置
CN109934142B (zh) * 2019-03-04 2021-07-06 北京字节跳动网络技术有限公司 用于生成视频的特征向量的方法和装置
CN113674063B (zh) * 2021-08-27 2024-01-12 卓尔智联(武汉)研究院有限公司 购物推荐方法、购物推荐装置、及电子设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6015250B2 (ja) * 2012-08-31 2016-10-26 富士通株式会社 画像処理装置、画像処理方法及び画像処理プログラム
CN103793925B (zh) * 2014-02-24 2016-05-18 北京工业大学 融合时空特征的视频图像视觉显著程度检测方法
CN104216949A (zh) * 2014-08-13 2014-12-17 中国科学院计算技术研究所 一种融合空间信息的图像特征聚合表示方法及系统
CN105069434B (zh) * 2015-08-12 2018-06-05 河海大学常州校区 一种视频中人体动作行为识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Encoding spatio-temporal distribution by generalized VLAD for action recognition;Biyun Sheng等;《2015 IEEE 28th Canadian Conference on Electrical and Computer Engineering (CCECE)》;20150625;620-625 *
Scalable recognition with a vocabulary tree;Nister D等;《2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR"06)》;20061009;2161-2168 *
利用特征融合的行为识别方法研究;王婵娟;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20180815(第08期);I138-589 *

Also Published As

Publication number Publication date
CN108573241A (zh) 2018-09-25

Similar Documents

Publication Publication Date Title
CN108573241B (zh) 一种基于融合特征的视频行为识别方法
CN110458844B (zh) 一种低光照场景的语义分割方法
CN105069434B (zh) 一种视频中人体动作行为识别方法
Luo et al. Unsupervised learning of long-term motion dynamics for videos
Wu et al. Multi-teacher knowledge distillation for compressed video action recognition on deep neural networks
CN109919122A (zh) 一种基于3d人体关键点的时序行为检测方法
Sheng et al. Siamese denoising autoencoders for joints trajectories reconstruction and robust gait recognition
CN107169117B (zh) 一种基于自动编码器和dtw的手绘图人体运动检索方法
CN107463917A (zh) 一种基于改进的ltp与二维双向pca融合的人脸特征提取方法
CN106709419B (zh) 一种基于显著轨迹空间信息的视频人体行为识别方法
CN109840518B (zh) 一种结合分类与域适应的视觉追踪方法
CN111723600B (zh) 一种基于多任务学习的行人重识别特征描述子
Theodoridis et al. Cross-modal variational alignment of latent spaces
Sekma et al. Human action recognition based on multi-layer fisher vector encoding method
Wei et al. P3D-CTN: Pseudo-3D convolutional tube network for spatio-temporal action detection in videos
Safaei et al. Still image action recognition by predicting spatial-temporal pixel evolution
Jasani et al. Skeleton based zero shot action recognition in joint pose-language semantic space
CN112070010B (zh) 一种联合多损失动态训练策略增强局部特征学习的行人重识别方法
CN107967441B (zh) 一种基于双通道3d-2d rbm模型的视频行为识别方法
CN115719510A (zh) 基于多模态融合及隐式交互关系学习的群组行为识别方法
CN108805280B (zh) 一种图像检索的方法和装置
Chen et al. Object grounding via iterative context reasoning
Roy et al. Sparsity-inducing dictionaries for effective action classification
CN109063766B (zh) 一种基于判别性预测稀疏分解模型的图像分类方法
CN111291785A (zh) 目标检测的方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant