CN110097000A - 基于局部特征聚合描述符和时序关系网络的视频行为识别方法 - Google Patents
基于局部特征聚合描述符和时序关系网络的视频行为识别方法 Download PDFInfo
- Publication number
- CN110097000A CN110097000A CN201910357466.XA CN201910357466A CN110097000A CN 110097000 A CN110097000 A CN 110097000A CN 201910357466 A CN201910357466 A CN 201910357466A CN 110097000 A CN110097000 A CN 110097000A
- Authority
- CN
- China
- Prior art keywords
- video
- sequential relationship
- local feature
- vlad
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000002776 aggregation Effects 0.000 title claims abstract description 29
- 238000004220 aggregation Methods 0.000 title claims abstract description 29
- 238000005070 sampling Methods 0.000 claims abstract description 18
- 230000004927 fusion Effects 0.000 claims abstract description 13
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 11
- 238000013507 mapping Methods 0.000 claims abstract description 10
- 230000009471 action Effects 0.000 claims abstract description 9
- 230000006399 behavior Effects 0.000 claims description 23
- 230000000694 effects Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000006116 polymerization reaction Methods 0.000 abstract description 6
- 239000000284 extract Substances 0.000 abstract description 4
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 230000006872 improvement Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 241000669244 Unaspis euonymi Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000155 melt Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明基于局部特征聚合描述符和时序关系网络的视频行为识别方法包括如下步骤:(1)视频采样获得多尺度有序视频帧序列;(2)使用卷积神经网络提取图片特征;(3)将得到的特征映射输入到VLAD层,将特征融合;(4)使用分类层得到当前输入视频中的动作行为属于数据集中各个类别的概率值;(5)融合多个尺度的时序关系,得到视频行为识别结果;(6)在UCF101和something‑something数据集上对网络进行训练和测试,优化网络参数。本发明提供基于局部特征聚合描述符和时序关系网络的视频行为识别方法,在网络结构中加入局部特征聚合(VLAD)层将卷积层提取的特征映射进行融合来学习时序关系,并通过融合多尺度的时序关系来判别视频中人体动作的类别。
Description
技术领域
本发明涉及属于计算机视觉与人工智能、多媒体信号处理领域,特别是涉及基于局部特征聚合描述符和时序关系网络的视频行为识别方法。
背景技术
人类作为社会活动的主体,人类活动也成为视频数据中的主要有效信息,因此对视频中人体行为的分析识别,是视频内容分析的重要组成部分。视频行为识别是从给定的未知的视频或者图像序列中自动分析其中正在进行的行为。该技术由于其巨大的应用前景和潜在的经济价值备受学业界以及工业界的关注,可以满足智能视频监控、医疗视频监护,视频内容检索与分析以及人机交互和虚拟现实等领域的自动分析和智能化需求,极大程度地改善人们的生活。
基于计算机视觉的识别方法大多遵循以下的统一处理过程:输入视频,提取特征对行为进行表征,对行为进行分类。基于传统机器学习的行为识别算法,一般先提取底层特征,而提取的特征通常无法直接用于最终的行为分类判别,需要对底层特征进行编码后得到视频的全局描述,最后将得到的全局描述子输入SVM、Adaboost、决策树等分类器得到分类结果。而随着GPU等硬件设施的发展,愈来愈多的学者尝试将深度学习应用于行为识别,通过深度神经网络来学习视频高级特征,并采用Softmax等全连接网络分类层来得到分类结果。
在行为识别领域,基于深度神经网络学习的特征获得了广泛的应用,并取得了良好的行为识别效果,但是这些方法还存在许多问题。从目前的研究情况的一大难点就是更有效的特征编码或融合策略的研究。在非时序特征方面,研究包括如何更有效的对多种特征编码/融合这些特征来获得更好的结果,而在时序特征方面,由于由于视频很重要的一个特性就是其时序信息,一些动作看单帧的图像是无法判断的,只能通过时序上的变化判断,所以需要研究如何将时序上的特征进行编码或者融合,获得对于视频整体的描述。
针对以上的难点,本发明提供了基于局部特征聚合描述符和时序关系网络的视频行为识别方法,通过将传统的局部特征聚合描述符用神经网络进行训练并扩展时间维特征来融合时空特征,学习帧间时序关系,最后通过融合多尺度时序关系获得行为识别结果。
发明内容
为了有效地将时序上的特征进行编码或者融合,获得对于视频整体的描述,本发明提供基于局部特征聚合描述符和时序关系网络的视频行为识别方法,在网络结构中加入局部特征聚合(VLAD)层将卷积层提取的特征映射进行融合来学习时序关系,并通过融合多尺度的时序关系来判别视频中人体动作的类别,为达此目的,本发明提供基于局部特征聚合描述符和时序关系网络的视频行为识别方法,方法包括如下步骤:
(1)视频采样获得多尺度有序视频帧序列;
(2)使用卷积神经网络提取图片特征;
(3)将得到的特征映射输入到VLAD层,将特征融合;
(4)使用分类层得到当前输入视频中的动作行为属于数据集中各个类别的概率值;
(5)融合多个尺度的时序关系;
(6)在UCF101和something-something数据集上进行网络的训练与测试。
作为本发明进一步改进,所述步骤(1)中对视频多尺度采样,对于给定的,视频V,将视频均匀分为N段,从每段中分别随机采样得到N帧图像序列,再从N帧图像序列中下采样得到不同长度的图像序列,不同长度的有序帧序列用于学习不同尺度的时序关系。
作为本发明进一步改进,所述步骤(2)中使用BN-Inception网络中的部分层进行图像特征提取,BN层的加入使得网络中任意一层都可以进行归一化处理,经过归一化处理使得新的分布更符合数据的真实分布,保证模型的非线性表达能力。
作为本发明进一步改进,所述步骤(3)中将传统的VLAD算法引入卷积神经网络,首先对局部特征属于聚类的权重采用软分配的方式使得VLAD变为可微的函数,参数可以通过误差逆传播算法反馈学习,再将特征维度增加一维,扩展了时间维特征,在时间和空间上进行特征聚合。在网络中加入VLAD层生成既优于VLAD图像描述子又优于神经网络的原始feature-map层特征向量的描述子,有效减少了神经网络中的参数,降低了计算量。
作为本发明进一步改进,所述步骤(4)中使用一层全连接层和softmax层得到当前输入视频中的动作行为属于数据集中各个类别的概率值:全连接层将权重矩阵与输入特征向量相乘再加上偏置项,将n个(-∞,+∞)的实数映射为m个(-∞,+∞)的实数,softmax将m个(-∞,+∞)的实数映射为m个(0,1)的实数(概率),同时保证它们之和为1。
作为本发明进一步改进,所述步骤(5)中多个尺度时序关系的融合:在softmax分类前,将每个尺度对应的全连接层得到的向量元素相加,最后再使用softmax层进行分类预测。
作为本发明进一步改进,所述步骤(6)中在UCF101和something-something数据集上的训练和测试,训练中使用Adam优化器,优化器中参数ε=10-4。整个训练过程分为两步,首先,初始化并固定VLAD的聚类中心,只训练步骤3中的全连接层和softmax层,学习率设为0.01。第二步,同时微调分类层参数和VLAD层聚类中心,学习率设为10-4。
本申请基于局部特征聚合描述符和时序关系网络的视频行为识别方法,有益效果如下;
本发明使用局部特征聚合(VLAD)层代替部分全连接层进行时空特征的聚合,在保留经典VLAD算法优点的同时又可以利用神经网络可以反馈学习参数的优点,从而生成既优于VLAD图像描述子又优于神经网络的原始feature-map层特征向量的描述子并有效减少了神经网络中的参数,降低了计算量。同时,本发明通过融合不同长度有序视频帧序列的特征来学习不同尺度的时序关系,并通过融合多个尺度的时序关系为最终的预测结果增加可靠性。本发明基于局部特征聚合描述子和多尺度时序关系网络,有效地提高了视频中人体行为分类的准确度,在UCF101以及something-something等公开数据集上的测试结果也验证了本发明的应用价值。
附图说明
图1为本发明部分行为视频尺度为4的采样图片示意图;
图2为本发明所述的基于局部特征聚合描述符和时序关系网络的视频行为识别方法网络结构示意图;
图3为本发明中采用的VLAD聚合方法示意图;
图4为本发明中分类层网络示意图;
图5为本发明在视频行为识别公开数据集UCF101和something-something上测试结果。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
本发明提供基于局部特征聚合描述符和时序关系网络的视频行为识别方法,在网络结构中加入局部特征聚合(VLAD)层将卷积层提取的特征映射进行融合来学习时序关系,并通过融合多尺度的时序关系来判别视频中人体动作的类别。
技术方案:基于局部特征聚合描述符和时序关系网络的视频行为识别方法流程如附录图1所示,网络结构如附录图2所示,包括如下步骤:
1)视频采样获得多尺度图片序列:
步骤1.1:给定视频V,将视频均匀分为N段,从每段中分别随机采样得到N帧图像序列,得到的长度为N的图像序列被用于学习N帧之间(即尺度为N)的时序关系TN{V};
步骤1.2:从步骤1.1采样得到的N帧图像序列中下采样得到k个不同长度的图像序列,用于学习不同尺度的帧间时序关系;
2)将不同尺度的图片序列输入到对应的时序关系网络,使用卷积神经网络提取图片特征,具体实现为:以尺度为d的时序关系推理网络为例,将d帧图片分别输入卷积神经网络中,每帧图片得到96个大小为28×28的特征映射图,此处卷积神经网络使用的是BN-Inception网络中的一部分。
3)将步骤2中得到的d个图片的96个特征映射输入到VLAD层,将特征融合,具体融合方法如下:
对于单帧图像的特征融合,给定N个D维图像描述子xi作为输入,K个聚类中心ck作为VLAD的参数,VLAD的输出是一个K×D维的图像描述向量,该矩阵被转换为向量表示,并进行归一化,计算公式如下:
其中,xi(j)和ck(j)是第i个局部描述子和第k个聚类中心的第j个特征值,ak(xi)为第i个局部特征属于第k个聚类的权重,ak(xi)是一个不连续的值,取值为1或0,并且满足直观上看,V表征着所有局部特征在每一个聚类簇上的残差和。
而如果要把VLAD加入到卷积神经网络中,那么VLAD必须写成可微的函数,于是采用对ak(xi)做软分配的方式得到近似的结果,公式如下:
这个权重的分配可以把它当作一个模糊聚类的分配方式,根据每个局部特征到聚类中心的距离来生成一个概率函数权重。对于一个局部特征描述xi在每个聚类簇下的权重的范围在0~1之间,权重最高的可以理解为该特征离聚类簇中心的聚类最近,权重低说明其离簇中心较远。可以注意到,当α→+∞时,这个式子就表示着原始的VLAD结构。进一步地,可以将上式的平方展开,得到最终的VLAD特征向量为:
其中,wk=2αck,bk=-α||ck||2。
为了融合d帧图像的卷积特征图,需要将特征维度增加一维,在时间和空间上进行特征聚合,对上式做出如下改进:
其中,T=d,N=96,ck参数均可以通过训练来学习得到,更加灵活地聚合时空特征。
4)由步骤3中的聚合特征计算得到尺度为d的时序关系网络对于当前输入视频中的动作行为属于数据集中各个类别的概率值,计算方法为使用全连接层对特征做加权和,将学到的分布式特征表示映射到样本标记空间,最后通过softmax层进行类别预测,将预测结果映射到(0,1)之间。网络结构示意图如附图4所示,全连接层将权重矩阵与输入特征向量相乘再加上偏置项,将n个(-∞,+∞)的实数映射为m个(-∞,+∞)的实数;softmax将m个(-∞,+∞)的实数映射为m个(0,1)的实数(概率),同时保证它们之和为1。具体如下:
其中,x为全连接层的输入,Wn×m为权重因子,b为偏置项,为softmax输出的概率,softmax的计算方式如下:
5)通过步骤2、3、4,不同尺度的的时序关系Td{V}可以被学习得到,通过以下方式融合多个尺度的时序关系:
MTN(V)=T2(V)+T3(V)+…+TN(V)
通过简单的相加融合得到最终的分类结果,具体实现方式为:将每个尺度对应的全连接层得到的向量元素相加,最后再使用softmax层进行分类预测。
6)将基于局部特征聚合描述符和时序关系网络的视频行为识别方法在数据集上进行训练和测试,在UCF101和something-something数据集上的准确率结果如附录图5所示,训练过程中,取聚类数K=64,α=1000.0,由于特征维数过大,在全连接层中更实用dropout=0.5,来避免过拟合。由于VLAD层使用了L2归一化并且为了模型快速收敛,训练中使用Adam优化器,优化器中参数ε=10-4。整个训练过程分为两步,首先,初始化并固定VLAD的聚类中心,只训练步骤3中的全连接层和softmax层,学习率设为0.01。第二步,同时微调分类层参数和VLAD层聚类中心,学习率设为10-4。
下面以公开数据集UCF101和something-something为例,结合附图对本发明基于局部特征聚合描述符和时序关系网络的视频行为识别方法的具体实施方式作进一步详细说明。
步骤1:视频采样获得多尺度图片序列:
步骤1.1:给定视频V,将视频均匀分为8段,从每段中分别随机采样一帧,得到的长度为8的图像序列;
步骤1.2:从步骤1.1采样得到的8帧图像序列中下采样得到长度为2,3,…,7的图像序列,用于学习不同尺度的帧间时序关系;
步骤2:将不同尺度的图片序列输入到对应的时序关系网络,使用卷积神经网络提取图片特征,具体实现为:以尺度为d的时序关系推理网络为例,将d帧图片分别输入卷积神经网络中,每帧图片得到96个大小为28×28的特征映射图,此处卷积神经网络使用的是BN-Inception网络中的一部分。
步骤3:将步骤2中得到的d个图片的96个特征映射输入到VLAD层,将特征融合,具体VLAD融合方法如下:
对于单帧图像的特征融合,给定N个D维图像描述子xi作为输入,K个聚类中心ck作为VLAD的参数,VLAD的输出是一个K×D维的图像描述向量,该矩阵被转换为向量表示,并进行归一化,计算公式如下:
其中,xi(j)和ck(j)是第i个局部描述子和第k个聚类中心的第j个特征值,ak(xi)为第i个局部特征属于第k个聚类的权重,ak(xi)是一个不连续的值,取值为1或0,并且满足直观上看,V表征着所有局部特征在每一个聚类簇上的残差和。
而如果要把VLAD加入到卷积神经网络中,那么VLAD必须写成可微的函数,于是采用对ak(xi)做软分配的方式得到近似的结果,公式如下:
这个权重的分配可以把它当作一个模糊聚类的分配方式,根据每个局部特征到聚类中心的距离来生成一个概率函数权重。对于一个局部特征描述xi在每个聚类簇下的权重的范围在0~1之间,权重最高的可以理解为该特征离聚类簇中心的聚类最近,权重低说明其离簇中心较远。可以注意到,当α→+∞时,这个式子就表示着原始的VLAD结构。
而为了融合d帧图像的卷积特征图,需要将特征维度增加一维,在时间和空间上进行特征聚合,所以得到最终融合时空特征的VLAD向量为:
步骤4:由步骤3中的聚合特征计算得到尺度为d的时序关系网络对于当前输入视频中的动作行为属于数据集中各个类别的概率值,计算方法为使用全连接层对特征做加权和,将学到的分布式特征表示映射到样本标记空间,最后通过softmax层进行类别预测,将预测结果映射到(0,1)之间。
步骤5:通过步骤2、3、4,不同尺度的的时序关系Td{V}可以被学习得到,通过以下方式融合多个尺度的时序关系:
MTN(V)=T2(V)+T3(V)+…+TN(V)
具体实现方式为:将每个尺度对应的全连接层得到的向量元素相加,最后再使用softmax层进行分类预测。
步骤6:将基于局部特征聚合描述符和时序关系网络的视频行为识别方法在数据集上进行训练和测试,训练过程中,取聚类数K=64,α=1000.0,由于特征维数过大,在全连接层中使用dropout=0.5,来避免过拟合。由于VLAD层使用了L2归一化并且为了模型快速收敛,训练中使用Adam优化器,优化器中参数ε=10-4。整个训练过程分为两步,首先,初始化并固定VLAD的聚类中心,只训练步骤3中的全连接层和softmax层,学习率设为0.01。第二步,同时微调分类层参数和VLAD层聚类中心,学习率设为10-4。
本发明所建立模型的实验平台如下:centos 7系统,配置E5处理器,一块NVIDIATesla P100显卡。本发明中模型训练的超参数为:
至此完成了基于局部特征聚合描述符和时序关系网络的视频行为识别方法的训练和推理流程。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。
Claims (7)
1.基于局部特征聚合描述符和时序关系网络的视频行为识别方法,其特征在于:方法包括如下步骤:
(1)视频采样获得多尺度有序视频帧序列;
(2)使用卷积神经网络提取图片特征;
(3)将得到的特征映射输入到VLAD层,将特征融合;
(4)使用分类层得到当前输入视频中的动作行为属于数据集中各个类别的概率值;
(5)融合多个尺度的时序关系;
(6)在UCF101和something-something数据集上进行网络的训练与测试。
2.根据权利要求1所述的基于局部特征聚合描述符和时序关系网络的视频行为识别方法,其特征在于:所述步骤(1)中对视频多尺度采样,对于给定的,视频V,将视频均匀分为N段,从每段中分别随机采样得到N帧图像序列,再从N帧图像序列中下采样得到不同长度的图像序列,不同长度的有序帧序列用于学习不同尺度的时序关系。
3.根据权利要求1所述的基于局部特征聚合描述符和时序关系网络的视频行为识别方法,其特征在于:所述步骤(2)中使用BN-Inception网络中的部分层进行图像特征提取。
4.根据权利要求1所述的基于局部特征聚合描述符和时序关系网络的视频行为识别方法,其特征在于:所述步骤(3)中将传统的VLAD算法引入卷积神经网络,首先对局部特征属于聚类的权重采用软分配的方式使得VLAD变为可微的函数,参数可以通过误差逆传播算法反馈学习,再将特征维度增加一维,扩展了时间维特征,在时间和空间上进行特征聚合。
5.根据权利要求1所述的基于局部特征聚合描述符和时序关系网络的视频行为识别方法,其特征在于:所述步骤(4)中使用一层全连接层和softmax层得到当前输入视频中的动作行为属于数据集中各个类别的概率值:全连接层将权重矩阵与输入特征向量相乘再加上偏置项,将n个(-∞,+∞)的实数映射为m个(-∞,+∞)的实数,softmax将m个(-∞,+∞)的实数映射为m个(0,1)的实数(概率),同时保证它们之和为1。
6.根据权利要求1所述的基于局部特征聚合描述符和时序关系网络的视频行为识别方法,其特征在于:所述步骤(5)中多个尺度时序关系的融合:在softmax分类前,将每个尺度对应的全连接层得到的向量元素相加,最后再使用softmax层进行分类预测。
7.根据权利要求1所述的基于局部特征聚合描述符和时序关系网络的视频行为识别方法,其特征在于:所述步骤(6)中在UCF101和something-something数据集上的训练和测试,训练中使用Adam优化器,优化器中参数ε=10-4。整个训练过程分为两步,首先,初始化并固定VLAD的聚类中心,只训练全连接层和softmax层,学习率设为0.01。第二步,同时微调分类层参数和VLAD层聚类中心,学习率设为10-4。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910357466.XA CN110097000A (zh) | 2019-04-29 | 2019-04-29 | 基于局部特征聚合描述符和时序关系网络的视频行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910357466.XA CN110097000A (zh) | 2019-04-29 | 2019-04-29 | 基于局部特征聚合描述符和时序关系网络的视频行为识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110097000A true CN110097000A (zh) | 2019-08-06 |
Family
ID=67446413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910357466.XA Pending CN110097000A (zh) | 2019-04-29 | 2019-04-29 | 基于局部特征聚合描述符和时序关系网络的视频行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110097000A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569814A (zh) * | 2019-09-12 | 2019-12-13 | 广州酷狗计算机科技有限公司 | 视频类别识别方法、装置、计算机设备及计算机存储介质 |
CN110765854A (zh) * | 2019-09-12 | 2020-02-07 | 昆明理工大学 | 一种视频动作识别方法 |
CN111491180A (zh) * | 2020-06-24 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 关键帧的确定方法和装置 |
CN111583320A (zh) * | 2020-03-17 | 2020-08-25 | 哈尔滨医科大学 | 融合深度卷积网络和影像组学特征的乳腺癌超声图分型方法、系统及存储介质 |
CN111626251A (zh) * | 2020-06-02 | 2020-09-04 | Oppo广东移动通信有限公司 | 一种视频分类方法、视频分类装置及电子设备 |
CN111860432A (zh) * | 2020-07-30 | 2020-10-30 | 中国海洋大学 | 用于视频时空表征学习的三元关系协作模块及建模方法 |
CN111860148A (zh) * | 2020-06-11 | 2020-10-30 | 南京邮电大学 | 一种基于时序移位的自纠错人类行为识别方法 |
CN111898461A (zh) * | 2020-07-08 | 2020-11-06 | 贵州大学 | 一种时序行为片段生成方法 |
CN112052795A (zh) * | 2020-09-07 | 2020-12-08 | 北京理工大学 | 一种基于多尺度时空特征聚合的视频行为识别方法 |
CN112070044A (zh) * | 2020-09-15 | 2020-12-11 | 北京深睿博联科技有限责任公司 | 一种视频物体分类方法及装置 |
CN112084319A (zh) * | 2020-09-29 | 2020-12-15 | 四川省人工智能研究院(宜宾) | 一种基于动作的关系网络视频问答系统及方法 |
CN112580577A (zh) * | 2020-12-28 | 2021-03-30 | 出门问问(苏州)信息科技有限公司 | 一种基于面部关键点生成说话人图像的训练方法及装置 |
CN113139496A (zh) * | 2021-05-08 | 2021-07-20 | 青岛根尖智能科技有限公司 | 一种基于时序多尺度融合的行人重识别方法及系统 |
CN113222916A (zh) * | 2021-04-28 | 2021-08-06 | 北京百度网讯科技有限公司 | 采用目标检测模型检测图像的方法、装置、设备和介质 |
CN113239159A (zh) * | 2021-04-26 | 2021-08-10 | 成都考拉悠然科技有限公司 | 基于关系推理网络的视频和文本的跨模态检索方法 |
CN113408412A (zh) * | 2021-06-18 | 2021-09-17 | 北京工业大学 | 网络直播主播的行为识别方法、系统、设备及存储介质 |
CN113517046A (zh) * | 2021-04-15 | 2021-10-19 | 中南大学 | 一种电子病历中异构数据特征融合方法及基于融合特征的预测方法、系统及可读存储介质 |
CN113989541A (zh) * | 2021-09-23 | 2022-01-28 | 神思电子技术股份有限公司 | 一种基于特征聚合的着装分类方法及系统 |
CN117241443A (zh) * | 2023-09-15 | 2023-12-15 | 中山市松伟照明电器有限公司 | 基于物联网的智能照明灯具及其智能控制方法 |
CN117241443B (zh) * | 2023-09-15 | 2024-06-04 | 中山市松伟照明电器有限公司 | 基于物联网的智能照明灯具及其智能控制方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845329A (zh) * | 2016-11-11 | 2017-06-13 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于深度卷积特征多通道金字塔池化的动作识别方法 |
US20180053057A1 (en) * | 2016-08-18 | 2018-02-22 | Xerox Corporation | System and method for video classification using a hybrid unsupervised and supervised multi-layer architecture |
CN109446923A (zh) * | 2018-10-10 | 2019-03-08 | 北京理工大学 | 基于训练特征融合的深度监督卷积神经网络行为识别方法 |
-
2019
- 2019-04-29 CN CN201910357466.XA patent/CN110097000A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180053057A1 (en) * | 2016-08-18 | 2018-02-22 | Xerox Corporation | System and method for video classification using a hybrid unsupervised and supervised multi-layer architecture |
CN106845329A (zh) * | 2016-11-11 | 2017-06-13 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于深度卷积特征多通道金字塔池化的动作识别方法 |
CN109446923A (zh) * | 2018-10-10 | 2019-03-08 | 北京理工大学 | 基于训练特征融合的深度监督卷积神经网络行为识别方法 |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110765854A (zh) * | 2019-09-12 | 2020-02-07 | 昆明理工大学 | 一种视频动作识别方法 |
CN110765854B (zh) * | 2019-09-12 | 2022-12-02 | 昆明理工大学 | 一种视频动作识别方法 |
CN110569814A (zh) * | 2019-09-12 | 2019-12-13 | 广州酷狗计算机科技有限公司 | 视频类别识别方法、装置、计算机设备及计算机存储介质 |
CN110569814B (zh) * | 2019-09-12 | 2023-10-13 | 广州酷狗计算机科技有限公司 | 视频类别识别方法、装置、计算机设备及计算机存储介质 |
CN111583320A (zh) * | 2020-03-17 | 2020-08-25 | 哈尔滨医科大学 | 融合深度卷积网络和影像组学特征的乳腺癌超声图分型方法、系统及存储介质 |
CN111626251A (zh) * | 2020-06-02 | 2020-09-04 | Oppo广东移动通信有限公司 | 一种视频分类方法、视频分类装置及电子设备 |
CN111860148B (zh) * | 2020-06-11 | 2022-08-26 | 南京邮电大学 | 一种基于时序移位的自纠错人类行为识别方法 |
CN111860148A (zh) * | 2020-06-11 | 2020-10-30 | 南京邮电大学 | 一种基于时序移位的自纠错人类行为识别方法 |
CN111491180A (zh) * | 2020-06-24 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 关键帧的确定方法和装置 |
CN111898461B (zh) * | 2020-07-08 | 2022-08-30 | 贵州大学 | 一种时序行为片段生成方法 |
CN111898461A (zh) * | 2020-07-08 | 2020-11-06 | 贵州大学 | 一种时序行为片段生成方法 |
CN111860432B (zh) * | 2020-07-30 | 2023-11-24 | 中国海洋大学 | 用于视频时空表征学习的三元关系协作模块及建模方法 |
CN111860432A (zh) * | 2020-07-30 | 2020-10-30 | 中国海洋大学 | 用于视频时空表征学习的三元关系协作模块及建模方法 |
CN112052795A (zh) * | 2020-09-07 | 2020-12-08 | 北京理工大学 | 一种基于多尺度时空特征聚合的视频行为识别方法 |
CN112070044B (zh) * | 2020-09-15 | 2021-05-11 | 北京深睿博联科技有限责任公司 | 一种视频物体分类方法及装置 |
CN112070044A (zh) * | 2020-09-15 | 2020-12-11 | 北京深睿博联科技有限责任公司 | 一种视频物体分类方法及装置 |
CN112084319B (zh) * | 2020-09-29 | 2021-03-16 | 四川省人工智能研究院(宜宾) | 一种基于动作的关系网络视频问答系统及方法 |
CN112084319A (zh) * | 2020-09-29 | 2020-12-15 | 四川省人工智能研究院(宜宾) | 一种基于动作的关系网络视频问答系统及方法 |
CN112580577B (zh) * | 2020-12-28 | 2023-06-30 | 出门问问(苏州)信息科技有限公司 | 一种基于面部关键点生成说话人图像的训练方法及装置 |
CN112580577A (zh) * | 2020-12-28 | 2021-03-30 | 出门问问(苏州)信息科技有限公司 | 一种基于面部关键点生成说话人图像的训练方法及装置 |
CN113517046B (zh) * | 2021-04-15 | 2023-11-07 | 中南大学 | 一种电子病历中异构数据特征融合方法及基于融合特征的预测方法、系统及可读存储介质 |
CN113517046A (zh) * | 2021-04-15 | 2021-10-19 | 中南大学 | 一种电子病历中异构数据特征融合方法及基于融合特征的预测方法、系统及可读存储介质 |
CN113239159A (zh) * | 2021-04-26 | 2021-08-10 | 成都考拉悠然科技有限公司 | 基于关系推理网络的视频和文本的跨模态检索方法 |
CN113239159B (zh) * | 2021-04-26 | 2023-06-20 | 成都考拉悠然科技有限公司 | 基于关系推理网络的视频和文本的跨模态检索方法 |
CN113222916A (zh) * | 2021-04-28 | 2021-08-06 | 北京百度网讯科技有限公司 | 采用目标检测模型检测图像的方法、装置、设备和介质 |
CN113222916B (zh) * | 2021-04-28 | 2023-08-18 | 北京百度网讯科技有限公司 | 采用目标检测模型检测图像的方法、装置、设备和介质 |
CN113139496A (zh) * | 2021-05-08 | 2021-07-20 | 青岛根尖智能科技有限公司 | 一种基于时序多尺度融合的行人重识别方法及系统 |
CN113408412A (zh) * | 2021-06-18 | 2021-09-17 | 北京工业大学 | 网络直播主播的行为识别方法、系统、设备及存储介质 |
CN113408412B (zh) * | 2021-06-18 | 2024-05-24 | 北京工业大学 | 网络直播主播的行为识别方法、系统、设备及存储介质 |
CN113989541A (zh) * | 2021-09-23 | 2022-01-28 | 神思电子技术股份有限公司 | 一种基于特征聚合的着装分类方法及系统 |
CN117241443A (zh) * | 2023-09-15 | 2023-12-15 | 中山市松伟照明电器有限公司 | 基于物联网的智能照明灯具及其智能控制方法 |
CN117241443B (zh) * | 2023-09-15 | 2024-06-04 | 中山市松伟照明电器有限公司 | 基于物联网的智能照明灯具及其智能控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110097000A (zh) | 基于局部特征聚合描述符和时序关系网络的视频行为识别方法 | |
Xiang et al. | MS-CapsNet: A novel multi-scale capsule network | |
CN111639544B (zh) | 基于多分支跨连接卷积神经网络的表情识别方法 | |
CN110188653A (zh) | 基于局部特征聚合编码和长短期记忆网络的行为识别方法 | |
US11429809B2 (en) | Image processing method, image processing device, and storage medium | |
CN108960059A (zh) | 一种视频动作识别方法及装置 | |
Zhang et al. | Unsupervised difference representation learning for detecting multiple types of changes in multitemporal remote sensing images | |
CN106919920A (zh) | 基于卷积特征和空间视觉词袋模型的场景识别方法 | |
Zhang et al. | Semantic classification of high-resolution remote-sensing images based on mid-level features | |
CN106909938B (zh) | 基于深度学习网络的视角无关性行为识别方法 | |
CN108459785A (zh) | 一种视频多尺度可视化方法与交互方法 | |
Cascianelli et al. | Full-GRU natural language video description for service robotics applications | |
Luo et al. | Semi-supervised feature selection via insensitive sparse regression with application to video semantic recognition | |
Chong et al. | Style transfer for unsupervised domain-adaptive person re-identification | |
Yin et al. | Deep convolutional generative adversarial network and convolutional neural network for smoke detection | |
Wang et al. | S 3 d: scalable pedestrian detection via score scale surface discrimination | |
KR20210095671A (ko) | 이미지 처리 방법 및 관련 장치 | |
Zhang et al. | Class relatedness oriented-discriminative dictionary learning for multiclass image classification | |
CN112733764A (zh) | 一种基于多模态识别视频情感信息的方法 | |
Wang et al. | Basketball shooting angle calculation and analysis by deeply-learned vision model | |
Song et al. | Occluded offline handwritten Chinese character inpainting via generative adversarial network and self-attention mechanism | |
Singh et al. | A deep learning approach for human face sentiment classification | |
Fan et al. | [Retracted] Accurate Recognition and Simulation of 3D Visual Image of Aerobics Movement | |
Huang et al. | Aerial image classification by learning quality-aware spatial pyramid model | |
CN110363164A (zh) | 一种基于lstm时间一致性视频分析的统一方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190806 |
|
RJ01 | Rejection of invention patent application after publication |