CN107330362B - 一种基于时空注意力的视频分类方法 - Google Patents

一种基于时空注意力的视频分类方法 Download PDF

Info

Publication number
CN107330362B
CN107330362B CN201710379817.8A CN201710379817A CN107330362B CN 107330362 B CN107330362 B CN 107330362B CN 201710379817 A CN201710379817 A CN 201710379817A CN 107330362 B CN107330362 B CN 107330362B
Authority
CN
China
Prior art keywords
video
attention
network
time
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710379817.8A
Other languages
English (en)
Other versions
CN107330362A (zh
Inventor
彭宇新
张俊超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201710379817.8A priority Critical patent/CN107330362B/zh
Publication of CN107330362A publication Critical patent/CN107330362A/zh
Application granted granted Critical
Publication of CN107330362B publication Critical patent/CN107330362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Abstract

本发明涉及一种基于时空注意力的视频分类方法,包括以下步骤:对训练视频和待预测视频提取帧和光流,将若干光流堆叠为多通道的图像;搭建时空注意力模型,包括空域注意力网络、时域注意力网络和连接网络;联合训练时空注意力模型中的三个组成部分,使空域、时域注意力的效果同时提升,得到能够准确建模空域、时域显著性并适用于视频分类的时空注意力模型;利用学习得到的时空注意力模型对待预测视频的帧和光流提取空域、时域显著性并进行预测,融合帧和光流的预测得分得到待预测视频的最终语义类别。本发明能够同时建模空域、时域注意力,并通过联合训练充分利用二者的协作性能,学习得到更准确的空域、时域显著性,从而提高了视频分类的准确率。

Description

一种基于时空注意力的视频分类方法
技术领域
本发明涉及视频分类技术领域,具体涉及一种基于时空注意力的视频分类方法。
背景技术
随着社交媒体、自媒体的广泛普及和迅速发展,互联网上的视频数量呈现急剧增长的态势。调查研究表明,2016年每分钟上传到YouTube网站的视频时长超过300小时。美国CISCO公司2016年的视频流量统计和预测报告进一步指出,2020年全球视频流量将占据互联网流量的82%,届时一个用户需要花费五百万年的时间才能看完互联网上一个月内所传输的视频。视频等媒体数据已经成为大数据的主体,如何对视频内容进行准确分析和识别,对于满足用户的信息获取需求意义重大。
视频分类是对视频内容进行分析理解以识别其语义类别的技术,在互联网视频监测、人机交互等方面具有广阔的应用前景,长期以来受到学术界和工业界的广泛关注。传统视频分类方法一般采用手工特征表示视频内容,比如首先利用尺度不变特征变换(scale-invariant feature transform,SIFT)描述子、光流直方图(histogram of orientedoptical flow,HOF)表示视频的静态信息和运动信息,再使用词袋(bag of words,BoW)模型进行特征编码,最终用支持向量机(support vector machine,SVM)等分类器预测视频类别。为了优化特征表示,一些方法采用费雪向量(Fisher vector)和局部特征聚合描述符(vector of locally aggregated descriptors,VLAD)等更高效的特征编码方式。此类方法的典型代表是Wang等人2013年发表于ICCV会议的文献“Action Recognition withImproved Trajectories”中提出的IDT(improved dense trajectories)算法,该算法在多个空间尺度上对视频帧密集采样特征点,然后跟踪特征点并提取轨迹、HOF等四种特征,同时通过估计相机运动消除背景上的干扰轨迹和光流,之后采用费雪向量对四种特征进行特征编码得到高效的IDT特征。IDT算法在传统视频分类方法中取得了较好的效果,并具有很好的鲁棒性。然而手工特征难以充分表达视频内容的高层语义信息,在大规模视频数据和大量语义类别条件下的视频分类中表现出一定的局限性。
相比于手工特征,深度网络具备强大的特征学习能力,其学习出的深度特征能够更好地表达视觉对象的高层语义信息。随着深度学习技术在图像分类、目标识别以及语音识别等领域取得的突破性进展,近年来,研究人员也将深度学习技术应用于视频分类研究中,用深度网络学习视频中的静态特征和运动特征并进行分类。这类方法的经典代表是2014年Simonyan等人在发表于NIPS会议的文献“Two-Stream Convolutional Networksfor Action Recognition in Videos”中提出的方法,用两个卷积神经网络(convolutional neural network,CNN)分别从视频帧和光流中建模视频内容的静态信息和运动信息,并融合两路信息进行视频分类。该方法取得了令人鼓舞的视频分类结果,启发了一系列应用深度网络进行两路或多路视频特征学习的方法。然而视频帧内的不同区域以及视频序列中不同的帧对于语义内容表达的贡献各不相同。如视频帧通常可以分为显著区域和非显著区域(空域显著性),其中显著区域包含更多有语义区分性的信息,对视频语义内容表达的贡献较大,非显著性区域则包含较少的有用信息,对视频语义内容表达的贡献较小,甚至起到混淆作用;视频序列中每一帧对视频语义内容表达的重要性也各有不同(即时域显著性)。基于深度网络的视频分类方法通常不加区别地对待视频序列中的每一帧和帧内的每一个像素,这限制了特征学习的有效性。为了解决这个问题,研究人员将人类的视觉注意力机制引入深度视频分类方法中,以学习视频中的显著性信息。如Sharma等人于2016年发表在ICLR会议上的文献“Action Recognition using Visual Attention”中提出的方法利用软注意力模型选择视频帧中与视频分类任务有高度相关性的区域,并对其赋予较大的权重。该方法用卷积神经网络提取视频帧区域块的特征,用循环神经网络(recurrent neural network,RNN)选择具有显著区分性的区域块,提高了视频分类的效果。然而,现有深度视频分类方法不能同时建模视频中的空域显著性和时域显著性,忽略了这两种显著性之间的联系,因此不能充分利用两种显著性学习更有效的视频特征,限制了视频分类的效果。
发明内容
针对现有技术的不足,本发明提出了一种基于时空注意力的视频分类方法,一方面能够利用空域注意力学习空域显著性,强调视频帧内对于分类起到决定性作用的区域,另一方面能够利用时域注意力学习时域显著性,强调视频序列中对于分类起到决定性作用的帧。本发明联合学习空域、时域注意力并使其相互提升,能够提高空域和时域显著性的准确性,提高了视频分类的效果。
为达到以上目的,本发明采用的技术方案如下:
一种基于时空注意力的视频分类方法,用于分析理解视频内容并识别视频的类别,包括以下步骤:
(1)数据预处理:对训练视频和待预测视频提取帧和光流,将连续若干光流的水平分量和垂直分量交替堆叠为多通道的图像;
(2)时空注意力模型构建与训练:用深度网络构建时空注意力模型,并对其三个组成部分(连接网络和空域、时域注意力网络)进行联合训练,用步骤(1)中训练视频的帧和光流分别学习能够用于视频分类的时空注意力模型;
(3)视频分类:利用步骤(2)中训练得到的时空注意力模型对待预测视频的帧和光流计算语义类别的预测得分,融合其预测得分得到待预测视频最终的语义类别。
进一步,上述一种基于时空注意力的视频分类方法,所述步骤(1)中,提取训练视频和待预测视频的帧和光流,并将光流的水平、垂直方向上的分量交替堆叠,以作为时空注意力模型的输入。
进一步,上述一种基于时空注意力的视频分类方法,所述步骤(2)中,首先用深度网络构建时空注意力模型。时空注意力模型包含以下组成部分:连接网络、空域注意力网络和时域注意力网络。连接网络和空域注意力网络都是由卷积神经网络(convolutionalneural network,CNN)构成。连接网络包括若干卷积层、池化层和全连接层,最后一个池化层设计为加权池化(weighted pooling)层,用于连接空域注意力网络;空域注意力网络则包括若干卷积层、池化层和一个全连接层,其中最后一个池化层为全局平均池化(globalaverage pooling,GAP)层;时域注意力网络由基于长短时记忆(long short term memory,LSTM)单元的循环神经网络(recurrent neural network,RNN)构成,包含若干LSTM层和全连接层。连接网络通过加权池化层和全连接层将空域注意力网络和时域注意力网络连接在一起以联合训练,时域注意力和空域注意力网络分别得到对视频分类起到决定性作用的视频帧和帧内区域。
进一步,上述一种基于时空注意力的视频分类方法,所述步骤(2)中,通过联合训练连接网络、空域注意力网络和时域注意力网络,能够使得三个网络相互提升,提取更准确的空域显著性和时域显著性,提高了视频分类效果。
进一步,上述一种基于时空注意力的视频分类方法,所述步骤(2)中,用步骤(1)中训练视频的帧和光流分别训练时空注意力模型,得到两个用于视频分类的时空注意力模型。
进一步,上述一种基于时空注意力的视频分类方法,所述步骤(3)中,将待预测视频的帧和光流作为步骤(2)中训练得到的时空注意力模型的输入,根据深度网络输出计算得到帧和光流的语义类别预测得分并将二者融合,判断待预测视频最终的语义类别。
本发明的效果在于:与现有方法相比,本发明能够同时建模空域、时域注意力,并通过联合训练使得空域、时域注意力相互提升,使得学习到的视频空域、时域显著性信息更加准确,从而提升视频分类的效果。
本发明之所以具有上述发明效果,其原因在于:一方面设计了一个时空注意力模型,能够同时建模空域注意力和时域注意力,既通过空域注意力强调视频帧内对于分类起到决定性作用的区域,又通过时域注意力强调视频序列中对于分类起到决定性作用的帧。另一方面,本方法在训练过程中对空域注意力和时域注意力进行联合学习,充分利用空域、时域注意力的协作性能,共同促进两者的学习效果,提高了视频分类的准确率。
附图说明
图1是本发明的基于时空注意力的视频分类方法的流程图。
图2是本发明的时空注意力模型的网络结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细的描述。
本发明的一种基于时空注意力的视频分类方法,其流程如图1所示,具体包含以下步骤:
(1)数据预处理
数据预处理是对训练视频和待预测视频提取帧和光流,光流是从视频的连续两帧中产生的运动向量,可以分解为水平和垂直两个方向的分量。为了方便深度网络处理光流中的运动信息,本实施例将连续L个光流的水平和垂直分量交替堆叠,得到具有2L个通道(channel)的图像。
(2)时空注意力模型构建与训练
时空注意力模型是一个深度神经网络,其输入是步骤(1)中所得到的帧或光流,输出是语义类别预测得分。本发明所提出的时空注意力模型结构示意图如图2所示,包括三个组成部分:连接网络、空域注意力网络和时域注意力网络。连接网络由CNN构成,其作用是将空域、时域注意力网络连接在一起,并输出特征和预测得分。为了连接两个注意力网络,一方面本发明设计了加权池化层以连接空域注意力网络,使得连接网络可以接受空域注意力网络的指导,输出带有空域显著性的特征和预测得分,另一方面,连接网络的特征输出层(倒数第二个全连接层)连接到时域注意力网络,为时域注意力网络提供输入。空域注意力网络也是由CNN构成,其作用是学习帧内区域的空域显著性,并通过加权池化层指导连接网络的训练。空域注意力网络的卷积层部分和连接网络的卷积层部分共享权值,在卷积层之后连接全局平均池化层和一个用于分类的全连接层。
根据空域注意力网络,对于最后一个卷积层上第k个卷积单元,定义全局平均池化层的输出为:
Ak=∑x,yak(x,y) (1)
其中ak(x,y)表示最后一个卷积层上第k个卷积单元在空间位置(x,y)的卷积激活。对于视频类别c,定义全连接层的输出为:
Figure BDA0001304923350000051
其中
Figure BDA0001304923350000052
表示第k个卷积单元对于类别c的权值,其表示了Ak对于类别c的重要程度。根据公式(1)和公式(2),可以得到:
Figure BDA0001304923350000053
由此,定义空域显著性如下:
Figure BDA0001304923350000054
其中mc(x,y)表示空间位置(x,y)的显著性,表示了空间位置(x,y)的卷积激活对于类别c的重要性。对mc(x,y)进行归一化可以得到:
Figure BDA0001304923350000055
其中g表示卷积单元对应的帧内区域的像素个数。上式得到的空域显著性作用于加权池化层,首先将空域显著性乘以连接网络对应位置的卷积激活,之后进行池化操作,以此将空域显著性传递给连接网络。
时域注意力网络由LSTM层和一个用于分类的全连接层构成,其作用是学习视频序列的时域显著性。时域注意力网络将连接网络的输出特征作为输入,通过LSTM层的隐状态计算得到时域显著性,判断视频序列中每一帧的重要性。对于视频序列[x1,x2,…,xT](x1,x2,…,xT表示视频序列中的各帧),将LSTM层对应的隐状态序列堆叠为矩阵形式H=h1,h2,…,hT∈Rn×T,n为隐状态的维度,计算其关系矩阵:
C=tanh(HTH) (6)
那么时域显著性可通过以下公式得到:
12,…γT]=1C (7)
其中1表示全1向量,γt表示视频帧(或光流)xt的时域显著性,t=1,2,…,T。
用[α12,…,αT]表示连接网络输出的预测得分,其包含了空域显著性信息,进而应用时域显著性,可以得到视频序列的预测得分:
Figure BDA0001304923350000061
预测得分[β12,…,βT]里包含了空域、时域两方面的显著性信息。
本发明对时空注意力模型的三个组成网络进行联合训练,并以Softmax函数驱动联合训练过程。联合训练即是以端到端的方式同时训练时空注意力模型的三个组成网络,能够使得空域、时域注意力共同促进,充分利用两种注意力的协作性能,学习得到更准确的空域、时域显著性信息。
本发明利用步骤(1)中训练视频所得到的帧和光流分别训练时空注意力模型,用于对待预测视频的帧和光流进行分类预测。
(3)视频分类
对于待预测视频v,由步骤(1)可以得到帧
Figure BDA0001304923350000062
和光流
Figure BDA0001304923350000063
利用上一步训练得到的时空注意力模型可以分别得到帧和光流的语义类别预测得分,进一步融合两者的得分得到待预测视频最终的语义类别,完成对待预测视频的分类。具体地,由公式(8)得到帧和光流的语义类别预测得分,分别记作
Figure BDA0001304923350000064
Figure BDA0001304923350000065
然后对其计算均值或最大值作为待预测视频的语义类别预测得分,公式如下:
Figure BDA0001304923350000066
Figure BDA0001304923350000067
选取r中具有最大预测得分的类别作为待预测视频最终的语义类别。
下面的实验结果表明,与现有方法相比,本发明的基于时空注意力的视频分类方法,可以取得更高的分类准确率。
本实施例采用了HMDB51数据集。该数据集共有6766个视频,包含51个语义类别(如:Fencing,Pick,RideHorse,SwingBaseball等),每个视频与唯一的语义类别对应。该数据集共有三种不同的划分(splits),最终实验结果由三个划分上的实验结果计算平均值得到。该数据集的视频在镜头运动、视角、视频质量等方面各有不同,因此视频分类有较大的挑战性,有助于证明本方法的有效性。
现有方法一:Fernando等人在文献“Modeling Video Evolution for ActionRecognition”中提出的方法。
现有方法二:Feichtenhofer等人在文献“Convolutional Two-Stream NetworkFusion for Video Action Recognition”中提出的方法。
现有方法三:Wang等人在文献“Deep Alternative Neural Network:ExploringContexts as Early as Possible for Action Recognition”中提出的方法。
本发明:本实施例的方法。
实验采用准确率指标来评测视频分类的准确性,准确率是指测试数据中被正确分类的视频数量和待预测数据总数量之间的比值,准确率越高,说明视频分类的结果越好。
从表1可以看出,本发明取得了更好的视频分类结果。现有方法不能同时建模学习视频中的空域、时域注意力,导致其视频分类的结果低于本发明。本发明利用深度网络设计了时空注意力模型,同时考虑到空域注意力和时域注意力二者的协作性能以进行联合训练,因此能够学习更准确的空域、时域显著性,提高了视频分类的准确率。
表1.与现有方法的对比实验结果
方法 准确率
现有方法一 0.637
现有方法二 0.654
现有方法三 0.659
本发明 0.676
本发明中时空注意力模型的三个组成网络均可采用多种深度网络结构,连接网络和空域注意力网络可以由多种卷积神经网络构成,比如AlexNet、GooLeNet和ResNet网络等;时域注意力网络可以由多种循环神经网络构成,其神经单元可以是长短时记忆(LSTM)单元和门限循环单元(gated recurrent unit,GRU)。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种基于时空注意力的视频分类方法,包括以下步骤:
(1)对训练视频和待预测视频提取帧和光流,将连续若干光流的水平分量和垂直分量交替堆叠为多通道的图像;
(2)用深度网络构建时空注意力模型,包含连接网络、空域注意力网络、时域注意力网络三个组成部分;所述连接网络包含若干卷积层、池化层和全连接层,其最后一个池化层为加权池化层;连接网络通过加权池化层和全连接层分别连接空域注意力网络和时域注意力网络;所述空域注意力网络由卷积神经网络构成,用于学习空域显著性;所述时域注意力网络由循环神经网络构成,用于学习时域显著性;
(3)对步骤(2)中时空注意力模型的三个组成网络进行联合训练,利用步骤(1)得到的训练视频的帧和光流分别学习两个能够用于视频分类的时空注意力模型;
(4)利用步骤(3)中训练得到的两个时空注意力模型对待预测视频的帧和光流分别计算语义类别的预测得分,然后融合帧预测得分和光流预测得分,得到待预测视频最终的语义类别。
2.如权利要求1所述的方法,其特征在于,步骤(1)将连续L个光流的水平和垂直分量交替堆叠,得到具有2L个通道的图像。
3.如权利要求1所述的方法,其特征在于,所述空域注意力网络由卷积神经网络构成,包含若干卷积层,池化层和一个用于分类的全连接层;所述空域注意力网络的卷积层部分和所述连接网络共享卷积权值,最后一个池化层为全局平均池化层;所述空域注意力网络通过加权池化层将空域显著性传递给连接网络,以指导连接网络的学习。
4.如权利要求3所述的方法,其特征在于,所述空域显著性以及归一化的空域显著性由下列公式计算得到:
Figure FDA0002492534290000011
Figure FDA0002492534290000012
其中mc(x,y)表示空间位置(x,y)的显著性,ak(x,y)表示空域注意力网络最后一个卷积层上第k个卷积单元在空间位置(x,y)的卷积激活,
Figure FDA0002492534290000014
表示第k个卷积单元对于类别c的权值;
Figure FDA0002492534290000013
表示归一化的空域显著性,g表示卷积层单元对应的帧内区域的像素个数。
5.如权利要求1所述的方法,其特征在于,所述时域注意力网络由基于长短时记忆单元的循环神经网络构成,包含若干长短时记忆层和一个用于分类的全连接层;所述时域注意力网络接收所述连接网络的输出特征作为输入,通过长短时记忆层学习视频中的时域显著性,判断视频序列中每一帧的重要性。
6.如权利要求5所述的方法,其特征在于,所述时域显著性定义为:
12,…γL]=1tanh(HTH),
其中[γ12,…γL]表示视频序列的时域显著性,1表示全1向量,H表示长短时记忆层隐状态的堆叠矩阵,HT表示H的转置矩阵。
7.如权利要求6所述的方法,其特征在于,时空注意力模型根据学习得到的空域、时域显著性计算视频帧或光流的预测得分,预测得分定义为:
Figure FDA0002492534290000021
其中α表示连接网络输出的预测得分,其包含空域显著性;预测得分[β12,…,βL]中同时包含了空域、时域两方面的显著性信息。
8.如权利要求1所述的方法,其特征在于,步骤(4)中视频分类时,利用步骤(3)中训练得到的两个时空注意力模型分别计算待预测视频帧的语义类别预测得分和光流的语义类别预测得分,之后对其计算均值或最大值作为待预测视频的语义类别预测得分,最后选取具有最大预测得分的类别作为待预测视频的语义类别。
CN201710379817.8A 2017-05-25 2017-05-25 一种基于时空注意力的视频分类方法 Active CN107330362B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710379817.8A CN107330362B (zh) 2017-05-25 2017-05-25 一种基于时空注意力的视频分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710379817.8A CN107330362B (zh) 2017-05-25 2017-05-25 一种基于时空注意力的视频分类方法

Publications (2)

Publication Number Publication Date
CN107330362A CN107330362A (zh) 2017-11-07
CN107330362B true CN107330362B (zh) 2020-10-09

Family

ID=60193725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710379817.8A Active CN107330362B (zh) 2017-05-25 2017-05-25 一种基于时空注意力的视频分类方法

Country Status (1)

Country Link
CN (1) CN107330362B (zh)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918963A (zh) * 2017-11-16 2018-04-17 百度在线网络技术(北京)有限公司 用于车辆的信息生成方法和装置
CN107944915B (zh) * 2017-11-21 2022-01-18 北京字节跳动网络技术有限公司 一种游戏用户行为分析方法及计算机可读存储介质
CN108304856B (zh) * 2017-12-13 2020-02-28 中国科学院自动化研究所 基于皮层丘脑计算模型的图像分类方法
CN108399435B (zh) * 2018-03-21 2020-09-25 南京邮电大学 一种基于动静特征的视频分类方法
CN108446645B (zh) * 2018-03-26 2021-12-31 天津大学 基于深度学习的车载人脸识别方法
CN108492273A (zh) * 2018-03-28 2018-09-04 深圳市唯特视科技有限公司 一种基于自注意力模型的图像生成方法
CN108334910B (zh) * 2018-03-30 2020-11-03 国信优易数据股份有限公司 一种事件检测模型训练方法以及事件检测方法
CN108764050B (zh) * 2018-04-28 2021-02-26 中国科学院自动化研究所 基于角度无关性的骨架行为识别方法、系统及设备
CN108600701B (zh) * 2018-05-02 2020-11-24 广州飞宇智能科技有限公司 一种基于深度学习判断视频行为的监控系统和方法
CN108764084B (zh) * 2018-05-17 2021-07-27 西安电子科技大学 基于空域分类网络和时域分类网络融合的视频分类方法
CN110147700B (zh) * 2018-05-18 2023-06-27 腾讯科技(深圳)有限公司 视频分类方法、装置、存储介质以及设备
CN110533053B (zh) * 2018-05-23 2022-12-06 杭州海康威视数字技术股份有限公司 一种事件检测方法、装置及电子设备
CN108846332B (zh) * 2018-05-30 2022-04-29 西南交通大学 一种基于clsta的铁路司机行为识别方法
CN108875807B (zh) * 2018-05-31 2022-05-27 陕西师范大学 一种基于多注意力多尺度的图像描述方法
CN108921087A (zh) * 2018-06-29 2018-11-30 国家计算机网络与信息安全管理中心 视频理解方法
CN109101896B (zh) * 2018-07-19 2022-03-25 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN109063911B (zh) * 2018-08-03 2021-07-23 天津相和电气科技有限公司 一种基于门控循环单元网络的负荷聚合体分组预测方法
CN109271854B (zh) * 2018-08-07 2021-02-02 北京市商汤科技开发有限公司 基于视频处理方法及装置、视频设备及存储介质
CN109508642B (zh) * 2018-10-17 2021-08-17 杭州电子科技大学 基于双向gru和注意力机制的船舶监控视频关键帧提取方法
CN109257622A (zh) * 2018-11-01 2019-01-22 广州市百果园信息技术有限公司 一种音视频处理方法、装置、设备及介质
CN109508677B (zh) * 2018-11-15 2021-07-13 电子科技大学 一种基于改进的cnn网络空中手写动作识别方法
CN109547803B (zh) * 2018-11-21 2020-06-09 北京航空航天大学 一种时空域显著性检测及融合方法
CN109522450B (zh) 2018-11-29 2023-04-07 腾讯科技(深圳)有限公司 一种视频分类的方法以及服务器
CN109685115B (zh) * 2018-11-30 2022-10-14 西北大学 一种双线性特征融合的细粒度概念模型及学习方法
CN109711277B (zh) * 2018-12-07 2020-10-27 中国科学院自动化研究所 基于时空频域混合学习的行为特征提取方法、系统、装置
CN109376804B (zh) * 2018-12-19 2020-10-30 中国地质大学(武汉) 基于注意力机制和卷积神经网络高光谱遥感图像分类方法
CN109753897B (zh) * 2018-12-21 2022-05-27 西北工业大学 基于记忆单元强化-时序动态学习的行为识别方法
CN109740670B (zh) * 2019-01-02 2022-01-11 京东方科技集团股份有限公司 视频分类的方法及装置
CN109726765A (zh) * 2019-01-02 2019-05-07 京东方科技集团股份有限公司 一种视频分类问题的样本提取方法及装置
CN110032926B (zh) * 2019-02-22 2021-05-11 哈尔滨工业大学(深圳) 一种基于深度学习的视频分类方法以及设备
CN109919110B (zh) * 2019-03-13 2021-06-04 北京航空航天大学 视频关注区域检测方法、装置及设备
CN110059190A (zh) * 2019-04-18 2019-07-26 东南大学 一种基于社交媒体内容和结构的用户实时观点检测方法
CN110110651B (zh) * 2019-04-29 2023-06-13 齐鲁工业大学 基于时空重要性和3d cnn的视频中行为识别方法
CN110070067B (zh) * 2019-04-29 2021-11-12 北京金山云网络技术有限公司 视频分类方法及其模型的训练方法、装置和电子设备
CN110245263B (zh) * 2019-05-15 2021-08-20 北京奇艺世纪科技有限公司 一种聚合方法、装置、电子设备及存储介质
CN110210358A (zh) * 2019-05-24 2019-09-06 北京大学 一种基于双向时序图的视频描述生成方法和装置
CN112149459B (zh) * 2019-06-27 2023-07-25 哈尔滨工业大学(深圳) 一种基于交叉注意力机制的视频显著性物体检测模型及系统
CN110348624B (zh) * 2019-07-04 2020-12-29 内蒙古工业大学 一种基于Stacking集成策略的沙尘暴等级预测方法
CN110414377B (zh) * 2019-07-09 2020-11-13 武汉科技大学 一种基于尺度注意力网络的遥感图像场景分类方法
CN110516536B (zh) * 2019-07-12 2022-03-18 杭州电子科技大学 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN110390308B (zh) * 2019-07-26 2022-09-30 华侨大学 一种基于时空对抗生成网络的视频行为识别方法
CN110472732B (zh) * 2019-08-19 2023-02-21 杭州凝眸智能科技有限公司 基于优化特征提取装置的图像特征提取系统
CN111079998B (zh) * 2019-12-03 2020-12-01 华东师范大学 基于长短时序相关性注意力机制模型的流量预测方法
CN111079655B (zh) * 2019-12-18 2022-08-16 航天物联网技术有限公司 一种基于融合神经网络的视频中人体行为识别方法
CN111274995B (zh) * 2020-02-13 2023-07-14 腾讯科技(深圳)有限公司 视频分类方法、装置、设备和计算机可读存储介质
CN111310676A (zh) * 2020-02-21 2020-06-19 重庆邮电大学 基于CNN-LSTM和attention的视频动作识别方法
CN111401270A (zh) * 2020-03-19 2020-07-10 南京未艾信息科技有限公司 一种人体运动姿态识别评价方法及其系统
CN111627052B (zh) * 2020-04-30 2023-05-23 沈阳工程学院 一种基于双流时空注意力机制的动作识别方法t-stam
CN111967310A (zh) * 2020-07-03 2020-11-20 上海交通大学 一种联合注意力机制的时空特征聚合方法及系统、终端
CN111898458A (zh) * 2020-07-07 2020-11-06 中国传媒大学 基于注意力机制的双模态任务学习的暴力视频识别方法
CN111950717B (zh) * 2020-08-27 2022-07-19 桂林电子科技大学 一种基于神经网络的舆情量化方法
CN112101382B (zh) * 2020-09-11 2022-10-14 北京航空航天大学 时空联合模型及基于时空联合模型的视频显著性预测方法
CN112734696B (zh) * 2020-12-24 2023-01-13 华南理工大学 基于多域特征融合的换脸视频篡改检测方法及系统
CN112926396B (zh) * 2021-01-28 2022-05-13 杭州电子科技大学 一种基于双流卷积注意力的动作识别方法
CN112990130B (zh) * 2021-04-27 2021-07-23 南京甄视智能科技有限公司 训练样本的数据清洗方法、装置及一种分类器
CN113326748B (zh) * 2021-05-17 2022-06-14 厦门大学 一种采用多维相关注意力模型的神经网络行为识别方法
CN113408349B (zh) * 2021-05-17 2023-04-18 浙江大华技术股份有限公司 动作评价模型的训练方法、动作评价方法及相关设备
CN113554599B (zh) * 2021-06-28 2023-08-18 杭州电子科技大学 一种基于人类视觉效应的视频质量评价方法
CN115063731B (zh) * 2022-08-16 2022-11-11 之江实验室 基于两阶段运动建模和注意力的动作视频分类方法和系统
CN117612072B (zh) * 2024-01-23 2024-04-19 中国科学技术大学 一种基于动态时空图的视频理解方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1225769A3 (en) * 2001-01-17 2003-10-15 Tektronix, Inc. Spatial temporal visual attention model for a video frame sequence
WO2007010114A3 (fr) * 2005-07-22 2007-03-08 Centre Nat Rech Scient Procede et dispositif de representation d'une image fonctionnelle dynamique du cerveau, par localisation et discrimination des generateurs neuroelectrioues intracerebraux et leurs applications
CN102542066A (zh) * 2011-11-11 2012-07-04 冉阳 视频聚类方法、排序方法和视频搜索方法以及相应装置
CN106599789A (zh) * 2016-07-29 2017-04-26 北京市商汤科技开发有限公司 视频类别识别方法和装置、数据处理装置和电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1225769A3 (en) * 2001-01-17 2003-10-15 Tektronix, Inc. Spatial temporal visual attention model for a video frame sequence
WO2007010114A3 (fr) * 2005-07-22 2007-03-08 Centre Nat Rech Scient Procede et dispositif de representation d'une image fonctionnelle dynamique du cerveau, par localisation et discrimination des generateurs neuroelectrioues intracerebraux et leurs applications
CN102542066A (zh) * 2011-11-11 2012-07-04 冉阳 视频聚类方法、排序方法和视频搜索方法以及相应装置
CN106599789A (zh) * 2016-07-29 2017-04-26 北京市商汤科技开发有限公司 视频类别识别方法和装置、数据处理装置和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于特征轨迹的人物行为分类的关键技术与应用;薛莹;《中国优秀硕士学位论文全文数据库信息科技辑》;20170215;35-36 *

Also Published As

Publication number Publication date
CN107330362A (zh) 2017-11-07

Similar Documents

Publication Publication Date Title
CN107330362B (zh) 一种基于时空注意力的视频分类方法
CN109101896B (zh) 一种基于时空融合特征和注意力机制的视频行为识别方法
CN108830252B (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN109961034B (zh) 基于卷积门控循环神经单元的视频目标检测方法
CN107679465B (zh) 一种基于生成网络的行人重识别数据生成和扩充方法
CN111611847B (zh) 基于尺度注意力空洞卷积网络的视频动作检测方法
CN109190479A (zh) 一种基于混合深度学习的视频序列表情识别方法
CN108399435B (zh) 一种基于动静特征的视频分类方法
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN108133188A (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN110889375B (zh) 用于行为识别的隐双流协作学习网络及方法
CN106446015A (zh) 一种基于用户行为偏好的视频内容访问预测与推荐方法
CN105138953B (zh) 一种基于连续的多实例学习的视频中动作识别的方法
CN109190561B (zh) 一种视频播放中的人脸识别方法及系统
CN113239801B (zh) 基于多尺度特征学习和多级域对齐的跨域动作识别方法
CN113536922A (zh) 一种加权融合多种图像任务的视频行为识别方法
CN101470809A (zh) 一种基于扩展混合高斯模型的运动目标检测方法
CN114186069B (zh) 基于多模态异构图注意力网络的深度视频理解知识图谱构建方法
CN112906631B (zh) 一种基于视频的危险驾驶行为检测方法和检测系统
CN112001308A (zh) 一种采用视频压缩技术和骨架特征的轻量级行为识别方法
CN106295532A (zh) 一种视频图像中的人体动作识别方法
CN111597929A (zh) 基于通道信息融合和组群关系空间结构化建模的组群行为识别方法
CN113705490A (zh) 基于重构和预测的异常检测方法
CN114973112A (zh) 一种基于对抗学习网络的尺度自适应密集人群计数方法
CN102938153B (zh) 基于约束谱聚类和马尔科夫随机场的视频图像分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant