CN107341462A - 一种基于注意力机制的视频分类方法 - Google Patents
一种基于注意力机制的视频分类方法 Download PDFInfo
- Publication number
- CN107341462A CN107341462A CN201710506561.2A CN201710506561A CN107341462A CN 107341462 A CN107341462 A CN 107341462A CN 201710506561 A CN201710506561 A CN 201710506561A CN 107341462 A CN107341462 A CN 107341462A
- Authority
- CN
- China
- Prior art keywords
- video
- mrow
- classification
- msubsup
- msub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于注意力机制的视频分类方法,通过卷积神经网络CNN提取视频的空间特征,以注意力权重组合所有的空间特征送入到长短时记忆网络LSTM提取视频的时间特征,最后采用多分类函数对视频内容进行分类。在LSTM网络中引入的注意力机制能够模拟人脑的识别功能,将不同的视频内容区别对待,有效提高视频分类的准确性。
Description
技术领域
本发明属于光通信技术领域,更为具体地讲,涉及一种基于注意力机制的视频分类方法。
背景技术
近年来,得益于深度学习强大的特征提取能力,视频内容的识别和分析取得了突破性进展。视频内容识别的核心在于视频特征的提取,视频特征是视频本身所具有的物理性质,能够从不同的角度反映视频内容。Karpathy采用卷积神经网络提取视频的空间特征,并在时间维度上将卷积神经网络进行扩展,从而提取视频的空时特征。Ji则直接将二维卷积核扩展至三维卷积核,捕获相邻帧之间的运动信息。结合神经学方面的研究,Simonyan和Zisserman提出双通道CNN模型,一通道的CNN提取视频的空间特征,捕获视觉目标信息,一通道的CNN提取视频的短时间特征,捕获目标运动信息。尽管如此,这些方法只能捕捉视频的短时信息,忽视了视频的长时信息。
虽然卷积神经网络能够提取鲁棒的空间特征,但却无法处理序列问题。尤其是对于一段长时间的视频内容,视频内容的识别和分析需要视频在更长时间范围内的时间特征。Jeffrey Donahue在2014年提出LRCN模型,该模型由空间特征提取和时间特征提取两部分组成。空间特征提取部分采用卷积神经网络,时间特征提取部分采用LSTM网络,LSTM网络根据连续输入的空间特征向量提取视频的长时间特征。虽然LRCN模型采用LSTM网络提取视频的长时间特征,但在每一时刻,网络的输入仅为一帧视频内容,忽略了全局内容对网络的影响。
深度学习模型能够直接利用原始数据进行端到端的训练,提取出与原始数据相适应的特征,这为视频内容识别和分析提供了更丰富的特征表示。Moustafa分别训练AlexNet模型和GoogLeNet模型同时对视频内容进行识别。Tran将三维卷积核应用于深度卷积神经网络,并将全部视频帧序列输入到网络中。为提取短时和长时特征,Donahue在双通道CNN模型的基础上加入了两层LSTM网络进行端到端学习。提出一种多粒度的空时结构,LSTM网络被用于提取视频帧、光流特征图像、视频片段的时间特征,从多个角度关注视频内容。由于使用全部的视频帧序列对深度学习模型进行学习耗费了大量的资源,Veeriah提出一种LSTM网络的变体,该变体能够感知视频内容的变化,降低视频中的无关信息对视频内容识别的干扰。
在视频内容识别过程中,如果深度学习模型能够感知视频内容的变化,把握视频内容的重点,将对视频内容识别非常有益。2014年google mind团队使用注意力机制来进行图像分类,在递归神经网络中模拟人脑注意力特性,感知图像内容在各个区域的变化。随后Bahdanau等人将注意力机制运用到自然语言翻译上,将翻译和对齐同时进行,相比传统的方法效果得到很大的提升,在长句的处理上也显示了极大的优势。Venugopalan在自动生成视频描述时,采用编解码结构,编码部分采用卷积神经网络,解码部分采用LSTM网络,并将全部的视频帧特征进行平均作为LSTM网络的输入。该方法虽然在每一时刻考虑了全部的视频信息,但采用平均的方法使得视频特征丢失了时序信息,不利于视频内容的识别。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于注意力机制的视频分类方法,从全局考虑视频信息,同时采用注意力机制选择性的关注视频中的有效信息,降低无效信息的干扰,从而实现视频分类。
为实现上述发明目的,本发明一种基于注意力机制的视频分类方法,其特征在于,包括以下步骤:
(1)、训练LSTM网络模型
(1.1)、通过卷积神经网络CNN提取输入视频的空间特征
设输入视频为X={x1,x2,…,xN},N表示输入视频的总帧数,通过卷积神经网络CNN提取输入视频的空间特征为V={v1,v2,…,vN},vi表示第i帧视频图像的特征向量,i=1,2,…,N;
(1.2)、以注意力权重组合空间特征,得到加权空间特征并输入到LSTM网络;
其中,t=1,2,…,T,T表示时刻总数;
(1.3)、更新当前时刻LSTM网络状态;
其中,ft、it、ot分别表示LSTM网络的遗忘门、输入门和输出门的计算结果,ht-1和ct-1分别表示上一时刻隐藏单元状态和记忆单元状态,ht和ct分别表示当前时刻隐藏单元状态和记忆单元状态,σ(·)是sigmoid函数,表示点积运算,Uf、Ui、Uc,Af、Ai、Ac,bi、bf、bc分别为待学习参数;
(1.4)、LSTM网络根据当前时刻状态预测视频类别;
计算当前时刻t时视频类别的预测概率分布
其中,softmax(·)是多分类函数,Up、Wp、bp、d分别为待学习参数;
(1.5)、重复步骤(1.2)-(1.4),分别预测出其余T-1个时刻的视频类别的预测概率分布pt;
(1.6)、计算第T次的预测概率分布值pT和视频标识之间的误差Δε,采用BPTT算法将误差Δε进行反向传递进而更新LSTM网络中待学习参数,完成本轮迭代;
(1.7)、当本轮迭代完成后,按照步骤(1.2)-(1.6)所述方法进行下一轮迭代,直到完成M次迭代,得到训练好的LSTM网络模型;
(2)、利用训练后的LSTM网络模型对视频进行分类
(2.1)、从待检测视频中每间隔m帧提取一个长度为n视频片段作为测试样本xj,j=1,2,…,L,L表示待检测视频划分为长度为n的视频片段的个数;
(2.2)、将L个测试样本xj按照步骤(1.1)-(1.5)所述方法进行处理,得到L个预测概率分布pT;
(2.3)、在L个预测概率分布pT中,选取每一个预测概率分布pT中概率最大项的维度所对应的类别作为该测试样本xj的类别,从而得到L个统计结果,再统计L个统计结果中每个类别出现的次数,并将出现次数最多的类别作为待检测视频的类别;如果出现最大次数相等的类别,则以最大次数相等对应的预测概率分布pT中概率最大项的维度所对应的类别作为待检测视频的类别。
本发明的发明目的是这样实现的:
本发明一种基于注意力机制的视频分类方法,通过卷积神经网络CNN提取视频的空间特征,以注意力权重组合所有的空间特征送入到长短时记忆网络LSTM提取视频的时间特征,最后采用多分类函数对视频内容进行分类。在LSTM网络中引入的注意力机制能够模拟人脑的识别功能,将不同的视频内容区别对待,有效提高视频分类的准确性。
同时,本发明一种基于注意力机制的视频分类方法还具有以下有益效果:
(1)、通过将空间特征以注意力权重进行组合,每一时刻,模型能够感知到所有的视频信息,而非单个视频帧的信息;
(2)、引入注意力机制后,模型能够模拟人脑的注意力机制,将不同的视频内容区别对待,有效提高视频分类的准确率。
附图说明
图1是本发明基于注意力机制的视频分类方法流程图;
图2是基于注意力机制的LRCN模型结构图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
为了方便描述,先对具体实施方式中出现的相关专业术语进行说明:
CNN(Convolutional Neural Network):卷积神经网络;
LSTM(Long Short-Term Memory):长短时记忆网络;
BPTT(Back Propagation Through Time):时间后向传播算法;
图1是本发明基于注意力机制的视频分类方法流程图。
在本实施例中,从CRCV官方网站下载UCF-101数据集作为训练的样本视频,UCF-101数据集包含C=101类视频,例如ApplyEyeMakeup、ApplyLipstick、...YoYo等,每个类别对应一个视频标识,如表1所示,按字母顺序排列,例如ApplyEyeMakeup的标识为(1,0,0…0)、ApplyLipstick的标识为(0,1,0…0),YoYo的标识为(0,0,0…1),标识为一个C维向量,是哪一类视频哪一维就为1,其余为0,视频标识在训练阶段属于已知。
视频类别 | 维度下标 | 视频标识 |
ApplyEyeMakeup | 0 | (1,0,0…0) |
ApplyLipstick | 1 | (0,1,0…0) |
… | ||
YoYo | 100 | (0,0,0…1) |
表1
下面以UCF-101数据集中任意一类视频为例,本发明一种基于注意力机制的视频分类方法进行详细说明,具体包括以下步骤:
S1、训练LSTM网络模型
S1.1、通过卷积神经网络CNN提取输入视频的空间特征
设输入视频YoYo为X={x1,x2,…,xN},N表示输入视频的总帧数,通过卷积神经网络CNN提取输入视频的空间特征为V={v1,v2,…,vN},vi表示第i帧视频图像的特征向量,大小为2048维,i=1,2,…,N;
S1.2、以注意力权重组合空间特征,得到加权空间特征并输入到LSTM网络;
其中,t=1,2,…,T,T=16表示时刻总数;
在本实施例中,如图2所示,基于注意力机制的LRCN模型由两部分组成,一部分是通过卷积神经网络CNN提取视频的空间特征,另一部分是以注意力权重组合空间特征,得到加权空间特征
S1.3、更新当前时刻LSTM网络状态;
其中,ft、it、ot分别表示LSTM网络的遗忘门、输入门和输出门的计算结果,ht-1和ct-1分别表示上一时刻隐藏单元状态和记忆单元状态,ht和ct分别表示当前时刻隐藏单元状态和记忆单元状态,σ(·)是sigmoid函数,表示点积运算,Uf、Ui、Uc,Af、Ai、Ac,bi、bf、bc分别为待学习参数;
S1.4、计算注意力权重
根据LSTM网络当前时刻状态,计算第i帧视频的相关性得分
其中,Wa、Ua、ba分别为待学习参数,tanh(·)为双曲正切函数;
将所有帧视频的相关性得分进行归一化,得到第i帧视频的注意力权重
其中,exp(·)为指数函数;
注意力权重反映了第i帧视频特征向量在t时刻与整个视频特征向量集合的紧密程度,若该视频帧内容与整个视频内容越相关,则该注意力权重将越大;的学习与上一时刻的LSTM网络状态和当前时刻的输入有关,且满足条件为:
S1.5、LSTM网络根据当前时刻状态预测视频类别;
计算当前时刻t时视频类别的预测概率分布
其中,softmax(·)是多分类函数,Up、Wp、bp、d分别为待学习参数;
S1.6、重复步骤S1.2-S1.5,分别预测出其余T-1个时刻的视频类别的预测概率分布pt;
S1.7、计算第T次的预测概率分布值pT和该视频的标识之间的误差Δε,采用BPTT算法将误差Δε进行反向传递进而更新LSTM网络中待学习参数,完成本轮迭代;
S1.8、当本轮迭代完成后,按照步骤S1.2-S1.7所述方法进行下一轮迭代,直到完成M=20000次迭代,得到训练好的LSTM网络模型;
S2、利用训练后的LSTM网络模型对待检测视频进行分类
S2.1、从待检测视频中每间隔m=8帧提取一个长度为n=16视频片段作为测试样本xj,j=1,2,…,L,L表示待检测视频划分为长度为n的视频片段的个数;
S2.2、将L个测试样本xj按照步骤S1.1-S1.6所述方法进行处理,得到L个预测概率分布pT;
S2.3、在L个预测概率分布pT中,选取每一个预测概率分布pT中概率最大项的维度所对应的类别作为该测试样本xj的类别,从而得到L个统计结果,再统计L个统计结果中每个类别出现的次数,并将出现次数最多的类别作为待检测视频的类别;如果出现最大次数相等的类别,则以最大次数相等对应的预测概率分布pT中概率最大项的维度所对应的类别作为待检测视频的类别。
仿真验证
本实施例采用HMDB-51和UCF-101数据集进行模型的仿真和验证分析。
HMDB-51数据集包含6766个视频,视频内容主要来自电影片段,分为51个类别,每个类别都包含至少101个视频,数据集的划分采用7/3原则。
UCF-101数据集是从现实生活中收集的视频识别数据集,视频内容全部来源于YouTube视频,包含13320个视频,共101类视频类别,是迄今为止最具挑战性的视频识别数据集之一。
HMDB-51和UCF-101数据集的划分都包含3种划分方式,本实施例统一采用split-1划分方式,测试模型分类的准确率。
对于空间特征提取部分,本实施例采用GoogLeNet的Inception-v3结构,并在2012年的imageNet上进行预训练,然后固定Inception-v3网络参数,提取pooling3层特征作为视频的空间特征,特征大小为2048维。对于时间特征提取部分,在LSTM网络中引入注意力机制,设置LSTM网络的层数为1层,输入单元个数为2048,隐藏单元个数为512,根据数据集的不同,输出单元个数为51或101。
在训练时,视频内容每16帧被划分成一个视频片段作为训练视频,在测试时,视频内容每隔8帧被划分成一个视频片段作为测试视频,相邻两个视频片段之间包含8帧相同的视频内容,来自同一视频的视频片段具有相同的视频标识。基于注意力机制的LRCN模型采用Adam优化算法进行训练,初始学习率为0.001,最大迭代次数为20000。
基于注意力机制的LRCN模型采用CNN+LSTM的结构,为验证注意力机制对视频内容识别的影响,本文以CNN+LSTM模型结构为基础,将基础模型与基于注意力机制的LRCN模型设置相同的单元结构,采用同样的方法进行训练,基础模型和基于注意力机制的LRCN模型分别在HMDB-51和UCF-101数据集上的识别准确率如表2所示。
表2是基于注意力机制的LRCN模型在HMDB-51和UCF-101数据集上的识别准确率;
模型 | HMDB-51 | UCF-101 |
基础模型 | 38.8% | 68.3% |
基于注意力机制的LRCN模型 | 41.5% | 72.4% |
表2
从表2的识别结果可以看出,基于注意力机制的LRCN模型对视频内容的识别效果有明显的改善,相对于基础模型,基于注意力机制的LRCN模型在HMDB-51数据集上的识别准确率提高了2.7%,在UCF-101数据集上的识别准确率提高了4.1%。相对于HMDB-51数据集,基于注意力机制的LRCN模型在UCF-101数据集上的改善效果更为明显,这是由于UCF-101数据集中的视频通常拥有较长的视频时长,而随着识别时间的增加,基础模型容易丢失视频中的关键信息,而基于注意力机制的LRCN模型始终能够关注与视频主题相关的视频帧序列,从而更准确的识别视频内容。
同时,本实施例将基于注意力机制的LRCN模型与不同的视频内容识别方法进行了比较,比较结果如表3和表4所示。
表3是不同视频内容识别方法在HMDB-51数据集上的识别准确率;
不同视频内容识别方法 | HMDB-51 |
HOG/HOF[7] | 20.0% |
空时HMAX网络[49] | 22.8% |
TRAJMF[50] | 40.7% |
空间注意力模型[51] | 41.3% |
基于注意力机制的LRCN模型 | 41.5% |
表3
由于HOG、HOF特征和HMAX网络提取的时间特征较为简单,因此视频内容的识别准确率不高。TRAJMF则将各种时间特征进行了融合,各种时间特征起到了互补的作用,识别准确率达到40.7%。空间注意力模型同样采用CNN+LSTM模型结构,不同的是,空间注意力模型将注意力落在每个视频帧的内容上,没有考虑视频本身的时间特性。然而,卷积神经网络提取的空间特征有效表征了视频的空间信息,本实施例提出的基于注意力机制的LRCN模型将注意力落在视频帧序列的时间顺序上,识别准确率高于空间注意力模型。
表4是不同视频内容识别方法在UCF-101数据集上的识别准确率;
表4
Karpathy应用深度学习模型,直接将连续的视频帧作为卷积神经网络的输入提取视频的空间特征对视频内容进行识别,相对于传统的手工特征获得了不错的识别效果。Jain在2014年THUMOS挑战赛中提出将HOG/HOF等手工空时特征与神经网络进行融合,识别准确率得到进一步提升。LRCN-single采用CNN+LSTM模型结构进行端到端的学习,识别准确率达到71.1%。本实施例在LRCN-single模型的基础上引入注意力机制,并以加权的视频空间特征向量作为LSTM网络的输入,提取带注意力的时间特征,识别准确率达到72.4%,高于LRCN-single模型。由此可以看出,在视频内容识别过程中,模拟人脑的注意力特性,有助于视频内容的理解和分析,改善识别效果。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (3)
1.一种基于注意力机制的视频分类方法,其特征在于,包括以下步骤:
(1)、训练LSTM网络模型
(1.1)、通过卷积神经网络CNN提取输入视频的空间特征
设输入视频为X={x1,x2,…,xN},N表示输入视频的总帧数,通过卷积神经网络CNN提取输入视频的空间特征为V={v1,v2,…,vN},vi表示第i帧视频图像的特征向量,i=1,2,…,N;
(1.2)、以注意力权重组合空间特征,得到加权空间特征并输入到LSTM网络;
其中,t=1,2,…,T,T表示时刻总数;
(1.3)、更新当前时刻LSTM网络状态;
其中,ft、it、ot分别表示LSTM网络的遗忘门、输入门和输出门的计算结果,ht-1和ct-1分别表示上一时刻隐藏单元状态和记忆单元状态,ht和ct分别表示当前时刻隐藏单元状态和记忆单元状态,σ(·)是sigmoid函数,表示点积运算,Uf、Ui、Uc,Af、Ai、Ac,bi、bf、bc分别为待学习参数;
(1.4)、LSTM网络根据当前时刻状态预测视频类别;
计算当前时刻t时视频类别的预测概率分布
其中,softmax(·)是多分类函数,Up、Wp、bp、d分别为待学习参数;
(1.5)、重复步骤(1.2)-(1.4),分别预测出其余T-1个时刻的视频类别的预测概率分布pt;
(1.6)、计算第T次的预测概分布值pT和视频标识之间的误差Δε,采用BPTT算法将误差Δε进行反向传递进而更新LSTM网络中待学习参数,完成本轮迭代;
(1.7)、当本轮迭代完成后,按照步骤(1.2)-(1.6)所述方法进行下一轮迭代,直到完成M次迭代,得到训练好的LSTM网络模型;
(2)、利用训练后的LSTM网络模型对视频进行分类
(2.1)、从待检测视频中每间隔m帧提取一个长度为n视频片段作为测试样本xj,j=1,2,…,L,L表示待检测视频划分为长度为n的视频片段的个数;
(2.2)、将L个测试样本xj按照步骤(1.1)-(1.5)所述方法进行处理,得到L个预测概率分布pT;
(2.3)、在L个预测概率分布pT中,选取每一个预测概率分布pT中概率最大项的维度所对应的类别作为该测试样本xj的类别,从而得到L个统计结果,再统计L个统计结果中每个类别出现的次数,并将出现次数最多的类别作为待检测视频的类别;如果出现最大最大次数相等的类别,则以最大次数相等对应的预测概率分布pT中概率最大项的维度所对应的类别作为待检测视频的类别。
2.根据权利要求1所述的基于注意力机制的视频分类方法,其特征在于,所述的注意力权重的计算方法为:
根据LSTM网络当前时刻状态,计算第i帧视频的相关性得分
<mrow>
<msubsup>
<mi>e</mi>
<mi>i</mi>
<mi>t</mi>
</msubsup>
<mo>=</mo>
<mi>tanh</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>W</mi>
<mi>a</mi>
</msub>
<msub>
<mi>h</mi>
<mrow>
<mi>t</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>+</mo>
<msub>
<mi>U</mi>
<mi>a</mi>
</msub>
<msub>
<mi>v</mi>
<mi>i</mi>
</msub>
<mo>+</mo>
<msub>
<mi>b</mi>
<mi>a</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
其中,Wa、Ua、ba分别为待学习参数,tanh(·)为双曲正切函数;
将所有帧视频的相关性得分进行归一化,得到第i帧视频的注意力权重
<mrow>
<msubsup>
<mi>&alpha;</mi>
<mi>i</mi>
<mi>t</mi>
</msubsup>
<mo>=</mo>
<mfrac>
<mrow>
<mi>exp</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>e</mi>
<mi>i</mi>
<mi>t</mi>
</msubsup>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</msubsup>
<mi>exp</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>e</mi>
<mi>i</mi>
<mi>t</mi>
</msubsup>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
其中,exp(·)为指数函数。
3.根据权利要求1或2所述的基于注意力机制的视频分类方法,其特征在于,所述的注意力权重满足条件为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710506561.2A CN107341462A (zh) | 2017-06-28 | 2017-06-28 | 一种基于注意力机制的视频分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710506561.2A CN107341462A (zh) | 2017-06-28 | 2017-06-28 | 一种基于注意力机制的视频分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107341462A true CN107341462A (zh) | 2017-11-10 |
Family
ID=60220115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710506561.2A Pending CN107341462A (zh) | 2017-06-28 | 2017-06-28 | 一种基于注意力机制的视频分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107341462A (zh) |
Cited By (68)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107818174A (zh) * | 2017-11-15 | 2018-03-20 | 浙江大学 | 一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法 |
CN107944409A (zh) * | 2017-11-30 | 2018-04-20 | 清华大学 | 视频分析方法及装置 |
CN107995535A (zh) * | 2017-11-28 | 2018-05-04 | 百度在线网络技术(北京)有限公司 | 一种展示视频的方法、装置、设备和计算机存储介质 |
CN107995536A (zh) * | 2017-11-28 | 2018-05-04 | 百度在线网络技术(北京)有限公司 | 一种提取视频预览的方法、装置、设备和计算机存储介质 |
CN108009493A (zh) * | 2017-11-30 | 2018-05-08 | 电子科技大学 | 基于动作增强的人脸防欺骗识别方法 |
CN108024158A (zh) * | 2017-11-30 | 2018-05-11 | 天津大学 | 利用视觉注意力机制的有监督视频摘要提取方法 |
CN108171268A (zh) * | 2018-01-02 | 2018-06-15 | 联想(北京)有限公司 | 一种图像处理方法及电子设备 |
CN108171260A (zh) * | 2017-12-15 | 2018-06-15 | 百度在线网络技术(北京)有限公司 | 一种图片识别方法及系统 |
CN108197743A (zh) * | 2017-12-31 | 2018-06-22 | 北京化工大学 | 一种基于深度学习的预测模型软测量方法 |
CN108280406A (zh) * | 2017-12-30 | 2018-07-13 | 广州海昇计算机科技有限公司 | 一种基于分段双流模型的行为识别方法、系统及装置 |
CN108319905A (zh) * | 2018-01-25 | 2018-07-24 | 南京邮电大学 | 一种基于长时程深度时空网络的行为识别方法 |
CN108334910A (zh) * | 2018-03-30 | 2018-07-27 | 国信优易数据有限公司 | 一种事件检测模型训练方法以及事件检测方法 |
CN108491817A (zh) * | 2018-03-30 | 2018-09-04 | 国信优易数据有限公司 | 一种事件检测模型训练方法、装置以及事件检测方法 |
CN108537128A (zh) * | 2018-03-14 | 2018-09-14 | 中国科学院自动化研究所 | 基于视频的群体属性识别方法和装置 |
CN108564066A (zh) * | 2018-04-28 | 2018-09-21 | 国信优易数据有限公司 | 一种人物识别模型训练方法以及人物识别方法 |
CN108846048A (zh) * | 2018-05-30 | 2018-11-20 | 大连理工大学 | 基于循环神经网络和注意力机制的音乐流派分类方法 |
CN108921051A (zh) * | 2018-06-15 | 2018-11-30 | 清华大学 | 基于循环神经网络注意力模型的行人属性识别网络及技术 |
CN108960189A (zh) * | 2018-07-20 | 2018-12-07 | 南京旷云科技有限公司 | 图像再识别方法、装置及电子设备 |
CN108989804A (zh) * | 2018-08-23 | 2018-12-11 | 杭州雄迈集成电路技术有限公司 | 图像的编码方法及装置 |
CN109101896A (zh) * | 2018-07-19 | 2018-12-28 | 电子科技大学 | 一种基于时空融合特征和注意力机制的视频行为识别方法 |
CN109101948A (zh) * | 2018-08-28 | 2018-12-28 | 电子科技大学 | 一种基于时空及通道的多注意力机制视频描述方法 |
CN109117777A (zh) * | 2018-08-03 | 2019-01-01 | 百度在线网络技术(北京)有限公司 | 生成信息的方法和装置 |
CN109124625A (zh) * | 2018-09-04 | 2019-01-04 | 大连理工大学 | 一种驾驶员疲劳状态水平分级方法 |
CN109190482A (zh) * | 2018-08-06 | 2019-01-11 | 北京奇艺世纪科技有限公司 | 多标签视频分类方法及系统、系统训练方法及装置 |
CN109242090A (zh) * | 2018-08-28 | 2019-01-18 | 电子科技大学 | 一种基于gan网络的视频描述及描述一致性判别方法 |
CN109273084A (zh) * | 2018-11-06 | 2019-01-25 | 中山大学附属第医院 | 基于多模态超声组学特征建模的方法及系统 |
CN109308519A (zh) * | 2018-09-29 | 2019-02-05 | 广州博通信息技术有限公司 | 一种基于神经网络的制冷设备故障预测方法 |
CN109376720A (zh) * | 2018-12-19 | 2019-02-22 | 杭州电子科技大学 | 基于关节点时空简单循环网络和注意力机制的动作分类方法 |
CN109389055A (zh) * | 2018-09-21 | 2019-02-26 | 西安电子科技大学 | 基于混合卷积和注意力机制的视频分类方法 |
CN109409165A (zh) * | 2017-08-15 | 2019-03-01 | 杭州海康威视数字技术股份有限公司 | 一种视频内容识别方法、装置及电子设备 |
CN109509484A (zh) * | 2018-12-25 | 2019-03-22 | 科大讯飞股份有限公司 | 一种婴儿啼哭原因的预测方法及装置 |
CN109508642A (zh) * | 2018-10-17 | 2019-03-22 | 杭州电子科技大学 | 基于双向gru和注意力机制的船舶监控视频关键帧提取方法 |
CN109522945A (zh) * | 2018-10-31 | 2019-03-26 | 中国科学院深圳先进技术研究院 | 一种群体情感识别方法、装置、智能设备及存储介质 |
CN109542585A (zh) * | 2018-11-14 | 2019-03-29 | 山东大学 | 一种支持不规则时间间隔的虚拟机工作负载预测方法 |
CN109670548A (zh) * | 2018-12-20 | 2019-04-23 | 电子科技大学 | 基于改进lstm-cnn的多尺寸输入har算法 |
CN109670453A (zh) * | 2018-12-20 | 2019-04-23 | 杭州东信北邮信息技术有限公司 | 一种提取短视频主题的方法 |
CN109710800A (zh) * | 2018-11-08 | 2019-05-03 | 北京奇艺世纪科技有限公司 | 模型生成方法、视频分类方法、装置、终端及存储介质 |
CN109711380A (zh) * | 2019-01-03 | 2019-05-03 | 电子科技大学 | 一种基于全局上下文信息的时序行为片段生成系统及方法 |
CN109766942A (zh) * | 2019-01-07 | 2019-05-17 | 西南交通大学 | 一种基于注意力神经网络的小样本学习图像识别方法 |
CN109871777A (zh) * | 2019-01-23 | 2019-06-11 | 广州智慧城市发展研究院 | 一种基于注意力机制的行为识别系统 |
CN109886978A (zh) * | 2019-02-20 | 2019-06-14 | 贵州电网有限责任公司 | 一种基于深度学习的端到端告警信息识别方法 |
CN109919114A (zh) * | 2019-03-14 | 2019-06-21 | 浙江大学 | 一种基于互补注意力机制循环卷积解码的视频描述方法 |
CN109992679A (zh) * | 2019-03-21 | 2019-07-09 | 腾讯科技(深圳)有限公司 | 一种多媒体数据的分类方法及装置 |
CN110032926A (zh) * | 2019-02-22 | 2019-07-19 | 哈尔滨工业大学(深圳) | 一种基于深度学习的视频分类方法以及设备 |
CN110070067A (zh) * | 2019-04-29 | 2019-07-30 | 北京金山云网络技术有限公司 | 视频分类方法及其模型的训练方法、装置和电子设备 |
CN110096940A (zh) * | 2018-01-29 | 2019-08-06 | 西安科技大学 | 一种基于lstm网络的步态识别系统及方法 |
CN110222556A (zh) * | 2019-04-22 | 2019-09-10 | 北方工业大学 | 一种人体动作识别系统及方法 |
CN110222649A (zh) * | 2019-06-10 | 2019-09-10 | 北京达佳互联信息技术有限公司 | 视频分类方法、装置、电子设备及存储介质 |
CN110263916A (zh) * | 2019-05-31 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 数据处理方法和装置、存储介质及电子装置 |
CN110276397A (zh) * | 2019-06-24 | 2019-09-24 | 深动科技(北京)有限公司 | 一种基于门机制的图像处理方法、装置和系统 |
CN110289096A (zh) * | 2019-06-28 | 2019-09-27 | 电子科技大学 | 一种基于深度学习的icu院内死亡率预测方法 |
CN110309797A (zh) * | 2019-07-05 | 2019-10-08 | 齐鲁工业大学 | 融合CNN-BiLSTM模型和概率协作的运动想象识别方法及系统 |
CN110334689A (zh) * | 2019-07-16 | 2019-10-15 | 北京百度网讯科技有限公司 | 视频分类方法和装置 |
CN110381391A (zh) * | 2019-07-11 | 2019-10-25 | 北京字节跳动网络技术有限公司 | 视频快速切片方法、装置及电子设备 |
CN110674887A (zh) * | 2019-10-08 | 2020-01-10 | 中兴飞流信息科技有限公司 | 一种基于视频分类的端到端道路拥堵检测算法 |
CN110751021A (zh) * | 2019-09-03 | 2020-02-04 | 北京迈格威科技有限公司 | 图像处理方法、装置、电子设备和计算机可读介质 |
CN111179971A (zh) * | 2019-12-03 | 2020-05-19 | 杭州网易云音乐科技有限公司 | 无损音频检测方法、装置、电子设备及存储介质 |
CN111209433A (zh) * | 2020-01-03 | 2020-05-29 | 北京工业大学 | 一种基于特征增强的视频分类算法 |
CN111273540A (zh) * | 2020-04-15 | 2020-06-12 | 河南广播电视大学 | 一种基于zigbee通信和北斗双模授时的无线校时系统 |
WO2020182078A1 (zh) * | 2019-03-08 | 2020-09-17 | 腾讯科技(深圳)有限公司 | 影像分析方法、显微镜视频流处理方法和相关装置 |
CN111860033A (zh) * | 2019-04-24 | 2020-10-30 | 北京三好互动教育科技有限公司 | 一种注意力识别方法和装置 |
CN112084887A (zh) * | 2020-08-19 | 2020-12-15 | 北京影谱科技股份有限公司 | 一种基于注意力机制的自适应视频分类方法及系统 |
CN112232164A (zh) * | 2020-10-10 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 一种视频分类方法和装置 |
CN112418361A (zh) * | 2021-01-22 | 2021-02-26 | 杭州木链物联网科技有限公司 | 一种基于深度学习的工控系统异常检测方法、装置 |
WO2021169784A1 (en) * | 2020-02-28 | 2021-09-02 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method, system, and computer-readable medium for obtaining aggregated multi-scale first and second dimensional receptive field information |
CN115587617A (zh) * | 2022-10-17 | 2023-01-10 | 国网黑龙江省电力有限公司 | 长时间序列的序列信息捕捉方法及装置、短期用电量预测方法及装置 |
CN116935292A (zh) * | 2023-09-15 | 2023-10-24 | 山东建筑大学 | 一种基于自注意力模型的短视频场景分类方法及系统 |
CN117848713A (zh) * | 2024-01-05 | 2024-04-09 | 湖州槐坎南方水泥有限公司 | 布袋除尘器脉冲阀运行状态监测系统及方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140079297A1 (en) * | 2012-09-17 | 2014-03-20 | Saied Tadayon | Application of Z-Webs and Z-factors to Analytics, Search Engine, Learning, Recognition, Natural Language, and Other Utilities |
CN105844239A (zh) * | 2016-03-23 | 2016-08-10 | 北京邮电大学 | 一种基于cnn和lstm的暴恐视频检测方法 |
CN105893980A (zh) * | 2016-04-26 | 2016-08-24 | 北京科技大学 | 一种注意力专注度评价方法及系统 |
CN105894043A (zh) * | 2016-04-27 | 2016-08-24 | 上海高智科技发展有限公司 | 一种视频描述语句生成方法及系统 |
CN105955964A (zh) * | 2016-06-13 | 2016-09-21 | 北京百度网讯科技有限公司 | 一种自动生成诗歌的方法和装置 |
CN106096568A (zh) * | 2016-06-21 | 2016-11-09 | 同济大学 | 一种基于cnn和卷积lstm网络的行人再识别方法 |
US20160350653A1 (en) * | 2015-06-01 | 2016-12-01 | Salesforce.Com, Inc. | Dynamic Memory Network |
US20170024645A1 (en) * | 2015-06-01 | 2017-01-26 | Salesforce.Com, Inc. | Dynamic Memory Network |
CN106503723A (zh) * | 2015-09-06 | 2017-03-15 | 华为技术有限公司 | 一种视频分类方法及装置 |
CN106816148A (zh) * | 2015-11-30 | 2017-06-09 | 三星电子株式会社 | 语音识别设备和方法 |
CN106897714A (zh) * | 2017-03-23 | 2017-06-27 | 北京大学深圳研究生院 | 一种基于卷积神经网络的视频动作检测方法 |
-
2017
- 2017-06-28 CN CN201710506561.2A patent/CN107341462A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140079297A1 (en) * | 2012-09-17 | 2014-03-20 | Saied Tadayon | Application of Z-Webs and Z-factors to Analytics, Search Engine, Learning, Recognition, Natural Language, and Other Utilities |
US20160350653A1 (en) * | 2015-06-01 | 2016-12-01 | Salesforce.Com, Inc. | Dynamic Memory Network |
US20170024645A1 (en) * | 2015-06-01 | 2017-01-26 | Salesforce.Com, Inc. | Dynamic Memory Network |
CN106503723A (zh) * | 2015-09-06 | 2017-03-15 | 华为技术有限公司 | 一种视频分类方法及装置 |
CN106816148A (zh) * | 2015-11-30 | 2017-06-09 | 三星电子株式会社 | 语音识别设备和方法 |
CN105844239A (zh) * | 2016-03-23 | 2016-08-10 | 北京邮电大学 | 一种基于cnn和lstm的暴恐视频检测方法 |
CN105893980A (zh) * | 2016-04-26 | 2016-08-24 | 北京科技大学 | 一种注意力专注度评价方法及系统 |
CN105894043A (zh) * | 2016-04-27 | 2016-08-24 | 上海高智科技发展有限公司 | 一种视频描述语句生成方法及系统 |
CN105955964A (zh) * | 2016-06-13 | 2016-09-21 | 北京百度网讯科技有限公司 | 一种自动生成诗歌的方法和装置 |
CN106096568A (zh) * | 2016-06-21 | 2016-11-09 | 同济大学 | 一种基于cnn和卷积lstm网络的行人再识别方法 |
CN106897714A (zh) * | 2017-03-23 | 2017-06-27 | 北京大学深圳研究生院 | 一种基于卷积神经网络的视频动作检测方法 |
Non-Patent Citations (2)
Title |
---|
JEFF DONAHUE等: "Long-Term Recurrent Convolutional Networks for Visual Recognition and Description", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
LI YAO 等: "Video Description Generation Incorporating Spatio-Temporal Features and a Soft-Attention Mechanism", 《ARXIV》 * |
Cited By (102)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109409165A (zh) * | 2017-08-15 | 2019-03-01 | 杭州海康威视数字技术股份有限公司 | 一种视频内容识别方法、装置及电子设备 |
CN107818174A (zh) * | 2017-11-15 | 2018-03-20 | 浙江大学 | 一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法 |
CN107995535B (zh) * | 2017-11-28 | 2019-11-26 | 百度在线网络技术(北京)有限公司 | 一种展示视频的方法、装置、设备和计算机存储介质 |
CN107995535A (zh) * | 2017-11-28 | 2018-05-04 | 百度在线网络技术(北京)有限公司 | 一种展示视频的方法、装置、设备和计算机存储介质 |
CN107995536A (zh) * | 2017-11-28 | 2018-05-04 | 百度在线网络技术(北京)有限公司 | 一种提取视频预览的方法、装置、设备和计算机存储介质 |
US10817149B2 (en) | 2017-11-28 | 2020-10-27 | Baidu Online Network Technology (Beijing) Co., Ltd. | Video displaying method and apparatus, device and computer storage medium |
US11302103B2 (en) | 2017-11-28 | 2022-04-12 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for extracting video preview, device and computer storage medium |
CN108009493A (zh) * | 2017-11-30 | 2018-05-08 | 电子科技大学 | 基于动作增强的人脸防欺骗识别方法 |
CN108009493B (zh) * | 2017-11-30 | 2021-07-06 | 电子科技大学 | 基于动作增强的人脸防欺骗识别方法 |
CN108024158A (zh) * | 2017-11-30 | 2018-05-11 | 天津大学 | 利用视觉注意力机制的有监督视频摘要提取方法 |
CN107944409A (zh) * | 2017-11-30 | 2018-04-20 | 清华大学 | 视频分析方法及装置 |
CN107944409B (zh) * | 2017-11-30 | 2020-05-08 | 清华大学 | 能够区分关键动作的视频分析方法及装置 |
CN108171260A (zh) * | 2017-12-15 | 2018-06-15 | 百度在线网络技术(北京)有限公司 | 一种图片识别方法及系统 |
CN108171260B (zh) * | 2017-12-15 | 2022-02-11 | 百度在线网络技术(北京)有限公司 | 一种图片识别方法及系统 |
CN108280406A (zh) * | 2017-12-30 | 2018-07-13 | 广州海昇计算机科技有限公司 | 一种基于分段双流模型的行为识别方法、系统及装置 |
CN108197743A (zh) * | 2017-12-31 | 2018-06-22 | 北京化工大学 | 一种基于深度学习的预测模型软测量方法 |
CN108171268A (zh) * | 2018-01-02 | 2018-06-15 | 联想(北京)有限公司 | 一种图像处理方法及电子设备 |
CN108319905A (zh) * | 2018-01-25 | 2018-07-24 | 南京邮电大学 | 一种基于长时程深度时空网络的行为识别方法 |
CN110096940A (zh) * | 2018-01-29 | 2019-08-06 | 西安科技大学 | 一种基于lstm网络的步态识别系统及方法 |
CN108537128A (zh) * | 2018-03-14 | 2018-09-14 | 中国科学院自动化研究所 | 基于视频的群体属性识别方法和装置 |
CN108491817A (zh) * | 2018-03-30 | 2018-09-04 | 国信优易数据有限公司 | 一种事件检测模型训练方法、装置以及事件检测方法 |
CN108334910B (zh) * | 2018-03-30 | 2020-11-03 | 国信优易数据股份有限公司 | 一种事件检测模型训练方法以及事件检测方法 |
CN108334910A (zh) * | 2018-03-30 | 2018-07-27 | 国信优易数据有限公司 | 一种事件检测模型训练方法以及事件检测方法 |
CN108491817B (zh) * | 2018-03-30 | 2021-02-26 | 国信优易数据股份有限公司 | 一种事件检测模型训练方法、装置以及事件检测方法 |
CN108564066A (zh) * | 2018-04-28 | 2018-09-21 | 国信优易数据有限公司 | 一种人物识别模型训练方法以及人物识别方法 |
CN108564066B (zh) * | 2018-04-28 | 2020-11-27 | 国信优易数据股份有限公司 | 一种人物识别模型训练方法以及人物识别方法 |
CN108846048A (zh) * | 2018-05-30 | 2018-11-20 | 大连理工大学 | 基于循环神经网络和注意力机制的音乐流派分类方法 |
CN108921051A (zh) * | 2018-06-15 | 2018-11-30 | 清华大学 | 基于循环神经网络注意力模型的行人属性识别网络及技术 |
CN108921051B (zh) * | 2018-06-15 | 2022-05-20 | 清华大学 | 基于循环神经网络注意力模型的行人属性识别网络及技术 |
CN109101896A (zh) * | 2018-07-19 | 2018-12-28 | 电子科技大学 | 一种基于时空融合特征和注意力机制的视频行为识别方法 |
CN108960189A (zh) * | 2018-07-20 | 2018-12-07 | 南京旷云科技有限公司 | 图像再识别方法、装置及电子设备 |
CN108960189B (zh) * | 2018-07-20 | 2020-11-24 | 南京旷云科技有限公司 | 图像再识别方法、装置及电子设备 |
CN109117777A (zh) * | 2018-08-03 | 2019-01-01 | 百度在线网络技术(北京)有限公司 | 生成信息的方法和装置 |
CN109190482A (zh) * | 2018-08-06 | 2019-01-11 | 北京奇艺世纪科技有限公司 | 多标签视频分类方法及系统、系统训练方法及装置 |
CN108989804B (zh) * | 2018-08-23 | 2021-04-27 | 杭州雄迈集成电路技术股份有限公司 | 图像的编码方法及装置 |
CN108989804A (zh) * | 2018-08-23 | 2018-12-11 | 杭州雄迈集成电路技术有限公司 | 图像的编码方法及装置 |
CN109242090A (zh) * | 2018-08-28 | 2019-01-18 | 电子科技大学 | 一种基于gan网络的视频描述及描述一致性判别方法 |
CN109242090B (zh) * | 2018-08-28 | 2020-06-26 | 电子科技大学 | 一种基于gan网络的视频描述及描述一致性判别方法 |
CN109101948B (zh) * | 2018-08-28 | 2021-06-04 | 电子科技大学 | 一种基于时空及通道的多注意力机制视频描述方法 |
CN109101948A (zh) * | 2018-08-28 | 2018-12-28 | 电子科技大学 | 一种基于时空及通道的多注意力机制视频描述方法 |
CN109124625A (zh) * | 2018-09-04 | 2019-01-04 | 大连理工大学 | 一种驾驶员疲劳状态水平分级方法 |
CN109124625B (zh) * | 2018-09-04 | 2021-07-20 | 大连理工大学 | 一种驾驶员疲劳状态水平分级方法 |
CN109389055B (zh) * | 2018-09-21 | 2021-07-20 | 西安电子科技大学 | 基于混合卷积和注意力机制的视频分类方法 |
CN109389055A (zh) * | 2018-09-21 | 2019-02-26 | 西安电子科技大学 | 基于混合卷积和注意力机制的视频分类方法 |
CN109308519A (zh) * | 2018-09-29 | 2019-02-05 | 广州博通信息技术有限公司 | 一种基于神经网络的制冷设备故障预测方法 |
CN109508642B (zh) * | 2018-10-17 | 2021-08-17 | 杭州电子科技大学 | 基于双向gru和注意力机制的船舶监控视频关键帧提取方法 |
CN109508642A (zh) * | 2018-10-17 | 2019-03-22 | 杭州电子科技大学 | 基于双向gru和注意力机制的船舶监控视频关键帧提取方法 |
CN109522945A (zh) * | 2018-10-31 | 2019-03-26 | 中国科学院深圳先进技术研究院 | 一种群体情感识别方法、装置、智能设备及存储介质 |
CN109273084B (zh) * | 2018-11-06 | 2021-06-22 | 中山大学附属第一医院 | 基于多模态超声组学特征建模的方法及系统 |
CN109273084A (zh) * | 2018-11-06 | 2019-01-25 | 中山大学附属第医院 | 基于多模态超声组学特征建模的方法及系统 |
CN109710800A (zh) * | 2018-11-08 | 2019-05-03 | 北京奇艺世纪科技有限公司 | 模型生成方法、视频分类方法、装置、终端及存储介质 |
CN109710800B (zh) * | 2018-11-08 | 2021-05-25 | 北京奇艺世纪科技有限公司 | 模型生成方法、视频分类方法、装置、终端及存储介质 |
CN109542585B (zh) * | 2018-11-14 | 2020-06-16 | 山东大学 | 一种支持不规则时间间隔的虚拟机工作负载预测方法 |
CN109542585A (zh) * | 2018-11-14 | 2019-03-29 | 山东大学 | 一种支持不规则时间间隔的虚拟机工作负载预测方法 |
CN109376720A (zh) * | 2018-12-19 | 2019-02-22 | 杭州电子科技大学 | 基于关节点时空简单循环网络和注意力机制的动作分类方法 |
CN109376720B (zh) * | 2018-12-19 | 2022-01-18 | 杭州电子科技大学 | 基于关节点时空简单循环网络和注意力机制的动作分类方法 |
CN109670548B (zh) * | 2018-12-20 | 2023-01-06 | 电子科技大学 | 基于改进lstm-cnn的多尺寸输入har算法 |
CN109670548A (zh) * | 2018-12-20 | 2019-04-23 | 电子科技大学 | 基于改进lstm-cnn的多尺寸输入har算法 |
CN109670453A (zh) * | 2018-12-20 | 2019-04-23 | 杭州东信北邮信息技术有限公司 | 一种提取短视频主题的方法 |
CN109509484A (zh) * | 2018-12-25 | 2019-03-22 | 科大讯飞股份有限公司 | 一种婴儿啼哭原因的预测方法及装置 |
CN109711380A (zh) * | 2019-01-03 | 2019-05-03 | 电子科技大学 | 一种基于全局上下文信息的时序行为片段生成系统及方法 |
CN109766942A (zh) * | 2019-01-07 | 2019-05-17 | 西南交通大学 | 一种基于注意力神经网络的小样本学习图像识别方法 |
CN109766942B (zh) * | 2019-01-07 | 2020-08-04 | 西南交通大学 | 一种基于注意力神经网络的小样本学习图像识别方法 |
CN109871777A (zh) * | 2019-01-23 | 2019-06-11 | 广州智慧城市发展研究院 | 一种基于注意力机制的行为识别系统 |
CN109871777B (zh) * | 2019-01-23 | 2021-10-01 | 广州智慧城市发展研究院 | 一种基于注意力机制的行为识别系统 |
CN109886978A (zh) * | 2019-02-20 | 2019-06-14 | 贵州电网有限责任公司 | 一种基于深度学习的端到端告警信息识别方法 |
CN110032926A (zh) * | 2019-02-22 | 2019-07-19 | 哈尔滨工业大学(深圳) | 一种基于深度学习的视频分类方法以及设备 |
WO2020182078A1 (zh) * | 2019-03-08 | 2020-09-17 | 腾讯科技(深圳)有限公司 | 影像分析方法、显微镜视频流处理方法和相关装置 |
US11908188B2 (en) | 2019-03-08 | 2024-02-20 | Tencent Technology (Shenzhen) Company Limited | Image analysis method, microscope video stream processing method, and related apparatus |
CN109919114A (zh) * | 2019-03-14 | 2019-06-21 | 浙江大学 | 一种基于互补注意力机制循环卷积解码的视频描述方法 |
CN109992679A (zh) * | 2019-03-21 | 2019-07-09 | 腾讯科技(深圳)有限公司 | 一种多媒体数据的分类方法及装置 |
CN110222556A (zh) * | 2019-04-22 | 2019-09-10 | 北方工业大学 | 一种人体动作识别系统及方法 |
CN111860033A (zh) * | 2019-04-24 | 2020-10-30 | 北京三好互动教育科技有限公司 | 一种注意力识别方法和装置 |
CN110070067A (zh) * | 2019-04-29 | 2019-07-30 | 北京金山云网络技术有限公司 | 视频分类方法及其模型的训练方法、装置和电子设备 |
CN110070067B (zh) * | 2019-04-29 | 2021-11-12 | 北京金山云网络技术有限公司 | 视频分类方法及其模型的训练方法、装置和电子设备 |
CN110263916A (zh) * | 2019-05-31 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 数据处理方法和装置、存储介质及电子装置 |
CN110222649B (zh) * | 2019-06-10 | 2020-12-18 | 北京达佳互联信息技术有限公司 | 视频分类方法、装置、电子设备及存储介质 |
CN110222649A (zh) * | 2019-06-10 | 2019-09-10 | 北京达佳互联信息技术有限公司 | 视频分类方法、装置、电子设备及存储介质 |
CN110276397B (zh) * | 2019-06-24 | 2021-03-09 | 深动科技(北京)有限公司 | 一种基于门机制的图像特征提取方法、装置和系统 |
CN110276397A (zh) * | 2019-06-24 | 2019-09-24 | 深动科技(北京)有限公司 | 一种基于门机制的图像处理方法、装置和系统 |
CN110289096A (zh) * | 2019-06-28 | 2019-09-27 | 电子科技大学 | 一种基于深度学习的icu院内死亡率预测方法 |
CN110289096B (zh) * | 2019-06-28 | 2021-12-07 | 电子科技大学 | 一种基于深度学习的icu院内死亡率预测方法 |
CN110309797A (zh) * | 2019-07-05 | 2019-10-08 | 齐鲁工业大学 | 融合CNN-BiLSTM模型和概率协作的运动想象识别方法及系统 |
CN110381391A (zh) * | 2019-07-11 | 2019-10-25 | 北京字节跳动网络技术有限公司 | 视频快速切片方法、装置及电子设备 |
CN110381391B (zh) * | 2019-07-11 | 2021-11-09 | 北京字节跳动网络技术有限公司 | 视频快速切片方法、装置及电子设备 |
CN110334689A (zh) * | 2019-07-16 | 2019-10-15 | 北京百度网讯科技有限公司 | 视频分类方法和装置 |
US11256920B2 (en) | 2019-07-16 | 2022-02-22 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for classifying video |
CN110334689B (zh) * | 2019-07-16 | 2022-02-15 | 北京百度网讯科技有限公司 | 视频分类方法和装置 |
CN110751021A (zh) * | 2019-09-03 | 2020-02-04 | 北京迈格威科技有限公司 | 图像处理方法、装置、电子设备和计算机可读介质 |
CN110674887A (zh) * | 2019-10-08 | 2020-01-10 | 中兴飞流信息科技有限公司 | 一种基于视频分类的端到端道路拥堵检测算法 |
CN111179971A (zh) * | 2019-12-03 | 2020-05-19 | 杭州网易云音乐科技有限公司 | 无损音频检测方法、装置、电子设备及存储介质 |
CN111209433A (zh) * | 2020-01-03 | 2020-05-29 | 北京工业大学 | 一种基于特征增强的视频分类算法 |
WO2021169784A1 (en) * | 2020-02-28 | 2021-09-02 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method, system, and computer-readable medium for obtaining aggregated multi-scale first and second dimensional receptive field information |
CN111273540A (zh) * | 2020-04-15 | 2020-06-12 | 河南广播电视大学 | 一种基于zigbee通信和北斗双模授时的无线校时系统 |
CN112084887A (zh) * | 2020-08-19 | 2020-12-15 | 北京影谱科技股份有限公司 | 一种基于注意力机制的自适应视频分类方法及系统 |
CN112232164A (zh) * | 2020-10-10 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 一种视频分类方法和装置 |
CN112232164B (zh) * | 2020-10-10 | 2024-08-06 | 腾讯科技(深圳)有限公司 | 一种视频分类方法和装置 |
CN112418361A (zh) * | 2021-01-22 | 2021-02-26 | 杭州木链物联网科技有限公司 | 一种基于深度学习的工控系统异常检测方法、装置 |
CN115587617A (zh) * | 2022-10-17 | 2023-01-10 | 国网黑龙江省电力有限公司 | 长时间序列的序列信息捕捉方法及装置、短期用电量预测方法及装置 |
CN116935292A (zh) * | 2023-09-15 | 2023-10-24 | 山东建筑大学 | 一种基于自注意力模型的短视频场景分类方法及系统 |
CN116935292B (zh) * | 2023-09-15 | 2023-12-08 | 山东建筑大学 | 一种基于自注意力模型的短视频场景分类方法及系统 |
CN117848713A (zh) * | 2024-01-05 | 2024-04-09 | 湖州槐坎南方水泥有限公司 | 布袋除尘器脉冲阀运行状态监测系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107341462A (zh) | 一种基于注意力机制的视频分类方法 | |
CN109637546B (zh) | 知识蒸馏方法和装置 | |
CN111143550B (zh) | 一种基于层次注意力神经网络模型的争议焦点自动识别方法 | |
CN103984959B (zh) | 一种基于数据与任务驱动的图像分类方法 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN108388896A (zh) | 一种基于动态时序卷积神经网络的车牌识别方法 | |
CN108875807A (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN109891897A (zh) | 用于分析媒体内容的方法 | |
CN108763444A (zh) | 利用分层编码解码器网络机制来解决视频问答的方法 | |
CN111125358A (zh) | 一种基于超图的文本分类方法 | |
CN105205448A (zh) | 基于深度学习的文字识别模型训练方法和识别方法 | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
CN112733533A (zh) | 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法 | |
CN110717843A (zh) | 一种可复用的法条推荐框架 | |
CN110033008A (zh) | 一种基于模态变换与文本归纳的图像描述生成方法 | |
CN109934158A (zh) | 基于局部强化运动历史图和递归卷积神经网络的视频情感识别方法 | |
CN112990196B (zh) | 基于超参数搜索和二阶段训练的场景文字识别方法及系统 | |
CN111914060B (zh) | 一种基于在线点评数据的商户多视图特征提取及模型构建方法 | |
CN113297936A (zh) | 一种基于局部图卷积网络的排球群体行为识别方法 | |
CN112000771A (zh) | 一种面向司法公开服务的句子对智能语义匹配方法和装置 | |
CN105404865A (zh) | 基于概率态受限玻尔兹曼机级联的人脸检测方法 | |
Shen et al. | Hierarchical Attention Based Spatial-Temporal Graph-to-Sequence Learning for Grounded Video Description. | |
CN109325125B (zh) | 一种基于cnn优化的社交网络谣言检测方法 | |
CN108304912A (zh) | 一种运用抑制信号实现脉冲神经网络监督学习的系统和方法 | |
CN116452904B (zh) | 图像美学质量确定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171110 |
|
WD01 | Invention patent application deemed withdrawn after publication |