CN106845329A - 一种基于深度卷积特征多通道金字塔池化的动作识别方法 - Google Patents
一种基于深度卷积特征多通道金字塔池化的动作识别方法 Download PDFInfo
- Publication number
- CN106845329A CN106845329A CN201610997834.3A CN201610997834A CN106845329A CN 106845329 A CN106845329 A CN 106845329A CN 201610997834 A CN201610997834 A CN 201610997834A CN 106845329 A CN106845329 A CN 106845329A
- Authority
- CN
- China
- Prior art keywords
- depth
- feature
- multichannel
- network model
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000010586 diagram Methods 0.000 claims description 7
- 238000012706 support-vector machine Methods 0.000 claims description 6
- 238000009825 accumulation Methods 0.000 claims description 3
- 241000406668 Loxodonta cyclotis Species 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 3
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 239000010931 gold Substances 0.000 description 2
- 229910052737 gold Inorganic materials 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于深度卷积特征多通道金字塔池化的动作识别方法,包括:1)对输入视频每一帧采用空间流深度网络模型,得到每帧的表观特征;对视频中每连续M帧采用时间流深度网络模型,提取视频的运动特征;2)对空间流深度网络模型和时间流深度网络模型得到的多通道深度特征图采用4层空间金字塔结构,得到的每个局部块用最大池化方法计算该块的最大值表达,获取特征图在不同尺度下的局部信息;3)将深度特征图中在相同时空位置的多通道局部块的表达连接起来,形成视频的特征描述子;4)采用增强型局部级联描述子向量方法进行特征表示,得到视频的中层表示;4)采用线性支持向量机进行特征分类,得到识别准确率。
Description
技术领域
本发明涉及计算机视觉领域,更具体地,涉及一种基于深度卷积特征多通道金字塔池化的动作识别方法。
背景技术
科技的发展使得摄像设备得到了普及,数量巨大的视频数据也随之产生。同时,针对视频的应用也应运而生:智能视频监控、视频数据分类、高级人机交互等。在这些应用中,针对人的动作进行理解是最核心的关注点,也是人们研究的核心内容。
由于人体动作识别有很大的潜在价值,所以此课题作为一个研究热点已经持续了至少十年时间,很多种方法都被提出,例如:基于密集轨迹(DT)的方法、基于时空兴趣点的方法以及基于卷积神经网络(CNN)的方法等。其中,基于CNN的方法研究的人数最多,这种方法能够取得目前最好的结果。然而,大多数深层CNN网络都将单张卷积图看成一个整体来用,而卷积图中的局部信息往往被忽略,所以,我们的动作识别研究将会针对基于深度卷积特征多通道金字塔池化的动作识别方法以提取深度特征中的局部信息。
基于卷积神经网络的方法的主要思想是:首先,对视频采用多层的卷积层、池化层和全连接层,提取视频的描述子特征;接下来将这些特征放入分类器中进行分类,以完成最终的识别过程。很多学者在这个基础上进行了探索和改进。Annane等人提出了一种双流卷积网络用于动作识别,包括空间流和时间流网络,空间流用于提取视频帧的表观特征,时间流用于提取视频连续帧的运动特征,将二者进行融合,以此提升识别效果。Wang等人将深度卷积特征和人工特征进行融合,学习到深度特征和人工特征这两种不同类型特征的优势。以上方法都取得了较好的效果,但是现存的基于深度网络的研究通常将单张深度特征图作为一个整体来使用而忽略了深度特征中的局部信息,而这种线索对于提高基于深度网络的识别准确率是有帮助的。
发明内容
为了克服上述现有技术的不足,本发明提供了一种基于深度卷积特征多通道金字塔池化的动作识别方法。该方法将视频数据集的视频作为输入,进行视频特征提取和识别,最后输出视频的分类结果,该方法具有简单易实现,识别效果好的特点。
为了达到上述目的,本发明采用的技术方案是:
一种基于深度卷积特征多通道金字塔池化的动作识别方法,包括以下步骤:
(1)输入待识别的视频,采用two-stream深度网络模型得到多通道深度卷积图;其中two-stream网络模型包括空间流(spatial-stream)深度网络模型和时间流(temporal-stream)深度网络模型。
具体是:对输入视频的每一帧采用空间流网络,得到帧的表观特征;对输入视频的每连续M帧,利用时间流网络模型得到运动特征;其中空间流网络和时间流网络模型均包含5个卷积层,3个池化层,以及3个全连接层;
(2)对空间流深度网络模型和时间流深度网络模型得到的多通道深度特征图采用4层空间金字塔结构,得到的每个局部块用最大池化方法计算该块的最大值表达,获取特征图在不同尺度下的局部信息;
(3)将深度特征图中在相同时空位置的多通道局部块的表达连接起来,形成视频的特征描述子;
(4)对步骤(3)提取的描述子特征采用局部级联描述子向量方法(VLAD)进行特征建模,形成该视频最终的向量表示;
(5)采用支持向量机(SVM)进行特征分类,最终输出分类结果,获取视频的动作识别结果,该方法在YouTube人体行为数据集上实现了93.1%的准确率。
本发明基于深度卷积神经网络方法,并且通过探索深度特征图中的局部信息,提出了一种新的深度特征多通道金字塔池化描述子,它能够有效地获取特征图在不同尺度下的局部信息,并且结合了局部级联描述子向量,显著提高了动作识别的准确率。
优选的,步骤(1)中,空间流和时间流深度网络模型将视频每帧作为输入,对原始图像做多层的卷积和池化操作,得到每层的输出都是多个通道的深度特征图,获取更具抽象的图像特征表达。
优选的,步骤(2)中,选取空间流深度网络模型的第5层卷积层的输出特征图以及时间流深度网络模型的第4层卷积层的输出特征图来进行空间金字塔的操作,对多通道深度特征图采用4层金字塔结构,其中4层金字塔结构为(1×1,2×2,3×3,4×4),其中第一层(1×1)对应的是整个多通道深度特征图,第4层(4×4)对应的是多通道深度特征图最大尺度下的局部块,因此通过金字塔结构得到多通道深度特征图位于不同尺度下的局部块,对每个局部块采用最大池化方法,计算块中最大值作为该局部块的特征表示。
优选的,步骤(3)中,由于每个通道上的特征图包含的是不同图像信息,故将所有通道上的特征图中同一空间位置的块的特征串联起来,形成该块的多通道特征描述子。
优选的,步骤(4)中,描述子特征表示为{x1,...xi,...xd},d表示局部块的描述子特征的维数,对描述子特征{x1,...xi,...xd},假设利用k-means聚类已经学习得到的码本(codebook)和k个中心(c1,...cj,...ck),采用局部级联描述子向量方法(VLAD)对特征进行特征建模,具体过程如下:
(5-1)描述子特征的每一维xi赋给码本(codebook)中离该描述子特征最近的聚类中心cj,然后得到量化后的索引:NN(xi)=argminj||xi-cj||
(5-2)将所有离聚类中心cj最近的描述子特征,计算这些描述子特征和中心cj的差的累积和,获得子向量:
(5-3)将各子向量uj连接起来,得到k×d维的向量表示u=[u1...uk];
(5-4)对向量u先采用“power-law”归一化处理,即:
vj=|vj|α×sign(vj),j=1...k×d,α=0.2
随后用2范数归一化(L2-normalized),最终得到该描述子特征的VLAD表示。
本发明相对于现有技术具有如下的优点及效果:
1、本发明提出了一种新的描述子特征来充分获取不同尺度下的深度信息。
2、本发明对不同通道下的卷积图的相同区域做池化连接,可以得到该区域的不同方面的信息,比如边缘或者纹理。
3、本发明将局部级联描述子结合深度特征进行识别,提升了识别效果。
附图说明
图1为本发明的总体流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
附图给出了本发明的操作过程,如1图所示,一种基于深度卷积特征多通道金字塔池化的动作识别方法,包括以下步骤:
(1)输入待识别的视频,采用two-stream深度网络模型得到多通道深度卷积图;其中two-stream网络模型包括空间流(spatial-stream)深度网络模型和时间流(temporal-stream)深度网络模型。
具体是:对输入视频的每一帧采用空间流网络,得到帧的表观特征;对输入视频的每连续M帧,利用时间流网络模型得到运动特征。其中空间流网络和时间流网络模型均包含5个卷积层,3个池化层,以及3个全连接层;
(2)对空间流深度网络模型和时间流深度网络模型得到的多通道深度特征图采用4层空间金字塔结构,得到的每个局部块用最大池化方法计算该块的最大值表达,获取特征图在不同尺度下的局部信息;
(3)将深度特征图中在相同时空位置的多通道局部块的表达连接起来,形成视频的特征描述子;
(4)对步骤(3)提取的描述子特征采用局部级联描述子向量方法(VLAD)进行特征建模,形成该视频最终的向量表示;
(5)采用支持向量机(SVM)进行特征分类,最终输出动作视频的识别准确率。
步骤(1)中的具体过程如下:空间流和时间流深度网络模型将视频每帧作为输入,对原始图像做多层的卷积和池化操作,得到每层的输出都是多个通道的深度特征图,获取更具抽象的图像特征表达。
步骤(2)中的具体过程如下:选取空间流网络第5层卷积层的输出特征图以及时间流网络第4层卷积层的输出特征图来进行空间金字塔的操作,对特征图采用4层金字塔结构(1×1,2×2,3×3,4×4),其中第一层(1×1)对应的是整个特征图,而第4层(4×4)对应的是最大尺度下的局部块。因此通过金字塔结构得到特征图位于不同尺度下的局部块。对每个局部块采用最大池化方法,计算块中最大值作为该局部块的特征表示。
步骤(3)中的具体过程如下:由于每个通道上的特征图包含的是不同图像信息,故将所有通道上的特征图中同一空间位置的块的特征串联起来,形成该块的多通道特征描述子。
步骤(4)中的具体过程如下:描述子特征表示为{x1,...xi,...xd},d表示局部块的描述子特征的维数,对描述子特征{x1,...xi,...xd},假设利用k-means聚类已经学习得到的码本(codebook)和k个中心(c1,...cj,...ck),采用局部级联描述子向量方法(VLAD)对特征进行特征建模,具体过程如下:
(5-1)描述子特征的每一维xi赋给码本(codebook)中离该描述子特征最近的聚类中心cj,然后得到量化后的索引:NN(xi)=argminj||xi-cj||
(5-2)将所有离聚类中心cj最近的描述子特征,计算这些描述子特征和中心cj的差的累积和,获得子向量:
(5-3)将各子向量uj连接起来,得到k×d维的向量表示u=[u1...uk];
(5-4)对向量u先采用“power-law”归一化处理,即:
vj=|vj|α×sign(vj),j=1...k×d,α=0.2
随后用2范数归一化(L2-normalized),最终得到该描述子特征的VLAD表示。
Claims (5)
1.一种基于深度卷积特征多通道金字塔池化的动作识别方法,其特征在于,包括以下步骤:
(1)输入待识别的视频,采用two-stream深度网络模型得到多通道深度卷积图;其中two-stream网络模型包括空间流(spatial-stream)深度网络模型和时间流(temporal-stream)深度网络模型。
具体是:对输入视频的每一帧采用空间流网络,得到帧的表观特征;对输入视频的每连续M帧,利用时间流网络模型得到运动特征;其中空间流网络和时间流网络模型均包含5个卷积层,3个池化层,以及3个全连接层;
(2)对空间流深度网络模型和时间流深度网络模型得到的多通道深度特征图采用4层空间金字塔结构,得到的每个局部块用最大池化方法计算该局部块的最大值表达,获取特征图在不同尺度下的局部信息;
(3)将深度特征图中在相同时空位置的多通道局部块的表达连接起来,形成视频的特征描述子;
(4)对步骤(3)提取的描述子特征采用局部级联描述子向量方法(VLAD)进行特征建模,形成该视频最终的向量表示;
(5)采用支持向量机(SVM)进行特征分类,最终输出分类结果,获取视频的动作识别结果。
2.根据权利要求1所述的深度卷积特征多通道金字塔池化的动作识别方法,其特征在于,所述步骤(1)中,空间流网络模型和时间流深度网络模型将视频每帧作为输入,对原始图像做多层的卷积和池化操作,得到每层的输出都是多个通道的深度特征图,获取更具抽象的图像特征表达。
3.根据权利要求1所述的深度卷积特征多通道金字塔池化的动作识别方法,其特征在于,所述步骤(2)中,选取空间流网络模型的第5层卷积层的输出特征图以及时间流网络模型的第4层卷积层的输出卷积图来进行空间金字塔的操作,对多通道卷积图采用4层金字塔结构,其中4层金字塔结构为(1×1,2×2,3×3,4×4),其中第一层(1×1)对应的是整个多通道特征图,第4层(4×4)对应的是多通道特征图最大尺度下的局部块,因此通过金字塔结构得到多通道特征图位于不同尺度下的局部块,对每个局部块采用最大池化方法,计算块中最大值作为该局部块的特征表示。
4.根据权利要求1所述的深度卷积特征多通道金字塔池化的动作识别方法,其特征在于,所述步骤(3)中,由于每个通道上的特征图包含的是不同图像信息,故将所有通道上的特征图中同一空间位置的局部块的特征串联起来,形成该块的多通道特征描述子。
5.根据权利要求1所述的深度卷积特征多通道金字塔池化的动作识别方法,其特征在于,所述步骤(4)中,描述子特征表示为{x1,...xi,...xd},d表示局部块的描述子特征的维数,对描述子特征{x1,...xi,...xd},假设利用k-means聚类已经学习得到的码本(codebook)和k个中心(c1,...cj,...ck),采用局部级联描述子向量方法(VLAD)对特征进行特征建模,具体过程如下:
(5-1)描述子特征的每一维xi赋给码本(codebook)中离该描述子特征最近的聚类中心cj,然后得到量化后的索引:NN(xi)=arg minj||xi-cj||,
(5-2)确定所有离聚类中心cj最近的描述子特征,计算这些描述子特征和中心cj的差的累积和,获得子向量:
(5-3)将各子向量uj连接起来,得到k×d维的向量表示u=[u1...uk];
(5-4)对向量u先采用“power-law”归一化处理,即:
vj=|vj|α×sign(vj),j=1...k×d,α=0.2
随后用2范数归一化(L2-normalized),最终得到该描述子特征的VLAD表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610997834.3A CN106845329A (zh) | 2016-11-11 | 2016-11-11 | 一种基于深度卷积特征多通道金字塔池化的动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610997834.3A CN106845329A (zh) | 2016-11-11 | 2016-11-11 | 一种基于深度卷积特征多通道金字塔池化的动作识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106845329A true CN106845329A (zh) | 2017-06-13 |
Family
ID=59145720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610997834.3A Pending CN106845329A (zh) | 2016-11-11 | 2016-11-11 | 一种基于深度卷积特征多通道金字塔池化的动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106845329A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107563284A (zh) * | 2017-07-26 | 2018-01-09 | 中国农业大学 | 行人追踪方法及装置 |
CN107705805A (zh) * | 2017-10-25 | 2018-02-16 | 北京奇虎科技有限公司 | 音频查重的方法及装置 |
CN108416795A (zh) * | 2018-03-04 | 2018-08-17 | 南京理工大学 | 基于排序池化融合空间特征的视频动作识别方法 |
CN108596163A (zh) * | 2018-07-10 | 2018-09-28 | 中国矿业大学(北京) | 一种基于cnn和vlad的煤岩识别方法 |
CN108875611A (zh) * | 2018-06-05 | 2018-11-23 | 北京字节跳动网络技术有限公司 | 视频动作识别方法和装置 |
CN109948666A (zh) * | 2019-03-01 | 2019-06-28 | 广州杰赛科技股份有限公司 | 图像相似性识别方法、装置、设备及存储介质 |
CN109947986A (zh) * | 2019-03-18 | 2019-06-28 | 东华大学 | 基于结构化分段卷积神经网络的红外视频时序定位方法 |
CN109977904A (zh) * | 2019-04-04 | 2019-07-05 | 成都信息工程大学 | 一种基于深度学习的轻量型的人体动作识别方法 |
CN110032942A (zh) * | 2019-03-15 | 2019-07-19 | 中山大学 | 基于时域分段及特征差分的动作识别方法 |
CN110097000A (zh) * | 2019-04-29 | 2019-08-06 | 东南大学 | 基于局部特征聚合描述符和时序关系网络的视频行为识别方法 |
CN110569814A (zh) * | 2019-09-12 | 2019-12-13 | 广州酷狗计算机科技有限公司 | 视频类别识别方法、装置、计算机设备及计算机存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069434A (zh) * | 2015-08-12 | 2015-11-18 | 河海大学常州校区 | 一种视频中人体动作行为识别方法 |
CN105956517A (zh) * | 2016-04-20 | 2016-09-21 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于密集轨迹的动作识别方法 |
-
2016
- 2016-11-11 CN CN201610997834.3A patent/CN106845329A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069434A (zh) * | 2015-08-12 | 2015-11-18 | 河海大学常州校区 | 一种视频中人体动作行为识别方法 |
CN105956517A (zh) * | 2016-04-20 | 2016-09-21 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于密集轨迹的动作识别方法 |
Non-Patent Citations (3)
Title |
---|
LING SHAO 等: "Spatio-Temporal Laplacian Pyramid Coding for Action Recognition", 《IEEE TRANSACTIONS ON CYBERNETICS》 * |
SHICHAO ZHAO 等: "Pooling the Convolutional Layers in Deep ConvNets for Action Recognition", 《COMPUTER VISION AND PATTERN RECOGNITION》 * |
赵竞雄: "基于深度信息的人体动作识别", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107563284A (zh) * | 2017-07-26 | 2018-01-09 | 中国农业大学 | 行人追踪方法及装置 |
CN107705805B (zh) * | 2017-10-25 | 2021-01-29 | 北京奇虎科技有限公司 | 音频查重的方法及装置 |
CN107705805A (zh) * | 2017-10-25 | 2018-02-16 | 北京奇虎科技有限公司 | 音频查重的方法及装置 |
CN108416795A (zh) * | 2018-03-04 | 2018-08-17 | 南京理工大学 | 基于排序池化融合空间特征的视频动作识别方法 |
CN108875611A (zh) * | 2018-06-05 | 2018-11-23 | 北京字节跳动网络技术有限公司 | 视频动作识别方法和装置 |
CN108596163A (zh) * | 2018-07-10 | 2018-09-28 | 中国矿业大学(北京) | 一种基于cnn和vlad的煤岩识别方法 |
CN109948666A (zh) * | 2019-03-01 | 2019-06-28 | 广州杰赛科技股份有限公司 | 图像相似性识别方法、装置、设备及存储介质 |
CN110032942B (zh) * | 2019-03-15 | 2021-10-08 | 中山大学 | 基于时域分段及特征差分的动作识别方法 |
CN110032942A (zh) * | 2019-03-15 | 2019-07-19 | 中山大学 | 基于时域分段及特征差分的动作识别方法 |
CN109947986A (zh) * | 2019-03-18 | 2019-06-28 | 东华大学 | 基于结构化分段卷积神经网络的红外视频时序定位方法 |
CN109977904A (zh) * | 2019-04-04 | 2019-07-05 | 成都信息工程大学 | 一种基于深度学习的轻量型的人体动作识别方法 |
CN110097000A (zh) * | 2019-04-29 | 2019-08-06 | 东南大学 | 基于局部特征聚合描述符和时序关系网络的视频行为识别方法 |
CN110569814A (zh) * | 2019-09-12 | 2019-12-13 | 广州酷狗计算机科技有限公司 | 视频类别识别方法、装置、计算机设备及计算机存储介质 |
CN110569814B (zh) * | 2019-09-12 | 2023-10-13 | 广州酷狗计算机科技有限公司 | 视频类别识别方法、装置、计算机设备及计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106845329A (zh) | 一种基于深度卷积特征多通道金字塔池化的动作识别方法 | |
CN106650674A (zh) | 一种基于混合池化策略的深度卷积特征的动作识别方法 | |
CN110516536B (zh) | 一种基于时序类别激活图互补的弱监督视频行为检测方法 | |
CN110096950A (zh) | 一种基于关键帧的多特征融合行为识别方法 | |
CN110188343A (zh) | 基于融合注意力网络的多模态情感识别方法 | |
Xiao et al. | Scene classification with improved AlexNet model | |
CN108229338A (zh) | 一种基于深度卷积特征的视频行为识别方法 | |
CN109241995B (zh) | 一种基于改进型ArcFace损失函数的图像识别方法 | |
CN107679491A (zh) | 一种融合多模态数据的3d卷积神经网络手语识别方法 | |
CN106909887A (zh) | 一种基于cnn和svm的动作识别方法 | |
CN109509192A (zh) | 融合多尺度特征空间与语义空间的语义分割网络 | |
CN108830252A (zh) | 一种融合全局时空特征的卷积神经网络人体动作识别方法 | |
CN109886358A (zh) | 基于多时空信息融合卷积神经网络的人体行为识别方法 | |
CN108804397A (zh) | 一种基于少量目标字体的汉字字体转换生成的方法 | |
CN104281853A (zh) | 一种基于3d卷积神经网络的行为识别方法 | |
CN111709304A (zh) | 一种基于时空注意力增强特征融合网络的行为识别方法 | |
CN105956517B (zh) | 一种基于密集轨迹的动作识别方法 | |
CN106778444B (zh) | 一种基于多视图卷积神经网络的表情识别方法 | |
CN104778476B (zh) | 一种图像分类方法 | |
CN110188708A (zh) | 一种基于卷积神经网络的人脸表情识别方法 | |
CN108647599B (zh) | 结合3d跃层连接和循环神经网络的人体行为识别方法 | |
CN113343860A (zh) | 一种基于视频图像和语音的双模态融合情感识别方法 | |
CN104809469A (zh) | 一种面向服务机器人的室内场景图像分类方法 | |
CN113505719B (zh) | 基于局部-整体联合知识蒸馏算法的步态识别模型压缩系统及方法 | |
CN113326748B (zh) | 一种采用多维相关注意力模型的神经网络行为识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170613 |