CN106897714A - 一种基于卷积神经网络的视频动作检测方法 - Google Patents
一种基于卷积神经网络的视频动作检测方法 Download PDFInfo
- Publication number
- CN106897714A CN106897714A CN201710177579.2A CN201710177579A CN106897714A CN 106897714 A CN106897714 A CN 106897714A CN 201710177579 A CN201710177579 A CN 201710177579A CN 106897714 A CN106897714 A CN 106897714A
- Authority
- CN
- China
- Prior art keywords
- layer
- video
- training
- network
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 43
- 238000001514 detection method Methods 0.000 title claims abstract description 30
- 230000009471 action Effects 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 238000011176 pooling Methods 0.000 claims description 47
- 238000010586 diagram Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims 1
- 238000005070 sampling Methods 0.000 abstract description 7
- 238000012360 testing method Methods 0.000 description 10
- 239000012634 fragment Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Operations Research (AREA)
- Image Analysis (AREA)
Abstract
本发明公布了一种视频动作检测方法,涉及计算机视觉识别技术领域。本发明视频动作检测方法基于卷积神经网络,通过在网络结构中增加时空金字塔池化层,消除网络对输入的限制,加快训练和检测的速度,提高视频动作分类和时间定位的性能;卷积神经网络包括卷积层、普通池化层、时空金字塔池化层和全连接层;卷积神经网络的输出包括类别分类输出层和时间定位计算结果输出层;本发明方法不需要通过下采样来获取不同时间长度的视频片段,而是直接一次输入整个视频,提高了效率;同时,由于网络训练的是同一频率的视频片段,并无增加类内的差异性,降低了网络的学习负担,模型收敛得更快,检测效果更好。
Description
技术领域
本发明涉及计算机视觉识别技术,尤其涉及一种基于卷积神经网络的视频动作检测方法。
背景技术
近些年来,几乎人手一部手机。每部手机上都有摄像头。加上互联网的发展和通信技术的进步,人们越来越喜欢拍摄视频,并且传播到互联网上,所以视频的数量呈爆发式增长,视频的储存和分析技术非常重要。
视频动作检测是指对视频中的动作进行分类,并且给出动作发生的开始时间和结束时间,示例如图1所示。近几年,视频动作识别任务取得了很大的进展,但是主要适用于已经裁剪好的视频,即视频中有且只有一个动作,没有冗余的帧。于是,学者开始着手研究未裁剪的视频,即视频动作检测任务。
视频任务过去所采用的主流方法是首先手工提取传统特征,而后结合建模方法。此类方法目前效果最好的是提取基于改进后的稠密轨迹(improved Dense Trajectory,iDT)的传统特征,结合费舍尔向量(Fisher Vector,FV)建模。
卷积神经网络(Convolutional Neural Network,CNN)在图片任务和视频动作识别任务上取得了很大的突破。于是,学者开始把卷积神经网络应用到视频动作检测任务上。有学者尝试用卷积神经网络提取视频中帧级别的特征,再结合传统特征。但这类方法中,二维的卷积神经网络难以挖掘视频中的运动信息,而运动信息对动作的建模和动作的时间边界(即开始时间和结束时间)的确定起着非常重要的作用。
针对这个局限,有学者运用三维(二维空间+时间)卷积神经网络(3D CNN),提出了分段卷积神经网络(Segment-CNN,S-CNN)。这类方法在视频中提取不同尺度的片段(Segment),用三个结构相同的网络对其进行处理,各网络特点分述如下:
第一个是候选网络(Proposal Network),对片段进行简单的二分类,剔除非动作片段,将动作片段输入第二个网络;
第二个是分类网络(Classification Network),给出片段的具体类别(包括类别“背景”)。用分类网络的参数初始化第三个网络;
第三个是定位网络(Localization Network),其损失函数(Loss Function)考虑了片段和实际视频动作片段(Ground Truths)的重合率,使得重合越多的片段的置信度越高,方便后处理确定动作的时间边界。
但是,有学者认为上述方法中的三个网络独立工作,阻碍了其间的信息共享,而且在训练阶段会耗费大量的运算资源和时间,同时,总体效果的上限受到候选网络的限制。于是,他们提出了将三个阶段的网络整合为一个网络,进行多任务学习。但是,这些方法都有一个局限:即要求网络输入的视频片段的尺寸一致,尤其是视频片段的帧数一致。由于上述现有方法均通过控制下采样的频率来获取不同时间长度的片段,例如每2帧取1帧,每4帧取一帧,每8帧取1帧……,而这些不同采样频率获得的片段通过同一网络结构来处理,因此会导致以下问题:
(一)稀疏采样会破坏动作内的连续性,使得3D CNN学习不到较好的运动特征;
(二)不同采样频率获取的视频片段共用一个网络进行训练,会增加类内差异性,使网络学习负担大,需要更复杂的网络,和更多的训练数据。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于卷积神经网络的视频动作检测方法,这是一种不要求输入的视频片段尺寸一致的方案。本发明通过在传统网络结构中增加时空金字塔池化层,消除网络对输入的限制,加快训练和测试的速度,更好地挖掘视频中的运动信息,使视频动作分类和时间定位的性能都得以提高。
本发明的核心特点:一是在传统卷积神经网络最后一个卷积层和第一个全连接层之间中加入了一个时空金字塔池化层;二是把整个视频输入网络,在最后一层特征图对感兴趣区域对应的特征进行处理,获取统一尺寸的特征,输入全连接层,进行分类。在传统卷积神经网络结构中增加时空金字塔池化层,时空金字塔池化层有以下几方面优势:第一,不管输入尺寸如何,时空金字塔池化层能提供统一尺寸的输出,而传统滑动窗口式的池化层做不到这一点;第二,时空金字塔池化层能提供多层次、更鲁棒的时空特征,而传统池化方法只能提供单一层次的特征;第三,由于输入的尺寸各异,时空金字塔池化层能对在不同尺寸上提取的特征进行池化。
一般地,现有卷积神经网络由两部分组成:卷积层和其后的全连接层。卷积层以滑动窗口的形式进行操作,因其权重共享,其实并不要求网络的输入尺寸一致,且能生成任意尺寸的特征图。但是,全连接层因其定义,则需要统一的输入尺寸。因此,现有方法需要固定尺寸的输入,尤其是视频。而在现有方法中,网络之所以需要同一尺寸的输入,仅是因为网络后面的全连接层。因此,本发明提出在3D CNN中增加时空金字塔池化层(PoolingLayers)来消除3D CNN网络对统一(固定)尺寸输入的限制。本发明采用时空金字塔池化层作为3D CNN网络最后一个池化层,即在3D CNN网络的最后一个卷积层和第一个全连接层之间插入一个时空金字塔池化层,使网络中的全连接层能获得统一尺寸的输入。
本发明提供的技术方案是:
一种基于卷积神经网络的视频动作检测方法,通过在网络结构中增加时空金字塔池化层,消除网络对输入的限制,加快训练和测试的速度,提高视频动作分类和时间定位的性能;所述卷积神经网络包括卷积层、普通池化层、时空金字塔池化层和全连接层;
包括如下步骤:
(一)在训练阶段,执行如下操作:
11)把训练视频整个输入到三维卷积神经网络(3D CNN)模型中,得到特征图;
12)在训练视频中获取不同长度的片段,根据实际视频动作片段(ground truth),从中挑选正样本和负样本,作为训练样本;
13)把训练样本在特征图中对应的特征区域输入到时空金字塔池化层,得到统一尺寸的特征表达;
14)把统一尺寸的特征输入到全连接层,定义损失函数,获取损失值;进行反向传播,调整模型中的参数,进行训练;
15)逐步降低训练的学习率,当训练损失已经不再下降时,便可得到已训练完毕的模型了;
(二)在检测阶段,执行如下操作:
21)把整个待检测视频输入到已训练完毕的模型中;
22)在待检测视频中提取不同长度的片段,在网络的特征层获取对应片段的特征区域,输入到时空金字塔池化层,得到统一尺寸的特征表达;
23)对统一尺寸的特征进行判别,得到分类置信度;最后选择置信度最高的为最终的定位结果和类别。分类置信度为模型最后的全连接层softmax的输出。
上述基于卷积神经网络的视频动作检测方法,在传统网络结构中增加时空金字塔池化层,使得不管输入尺寸如何,时空金字塔池化层能对在不同尺寸上提取的特征进行池化,且提供统一尺寸的输出;另外,时空金字塔池化层能提供多层次、更鲁棒的时空特征。在本发明实施例中,训练阶段采用随机梯度下降方式,学习参数,直至收敛。在测试阶段,和训练阶段一样获取样本,得到输出后,再选取得分最高的片段,即可得到视频中所发生的动作的类别,以及动作发生的起始时间和结束时间。
与现有技术相比,本发明的有益效果是:
本发明提供的基于卷积神经网络的视频动作检测方法,通过在传统网络结构中增加时空金字塔池化层,其技术优势包括:第一,不管输入尺寸如何,时空金字塔池化层能提供统一尺寸的输出,而传统滑动窗口式的池化层做不到这一点;第二,时空金字塔池化层能提供多层次、更鲁棒的时空特征,而传统池化方法只能提供单一层次的特征;第三,由于输入的尺寸各异,时空金字塔池化层能对在不同尺寸上提取的特征进行池化。
本发明方法能够消除网络对输入的限制,加快训练和测试的速度,更好地挖掘视频中的运动信息,使视频动作分类和时间定位的性能都得以提高。具体地,采用本发明技术方案来检测识别视频动作,不需要通过下采样来获取不同时间长度的视频片段,而是直接输入整个视频,把多次输入变为一次输入,提高了效率;同时,由于网络训练的是同一频率(都没有经过下采样)的视频片段,并无增加类内的差异性,降低了网络的学习负担,使得模型收敛得更快,检测效果更好。
附图说明
图1是视频动作与视频动作检测识别的起始时间示意图。
图2是本发明方法与传统方法的不同流程框图;
其中,(a)为现有传统方法;(b)为本发明提供的方法。
图3是本技术方案训练阶段和测试阶段流程框图;
其中,(a)为训练阶段;(b)为测试阶段。
图4是本发明采用的在网络中加入时空金字塔池化层的卷积神经网络的结构框图。
图5是三维卷积与二维卷积的区别;
其中,(a)为二维卷积;(b)为三维卷积。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种基于卷积神经网络的视频动作检测方法,通过在传统网络结构中增加时空金字塔池化层,消除网络对输入的限制,加快训练和测试的速度,更好地挖掘视频中的运动信息,使视频动作分类和时间定位的性能都得以提高。本发明不要求输入的视频片段尺寸一致。
如图2所示,由于传统卷积神经网络要求输入的视频片段尺寸一致,视频片段输入网络前需要经过下采样操作。而本发明则去除下采样过程,在最后一个卷积层和第一个全连接层之间插入了一个时空金字塔池化层。图3是本技术方案训练阶段和测试阶段流程框图。
图4是本发明采用的在网络中加入时空金字塔池化层的卷积神经网络的结构框图。如图4所示,时空金字塔池化层能生成统一尺寸的特征。其中,池化可分为n个层次。设定最后一层特征图的尺寸为W*H*T,各层次划分区域情况如下:
第一个层次:
我们把整个特征图看为一个区域,区域大小为W*H*T;
第k(k>1且k≤n)个层次:
我们把整个特征图划分为2k-1*2k-1*2k-1个区域,从前左上角开始划分,前左上角的(2k-1-1)*(2k-1-1)*(2k-1-1)个区域的大小为其余区域的大小在此基础上取所余,如
本发明具体实施时,设定k为3,第一个层次,我们可以划分为4*4*4个区域,如果最后一层特征图的尺寸为W*H*T,则前左上角3*3*3个区域的尺寸为 (是向下取整符号),其余区域的尺寸在此基础上取所余。第二个层次,我们可以划分为2*2*2个区域,各区域尺寸的计算和第一个层次相仿。第三个层次,我们可以把整个特征图看为一个区域。各区域内的池化方法可以采用最大池化法(Max Pooling),即取最大值。
输入样本处理:
如果把一个片段的每一帧都输入网络当中,会导致两个问题:其一,相邻两帧间变化较小,包含的运动信息也少,有点冗余;其二,输入网络的帧数较多,使得网络占用内存过大。
因此,本发明实施例以每三帧取一帧,使得输入网络的帧数减少,减轻冗余帧带来的内存负担。
本发明可以用滑动窗口的方式获取正负样本,即以16,31,61,121,241,481这些不同时间长度,以75%的重叠率滑动获取。本发明以“交集比并集(Intersection-over-Union,IoU)”方法作为划分正负样本的标准。
正样本满足以下两个条件之一即可:一,与真实标注IoU值最大;二,与真实标注IoU值大于0.7。
通常情况下,第二个条件可以在一个视频中获取多个正样本,所以满足第二个条件就可以获得足够多的正样本了,但有些情况下,第二个条件无法获得正样本,所以条件一可以确保至少有一个正样本。
负样本满足以下条件:与真实标注IoU值小于0.3。
其他既不是正样本也不是负样本的样本不参与训练。
把样本对应的最后一层卷积层的特征送入时空金字塔卷积层中,获得统一尺寸的特征,然后再输入到下一层网络。
网络结构:
本发明在三维卷积神经网络结构上进行实现。三维卷积神经网络将时间维度与空间维度同等对待,同时进行,在卷积操作中,采用三维卷积核,在池化操作中,也采用三维池化。二维卷积和三维卷积的区别如图5所示。
本发明实施例中,所有池化操作使用最大池化运算,在空间维度上使用2*2的大小,步长为2,在时间维度上,各层有所不同;所有卷积操作的卷积核大小为3*3*3,在时空维度的步长都是1。网络结构可以有2种,一种为带全连接层的结构,另一种为不带全连接层的结构,即全卷积结构。
带全连接层的结构A表示为:
conv1a(64)-pool1(1,1)-conv2a(128)-pool2(2,2)-conv3a(256)-conv3b(256)-pool3(2,2)-conv4a(512)-conv4b(512)-pool4(2,2)-conv5a(512)-conv5b(512)–pool_pyramid-fc6(4096)-fc7(4096)-fc8(K+1)
不带全连接层的结构B表示为:
conv1a(64)-pool1(1,1)-conv2a(128)-pool2(2,2)-conv3a(256)-conv3b(256)-pool3(2,2)-conv4a(512)-conv4b(512)-pool4(2,2)-conv5a(512)-conv5b(512)-pool_pyramid-fc8(K+1)
其中,conv(卷积核的数量)代表三维卷积层,pool(时间维度的核尺寸,时间维度的步长) 代表三维池化层,pool_pyramid代表时空金字塔池化层,fc(神经元数量)代表全连接层,K是动作分类的类别数量,K+1是加上了无指定类别的动作。不带全连接层的结构B是基于全卷积神经网络(Fully Convolutional Networks,FCN)的,相比带全连接层的结构A,B结构的参数数量更少。A、B两种结构变式皆可。
输出:
网络最后有两个输出层,一个是类别分类,另一个是时间定位的回归计算,可视为多任务(2个任务)学习。
损失函数可定义为:
L(p,u,tu,v)=Lcls(p,u)+λ[u≥1]Lloc(tu,v) (式1)
其中,Lcls(p,u)=-log pu;p是样本在K+1个类别上的概率分布,p=(p0...,pk);u是真实的类别;v是样本所在时间轴上的真实位置(即开始时间和结束时间)v=(vb,ve);tu是计算得到的位置λ为控制2个任务的损失值之间的平衡的参数,其取值范围为0到正无穷大;[u≥1]表示当u所代表的类别是动作时等于1,否则为0;
其中,tu∩v是tu和v的交集,tu∪v是tu和v的并集。
训练阶段:
在训练阶段可采用随机梯度下降,学习参数,直至收敛。本发明实施例中,批大小(batch size)为256,正负样本的比例为1:1,如果正样本数量不足,则由负样本补充。动量(momentum)可设为0.9。用三维卷积网络在Sports-1M数据集上训练得到的模型作为网络初始化的参数,全连接层fc8层的学习率为0.01,其他层的学习率为0.0001,当网络收敛时再降到原来的1/10,如此两次便停止训练。
测试阶段(检测):
在测试阶段,和训练阶段一样获取样本,网络最后一层类别分类的输出即为置信度,得到输出后,再选取置信度最高的片段,即可得到视频中所发生的动作的类别,以及动作发生的起始时间和结束时间(即网络最后一层时间定位回归计算的输出)。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (6)
1.一种视频动作检测方法,基于卷积神经网络模型,通过在网络结构中增加时空金字塔池化层,消除网络对输入的限制,加快训练和检测的速度,提高视频动作分类和时间定位的性能;所述卷积神经网络包括卷积层、普通池化层、时空金字塔池化层和全连接层;所述卷积神经网络的输出包括类别分类输出层和时间定位计算结果输出层;所述视频动作检测方法分为训练阶段和检测阶段,包括如下步骤:
(一)在训练阶段,执行如下操作:
11)把训练视频整个输入到卷积神经网络模型中,得到特征图;
12)在训练视频中获取不同长度的片段,根据实际视频动作片段ground truth,挑选出正样本和负样本,作为训练样本;
13)把训练样本在特征图中对应的特征区域输入到时空金字塔池化层,得到统一尺寸的特征表达;
14)把统一尺寸的特征输入到全连接层,通过定义损失函数获取损失值;再进行反向传播,调整模型中的参数,进行训练;
15)逐步降低训练的学习率,当训练损失不再下降时,得到训练好的模型;
(二)在检测阶段,执行如下操作:
21)把待检测视频整个输入到步骤15)所述训练好的模型中;
22)在待检测视频中提取不同长度的片段,在网络的特征层获取对应片段的特征区域,输入到时空金字塔池化层,得到统一尺寸的特征表达;
23)对统一尺寸的特征进行判别,根据类别分类输出层得到分类置信度;选择置信度最高的分类,得到视频中所发生动作的类别;并根据网络输出层输出的时间定位计算结果,得到动作发生的起始时间和结束时间;由此实现视频动作检测。
2.如权利要求1所述视频动作检测方法,其特征是,所述卷积神经网络模型采用三维卷积神经网络。
3.如权利要求1所述视频动作检测方法,其特征是,在所述卷积神经网络中加入时空金字塔池化层,所述时空金字塔池化层分为n个层次,设定最后一层特征图的尺寸为W*H*T,按以下方法划分各层次的区域:
第1个层次为整个特征图,区域大小为W*H*T;
第k(k>1且k≤n)个层次:将整个特征图划分为2k-1*2k-1*2k-1个区域,从前左上角开始划分,前左上角的(2k-1-1)*(2k-1-1)*(2k-1-1)个区域的大小为 其余区域的大小在此基础上取所余,为
4.如权利要求1所述视频动作检测方法,其特征是,所述正样本和负样本采用交集比并集(Intersection-over-Union,IoU)方法进行划分。
5.如权利要求1所述视频动作检测方法,其特征是,所述损失函数定义为式1:
L(p,u,tu,v)=Lcls(p,u)+λ[u≥1]Lloc(tu,v) (式1)
其中,
Lcls(p,u)=-log pu;p是样本在K+1个类别上的概率分布,p=(p0...,pk);
tu∩v是tu和v的交集,tu∪v是tu和v的并集;
u是真实的类别;
v是样本所在时间轴上的真实位置(即开始时间和结束时间)v=(vb,ve);
tu是计算得到的位置
[u≥1]表示当u所代表的类别是动作时等于1,否则等于0;
λ为控制2个任务的损失值之间的平衡的参数,其取值范围为0到正无穷大。
6.如权利要求1所述视频动作检测方法,其特征是,在训练阶段采用随机梯度下降方式训练参数,直至收敛。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710177579.2A CN106897714B (zh) | 2017-03-23 | 2017-03-23 | 一种基于卷积神经网络的视频动作检测方法 |
PCT/CN2017/097610 WO2018171109A1 (zh) | 2017-03-23 | 2017-08-16 | 基于卷积神经网络的视频动作检测方法 |
US16/414,783 US11379711B2 (en) | 2017-03-23 | 2017-08-16 | Video action detection method based on convolutional neural network |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710177579.2A CN106897714B (zh) | 2017-03-23 | 2017-03-23 | 一种基于卷积神经网络的视频动作检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106897714A true CN106897714A (zh) | 2017-06-27 |
CN106897714B CN106897714B (zh) | 2020-01-14 |
Family
ID=59193099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710177579.2A Expired - Fee Related CN106897714B (zh) | 2017-03-23 | 2017-03-23 | 一种基于卷积神经网络的视频动作检测方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11379711B2 (zh) |
CN (1) | CN106897714B (zh) |
WO (1) | WO2018171109A1 (zh) |
Cited By (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341462A (zh) * | 2017-06-28 | 2017-11-10 | 电子科技大学 | 一种基于注意力机制的视频分类方法 |
CN107392131A (zh) * | 2017-07-14 | 2017-11-24 | 天津大学 | 一种基于人体骨骼节点距离的动作识别方法 |
CN107463878A (zh) * | 2017-07-05 | 2017-12-12 | 成都数联铭品科技有限公司 | 基于深度学习的人体行为识别系统 |
CN107909041A (zh) * | 2017-11-21 | 2018-04-13 | 清华大学 | 一种基于时空金字塔网络的视频识别方法 |
CN107945185A (zh) * | 2017-11-29 | 2018-04-20 | 北京工商大学 | 基于宽残差金字塔池化网络的图像分割方法及系统 |
CN108399380A (zh) * | 2018-02-12 | 2018-08-14 | 北京工业大学 | 一种基于三维卷积和Faster RCNN的视频动作检测方法 |
CN108564065A (zh) * | 2018-04-28 | 2018-09-21 | 广东电网有限责任公司 | 一种基于ssd的电缆隧道明火识别方法 |
WO2018171109A1 (zh) * | 2017-03-23 | 2018-09-27 | 北京大学深圳研究生院 | 基于卷积神经网络的视频动作检测方法 |
CN108664931A (zh) * | 2018-05-11 | 2018-10-16 | 中国科学技术大学 | 一种多阶段视频动作检测方法 |
CN108734095A (zh) * | 2018-04-10 | 2018-11-02 | 南京航空航天大学 | 一种基于3d卷积神经网络的动作检测方法 |
CN108830209A (zh) * | 2018-06-08 | 2018-11-16 | 西安电子科技大学 | 基于生成对抗网络的遥感图像道路提取方法 |
CN108830212A (zh) * | 2018-06-12 | 2018-11-16 | 北京大学深圳研究生院 | 一种视频行为时间轴检测方法 |
CN108875610A (zh) * | 2018-06-05 | 2018-11-23 | 北京大学深圳研究生院 | 一种基于边界查找的用于视频中动作时间轴定位的方法 |
CN109033476A (zh) * | 2018-09-11 | 2018-12-18 | 北京航空航天大学 | 一种基于事件线索网络的智能时空数据事件分析方法 |
CN109146058A (zh) * | 2018-07-27 | 2019-01-04 | 中国科学技术大学 | 具有变换不变能力且表达一致的卷积神经网络 |
CN109271876A (zh) * | 2018-08-24 | 2019-01-25 | 南京理工大学 | 基于时间演化建模和多示例学习的视频动作检测方法 |
CN109325435A (zh) * | 2018-09-15 | 2019-02-12 | 天津大学 | 基于级联神经网络的视频动作识别及定位算法 |
CN109376747A (zh) * | 2018-12-11 | 2019-02-22 | 北京工业大学 | 一种基于双流卷积神经网络的视频火焰检测方法 |
CN109376773A (zh) * | 2018-09-30 | 2019-02-22 | 福州大学 | 基于深度学习的裂纹检测方法 |
CN109409241A (zh) * | 2018-09-28 | 2019-03-01 | 百度在线网络技术(北京)有限公司 | 视频核验方法、装置、设备及可读存储介质 |
CN109492579A (zh) * | 2018-11-08 | 2019-03-19 | 广东工业大学 | 一种基于st-sin的视频物体检测方法及系统 |
CN109697434A (zh) * | 2019-01-07 | 2019-04-30 | 腾讯科技(深圳)有限公司 | 一种行为识别方法、装置和存储介质 |
CN109784150A (zh) * | 2018-12-06 | 2019-05-21 | 东南大学 | 基于多任务时空卷积神经网络的视频驾驶员行为识别方法 |
CN109919011A (zh) * | 2019-01-28 | 2019-06-21 | 浙江工业大学 | 一种基于多时长信息的动作视频识别方法 |
CN109961061A (zh) * | 2019-04-15 | 2019-07-02 | 艾物智联(北京)科技有限公司 | 一种边缘计算视频数据结构化方法及系统 |
CN110070052A (zh) * | 2019-04-24 | 2019-07-30 | 广东工业大学 | 一种基于人类演示视频的机器人控制方法、装置和设备 |
CN110110651A (zh) * | 2019-04-29 | 2019-08-09 | 齐鲁工业大学 | 基于时空重要性和3d cnn的视频中行为识别方法 |
CN110188794A (zh) * | 2019-04-23 | 2019-08-30 | 深圳大学 | 一种深度学习模型的训练方法、装置、设备及存储介质 |
CN110236530A (zh) * | 2019-06-20 | 2019-09-17 | 武汉中旗生物医疗电子有限公司 | 一种心电信号qrs波群定位方法、装置及计算机存储介质 |
WO2019214019A1 (zh) * | 2018-05-11 | 2019-11-14 | 深圳市鹰硕技术有限公司 | 基于卷积神经网络的网络教学方法以及装置 |
US10482572B2 (en) | 2017-10-06 | 2019-11-19 | Ford Global Technologies, Llc | Fusion of motion and appearance features for object detection and trajectory prediction |
CN110503125A (zh) * | 2018-05-17 | 2019-11-26 | 国际商业机器公司 | 利用感受野中的运动进行动作检测 |
CN110533053A (zh) * | 2018-05-23 | 2019-12-03 | 杭州海康威视数字技术股份有限公司 | 一种事件检测方法、装置及电子设备 |
CN110632608A (zh) * | 2018-06-21 | 2019-12-31 | 北京京东尚科信息技术有限公司 | 一种基于激光点云的目标检测方法和装置 |
WO2020001046A1 (zh) * | 2018-06-27 | 2020-01-02 | 北京大学深圳研究生院 | 一种基于自适应层次化运动建模的视频预测方法 |
CN111898440A (zh) * | 2020-06-30 | 2020-11-06 | 成都思晗科技股份有限公司 | 一种基于三维卷积神经网络的山火检测方法 |
CN111985409A (zh) * | 2020-08-21 | 2020-11-24 | 四川省人工智能研究院(宜宾) | 一种用于实时街道场景分割的方法 |
CN112101253A (zh) * | 2020-09-18 | 2020-12-18 | 广东机场白云信息科技有限公司 | 一种基于视频动作识别的民用机场地面保障状态识别方法 |
CN112217792A (zh) * | 2020-09-04 | 2021-01-12 | 中国人民解放军战略支援部队信息工程大学 | 一种支持变长输入的加密恶意流量检测装置和方法 |
CN112308885A (zh) * | 2019-07-29 | 2021-02-02 | 顺丰科技有限公司 | 基于光流的暴力抛扔检测方法、装置、设备和存储介质 |
CN112380954A (zh) * | 2020-11-10 | 2021-02-19 | 四川长虹电器股份有限公司 | 一种基于图像识别的视频分类截取系统及方法 |
CN112966547A (zh) * | 2021-01-05 | 2021-06-15 | 北京市燃气集团有限责任公司 | 一种基于神经网络的燃气现场异常行为识别预警方法、系统、终端及存储介质 |
WO2021169604A1 (zh) * | 2020-02-28 | 2021-09-02 | 北京市商汤科技开发有限公司 | 动作信息识别方法、装置、电子设备及存储介质 |
WO2021190078A1 (zh) * | 2020-03-26 | 2021-09-30 | 华为技术有限公司 | 短视频的生成方法、装置、相关设备及介质 |
CN113537164A (zh) * | 2021-09-15 | 2021-10-22 | 江西科技学院 | 一种实时的动作时序定位方法 |
CN114973107A (zh) * | 2022-06-24 | 2022-08-30 | 山东省人工智能研究院 | 基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法 |
CN115294644A (zh) * | 2022-06-24 | 2022-11-04 | 北京昭衍新药研究中心股份有限公司 | 一种基于3d卷积参数重构的快速猴子行为识别方法 |
Families Citing this family (68)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10853698B2 (en) * | 2016-11-09 | 2020-12-01 | Konica Minolta Laboratory U.S.A., Inc. | System and method of using multi-frame image features for object detection |
CN108229280B (zh) * | 2017-04-20 | 2020-11-13 | 北京市商汤科技开发有限公司 | 时域动作检测方法和系统、电子设备、计算机存储介质 |
JP7087006B2 (ja) * | 2017-09-20 | 2022-06-20 | グーグル エルエルシー | 画像埋め込みを使用するロボティックエージェントのためのポリシーコントローラの最適化 |
WO2019097784A1 (ja) * | 2017-11-16 | 2019-05-23 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US11200424B2 (en) * | 2018-10-12 | 2021-12-14 | Adobe Inc. | Space-time memory network for locating target object in video content |
CN109871778B (zh) * | 2019-01-23 | 2022-11-15 | 长安大学 | 基于迁移学习的车道保持控制方法 |
CN109993151A (zh) * | 2019-04-15 | 2019-07-09 | 方玉明 | 一种基于多模块全卷积网络的三维视频视觉注意力检测方法 |
CN111832336B (zh) * | 2019-04-16 | 2022-09-02 | 四川大学 | 一种基于改进的c3d视频行为检测方法 |
US11669743B2 (en) * | 2019-05-15 | 2023-06-06 | Huawei Technologies Co., Ltd. | Adaptive action recognizer for video |
CN110362907B (zh) * | 2019-07-03 | 2023-10-20 | 安徽继远软件有限公司 | 基于ssd神经网络输电线路目标缺陷识别与诊断方法 |
US11120307B2 (en) * | 2019-08-23 | 2021-09-14 | Memorial Sloan Kettering Cancer Center | Multi-task learning for dense object detection |
CN110569814B (zh) * | 2019-09-12 | 2023-10-13 | 广州酷狗计算机科技有限公司 | 视频类别识别方法、装置、计算机设备及计算机存储介质 |
CN110991219B (zh) * | 2019-10-11 | 2024-02-06 | 东南大学 | 一种基于双路3d卷积网络的行为识别方法 |
CN111242276B (zh) * | 2019-12-27 | 2023-08-25 | 国网山西省电力公司大同供电公司 | 一种用于负荷电流信号识别的一维卷积神经网络构建方法 |
CN111738044B (zh) * | 2020-01-06 | 2024-01-19 | 西北大学 | 一种基于深度学习行为识别的校园暴力评估方法 |
CN111325097B (zh) * | 2020-01-22 | 2023-04-07 | 陕西师范大学 | 增强的单阶段解耦的时序动作定位方法 |
CN111339892B (zh) * | 2020-02-21 | 2023-04-18 | 青岛联合创智科技有限公司 | 一种基于端到端3d卷积神经网络的泳池溺水检测方法 |
CN111368682B (zh) * | 2020-02-27 | 2023-12-12 | 上海电力大学 | 一种基于faster RCNN台标检测与识别的方法及系统 |
CN113408328B (zh) * | 2020-03-16 | 2023-06-23 | 哈尔滨工业大学(威海) | 基于毫米波雷达的手势分割与识别算法 |
CN111461298A (zh) * | 2020-03-26 | 2020-07-28 | 广西电网有限责任公司电力科学研究院 | 一种用于断路器故障识别的卷积神经网络及方法 |
WO2021204143A1 (en) * | 2020-04-08 | 2021-10-14 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Methods for action localization, electronic device and storage medium |
CN111553209B (zh) * | 2020-04-15 | 2023-05-12 | 同济大学 | 一种基于卷积神经网络和时间序列图的司机行为识别方法 |
CN111461259B (zh) * | 2020-04-26 | 2023-11-28 | 武汉大学 | 基于红黑形态小波池化网络的图像分类方法及系统 |
CN111582091B (zh) * | 2020-04-27 | 2023-05-02 | 西安交通大学 | 基于多分支卷积神经网络的行人识别方法 |
CN111652226B (zh) * | 2020-04-30 | 2024-05-10 | 平安科技(深圳)有限公司 | 基于图片的目标识别方法、装置及可读存储介质 |
CN111598169B (zh) * | 2020-05-18 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、游戏测试方法、模拟操作方法及装置 |
CN111784633B (zh) * | 2020-05-26 | 2024-02-06 | 西安理工大学 | 一种面向电力巡检视频的绝缘子缺损自动检测算法 |
CN111723692B (zh) * | 2020-06-03 | 2022-08-09 | 西安交通大学 | 基于卷积神经网络语义分类的标签特征的近重复视频检测方法 |
CN113781519A (zh) * | 2020-06-09 | 2021-12-10 | 华为技术有限公司 | 目标跟踪方法和目标跟踪装置 |
CN111881802B (zh) * | 2020-07-22 | 2023-03-28 | 清华大学 | 基于双分支时空图卷积网络的交警手势识别方法 |
CN112069966B (zh) * | 2020-08-31 | 2023-11-28 | 中国计量大学 | 基于改进型lstm网络的表面粗糙度预测方法 |
CN112085102B (zh) * | 2020-09-10 | 2023-03-10 | 西安电子科技大学 | 基于三维时空特征分解的无参考视频质量评价方法 |
CN112131995A (zh) * | 2020-09-16 | 2020-12-25 | 北京影谱科技股份有限公司 | 一种动作分类方法、装置、计算设备、以及存储介质 |
CN112163489A (zh) * | 2020-09-21 | 2021-01-01 | 南京特殊教育师范学院 | 基于深度学习技术的危险犬只识别预警系统 |
US11792438B2 (en) * | 2020-10-02 | 2023-10-17 | Lemon Inc. | Using neural network filtering in video coding |
CN112257643A (zh) * | 2020-10-30 | 2021-01-22 | 天津天地伟业智能安全防范科技有限公司 | 一种基于视频流的抽烟行为和打电话行为识别方法 |
CN112418005B (zh) * | 2020-11-06 | 2024-05-28 | 北京工业大学 | 一种基于反向辐射注意力金字塔网络的烟雾多分类识别方法 |
CN112487967A (zh) * | 2020-11-30 | 2021-03-12 | 电子科技大学 | 一种基于三维卷积网络的景区涂画行为识别方法 |
CN112464835A (zh) * | 2020-12-03 | 2021-03-09 | 北京工商大学 | 一种基于时序增强模块的视频人体行为识别方法 |
CN112508014A (zh) * | 2020-12-04 | 2021-03-16 | 东南大学 | 一种基于注意力机制的改进YOLOv3目标检测方法 |
CN112418164A (zh) * | 2020-12-07 | 2021-02-26 | 公安部昆明警犬基地 | 一种多任务学习网络对警犬动作进行动态识别的方法 |
CN112686856B (zh) * | 2020-12-29 | 2024-07-09 | 杭州优视泰信息技术有限公司 | 一种基于深度学习的实时肠镜息肉检测装置 |
CN112699786B (zh) * | 2020-12-29 | 2022-03-29 | 华南理工大学 | 一种基于空间增强模块的视频行为识别方法及系统 |
US11902548B2 (en) * | 2021-03-16 | 2024-02-13 | Huawei Technologies Co., Ltd. | Systems, methods and computer media for joint attention video processing |
CN113011322B (zh) * | 2021-03-17 | 2023-09-05 | 贵州安防工程技术研究中心有限公司 | 监控视频特定异常行为的检测模型训练方法及检测方法 |
CN113158962A (zh) * | 2021-05-06 | 2021-07-23 | 北京工业大学 | 一种基于YOLOv4的泳池溺水检测方法 |
CN113313682B (zh) * | 2021-05-28 | 2023-03-21 | 西安电子科技大学 | 基于时空多尺度分析的无参考视频质量评价方法 |
CN113536916B (zh) * | 2021-06-10 | 2024-02-13 | 杭州电子科技大学 | 一种基于骨骼信息的分组混淆图卷积动作识别方法 |
CN113524175B (zh) * | 2021-06-22 | 2022-08-12 | 香港理工大学深圳研究院 | 一种基于多模态行为在线预测的人机协作方法和系统 |
CN113743188B (zh) * | 2021-06-28 | 2024-02-09 | 杭州电子科技大学 | 一种基于特征融合的互联网视频低俗行为检测方法 |
CN113469088B (zh) * | 2021-07-08 | 2023-05-12 | 西安电子科技大学 | 一种无源干扰场景下的sar图像舰船目标检测方法及系统 |
CN113609918B (zh) * | 2021-07-12 | 2023-10-13 | 河海大学 | 一种基于零次学习的短视频分类方法 |
CN113627499B (zh) * | 2021-07-28 | 2024-04-02 | 中国科学技术大学 | 基于检查站柴油车尾气图像的烟度等级估算方法及设备 |
CN113569758B (zh) * | 2021-07-29 | 2024-04-02 | 西安交通大学 | 基于动作三元组引导的时序动作定位方法、系统、设备及介质 |
CN113806463B (zh) * | 2021-09-06 | 2023-04-28 | 北京信息科技大学 | 一种基于时空金字塔匹配的轨迹相似度计算方法 |
CN113870281A (zh) * | 2021-09-17 | 2021-12-31 | 海南大学 | 一种基于金字塔机制的遥感影像海洋与非海区域分割方法 |
CN113869181B (zh) * | 2021-09-24 | 2023-05-02 | 电子科技大学 | 一种选择池化核结构的无人机目标检测方法 |
CN113887419B (zh) * | 2021-09-30 | 2023-05-12 | 四川大学 | 一种基于提取视频时空信息的人体行为识别方法及系统 |
CN113935373A (zh) * | 2021-10-11 | 2022-01-14 | 南京邮电大学 | 基于相位信息和信号强度的人体动作识别方法 |
CN114596463A (zh) * | 2022-02-28 | 2022-06-07 | 复旦大学 | 一种基于图像的地块类型分类方法 |
CN114781431B (zh) * | 2022-03-21 | 2024-10-01 | 大连理工大学 | 基于跨模态迁移的人体行为数据标注及识别系统与方法 |
CN114863556B (zh) * | 2022-04-13 | 2024-07-19 | 上海大学 | 一种基于骨骼姿态的多神经网络融合连续动作识别方法 |
CN114881085B (zh) * | 2022-05-18 | 2024-09-06 | 华中科技大学 | 基于空-时-频特征金字塔网络的模式识别系统 |
CN114758285B (zh) * | 2022-06-14 | 2022-10-14 | 山东省人工智能研究院 | 基于锚自由和长时注意力感知的视频交互动作检测方法 |
CN118196672A (zh) * | 2022-12-12 | 2024-06-14 | 顺丰科技有限公司 | 暴力分拣识别方法、装置、计算机设备及存储介质 |
CN116484227B (zh) * | 2023-05-04 | 2024-09-10 | 西北工业大学 | 用于机弹对抗末端机动规避指标生成的神经网络建模方法 |
CN117392760B (zh) * | 2023-12-12 | 2024-04-23 | 河海大学 | 一种基于折半交叉网络的健康指导方法和系统 |
CN117809228B (zh) * | 2024-02-27 | 2024-04-30 | 四川省川建勘察设计院有限公司 | 一种穿心锤锤击数统计方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933417A (zh) * | 2015-06-26 | 2015-09-23 | 苏州大学 | 一种基于稀疏时空特征的行为识别方法 |
US20160104056A1 (en) * | 2014-10-09 | 2016-04-14 | Microsoft Technology Licensing, Llc | Spatial pyramid pooling networks for image processing |
CN105894045A (zh) * | 2016-05-06 | 2016-08-24 | 电子科技大学 | 一种基于空间金字塔池化的深度网络模型的车型识别方法 |
CN105955708A (zh) * | 2016-05-09 | 2016-09-21 | 西安北升信息科技有限公司 | 一种基于深度卷积神经网络的体育视频镜头分类方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8345984B2 (en) * | 2010-01-28 | 2013-01-01 | Nec Laboratories America, Inc. | 3D convolutional neural networks for automatic human action recognition |
WO2016065534A1 (zh) * | 2014-10-28 | 2016-05-06 | 中国科学院自动化研究所 | 一种基于深度学习的歩态识别方法 |
US10929977B2 (en) * | 2016-08-25 | 2021-02-23 | Intel Corporation | Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation |
US9836853B1 (en) * | 2016-09-06 | 2017-12-05 | Gopro, Inc. | Three-dimensional convolutional neural networks for video highlight detection |
US10810485B2 (en) * | 2016-09-13 | 2020-10-20 | Intel Corporation | Dynamic context-selective convolutional neural network for time series data classification |
KR20180034853A (ko) * | 2016-09-28 | 2018-04-05 | 에스케이하이닉스 주식회사 | 합성곱 신경망의 연산 장치 및 방법 |
CN106897714B (zh) * | 2017-03-23 | 2020-01-14 | 北京大学深圳研究生院 | 一种基于卷积神经网络的视频动作检测方法 |
-
2017
- 2017-03-23 CN CN201710177579.2A patent/CN106897714B/zh not_active Expired - Fee Related
- 2017-08-16 US US16/414,783 patent/US11379711B2/en active Active
- 2017-08-16 WO PCT/CN2017/097610 patent/WO2018171109A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160104056A1 (en) * | 2014-10-09 | 2016-04-14 | Microsoft Technology Licensing, Llc | Spatial pyramid pooling networks for image processing |
CN104933417A (zh) * | 2015-06-26 | 2015-09-23 | 苏州大学 | 一种基于稀疏时空特征的行为识别方法 |
CN105894045A (zh) * | 2016-05-06 | 2016-08-24 | 电子科技大学 | 一种基于空间金字塔池化的深度网络模型的车型识别方法 |
CN105955708A (zh) * | 2016-05-09 | 2016-09-21 | 西安北升信息科技有限公司 | 一种基于深度卷积神经网络的体育视频镜头分类方法 |
Cited By (65)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018171109A1 (zh) * | 2017-03-23 | 2018-09-27 | 北京大学深圳研究生院 | 基于卷积神经网络的视频动作检测方法 |
CN107341462A (zh) * | 2017-06-28 | 2017-11-10 | 电子科技大学 | 一种基于注意力机制的视频分类方法 |
CN107463878A (zh) * | 2017-07-05 | 2017-12-12 | 成都数联铭品科技有限公司 | 基于深度学习的人体行为识别系统 |
CN107392131A (zh) * | 2017-07-14 | 2017-11-24 | 天津大学 | 一种基于人体骨骼节点距离的动作识别方法 |
US10482572B2 (en) | 2017-10-06 | 2019-11-19 | Ford Global Technologies, Llc | Fusion of motion and appearance features for object detection and trajectory prediction |
CN107909041A (zh) * | 2017-11-21 | 2018-04-13 | 清华大学 | 一种基于时空金字塔网络的视频识别方法 |
CN107945185A (zh) * | 2017-11-29 | 2018-04-20 | 北京工商大学 | 基于宽残差金字塔池化网络的图像分割方法及系统 |
CN107945185B (zh) * | 2017-11-29 | 2020-02-07 | 北京工商大学 | 基于宽残差金字塔池化网络的图像分割方法及系统 |
CN108399380A (zh) * | 2018-02-12 | 2018-08-14 | 北京工业大学 | 一种基于三维卷积和Faster RCNN的视频动作检测方法 |
CN108734095B (zh) * | 2018-04-10 | 2022-05-20 | 南京航空航天大学 | 一种基于3d卷积神经网络的动作检测方法 |
CN108734095A (zh) * | 2018-04-10 | 2018-11-02 | 南京航空航天大学 | 一种基于3d卷积神经网络的动作检测方法 |
CN108564065A (zh) * | 2018-04-28 | 2018-09-21 | 广东电网有限责任公司 | 一种基于ssd的电缆隧道明火识别方法 |
CN108664931A (zh) * | 2018-05-11 | 2018-10-16 | 中国科学技术大学 | 一种多阶段视频动作检测方法 |
WO2019214019A1 (zh) * | 2018-05-11 | 2019-11-14 | 深圳市鹰硕技术有限公司 | 基于卷积神经网络的网络教学方法以及装置 |
CN108664931B (zh) * | 2018-05-11 | 2022-03-01 | 中国科学技术大学 | 一种多阶段视频动作检测方法 |
CN110503125B (zh) * | 2018-05-17 | 2023-04-28 | 国际商业机器公司 | 利用感受野中的运动进行动作检测 |
CN110503125A (zh) * | 2018-05-17 | 2019-11-26 | 国际商业机器公司 | 利用感受野中的运动进行动作检测 |
CN110533053A (zh) * | 2018-05-23 | 2019-12-03 | 杭州海康威视数字技术股份有限公司 | 一种事件检测方法、装置及电子设备 |
CN108875610A (zh) * | 2018-06-05 | 2018-11-23 | 北京大学深圳研究生院 | 一种基于边界查找的用于视频中动作时间轴定位的方法 |
CN108830209B (zh) * | 2018-06-08 | 2021-12-17 | 西安电子科技大学 | 基于生成对抗网络的遥感图像道路提取方法 |
CN108830209A (zh) * | 2018-06-08 | 2018-11-16 | 西安电子科技大学 | 基于生成对抗网络的遥感图像道路提取方法 |
CN108830212B (zh) * | 2018-06-12 | 2022-04-22 | 北京大学深圳研究生院 | 一种视频行为时间轴检测方法 |
CN108830212A (zh) * | 2018-06-12 | 2018-11-16 | 北京大学深圳研究生院 | 一种视频行为时间轴检测方法 |
CN110632608A (zh) * | 2018-06-21 | 2019-12-31 | 北京京东尚科信息技术有限公司 | 一种基于激光点云的目标检测方法和装置 |
WO2020001046A1 (zh) * | 2018-06-27 | 2020-01-02 | 北京大学深圳研究生院 | 一种基于自适应层次化运动建模的视频预测方法 |
CN109146058B (zh) * | 2018-07-27 | 2022-03-01 | 中国科学技术大学 | 具有变换不变能力且表达一致的卷积神经网络 |
CN109146058A (zh) * | 2018-07-27 | 2019-01-04 | 中国科学技术大学 | 具有变换不变能力且表达一致的卷积神经网络 |
CN109271876B (zh) * | 2018-08-24 | 2021-10-15 | 南京理工大学 | 基于时间演化建模和多示例学习的视频动作检测方法 |
CN109271876A (zh) * | 2018-08-24 | 2019-01-25 | 南京理工大学 | 基于时间演化建模和多示例学习的视频动作检测方法 |
CN109033476A (zh) * | 2018-09-11 | 2018-12-18 | 北京航空航天大学 | 一种基于事件线索网络的智能时空数据事件分析方法 |
CN109033476B (zh) * | 2018-09-11 | 2022-04-01 | 北京航空航天大学 | 一种基于事件线索网络的智能时空数据事件分析方法 |
CN109325435B (zh) * | 2018-09-15 | 2022-04-19 | 天津大学 | 基于级联神经网络的视频动作识别及定位方法 |
CN109325435A (zh) * | 2018-09-15 | 2019-02-12 | 天津大学 | 基于级联神经网络的视频动作识别及定位算法 |
CN109409241A (zh) * | 2018-09-28 | 2019-03-01 | 百度在线网络技术(北京)有限公司 | 视频核验方法、装置、设备及可读存储介质 |
CN109376773A (zh) * | 2018-09-30 | 2019-02-22 | 福州大学 | 基于深度学习的裂纹检测方法 |
CN109492579A (zh) * | 2018-11-08 | 2019-03-19 | 广东工业大学 | 一种基于st-sin的视频物体检测方法及系统 |
CN109492579B (zh) * | 2018-11-08 | 2022-05-10 | 广东工业大学 | 一种基于st-sin的视频物体检测方法及系统 |
CN109784150B (zh) * | 2018-12-06 | 2023-08-01 | 东南大学 | 基于多任务时空卷积神经网络的视频驾驶员行为识别方法 |
CN109784150A (zh) * | 2018-12-06 | 2019-05-21 | 东南大学 | 基于多任务时空卷积神经网络的视频驾驶员行为识别方法 |
CN109376747A (zh) * | 2018-12-11 | 2019-02-22 | 北京工业大学 | 一种基于双流卷积神经网络的视频火焰检测方法 |
CN109697434A (zh) * | 2019-01-07 | 2019-04-30 | 腾讯科技(深圳)有限公司 | 一种行为识别方法、装置和存储介质 |
CN109697434B (zh) * | 2019-01-07 | 2021-01-08 | 腾讯科技(深圳)有限公司 | 一种行为识别方法、装置和存储介质 |
CN109919011A (zh) * | 2019-01-28 | 2019-06-21 | 浙江工业大学 | 一种基于多时长信息的动作视频识别方法 |
CN109961061A (zh) * | 2019-04-15 | 2019-07-02 | 艾物智联(北京)科技有限公司 | 一种边缘计算视频数据结构化方法及系统 |
CN110188794A (zh) * | 2019-04-23 | 2019-08-30 | 深圳大学 | 一种深度学习模型的训练方法、装置、设备及存储介质 |
CN110188794B (zh) * | 2019-04-23 | 2023-02-28 | 深圳大学 | 一种深度学习模型的训练方法、装置、设备及存储介质 |
CN110070052A (zh) * | 2019-04-24 | 2019-07-30 | 广东工业大学 | 一种基于人类演示视频的机器人控制方法、装置和设备 |
CN110110651B (zh) * | 2019-04-29 | 2023-06-13 | 齐鲁工业大学 | 基于时空重要性和3d cnn的视频中行为识别方法 |
CN110110651A (zh) * | 2019-04-29 | 2019-08-09 | 齐鲁工业大学 | 基于时空重要性和3d cnn的视频中行为识别方法 |
CN110236530A (zh) * | 2019-06-20 | 2019-09-17 | 武汉中旗生物医疗电子有限公司 | 一种心电信号qrs波群定位方法、装置及计算机存储介质 |
CN112308885B (zh) * | 2019-07-29 | 2024-09-27 | 顺丰科技有限公司 | 基于光流的暴力抛扔检测方法、装置、设备和存储介质 |
CN112308885A (zh) * | 2019-07-29 | 2021-02-02 | 顺丰科技有限公司 | 基于光流的暴力抛扔检测方法、装置、设备和存储介质 |
WO2021169604A1 (zh) * | 2020-02-28 | 2021-09-02 | 北京市商汤科技开发有限公司 | 动作信息识别方法、装置、电子设备及存储介质 |
WO2021190078A1 (zh) * | 2020-03-26 | 2021-09-30 | 华为技术有限公司 | 短视频的生成方法、装置、相关设备及介质 |
CN111898440B (zh) * | 2020-06-30 | 2023-12-01 | 成都思晗科技股份有限公司 | 一种基于三维卷积神经网络的山火检测方法 |
CN111898440A (zh) * | 2020-06-30 | 2020-11-06 | 成都思晗科技股份有限公司 | 一种基于三维卷积神经网络的山火检测方法 |
CN111985409A (zh) * | 2020-08-21 | 2020-11-24 | 四川省人工智能研究院(宜宾) | 一种用于实时街道场景分割的方法 |
CN112217792A (zh) * | 2020-09-04 | 2021-01-12 | 中国人民解放军战略支援部队信息工程大学 | 一种支持变长输入的加密恶意流量检测装置和方法 |
CN112101253A (zh) * | 2020-09-18 | 2020-12-18 | 广东机场白云信息科技有限公司 | 一种基于视频动作识别的民用机场地面保障状态识别方法 |
CN112380954A (zh) * | 2020-11-10 | 2021-02-19 | 四川长虹电器股份有限公司 | 一种基于图像识别的视频分类截取系统及方法 |
CN112966547A (zh) * | 2021-01-05 | 2021-06-15 | 北京市燃气集团有限责任公司 | 一种基于神经网络的燃气现场异常行为识别预警方法、系统、终端及存储介质 |
CN113537164A (zh) * | 2021-09-15 | 2021-10-22 | 江西科技学院 | 一种实时的动作时序定位方法 |
CN115294644A (zh) * | 2022-06-24 | 2022-11-04 | 北京昭衍新药研究中心股份有限公司 | 一种基于3d卷积参数重构的快速猴子行为识别方法 |
CN114973107A (zh) * | 2022-06-24 | 2022-08-30 | 山东省人工智能研究院 | 基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法 |
CN115294644B (zh) * | 2022-06-24 | 2024-07-02 | 北京昭衍新药研究中心股份有限公司 | 一种基于3d卷积参数重构的快速猴子行为识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106897714B (zh) | 2020-01-14 |
WO2018171109A1 (zh) | 2018-09-27 |
US20200057935A1 (en) | 2020-02-20 |
US11379711B2 (en) | 2022-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106897714B (zh) | 一种基于卷积神经网络的视频动作检测方法 | |
CN110210551B (zh) | 一种基于自适应主体敏感的视觉目标跟踪方法 | |
CN111047551B (zh) | 一种基于U-net改进算法的遥感影像变化检测方法及系统 | |
CN111291739B (zh) | 面部检测、图像检测神经网络训练方法、装置和设备 | |
CN112150821B (zh) | 轻量化车辆检测模型构建方法、系统及装置 | |
CN113076871B (zh) | 一种基于目标遮挡补偿的鱼群自动检测方法 | |
CN111291604A (zh) | 面部属性识别方法、装置、存储介质及处理器 | |
CN113673510B (zh) | 一种结合特征点和锚框共同预测和回归的目标检测方法 | |
CN113159073B (zh) | 知识蒸馏方法及装置、存储介质、终端 | |
CN109711316A (zh) | 一种行人重识别方法、装置、设备及存储介质 | |
CN111461083A (zh) | 基于深度学习的快速车辆检测方法 | |
CN110781928B (zh) | 一种提取图像多分辨率特征的图像相似度学习方法 | |
CN110458084B (zh) | 一种基于倒置残差网络的人脸年龄估计方法 | |
CN108595558B (zh) | 一种数据均衡策略和多特征融合的图像标注方法 | |
CN109903339B (zh) | 一种基于多维融合特征的视频群体人物定位检测方法 | |
CN107945210B (zh) | 基于深度学习和环境自适应的目标跟踪方法 | |
CN111401293A (zh) | 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法 | |
CN111860259B (zh) | 驾驶检测模型的训练、使用方法、装置、设备及介质 | |
CN110909741A (zh) | 一种基于背景分割的车辆再识别方法 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN111553414A (zh) | 一种基于改进Faster R-CNN的车内遗失物体检测方法 | |
CN105654475A (zh) | 基于可区分边界和加权对比度的图像显著性检测方法及其装置 | |
CN112183649A (zh) | 一种用于对金字塔特征图进行预测的算法 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN108564582B (zh) | 一种基于深度神经网络的mri脑肿瘤图像自动优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200114 |