CN106650655A - 一种基于卷积神经网络的动作检测模型 - Google Patents

一种基于卷积神经网络的动作检测模型 Download PDF

Info

Publication number
CN106650655A
CN106650655A CN201611168185.2A CN201611168185A CN106650655A CN 106650655 A CN106650655 A CN 106650655A CN 201611168185 A CN201611168185 A CN 201611168185A CN 106650655 A CN106650655 A CN 106650655A
Authority
CN
China
Prior art keywords
action
region
video
frame
faster rcnn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611168185.2A
Other languages
English (en)
Inventor
刘波
贾川川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201611168185.2A priority Critical patent/CN106650655A/zh
Publication of CN106650655A publication Critical patent/CN106650655A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种基于卷积神经网络的动作检测模型,属于计算机视觉研究领域,通过运用深度学习中卷积神经网络的方法构建一个高效的动作检测模型,实现从视频中识别动作并对动作进行检测定位。动作检测模型由Faster RCNN、SVM分类器和动作管道组成。动作检测模型的每个部分分别完成相应工作。Faster RCNN对每帧图片获取多个兴趣区域,并对每个兴趣区域提取特征。本检测模型提取特征采用双通道模型,即基于帧图的Faster RCNN通道和基于光流图的Faster RCNN通道,他们分别提取表观特征和动作特征。然后将这两种特征融合形成时空域特征,把时空域特征输入到SVM分类器中,经SVM分类给出相应区域的动作类别预测值。最后由动作管道从视频角度出发给出最终的动作检测结果。

Description

一种基于卷积神经网络的动作检测模型
技术领域
本发明属于计算机视觉研究领域,通过运用深度学习中卷积神经网络的方法构建一个高效的动作检测模型,实现从视频中识别动作并进一步对动作进行检测定位。
背景技术
计算机视觉领域的视频识别分为动作分类和动作检测。动作分类要解决的问题类似“这段视频中有‘跑步’这样的动作或者行为么”;动作检测所解决的问题类似“这段视频中有‘跑步’这样动作或行为么,如果有,那么该动作出现在哪一段帧序列集以及该动作都在每帧的什么位置”。
近些年,受益于图像识别所取得的巨大进展,视频识别也同样取得了很大的进展。其中大多数动作识别方法都是针对动作分类任务而被提出,事实上这些方法也同样可以用于动作检测任务。J.Aggarwal、M.Ryoo、R.Poppe等人对近些年动作识别领域的方法和进展进行了很好的总结和梳理。许多传统的动作分类方法提取的特征多是采用手工特征提取法,例如使用HOG、SIFT等提取静态的外观特征,使用光流(optical flow)、MBH等提取动态的运动特征,再使用词袋(Bag of Words)、Fisher向量等方法对这些特征编码。动作分类则使用像SVM支持向量机、决策森林(decision forests)等方法。近几年,许多动作识别方法采用深度学习模型并取得很大的进展。受视觉层背侧通路理论的启发,Jhuang等人构建了一个由多层级的时空特征检测器组成的前馈网络,此网络中包含预设计好的分别用来提取表观和运动特征的过滤器。最近,Ji等人构建了3D CNNs,其卷积操作实施在三维的时空域,因此该网络在提取特征时能够获取更多的动作信息。
动作检测在实现动作分类的基础上还要对动作进行定位。过去许多动作检测方法采用滑动窗口法(sliding window),然而基于滑动窗口法的动作定位极为耗时,时间效率低,为了加快动作的定位,Oneatra等人提出了一种逼近规范化的Fisher Vector策略,此策略使用一个比滑动窗口更有效的方法,即branch-and-bound搜寻算法。另一类动作定位的方法是基于“以人为中心”的模型。Lan等人通过使用“以人为中心”的视觉方法——学习得到一个时空动作模型,其中特征表示中的目标位置被视为潜变量(latent variable)并根据潜变量推断与某个动作标签高度关联性。最近,有一种基于区域的卷积神经网络的方法被用于动作检测任务中,取得了更好的动作检测效果。该方法最先由Girshick等人在做目标检测任务时提出的,其思想是先用选择搜索(Selective Search)、Edgeboxes等工具在每张图片上生成多个兴趣区域,然后将兴趣区域输入卷积神经网络并提取特征,最后将该特征用于分类。之后相继出现了效率更好的目标检测方法Fast RCNN、Faster RCNN。Gkioxari等人将基于区域的目标检测思想移植到动作检测任务中,他们采用双通路网络分别对兴趣区域和对应光流图提取特征,再用SVM分类器进行分类,最后将分类过后的兴趣区域在时间维度上进行链接形成最优的管道并给出动作类别预测。
发明内容
本发明提出的动作检测模型由三个部分组成,即Faster RCNN(更高效的基于区域的卷积神经网络)、SVM分类器和动作管道(Action Tubes),动作检测模型的整体结构如图1所示。动作检测模型的每个部分分别完成相应工作,最终实现对一段或多段视频中所包含动作行为的检测任务。Faster RCNN对每帧图片获取多个兴趣区域,并对每个兴趣区域提取特征。本检测模型提取特征采用双通道模型,即基于帧图的Faster RCNN通道和基于光流图的Faster RCNN通道,他们分别提取表观特征和动作特征。然后将表观特征和动作特征联合形成时空域特征,把时空域特征输入到SVM分类器中,经SVM分类给出相应区域的动作类别预测值。本模型中的SVM分类器是由多个二分器组成,每个动作类别有一个二分器。该阶段的SVM分类器从帧层面做出的动作预测,此预测将作为第三部分预测视频所属动作类别的凭据。第三部分即动作管道部分在视频层面给出最终的动作检测结果。该阶段从视频时序角度出发,基于相邻的帧一般包含着相同动作且包含动作的区域重合度高的特点,将视频帧中综合得分高的区域链接起来,形成一个个竞选管道,最终将得分值最高竞选管道作为最终的动作检测结果。
第一部分:Faster RCNN
Faster RCNN由两个深度神经网络组成,即RPN(Region Proposal Network)和Fast RCNN(高效的基于区域的卷积神经网络),Faster RCNN的整体结构如图2所示,网络中包含多层的卷积层、下采样层和全连接层,这些层通过组合形成了一个深度神经网络,其中每种类型的层都可对输入到深度网络中图像进行特征的提取。RPN网络如图3所示,该网络是一个全卷积网络,由多层卷积层构建,RPN网络最后输出值有两个,分别输出区域位置信息和对应区域包含及不包含目标的置信度。RPN和Fast RCNN分别完成获取兴趣区域和提取区域特征的任务。本方法提取深度特征采用双通路模型,两个通路的Faster RCNN网络分别是基于原始帧图数据集和光流图数据集训练而成,因此两个通路的Faster RCNN网络都具备获取兴趣区域和提取兴趣区域特征的能力。然而本方法期望得到的兴趣区域包含的信息中,更多的是动作信息,所以选择使用基于光流图数据集训练的Faster RCNN网络的RPN来获取兴趣区域。此RPN基于光流信息生成兴趣区域,这些兴趣区域被双通路的Faster RCNN共享,分别作为这两个网络的后继网络Fast RCNN的输入,最终输出对应的动作特征和表观特征。
第二部分:SVM分类器
Faster RCNN深度网络实现对帧图的兴趣区域的获取和对兴趣区域特征的提取,SVM分类器基于深度特征对区域所属的动作类别进行预测,给出每个区域属于每个动作类别的置信度大小,这个置信度大小将作为第三阶段链接最终动作管道的依据。SVM分类器的训练过程如下。
训练SVM分类器是基于从深度卷积神经网络获取的深度特征的联合特征,即时空域特征。任给一个区域R,分别假定φs(R)和φm(R)是由基于原帧图区域的Faster RCNN网络和基于光流图区域的Faster RCNN网络的第7层全连接层输出的特征向量,分别是4096维,联合这两个特征向量,得到时空域特征向量φ(R)=[φs(R)Tφm(R)T]T,其中“T”代表转置操作,时空域特征向量φ(R)维度为8192。然后对每个动作类别α∈A,A代表动作类别集,分别训练对应动作类别的SVM分类器Wα
第三部分:动作管道
本动作检测模型的第二阶段只是从帧层面给出相关区域的动作类别预测,还没有考虑视频的时序性,需要从整段视频角度出发给出动作类别的预测。这里将对第三阶段如何从帧层面到视频层面做出最终的动作检测进行介绍。本方法中把组成视频的帧序列中包含某个动作类别的竞选区域按时间序列链接的集合叫做动作管道,动作管道就是最终的动作检测结果。
假定分别从视频中在时刻t、t+1的相邻两帧获取了两个区域,记为Rt和Rt+1,对于某个动作类别α∈A,定义链接这两个区域的得分公式为:这里表示动作类别α对应的分类器函数,δ(Rt+Rt+1)表示两个区域的交集;λ是常量,该常量是调整两区域交集大小在总得分公式中的权重。这个公式说明当两个区域在空间重叠区域越大且同属于某个动作类别的置信度越大,那个这两个区域应该被链接作为关联动作管道的子集。对于某段视频的一个动作α∈A,最优路径的寻找方法如下:
这里是关于动作α被链接的区域序列集合。对于上述的最优化问题使用维特比算法(Viterbi algorithm),把所求的最优路径称作动作管道,并对生成的动作管道进行评价、给予相应的得分值其中得分值最大的动作管道所组成的区域集合便是对应视频最终动作检测的结果。
附图说明
图1动作检测模型。
图2 Faster RCNN结构图。
图3 RPN结构图。
图4动作检测效果图。
具体实施方式
本发明中动作检测模型构想的实现和验证,是以GPU(K80)作为计算平台,采用CUDA作为GPU并行计算框架,选取Caffe作为CNN框架。具体实施步骤如下:
步骤1:视频数据的预处理
本方法需要的视频数据需要以“一帧一图”的形式进行拆分和保存,并要求每帧图片的尺寸必须一致。当前有许多开放的视频数据集供选择,根据具体任务选择一种或多种。其次要对数据集中的每一帧进行光流计算,获得每帧图片对应光流图,整理并保存形成光流图数据集。
步骤2:Faster RCNN的训练
分别用视频数据集中的帧图数据集和光流图数据集对双通路的Faster RCNN网络进行训练,使其分别具备提取静态的表观特征和动态行为特征的能力,其中组成FasterRCNN的RPN和Fast RCNN两个网络结构参考ZF结构模型。整个训练过程大致分四个阶段:第一阶段是训练RPN网络,这个网络首先用ImageNet预训练好的模型进行初始化,然后微调;第二阶段单独训练Fast RCNN网络,其中输入到该网络的兴趣区域是由第一阶段的RPN网络提供。第三阶段使用第二阶段训练的Fast RCNN网络对RPN进行初始化,通过训练仅仅微调RPN所独有的网络层部分;第四阶段训练并微调Fast RCNN网络的全连接层部分。至此,整个Faster RCNN网络的训练任务完成。
步骤3:SVM分类器的训练
使用步骤2训练好的双通路网络获取兴趣区域并提取每个兴趣区域的表观特征和动作特征,即φs(R)和φm(R),融合并得到时空域特征向量φ(R)=[φs(R)Tφm(R)T]T。对每个动作类别α∈A,分别训练对应动作类别的SVM分类器Wα,在训练时,将所有属于动作类别α的ground truth区域作为正例,将所有和动作α有关的但与对应groundtruth区域覆盖比值小于0.3的区域以及其他动作类别的区域作为反例,整个训练过程使用hard negativemining。
步骤4:Faster RCNN的特征提取
再次使用步骤2训练好的双通路网络获取兴趣区域并提取每个兴趣区域的表观特征和动作特征,例如φs(R)和φm(R),融合并得到时空域特征向量φ(R)=[φs(R)Tφm(R)T]T。但是这一步骤要求从测试集中获取兴趣区域和提取对应区域的特征。
步骤5:SVM分类器的分类
对步骤4获取的区域进行分类,任给一个区域R,分别用步骤3中训练好的SVM分类器Wα计算此区域属于对应动作类别的置信度。
步骤6:动作管道的预测分类
此步骤考虑视频的时序性,从整段视频角度出发给出动作类别的预测。假定Rt和Rt+1分别表示时刻t、t+1的相邻两帧获取了的两个区域,计算动作类别α∈A下的Sα(Rt,Rt+1),其中对于某段视频的一个动作α∈A,寻找最优路径:
反复运用维特比算法得到最优路径,最终得到的最优路径为所求得动作管道。
本发明提出的动检检测模型使用JHMDB数据集进行验证,并与当前在该数据集上检测效果最好的两个方法进行对比。
本动作检测模型的Faster RCNN部分的表现对于整个检测任务的检测准确率高低至关重要,这里评估本发明中Faster RCNN在帧图级别的检测效果,并与Malik等人的方法进行对比。这里使用frame-AP指标,阈值σ=0.5,表1是对比结果:
表1
从表1可以看出,使用RPN+FastRCNN相结合的FasterRCNN模型,在帧图数据集和光流数据集训练得到的spatial-CNN和motion-CNN的检测结果比Malik等人的方法分别高出12.5和16.5个百分点,明显好于Malik等人的方法。
为了验证本发明中动作检测模型检测效果的优劣,将JHMDB的3组交叉训练验证集分别进行训练和测试,得到了最终的平均动作检测准确率,并与Malik等人和Wal等人的方法进行对比。这里阈值σ分别取0.5和0.6,表2是最终的平均动作检测准确率结果和对比结果:
表2
σ Malik Wal ours
0.5 53.3 60.66 60.86
0.6 53.60 56.12
从表2可以看出在σ分别取0.5和0.6时,本动作检测模型的平均动作检测率都比当前最好的方法要高,尤其当要求获取更精确的动作管道时,即检测的区域更精确(重合覆盖率σ=0.6),本方法要高出当前最好结果2.5个百分点。这表明本动作检测方法在动作的识别率和动作检测的精确度上都取得了非常好的效果。经实验结果分析,这得益于RPN网络获取兴趣区域的能力更高,以及经训练后的两个Faster RCNN网络提取时空域特征的能力更强。
图4展示了本动作检测模型在JHMDB测试集上检测结果的几个例子。

Claims (1)

1.一种基于卷积神经网络的动作检测模型,其特征在于:
本方法提出的动作检测模型由三个部分组成,即更高效的基于区域的卷积神经网络Faster RCNN、SVM分类器和动作管道ActionTubes;动作检测模型的每个部分分别完成相应工作,最终实现对一段或多段视频中所包含动作行为的检测任务;Faster RCNN对每帧图片获取多个兴趣区域,并对每个兴趣区域提取特征;本检测模型提取特征采用双通道模型,即基于帧图的Faster RCNN通道和基于光流图的Faster RCNN通道,他们分别提取表观特征和动作特征;然后将表观特征和动作特征联合形成时空域特征,把时空域特征输入到SVM分类器中,经SVM分类给出相应区域的动作类别预测值;本模型中的SVM分类器是由多个二分器组成,每个动作类别有一个二分器;该阶段的SVM分类器从帧层面做出的动作预测,此预测将作为第三部分预测视频所属动作类别的凭据;第三部分即动作管道部分在视频层面给出最终的动作检测结果;该阶段从视频时序角度出发,基于相邻的帧一般包含着相同动作且包含动作的区域重合度高的特点,将视频帧中综合得分高的区域链接起来,形成一个个竞选管道,最终将得分值最高竞选管道作为最终的动作检测结果;
第一部分:Faster RCNN
Faster RCNN由两个深度神经网络组成,即RPN和Fast RCNN,网络中包含多层的卷积层、下采样层和全连接层,这些层通过组合形成了一个深度神经网络,其中每种类型的层都可对输入到深度网络中图像进行特征的提取;RPN网络是一个全卷积网络,由多层卷积层构建,RPN网络最后输出值有两个,分别输出区域位置信息和对应区域包含及不包含目标的置信度;RPN和Fast RCNN分别完成获取兴趣区域和提取区域特征的任务;本方法提取深度特征采用双通路模型,两个通路的Faster RCNN网络分别是基于原始帧图数据集和光流图数据集训练而成,因此两个通路的Faster RCNN网络都具备获取兴趣区域和提取兴趣区域特征的能力;然而本方法期望得到的兴趣区域包含的信息中,更多的是动作信息,所以选择使用基于光流图数据集训练的Faster RCNN网络的RPN来获取兴趣区域;此RPN基于光流信息生成兴趣区域,这些兴趣区域被双通路的Faster RCNN共享,分别作为这两个网络的后继网络Fast RCNN的输入,最终输出对应的动作特征和表观特征;
第二部分:SVM分类器
Faster RCNN深度网络实现对帧图的兴趣区域的获取和对兴趣区域特征的提取,SVM分类器基于深度特征对区域所属的动作类别进行预测,给出每个区域属于每个动作类别的置信度大小,这个置信度大小将作为第三阶段链接最终动作管道的依据;SVM分类器的训练过程如下;
训练SVM分类器是基于从深度卷积神经网络获取的深度特征的联合特征,即时空域特征;任给一个区域R,分别假定φs(R)和φm(R)是由基于原帧图区域的Faster RCNN网络和基于光流图区域的FasterRCNN网络的第7层全连接层输出的特征向量,分别是4096维,联合这两个特征向量,得到时空域特征向量φ(R)=[φs(R)Tφm(R)T]T,其中“T”代表转置操作,时空域特征向量φ(R)维度为8192;然后对每个动作类别α∈A,A代表动作类别集,分别训练对应动作类别的SVM分类器Wα
第三部分:动作管道
本动作检测模型的第二阶段只是从帧层面给出相关区域的动作类别预测,还没有考虑视频的时序性,需要从整段视频角度出发给出动作类别的预测;这里将对第三阶段如何从帧层面到视频层面做出最终的动作检测进行介绍;本方法中把组成视频的帧序列中包含某个动作类别的竞选区域按时间序列链接的集合叫做动作管道,动作管道就是最终的动作检测结果;
假定分别从视频中在时刻t、t+1的相邻两帧获取了两个区域,记为Rt和Rt+1,对于某个动作类别α∈A,定义链接这两个区域的得分公式为:这里表示动作类别α对应的分类器函数,δ(Rt+Rt+1)表示两个区域的交集;λ是常量,该常量是调整两区域交集大小在总得分公式中的权重;这个公式说明当两个区域在空间重叠区域越大且同属于某个动作类别的置信度越大,那个这两个区域应该被链接作为关联动作管道的子集;对于某段视频的一个动作α∈A,最优路径的寻找方法如下:
这里是关于动作α被链接的区域序列集合;对于上述的最优化问题使用维特比算法,把所求的最优路径称作动作管道,并对生成的动作管道进行评价、给予相应的得分值其中得分值最大的动作管道所组成的区域集合便是对应视频最终动作检测的结果。
CN201611168185.2A 2016-12-16 2016-12-16 一种基于卷积神经网络的动作检测模型 Pending CN106650655A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611168185.2A CN106650655A (zh) 2016-12-16 2016-12-16 一种基于卷积神经网络的动作检测模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611168185.2A CN106650655A (zh) 2016-12-16 2016-12-16 一种基于卷积神经网络的动作检测模型

Publications (1)

Publication Number Publication Date
CN106650655A true CN106650655A (zh) 2017-05-10

Family

ID=58822940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611168185.2A Pending CN106650655A (zh) 2016-12-16 2016-12-16 一种基于卷积神经网络的动作检测模型

Country Status (1)

Country Link
CN (1) CN106650655A (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368859A (zh) * 2017-07-18 2017-11-21 北京华信佳音医疗科技发展有限责任公司 病变识别模型的训练方法、验证方法和病变图像识别装置
CN107437083A (zh) * 2017-08-16 2017-12-05 上海荷福人工智能科技(集团)有限公司 一种自适应池化的视频行为识别方法
CN107451615A (zh) * 2017-08-01 2017-12-08 广东工业大学 基于Faster RCNN的甲状腺乳头状癌超声图像识别方法及系统
CN107480730A (zh) * 2017-09-05 2017-12-15 广州供电局有限公司 电力设备识别模型构建方法和系统、电力设备的识别方法
CN107886120A (zh) * 2017-11-03 2018-04-06 北京清瑞维航技术发展有限公司 用于目标检测跟踪的方法和装置
CN108509978A (zh) * 2018-02-28 2018-09-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型
CN108647571A (zh) * 2018-03-30 2018-10-12 国信优易数据有限公司 视频动作分类模型训练方法、装置及视频动作分类方法
CN108681690A (zh) * 2018-04-04 2018-10-19 浙江大学 一种基于深度学习的流水线人员规范操作检测系统
CN108764142A (zh) * 2018-05-25 2018-11-06 北京工业大学 基于3dcnn的无人机影像森林烟雾检测和分类方法
CN108764026A (zh) * 2018-04-12 2018-11-06 杭州电子科技大学 一种基于时序检测单元预筛选的视频行为检测方法
CN108875456A (zh) * 2017-05-12 2018-11-23 北京旷视科技有限公司 目标检测方法、目标检测装置和计算机可读存储介质
CN109165510A (zh) * 2018-09-04 2019-01-08 中国民航大学 基于双通道卷积神经网络的Android恶意应用程序检测方法
CN109377555A (zh) * 2018-11-14 2019-02-22 江苏科技大学 自主水下机器人前景视场三维重建目标特征提取识别方法
CN109376677A (zh) * 2018-11-02 2019-02-22 深圳龙岗智能视听研究院 一种基于外形-运动双流信息融合的视频行为检测方法
CN109447014A (zh) * 2018-11-07 2019-03-08 东南大学-无锡集成电路技术研究所 一种基于双通道卷积神经网络的视频在线行为检测方法
CN109543697A (zh) * 2018-11-16 2019-03-29 西北工业大学 一种基于深度学习的rgbd图像目标识别方法
CN109600627A (zh) * 2018-12-11 2019-04-09 国信优易数据有限公司 一种视频识别方法和装置
CN110084603A (zh) * 2018-01-26 2019-08-02 阿里巴巴集团控股有限公司 训练欺诈交易检测模型的方法、检测方法以及对应装置
CN110135386A (zh) * 2019-05-24 2019-08-16 长沙学院 一种基于深度学习的人体动作识别方法和系统
EP3531347A1 (en) * 2018-02-27 2019-08-28 STMicroelectronics International N.V. Data volume sculptor for deep learning acceleration
CN110223347A (zh) * 2019-06-11 2019-09-10 张子頔 图像中目标物体的定位方法、电子设备和存储介质
WO2019173392A1 (en) 2018-03-09 2019-09-12 Lattice Semiconductor Corporation Low latency interrupt alerts for artificial neural network systems and methods
US10482572B2 (en) 2017-10-06 2019-11-19 Ford Global Technologies, Llc Fusion of motion and appearance features for object detection and trajectory prediction
TWI691923B (zh) * 2018-04-02 2020-04-21 華南商業銀行股份有限公司 金融交易詐騙偵測防範系統及其方法
CN111222370A (zh) * 2018-11-26 2020-06-02 浙江宇视科技有限公司 一种案件研判方法、系统及装置
CN111223549A (zh) * 2019-12-30 2020-06-02 华东师范大学 一种基于姿态矫正的疾病预防的移动端系统及方法
CN112633168A (zh) * 2020-12-23 2021-04-09 长沙中联重科环境产业有限公司 一种垃圾车翻桶动作识别方法、装置及垃圾车
CN113286194A (zh) * 2020-02-20 2021-08-20 北京三星通信技术研究有限公司 视频处理方法、装置、电子设备及可读存储介质
CN114973168A (zh) * 2022-08-01 2022-08-30 北京科技大学 一种跨场景交通目标检测方法和系统
US11507831B2 (en) 2020-02-24 2022-11-22 Stmicroelectronics International N.V. Pooling unit for deep learning acceleration
US11586907B2 (en) 2018-02-27 2023-02-21 Stmicroelectronics S.R.L. Arithmetic unit for deep learning acceleration
US11687762B2 (en) 2018-02-27 2023-06-27 Stmicroelectronics S.R.L. Acceleration unit for a deep learning engine

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160180541A1 (en) * 2014-12-19 2016-06-23 Apical Limited Sensor noise profile
CN105740892A (zh) * 2016-01-27 2016-07-06 北京工业大学 一种高准确率的基于卷积神经网络的人体多部位识别方法
CN106203296A (zh) * 2016-06-30 2016-12-07 北京小白世纪网络科技有限公司 一种属性辅助的视频动作识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160180541A1 (en) * 2014-12-19 2016-06-23 Apical Limited Sensor noise profile
CN105740892A (zh) * 2016-01-27 2016-07-06 北京工业大学 一种高准确率的基于卷积神经网络的人体多部位识别方法
CN106203296A (zh) * 2016-06-30 2016-12-07 北京小白世纪网络科技有限公司 一种属性辅助的视频动作识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GEORGIA GKIOXARI,JITENDRA MALIK: "《Finding Action Tubes》", 《ARXIV:1411.6031》 *
SHAOQING REN: "《Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks》", 《ARXIV:1506.01497》 *

Cited By (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875456A (zh) * 2017-05-12 2018-11-23 北京旷视科技有限公司 目标检测方法、目标检测装置和计算机可读存储介质
CN108875456B (zh) * 2017-05-12 2022-02-18 北京旷视科技有限公司 目标检测方法、目标检测装置和计算机可读存储介质
CN107368859A (zh) * 2017-07-18 2017-11-21 北京华信佳音医疗科技发展有限责任公司 病变识别模型的训练方法、验证方法和病变图像识别装置
CN107451615A (zh) * 2017-08-01 2017-12-08 广东工业大学 基于Faster RCNN的甲状腺乳头状癌超声图像识别方法及系统
CN107437083A (zh) * 2017-08-16 2017-12-05 上海荷福人工智能科技(集团)有限公司 一种自适应池化的视频行为识别方法
CN107480730A (zh) * 2017-09-05 2017-12-15 广州供电局有限公司 电力设备识别模型构建方法和系统、电力设备的识别方法
US10482572B2 (en) 2017-10-06 2019-11-19 Ford Global Technologies, Llc Fusion of motion and appearance features for object detection and trajectory prediction
CN107886120A (zh) * 2017-11-03 2018-04-06 北京清瑞维航技术发展有限公司 用于目标检测跟踪的方法和装置
CN110084603A (zh) * 2018-01-26 2019-08-02 阿里巴巴集团控股有限公司 训练欺诈交易检测模型的方法、检测方法以及对应装置
CN110084603B (zh) * 2018-01-26 2020-06-16 阿里巴巴集团控股有限公司 训练欺诈交易检测模型的方法、检测方法以及对应装置
US11586907B2 (en) 2018-02-27 2023-02-21 Stmicroelectronics S.R.L. Arithmetic unit for deep learning acceleration
US10977854B2 (en) 2018-02-27 2021-04-13 Stmicroelectronics International N.V. Data volume sculptor for deep learning acceleration
US11610362B2 (en) 2018-02-27 2023-03-21 Stmicroelectronics S.R.L. Data volume sculptor for deep learning acceleration
US11687762B2 (en) 2018-02-27 2023-06-27 Stmicroelectronics S.R.L. Acceleration unit for a deep learning engine
EP3531347A1 (en) * 2018-02-27 2019-08-28 STMicroelectronics International N.V. Data volume sculptor for deep learning acceleration
US11977971B2 (en) 2018-02-27 2024-05-07 Stmicroelectronics International N.V. Data volume sculptor for deep learning acceleration
CN108509978A (zh) * 2018-02-28 2018-09-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型
WO2019173392A1 (en) 2018-03-09 2019-09-12 Lattice Semiconductor Corporation Low latency interrupt alerts for artificial neural network systems and methods
EP3762874A4 (en) * 2018-03-09 2022-08-03 Lattice Semiconductor Corporation LOW-LATENCY INTERRUPT ALERTS FOR ARTIFICIAL NEURAL NETWORK SYSTEMS AND PROCESSES
CN108647571A (zh) * 2018-03-30 2018-10-12 国信优易数据有限公司 视频动作分类模型训练方法、装置及视频动作分类方法
TWI691923B (zh) * 2018-04-02 2020-04-21 華南商業銀行股份有限公司 金融交易詐騙偵測防範系統及其方法
CN108681690A (zh) * 2018-04-04 2018-10-19 浙江大学 一种基于深度学习的流水线人员规范操作检测系统
CN108681690B (zh) * 2018-04-04 2021-09-03 浙江大学 一种基于深度学习的流水线人员规范操作检测系统
CN108764026B (zh) * 2018-04-12 2021-07-30 杭州电子科技大学 一种基于时序检测单元预筛选的视频行为检测方法
CN108764026A (zh) * 2018-04-12 2018-11-06 杭州电子科技大学 一种基于时序检测单元预筛选的视频行为检测方法
CN108764142A (zh) * 2018-05-25 2018-11-06 北京工业大学 基于3dcnn的无人机影像森林烟雾检测和分类方法
CN109165510B (zh) * 2018-09-04 2021-03-26 中国民航大学 基于双通道卷积神经网络的Android恶意应用程序检测方法
CN109165510A (zh) * 2018-09-04 2019-01-08 中国民航大学 基于双通道卷积神经网络的Android恶意应用程序检测方法
CN109376677B (zh) * 2018-11-02 2022-04-01 深圳龙岗智能视听研究院 一种基于外形-运动双流信息融合的视频行为检测方法
CN109376677A (zh) * 2018-11-02 2019-02-22 深圳龙岗智能视听研究院 一种基于外形-运动双流信息融合的视频行为检测方法
CN109447014A (zh) * 2018-11-07 2019-03-08 东南大学-无锡集成电路技术研究所 一种基于双通道卷积神经网络的视频在线行为检测方法
CN109377555A (zh) * 2018-11-14 2019-02-22 江苏科技大学 自主水下机器人前景视场三维重建目标特征提取识别方法
CN109377555B (zh) * 2018-11-14 2023-07-25 江苏科技大学 自主水下机器人前景视场三维重建目标特征提取识别方法
CN109543697A (zh) * 2018-11-16 2019-03-29 西北工业大学 一种基于深度学习的rgbd图像目标识别方法
CN111222370A (zh) * 2018-11-26 2020-06-02 浙江宇视科技有限公司 一种案件研判方法、系统及装置
CN109600627A (zh) * 2018-12-11 2019-04-09 国信优易数据有限公司 一种视频识别方法和装置
CN110135386A (zh) * 2019-05-24 2019-08-16 长沙学院 一种基于深度学习的人体动作识别方法和系统
CN110223347A (zh) * 2019-06-11 2019-09-10 张子頔 图像中目标物体的定位方法、电子设备和存储介质
CN111223549A (zh) * 2019-12-30 2020-06-02 华东师范大学 一种基于姿态矫正的疾病预防的移动端系统及方法
CN113286194A (zh) * 2020-02-20 2021-08-20 北京三星通信技术研究有限公司 视频处理方法、装置、电子设备及可读存储介质
US11507831B2 (en) 2020-02-24 2022-11-22 Stmicroelectronics International N.V. Pooling unit for deep learning acceleration
US11710032B2 (en) 2020-02-24 2023-07-25 Stmicroelectronics International N.V. Pooling unit for deep learning acceleration
CN112633168A (zh) * 2020-12-23 2021-04-09 长沙中联重科环境产业有限公司 一种垃圾车翻桶动作识别方法、装置及垃圾车
CN112633168B (zh) * 2020-12-23 2023-10-31 长沙中联重科环境产业有限公司 一种垃圾车翻桶动作识别方法、装置及垃圾车
CN114973168A (zh) * 2022-08-01 2022-08-30 北京科技大学 一种跨场景交通目标检测方法和系统

Similar Documents

Publication Publication Date Title
CN106650655A (zh) 一种基于卷积神经网络的动作检测模型
CN109919122A (zh) 一种基于3d人体关键点的时序行为检测方法
CN106096605B (zh) 一种基于深度学习的图像模糊区域检测方法及装置
McLaughlin et al. Data-augmentation for reducing dataset bias in person re-identification
CN109145939A (zh) 一种小目标敏感的双通道卷积神经网络语义分割方法
CN110210551A (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN109376603A (zh) 一种视频识别方法、装置、计算机设备及存储介质
CN106709568A (zh) 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法
CN107679491A (zh) 一种融合多模态数据的3d卷积神经网络手语识别方法
CN106778796A (zh) 基于混合式协同训练的人体动作识别方法及系统
CN106295506A (zh) 一种基于集成卷积神经网络的年龄识别方法
CN111582230A (zh) 基于空时特征的视频行为分类方法
Zheng et al. FarSeg++: Foreground-aware relation network for geospatial object segmentation in high spatial resolution remote sensing imagery
CN109801225A (zh) 基于多任务全卷积神经网络的人脸网纹污迹去除方法
CN107506792A (zh) 一种半监督的显著对象检测方法
CN110909867A (zh) 一种基于力导图的图神经网络可视分析方法
Le et al. DeepSafeDrive: A grammar-aware driver parsing approach to Driver Behavioral Situational Awareness (DB-SAW)
CN110110812A (zh) 一种用于视频动作识别的串流深度网络模型
CN114037056A (zh) 一种生成神经网络的方法、装置、计算机设备和存储介质
CN107563319A (zh) 一种基于图像的亲子间人脸相似性度量计算方法
Wang et al. Basketball shooting angle calculation and analysis by deeply-learned vision model
Feng et al. Finding intrinsic color themes in images with human visual perception
Guo et al. Building-Road Collaborative Extraction From Remote Sensing Images via Cross-Task and Cross-Scale Interaction
Agrawal et al. Redundancy removal for isolated gesture in Indian sign language and recognition using multi-class support vector machine
Wang et al. Multi-scale prototype contrast network for high-resolution aerial imagery semantic segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170510