CN108288035A - 基于深度学习的多通道图像特征融合的人体动作识别方法 - Google Patents

基于深度学习的多通道图像特征融合的人体动作识别方法 Download PDF

Info

Publication number
CN108288035A
CN108288035A CN201810026945.9A CN201810026945A CN108288035A CN 108288035 A CN108288035 A CN 108288035A CN 201810026945 A CN201810026945 A CN 201810026945A CN 108288035 A CN108288035 A CN 108288035A
Authority
CN
China
Prior art keywords
video
channel
picture
convolutional neural
neural networks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810026945.9A
Other languages
English (en)
Inventor
张见威
钟佳琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201810026945.9A priority Critical patent/CN108288035A/zh
Publication of CN108288035A publication Critical patent/CN108288035A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Abstract

本发明公开了一种基于深度学习的多通道图像特征融合的人体动作识别方法,包括:(1)从视频中提取原始RGB图片,并通过RGB图片计算分段视频的动态图、光流图;(2)对输入图片进行裁剪操作扩增训练数据集;(3)构建三通道卷积神经网络,将最后得到的视频片段分别输入三通道卷积神经网络中进行训练,得到对应的网络模型;(4)对待识别的视频片段,提取原始RGB图片、并计算其对应的动态图、光流图,并得到最终动作类别的识别结果。本发明利用三通道卷积神经网络对不同形态的原始输入学习数据的本质特征,并在网络中部对三种形态的数据进行多通道稠密融合操作,提高特征的表达能力和达到多通道信息共享,准确度高的目的。

Description

基于深度学习的多通道图像特征融合的人体动作识别方法
技术领域
本发明涉及图像处理与分析技术领域,更具体地说,涉及一种基于深度学习的多通道图像特征融合的人体动作识别方法。
背景技术
视频中的人体动作识别是指通过分析处理视频中的视觉特征信息来进行人体动作识别、分类的一种技术。这种技术广泛应用于智能视频监控、行为分析、视频检索等方面。传统的人体动作识别都是基于手工设计的特征训练分类器进行动作分类。当前,传统的方法效果最好的策略是通过提取基于改进稠密轨迹(improved Dense Trajectory,iDT)的特征,结合费舍尔向量(Fisher Vector,FV)建模进行人体工作的识别。近年来,随着深度学习的发展迅速,卷积神经网络(Convolutional Neural Network,CNN)在计算机视觉领域取得了很大的进步,其自动学习到的特征已经超过了传统的手工设计特征。这一网络结构也被广泛应用于视频中的人体动作识别。比如,当前有一种双流卷积网络结构在人体动作识别领域取得较好的性能。这一网络结构通过事先计算好的光流图片以及从视频中提取出来的RGB原图,堆叠而成序列组,然后分别通过两个结构大致相同的卷积网络进行特征提取,自动地学习视频的特征,最后通过平均的方法融合两个通道预测,得出识别结果。
虽然基于手工特征的传统方法和基于深度学习的方法都在人体动作识别取得不错的分类性能,但是由于人体动作的复杂性、视频中背景因素的干扰、个别动作类内差大而类间差很小等原因,当前的识别算法都存在一定的不足,无法实现高精度的人体动作识别。因此,需要设计一种新的自动提取特征的方法去学习视频中的人体动作的有效特征,从而实现高精度的人体动作识别。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于深度学习的多通道图像特征融合的人体动作识别方法。该方法对原始数据进行了一定的处理,为卷积神经网络提供了三种不同的输入,添加了新的视频特征表达信息,形成三通道卷积神经网络,并且在模型中对特征进行稠密的融合,从而达到多通道信息共享,准确度高的目的。
为了达到上述目的,本发明采用以下技术方案:
本发明一种基于深度学习的多通道图像特征融合的人体动作识别方法,包括下述步骤:
(1)从视频中提取原始RGB图片,并通过RGB图片计算分段视频的动态图和光流图,包括下述内容:
根据原始视频,提取其RGB视频帧Irgb,通过得到的视频帧Irgb计算动态图Idyn和光流图Iflow,得到三种不同类型的训练样本,都作为网络的输入数据,三种不同的训练样本,分别对应了视频片段的颜色、空间信息,短时间运动信息以及长时间运动信息;
(2)对输入图片进行裁剪操作扩增训练数据集;
(3)构建三通道卷积神经网络,将最后得到的视频片段分别输入三通道卷积神经网络中进行训练,得到对应的网络模型;
(4)对待识别的视频片段,提取原始RGB图片,并计算其对应的动态图和光流图,利用步骤(3)中训练好的三通道卷积神经网络提取特征,并得到最终动作类别的识别结果。
作为优选的技术方案,所述步骤(1)中,从视频中提取原始RGB图片,并通过RGB图片计算分段视频的动态图具体操作如下:
(1.1)对于组成一个视频片段的序列S=[f1,f2,…,fn],其中n为序列长度,fi为序列中第i个视频帧,其中1≤i≤n;
(1.2)对所有得到的视频帧fi按照下述心理学公式(1)进行灰度化:
Gray(x,y)=R(x,y)×0.299+G(x,y)×0.587+B(x,y)×0.114 (1)
其中,(x,y)代表图片中的坐标,Gray(x,y)、R(x,y)、G(x,y)、B(x,y)分别代表灰度图像中的灰度值,RGB图像中的红色通道值、绿色通道值以及蓝色通道值;
(1.3)通过灰度化的视频序列记为G=[g1,g2,…,gn],对于序列中的视频帧gi,1≤i≤n-1,采用公式(2)进行计算,得到视频的动态序列D=[d1,d2,…,dn]:
di=gi+1-gi (2)
(1.4)将序列长度为n的动态序列D分为三段,三段长度分别为:
(1.5)对于每一段动态序列li,i=1,2,3,按照公式(5)在时间轴上进行平均池化,得到平均动态图:
其中,dj(1≤j≤l)为步骤(1.3)中计算好的动态图;
(1.6)对于得到的平均动态图,按照公式(6)组合起来:
D(x,y,i)=(L(x,y,i)-min(Li))/max(Li)×255 (6)
其中,D(x,y,i)为所求得的动态图,min(Li)、max(Li)分别为当前平均动态图Li中的最小值和最大值。
作为优选的技术方案,所述步骤(2)中,对输入图片进行裁剪操作扩增训练数据集具体包括:
(2.1)对输入网络的图片进行裁剪操作,假设图片大小为h×w,首先将图片长宽比例固定,调整图片短边为固定值h0,则调整后的图片大小为
(2.2)输入卷积神经网络的图片为正方形,将调整后的图片以短边尺寸h0为基准,每次对图片进行三次裁剪,每次位移大小为(w-h)/2,每次裁剪得到的图片大小为h0×h0,作为卷积神经网络的输入。
作为优选的技术方案,所述步骤(3)构建三通道卷积神经网络具体操作如下:
(3.1)三通道卷积神经网络结构自底向上由三个模块组成,分别为:初始化模块,多通道稠密融合模块,分类模块;
(3.2)其中,初始化模块设置在网络底部:在第一层设置三个通道,这些通道包括:一个RGB图像通道、一个动态图通道以及一个光流图通道,初始化模块对三种不同类型的训练样本进行卷积、池化操作,每个通道都得到d维特征;第二层中,对时间点t堆叠起来的多通道图片分通道进行三维卷积操作,即将卷积操作扩展到时间域;
(3.3)在多通道稠密融合模块中,将上述每个通道得到的d维特征进行稠密融合;
(3.4)分类模块采用全连接层和Softmax分类器进行分类。
作为优选的技术方案,所述初始化模块具体操作如下:
对于输入网络的三个通道的图片,取时间点为t的视频帧分别进行三维卷积、批处理、非线性修正、三维池化操作,并在卷积时固定每个通道的特征输出维度,每个通道都会得到对应的特征矩阵,对于图片大小为h×w,一个时长为T的视频片段,得到T×3个大小为h×w×d的特征矩阵。
作为优选的技术方案,所述多通道稠密融合模块具体操作如下:
(3.3.1)取出每个通道得到的维度为i的特征mi按照公式(7)进行加权融合,0<i≤d;
其中,Fi为融合之后的特征,ωk为三通道的权重,0<k≤3,分别为三个通道取出的维度为i的特征,其中0<i≤d;
从而得到d个特征矩阵,每个特征矩阵的大小为h×w×3;
(3.3.2)对于上述得到的特征矩阵,分别采用卷积核进行卷积,输出特征维度channelout设置为1,则在步骤(3.3.1)中的每个特征矩阵得到一个大小为h×w×1的特征矩阵,经过修正线性单元,再将这些特征矩阵依照时间维度串接,得到h×w×d的稠密融合特征矩阵,将此特征矩阵作为分类模块的输入。
作为优选的技术方案,所述分类模块包括全连接层以及Softmax层,其中,全连接层在卷积神经网络中,将学习到的分布式特征表示映射到样本标记空间,最后通过Softmax层,对分类结果进行归一化,得到最终的预测结果。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明提供了一种提取三通道输入稠密融合的方法,从原始视频中获取原始RGB视频帧,并通过视频帧得到光流图和动态图,将三种包含不同信息的图片作为网络的输入,让网络获取更多的信息;
2、本发明采用三通道卷积神经网络从不同形态的原始输入学习视频片段的本质特征,在网络中部对三种输入进行多通道稠密融合操作,融合过后的特征具有较强的表达力,再利用全连接层及softmax层对视频片段进行分类,获取最终的分类结果。在多类表达进行卷积池化的过程中,提出多通道稠密融合块,将视频的多类表达信息紧密结合,让不同特征之间进行信息共享。通过在卷积神经网络中层进行稠密融合,得到更加有表达力的特征。
附图说明
图1为本发明公开的基于深度学习的多通道图像特征融合的人体动作识别方法主要步骤的整体流程图。
图2为本发明中多通道稠密融合模块的网络结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1至图2所示,本发明基于深度学习的多通道图像特征融合的人体动作识别方法,用于对视频中的人体动作进行识别;包括以下四个步骤:
(1)从视频中提取原始RGB图片,并通过RGB图片计算分段视频的动态图、光流图;
(2)对输入的图片进行裁剪操作扩增训练数据集;
(3)构建三通道卷积神经网络,将最后得到的视频片段分别输入三通道卷积神经网络中进行训练,得到对应的网络模型;
(4)对待识别的视频片段,提取原始RGB图片、并计算其对应的动态图、光流图,利用(3)中训练好的三通道卷积神经网络提取特征,并得到最终动作类别的识别结果。
在(1)中,所述从视频中提取原始RGB图片,并通过RGB图片计算分段视频的动态图、光流图是指:
(1.1)采用ffmpeg从视频中提取原始RGB图片,并通过RGB图片计算分段视频的动态图:
(1.1.1)对于组成一个视频片段的序列S=[f1,f2,…,fn],其中n为序列长度,fi(1≤i≤n)为序列中第i个视频帧。
(1.1.2)对所有得到的视频帧fi(1≤i≤n)按照下述心理学公式(1)进行灰度化:
Gray(x,y)=R(x,y)×0.299+G(x,y)×0.587+B(x,y)×0.114 (1)
其中,(x,y)代表图片中的坐标,Gray(x,y)、R(x,y)、G(x,y)、B(x,y)分别代表灰度图像中的灰度值,RGB图像中的红色通道值、绿色通道值以及蓝色通道值。
(1.1.3)通过灰度化的视频序列记为G=[g1,g2,…,gn],对于序列中的视频帧gi(1≤i≤n-1),采用公式(2)进行计算,得到视频的动态序列D=[d1,d2,…,dn]:
di=gi+1-gi (2)
(1.1.4)将序列长度为n的动态序列D分为三段,三段长度分别为:
(1.1.5)对于每一段动态序列li(i=1,2,3),按照公式(5)在时间轴上进行平均池化,得到平均动态图:
其中,dj(1≤j≤l)为(1.3)中计算好的动态图。
(1.1.6)对于得到的平均动态图,按照公式(6)组合起来:
D(x,y,i)=(L(x,y,i)-min(Li))/m (Li)×255 (6)
其中,D(x,y,i)为所求得的动态图,min(Li)、max(Li)分别为当前平均动态图Li中的最小值和最大值。
(1.2)如图1所示,对于原始的视频提取视频帧,采用tv-l1算法计算光流图:包括以下步骤:
(1.2.1)假设图片中某一点(x,y)用x表示,T表示参考图像,I为当前图像。u、v均为偏移量。光流计算的目标函数为:
(1.2.2)将(u,v)用u表示,引入辅助变量v,公式(7)可以写为:
其中,k为迭代次数。
(1.2.3)求解u,v项,得到光流图。
在(2)中,所述对输入图片进行裁剪操作扩增训练数据集是指:包括以下步骤:
(2.1)对输入网络的图片进行裁剪操作。假设图片大小为h×w,首先将图片长宽比例固定,调整图片短边为固定值h0,则调整后的图片大小为
(2.2)输入卷积神经网络的图片为正方形,将上述调整后的图片以短边尺寸h0为基准,每次对图片进行三次裁剪,每次位移大小为(w-h)/2。每次裁剪得到的图片大小为h0×h0,作为卷积神经网络的输入。
在(3)中,所述构建三通道卷积神经网络是指:
构建三通道卷积神经网络,网络结构自底向上由三个模块组成:初始化模块,多通道稠密融合模块,分类模块,包括以下步骤:
(3.1)网络底部的初始化模块:
(3.1.1)在第一层设置三个通道,这些通道包括:一个RGB图像通道、一个光流图通道以及一个动态图通道。对上述层的所有通道对应在相同时间点t的通道图片进行堆叠,作为下一层的输入。
(3.1.2)第二层中,对时间点t堆叠起来的多通道图片分通道进行三维卷积操作,即将卷积操作扩展到时间域,卷积核W为:
W(h,w,t,channelin,channelout) (9)
其中h,w,t分别为卷积核在高度、宽度以及时间上的尺寸大小,channelin为输入数据的维度,channelout为输出特征维度。
接着进行批量规范化(Batch Normalization)操作,让网络间的数据在有效的范围内传递:
其中,为批量规范化后的数据,x(k)为批量规范化前的数据,为当前批的均值,为当前批的标准差。
最后,让数据通过修正线性单元(Relu,Rectified Linear Units),为数据添加非线性因素:
x′=max(x,0) (11)
其中,x为输入数据,x′为输出数据。
这样,每个通道得到含有d维的特征,即得到的特征矩阵大小为h×w×d。将得到的特征矩阵作为多通道稠密融合模块的输入。
(3.2)在多通道稠密融合模块中,将上述每个通道得到的d维特征进行稠密融合,具体的:
(3.2.1)取出每个通道得到的维度为i的特征mi(0<i≤d))按照公式(12)进行加权融合:
其中,Fi为融合之后的特征,ωk(0<k≤3)为三通道的权重,分别为三个通道取出的维度为i(0<i≤d)的特征。
从而得到d个特征矩阵,每个特征矩阵的大小为h×w×3。
(3.2.2)对于上述得到的特征矩阵,分别采用卷积核进行卷积,输出特征维度channelout设置为1,则在(3.2.1)中的每个特征矩阵得到一个大小为h×w×1的特征矩阵。经过修正线性单元,再将这些特征矩阵依照时间维度串接,得到h×w×d的稠密融合特征矩阵。将此特征矩阵作为分类模块的输入。
(3.3)分类模块包含全连接层以及Softmax分类器。
(3.3.1)全连接层(fully connected layers)在卷积神经网络中,可以将学到的分布式特征表示映射到样本标记空间。
(3.3.2)Softmax分类器对分类结果进行归一化,得到最终的预测结果。
在(4)中,所述对待识别的视频片段,提取原始RGB图片、并计算其对应的动态图、光流图,利用(3)中训练好的网络模型提取特征,并得到最终动作类别的识别结果是指:
(4.1)对待识别的视频片段,采用ffmpeg提取原始RGB视频帧,并通过上述方法计算其动态图、光流图,对原始数据进行大小的调整至适应网络的输入尺寸,调整后的图片,作为网络模型的输入。
(4.2)将上述得到三种类型的图片输入网络,得到的特征矩阵输入分类模块。分类模块包含全连接层以及Softmax层。其中,全连接层(fully connected layers)在卷积神经网络中,可以将学到的分布式特征表示映射到样本标记空间。
(4.3)采用Softmax分类器进行分类,该分类器适用于解决多分类问题,分类标签可以取两个以上的值,假设数据集有n类,在Softmax回归中,将输入的特征f(X)分类为类别j(j=0,1,2…n)的概率为:
其中,θl,l=1,...,k是在训练卷积神经网络时得到的分类器模型的参数,概率值最大的那个类别即是识别结果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种基于深度学习的多通道图像特征融合的人体动作识别方法,其特征在于,包括下述步骤:
(1)从视频中提取原始RGB图片,并通过RGB图片计算分段视频的动态图和光流图,包括下述内容:
根据原始视频,提取其RGB视频帧Irgb,通过得到的视频帧Irgb计算动态图Idyn和光流图Iflow,得到三种不同类型的训练样本,都作为网络的输入数据,三种不同的训练样本,分别对应了视频片段的颜色、空间信息,短时间运动信息以及长时间运动信息;
(2)对输入图片进行裁剪操作扩增训练数据集;
(3)构建三通道卷积神经网络,将最后得到的视频片段分别输入三通道卷积神经网络中进行训练,得到对应的网络模型;
(4)对待识别的视频片段,提取原始RGB图片,并计算其对应的动态图和光流图,利用步骤(3)中训练好的三通道卷积神经网络提取特征,并得到最终动作类别的识别结果。
2.根据权利要求1所述基于深度学习的多通道图像特征融合的人体动作识别方法,其特征在于,所述步骤(1)中,从视频中提取原始RGB图片,并通过RGB图片计算分段视频的动态图具体操作如下:
(1.1)对于组成一个视频片段的序列S=[f1,f2,...,fn],其中n为序列长度,fi为序列中第i个视频帧,其中1≤i≤n;
(1.2)对所有得到的视频帧fi按照下述心理学公式(1)进行灰度化:
Gray(x,y)=R(x,y)×0.299+G(x,y)×0.587+B(x,y)×0.114 (1)
其中,(x,y)代表图片中的坐标,Gray(x,y)、R(x,y)、G(x,y)、B(x,y)分别代表灰度图像中的灰度值,RGB图像中的红色通道值、绿色通道值以及蓝色通道值;
(1.3)通过灰度化的视频序列记为G=[g1,g2,...,gn],对于序列中的视频帧gi,1≤i≤n-1,采用公式(2)进行计算,得到视频的动态序列D=[d1,d2,...,dn]:
di=gi+1-gi (2)
(1.4)将序列长度为n的动态序列D分为三段,三段长度分别为:
(1.5)对于每一段动态序列li,i=1,2,3,按照公式(5)在时间轴上进行平均池化,得到平均动态图:
其中,dj(1≤j≤l)为步骤(1.3)中计算好的动态图;
(1.6)对于得到的平均动态图,按照公式(6)组合起来:
D(x,y,i)=(L(x,y,i)-min(Li))/max(Li)×255 (6)
其中,D(x,y,i)为所求得的动态图,min(Li)、max(Li)分别为当前平均动态图Li中的最小值和最大值。
3.根据权利要求1所述基于深度学习的多通道图像特征融合的人体动作识别方法,其特征在于,所述步骤(2)中,对输入图片进行裁剪操作扩增训练数据集具体包括:
(2.1)对输入网络的图片进行裁剪操作,假设图片大小为h×w,首先将图片长宽比例固定,调整图片短边为固定值h0,则调整后的图片大小为
(2.2)输入卷积神经网络的图片为正方形,将调整后的图片以短边尺寸h0为基准,每次对图片进行三次裁剪,每次位移大小为(w-h)/2,每次裁剪得到的图片大小为h0×h0,作为卷积神经网络的输入。
4.根据权利要求1所述基于深度学习的多通道图像特征融合的人体动作识别方法,其特征在于,所述步骤(3)构建三通道卷积神经网络具体操作如下:
(3.1)三通道卷积神经网络结构自底向上由三个模块组成,分别为:初始化模块,多通道稠密融合模块,分类模块;
(3.2)其中,初始化模块设置在网络底部:在第一层设置三个通道,这些通道包括:一个RGB图像通道、一个动态图通道以及一个光流图通道,初始化模块对三种不同类型的训练样本进行卷积、池化操作,每个通道都得到d维特征;第二层中,对时间点t堆叠起来的多通道图片分通道进行三维卷积操作,即将卷积操作扩展到时间域;
(3.3)在多通道稠密融合模块中,将上述每个通道得到的d维特征进行稠密融合;
(3.4)分类模块采用全连接层和Softmax分类器进行分类。
5.根据权利要求4所述基于深度学习的多通道图像特征融合的人体动作识别方法,其特征在于,所述初始化模块具体操作如下:
对于输入网络的三个通道的图片,取时间点为t的视频帧分别进行三维卷积、批处理、非线性修正、三维池化操作,并在卷积时固定每个通道的特征输出维度,每个通道都会得到对应的特征矩阵,对于图片大小为h×w,一个时长为T的视频片段,得到T×3个大小为h×w×d的特征矩阵。
6.根据权利要求5所述基于深度学习的多通道图像特征融合的人体动作识别方法,其特征在于,所述多通道稠密融合模块具体操作如下:
(3.3.1)取出每个通道得到的维度为i的特征mi按照公式(7)进行加权融合,0<i≤d;
其中,Fi为融合之后的特征,ωk为三通道的权重,0<k≤3,分别为三个通道取出的维度为i的特征,其中0<i≤d;
从而得到d个特征矩阵,每个特征矩阵的大小为h×w×3;
(3.3.2)对于上述得到的特征矩阵,分别采用卷积核进行卷积,输出特征维度channelout设置为1,则在步骤(3.3.1)中的每个特征矩阵得到一个大小为h×w×1的特征矩阵,经过修正线性单元,再将这些特征矩阵依照时间维度串接,得到h×w×d的稠密融合特征矩阵,将此特征矩阵作为分类模块的输入。
7.根据权利要求3所述基于深度学习的多通道图像特征融合的人体动作识别方法,其特征在于,所述分类模块包括全连接层以及Softmax层,其中,全连接层在卷积神经网络中,将学习到的分布式特征表示映射到样本标记空间,最后通过Softmax层,对分类结果进行归一化,得到最终的预测结果。
CN201810026945.9A 2018-01-11 2018-01-11 基于深度学习的多通道图像特征融合的人体动作识别方法 Pending CN108288035A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810026945.9A CN108288035A (zh) 2018-01-11 2018-01-11 基于深度学习的多通道图像特征融合的人体动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810026945.9A CN108288035A (zh) 2018-01-11 2018-01-11 基于深度学习的多通道图像特征融合的人体动作识别方法

Publications (1)

Publication Number Publication Date
CN108288035A true CN108288035A (zh) 2018-07-17

Family

ID=62835018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810026945.9A Pending CN108288035A (zh) 2018-01-11 2018-01-11 基于深度学习的多通道图像特征融合的人体动作识别方法

Country Status (1)

Country Link
CN (1) CN108288035A (zh)

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190578A (zh) * 2018-09-13 2019-01-11 合肥工业大学 基于时域卷积网络与循环神经网络融合的手语视频翻译方法
CN109214346A (zh) * 2018-09-18 2019-01-15 中山大学 基于层次信息传递的图片人体动作识别方法
CN109241342A (zh) * 2018-07-23 2019-01-18 中国科学院计算技术研究所 基于深度线索的视频场景检索方法和系统
CN109376683A (zh) * 2018-11-09 2019-02-22 中国科学院计算技术研究所 一种基于稠密图的视频分类方法和系统
CN109376667A (zh) * 2018-10-29 2019-02-22 北京旷视科技有限公司 目标检测方法、装置及电子设备
CN109460707A (zh) * 2018-10-08 2019-03-12 华南理工大学 一种基于深度神经网络的多模态动作识别方法
CN109523502A (zh) * 2018-08-28 2019-03-26 顺丰科技有限公司 装卸口状态检测方法、装置、设备及其存储介质
CN109711316A (zh) * 2018-12-21 2019-05-03 广东工业大学 一种行人重识别方法、装置、设备及存储介质
CN109886130A (zh) * 2019-01-24 2019-06-14 上海媒智科技有限公司 目标对象的确定方法、装置、存储介质和处理器
CN109919011A (zh) * 2019-01-28 2019-06-21 浙江工业大学 一种基于多时长信息的动作视频识别方法
CN109978136A (zh) * 2019-03-05 2019-07-05 厦门美图之家科技有限公司 一种训练目标网络的方法、计算设备及存储介质
CN109993077A (zh) * 2019-03-18 2019-07-09 南京信息工程大学 一种基于双流网络的行为识别方法
CN110008971A (zh) * 2018-08-23 2019-07-12 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质及计算机设备
CN110070002A (zh) * 2019-03-29 2019-07-30 上海理工大学 一种基于3d卷积神经网络的行为识别方法
CN110110812A (zh) * 2019-05-20 2019-08-09 江西理工大学 一种用于视频动作识别的串流深度网络模型
CN110135386A (zh) * 2019-05-24 2019-08-16 长沙学院 一种基于深度学习的人体动作识别方法和系统
CN110189282A (zh) * 2019-05-09 2019-08-30 西北工业大学 基于密集和跳跃连接深度卷积网络的多光谱和全色图像融合方法
CN110443849A (zh) * 2019-07-11 2019-11-12 南京邮电大学 一种基于深度图像的双流卷积神经网络回归学习的目标定位方法
CN110443182A (zh) * 2019-07-30 2019-11-12 深圳市博铭维智能科技有限公司 一种基于多实例学习的城市排水管道视频异常检测方法
CN110648317A (zh) * 2019-09-18 2020-01-03 上海交通大学 适用于脊柱转移肿瘤骨质的质量分类方法及系统
CN110942011A (zh) * 2019-11-18 2020-03-31 上海极链网络科技有限公司 一种视频事件识别方法、系统、电子设备及介质
CN110971837A (zh) * 2018-09-30 2020-04-07 Tcl集团股份有限公司 基于ConvNets的暗光图像处理方法及终端设备
CN111193916A (zh) * 2018-12-29 2020-05-22 中科寒武纪科技股份有限公司 运算方法、装置及相关产品
CN111199238A (zh) * 2018-11-16 2020-05-26 顺丰科技有限公司 一种基于双流卷积神经网络的行为识别方法及设备
CN111222502A (zh) * 2019-12-28 2020-06-02 中国船舶重工集团公司第七一七研究所 一种红外小目标图像标注方法及系统
CN111241985A (zh) * 2020-01-08 2020-06-05 腾讯科技(深圳)有限公司 一种视频内容识别方法、装置、存储介质、以及电子设备
CN111292765A (zh) * 2019-11-21 2020-06-16 台州学院 一种融合多个深度学习模型的双模态情感识别方法
CN111291766A (zh) * 2018-12-06 2020-06-16 乐金信世股份有限公司 利用深度学习的图像识别方法及服务器
CN111382647A (zh) * 2018-12-29 2020-07-07 广州市百果园信息技术有限公司 一种图片处理方法、装置、设备及存储介质
CN111401209A (zh) * 2020-03-11 2020-07-10 佛山市南海区广工大数控装备协同创新研究院 一种基于深度学习的动作识别方法
CN111401104A (zh) * 2019-01-02 2020-07-10 顺丰科技有限公司 分类模型的训练方法、分类方法、装置、设备及存储介质
CN111507275A (zh) * 2020-04-20 2020-08-07 北京理工大学 一种基于深度学习的视频数据时序信息提取方法及装置
CN111627041A (zh) * 2020-04-15 2020-09-04 北京迈格威科技有限公司 多帧数据的处理方法、装置及电子设备
CN111639571A (zh) * 2020-05-20 2020-09-08 浙江工商大学 基于轮廓卷积神经网络的视频动作识别方法
CN111738681A (zh) * 2020-06-17 2020-10-02 浙江大学 一种基于深度学习及智能插座的消毒行为智能判定系统及方法
CN111860064A (zh) * 2019-04-30 2020-10-30 杭州海康威视数字技术股份有限公司 基于视频的目标检测方法、装置、设备及存储介质
CN112132253A (zh) * 2019-06-24 2020-12-25 北京眼神智能科技有限公司 3d动作识别方法、装置、计算机可读存储介质及设备
CN112487967A (zh) * 2020-11-30 2021-03-12 电子科技大学 一种基于三维卷积网络的景区涂画行为识别方法
CN112487949A (zh) * 2020-11-27 2021-03-12 华中师范大学 一种基于多模态数据融合的学习者行为识别方法
CN112579824A (zh) * 2020-12-16 2021-03-30 北京中科闻歌科技股份有限公司 视频数据分类方法、装置、电子设备及存储介质
CN112712103A (zh) * 2020-12-01 2021-04-27 杭州电子科技大学 一种基于多特征提取与融合的头势识别算法
CN112801042A (zh) * 2021-03-08 2021-05-14 南京大学 一种基于深度学习和视频轨迹的学生上课行为识别方法
CN112989955A (zh) * 2021-02-20 2021-06-18 北方工业大学 基于空时双流异构嫁接卷积神经网络人体动作识别方法
CN114897955A (zh) * 2022-04-25 2022-08-12 电子科技大学 一种基于可微几何传播的深度补全方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550699A (zh) * 2015-12-08 2016-05-04 北京工业大学 一种基于cnn融合时空显著信息的视频识别分类方法
CN105787458A (zh) * 2016-03-11 2016-07-20 重庆邮电大学 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550699A (zh) * 2015-12-08 2016-05-04 北京工业大学 一种基于cnn融合时空显著信息的视频识别分类方法
CN105787458A (zh) * 2016-03-11 2016-07-20 重庆邮电大学 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ANOOP CHERIAN等: "Second-order Temporal Pooling for Action Recognition", 《ARXIV》 *
BASURA FERNANDO等: "Rank pooling for action recognition", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
CHRISTOPH FEICHTENHOFER等: "Convolutional Two-Stream Network Fusion for Video Action Recognition", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
刘璐璐: "基于卷积神经网络的人体行为识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
孟勃等: "基于四元数时空卷积神经网络的人体行为识别", 《仪器仪表学报》 *
韩敏捷: "基于深度学习框架的多模态动作识别", 《计算机与现代化》 *

Cited By (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241342A (zh) * 2018-07-23 2019-01-18 中国科学院计算技术研究所 基于深度线索的视频场景检索方法和系统
CN109241342B (zh) * 2018-07-23 2022-04-19 中国科学院计算技术研究所 基于深度线索的视频场景检索方法和系统
US11604949B2 (en) 2018-08-23 2023-03-14 Tencent Technology (Shenzhen) Company Limited Image processing method and apparatus, computer-readable storage medium, and computer device
CN110008971A (zh) * 2018-08-23 2019-07-12 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质及计算机设备
CN109523502A (zh) * 2018-08-28 2019-03-26 顺丰科技有限公司 装卸口状态检测方法、装置、设备及其存储介质
CN109190578A (zh) * 2018-09-13 2019-01-11 合肥工业大学 基于时域卷积网络与循环神经网络融合的手语视频翻译方法
CN109190578B (zh) * 2018-09-13 2019-10-18 合肥工业大学 基于时域卷积网络与循环神经网络融合的手语视频翻译方法
CN109214346B (zh) * 2018-09-18 2022-03-29 中山大学 基于层次信息传递的图片人体动作识别方法
CN109214346A (zh) * 2018-09-18 2019-01-15 中山大学 基于层次信息传递的图片人体动作识别方法
CN110971837A (zh) * 2018-09-30 2020-04-07 Tcl集团股份有限公司 基于ConvNets的暗光图像处理方法及终端设备
CN110971837B (zh) * 2018-09-30 2021-07-27 Tcl科技集团股份有限公司 基于ConvNets的暗光图像处理方法及终端设备
CN109460707A (zh) * 2018-10-08 2019-03-12 华南理工大学 一种基于深度神经网络的多模态动作识别方法
CN109376667A (zh) * 2018-10-29 2019-02-22 北京旷视科技有限公司 目标检测方法、装置及电子设备
CN109376683A (zh) * 2018-11-09 2019-02-22 中国科学院计算技术研究所 一种基于稠密图的视频分类方法和系统
CN111199238A (zh) * 2018-11-16 2020-05-26 顺丰科技有限公司 一种基于双流卷积神经网络的行为识别方法及设备
CN111291766A (zh) * 2018-12-06 2020-06-16 乐金信世股份有限公司 利用深度学习的图像识别方法及服务器
CN109711316B (zh) * 2018-12-21 2022-10-21 广东工业大学 一种行人重识别方法、装置、设备及存储介质
CN109711316A (zh) * 2018-12-21 2019-05-03 广东工业大学 一种行人重识别方法、装置、设备及存储介质
CN111193916B (zh) * 2018-12-29 2022-03-29 中科寒武纪科技股份有限公司 运算方法
CN111382647A (zh) * 2018-12-29 2020-07-07 广州市百果园信息技术有限公司 一种图片处理方法、装置、设备及存储介质
CN111193916A (zh) * 2018-12-29 2020-05-22 中科寒武纪科技股份有限公司 运算方法、装置及相关产品
CN111382647B (zh) * 2018-12-29 2021-07-30 广州市百果园信息技术有限公司 一种图片处理方法、装置、设备及存储介质
CN111401104B (zh) * 2019-01-02 2023-10-31 顺丰科技有限公司 分类模型的训练方法、分类方法、装置、设备及存储介质
CN111401104A (zh) * 2019-01-02 2020-07-10 顺丰科技有限公司 分类模型的训练方法、分类方法、装置、设备及存储介质
CN109886130A (zh) * 2019-01-24 2019-06-14 上海媒智科技有限公司 目标对象的确定方法、装置、存储介质和处理器
CN109919011A (zh) * 2019-01-28 2019-06-21 浙江工业大学 一种基于多时长信息的动作视频识别方法
CN109978136A (zh) * 2019-03-05 2019-07-05 厦门美图之家科技有限公司 一种训练目标网络的方法、计算设备及存储介质
CN109993077A (zh) * 2019-03-18 2019-07-09 南京信息工程大学 一种基于双流网络的行为识别方法
CN110070002A (zh) * 2019-03-29 2019-07-30 上海理工大学 一种基于3d卷积神经网络的行为识别方法
CN111860064B (zh) * 2019-04-30 2023-10-20 杭州海康威视数字技术股份有限公司 基于视频的目标检测方法、装置、设备及存储介质
CN111860064A (zh) * 2019-04-30 2020-10-30 杭州海康威视数字技术股份有限公司 基于视频的目标检测方法、装置、设备及存储介质
CN110189282A (zh) * 2019-05-09 2019-08-30 西北工业大学 基于密集和跳跃连接深度卷积网络的多光谱和全色图像融合方法
CN110110812B (zh) * 2019-05-20 2022-08-19 江西理工大学 一种用于视频动作识别的串流深度网络模型构建方法
CN110110812A (zh) * 2019-05-20 2019-08-09 江西理工大学 一种用于视频动作识别的串流深度网络模型
CN110135386A (zh) * 2019-05-24 2019-08-16 长沙学院 一种基于深度学习的人体动作识别方法和系统
CN112132253A (zh) * 2019-06-24 2020-12-25 北京眼神智能科技有限公司 3d动作识别方法、装置、计算机可读存储介质及设备
CN110443849B (zh) * 2019-07-11 2022-10-14 南京邮电大学 一种基于深度图像的双流卷积神经网络回归学习的目标定位方法
CN110443849A (zh) * 2019-07-11 2019-11-12 南京邮电大学 一种基于深度图像的双流卷积神经网络回归学习的目标定位方法
CN110443182A (zh) * 2019-07-30 2019-11-12 深圳市博铭维智能科技有限公司 一种基于多实例学习的城市排水管道视频异常检测方法
CN110648317B (zh) * 2019-09-18 2023-06-30 上海交通大学 适用于脊柱转移肿瘤骨质的质量分类方法及系统
CN110648317A (zh) * 2019-09-18 2020-01-03 上海交通大学 适用于脊柱转移肿瘤骨质的质量分类方法及系统
CN110942011B (zh) * 2019-11-18 2021-02-02 上海极链网络科技有限公司 一种视频事件识别方法、系统、电子设备及介质
CN110942011A (zh) * 2019-11-18 2020-03-31 上海极链网络科技有限公司 一种视频事件识别方法、系统、电子设备及介质
CN111292765A (zh) * 2019-11-21 2020-06-16 台州学院 一种融合多个深度学习模型的双模态情感识别方法
CN111222502B (zh) * 2019-12-28 2023-05-12 中国船舶重工集团公司第七一七研究所 一种红外小目标图像标注方法及系统
CN111222502A (zh) * 2019-12-28 2020-06-02 中国船舶重工集团公司第七一七研究所 一种红外小目标图像标注方法及系统
CN111241985A (zh) * 2020-01-08 2020-06-05 腾讯科技(深圳)有限公司 一种视频内容识别方法、装置、存储介质、以及电子设备
CN111241985B (zh) * 2020-01-08 2022-09-09 腾讯科技(深圳)有限公司 一种视频内容识别方法、装置、存储介质、以及电子设备
CN111401209A (zh) * 2020-03-11 2020-07-10 佛山市南海区广工大数控装备协同创新研究院 一种基于深度学习的动作识别方法
CN111401209B (zh) * 2020-03-11 2023-11-07 佛山市南海区广工大数控装备协同创新研究院 一种基于深度学习的动作识别方法
CN111627041A (zh) * 2020-04-15 2020-09-04 北京迈格威科技有限公司 多帧数据的处理方法、装置及电子设备
CN111627041B (zh) * 2020-04-15 2023-10-10 北京迈格威科技有限公司 多帧数据的处理方法、装置及电子设备
CN111507275B (zh) * 2020-04-20 2023-10-10 北京理工大学 一种基于深度学习的视频数据时序信息提取方法及装置
CN111507275A (zh) * 2020-04-20 2020-08-07 北京理工大学 一种基于深度学习的视频数据时序信息提取方法及装置
CN111639571B (zh) * 2020-05-20 2023-05-23 浙江工商大学 基于轮廓卷积神经网络的视频动作识别方法
CN111639571A (zh) * 2020-05-20 2020-09-08 浙江工商大学 基于轮廓卷积神经网络的视频动作识别方法
CN111738681B (zh) * 2020-06-17 2021-09-03 浙江大学 一种基于深度学习及智能插座的消毒行为智能判定系统及方法
CN111738681A (zh) * 2020-06-17 2020-10-02 浙江大学 一种基于深度学习及智能插座的消毒行为智能判定系统及方法
CN112487949A (zh) * 2020-11-27 2021-03-12 华中师范大学 一种基于多模态数据融合的学习者行为识别方法
CN112487949B (zh) * 2020-11-27 2023-05-16 华中师范大学 一种基于多模态数据融合的学习者行为识别方法
CN112487967A (zh) * 2020-11-30 2021-03-12 电子科技大学 一种基于三维卷积网络的景区涂画行为识别方法
CN112712103A (zh) * 2020-12-01 2021-04-27 杭州电子科技大学 一种基于多特征提取与融合的头势识别算法
CN112712103B (zh) * 2020-12-01 2024-02-06 杭州电子科技大学 一种基于多特征提取与融合的头势识别算法
CN112579824A (zh) * 2020-12-16 2021-03-30 北京中科闻歌科技股份有限公司 视频数据分类方法、装置、电子设备及存储介质
CN112989955B (zh) * 2021-02-20 2023-09-29 北方工业大学 基于空时双流异构嫁接卷积神经网络人体动作识别方法
CN112989955A (zh) * 2021-02-20 2021-06-18 北方工业大学 基于空时双流异构嫁接卷积神经网络人体动作识别方法
CN112801042A (zh) * 2021-03-08 2021-05-14 南京大学 一种基于深度学习和视频轨迹的学生上课行为识别方法
CN112801042B (zh) * 2021-03-08 2023-12-15 南京大学 一种基于深度学习和视频轨迹的学生上课行为识别方法
CN114897955A (zh) * 2022-04-25 2022-08-12 电子科技大学 一种基于可微几何传播的深度补全方法

Similar Documents

Publication Publication Date Title
CN108288035A (zh) 基于深度学习的多通道图像特征融合的人体动作识别方法
CN110210551B (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN104992223B (zh) 基于深度学习的密集人数估计方法
CN108682017B (zh) 基于Node2Vec算法的超像素图像边缘检测方法
CN115049936B (zh) 一种面向高分遥感影像的边界增强型语义分割方法
CN107862261A (zh) 基于多尺度卷积神经网络的图像人群计数方法
CN108090472B (zh) 基于多通道一致性特征的行人重识别方法及其系统
CN108009594B (zh) 一种基于变分组卷积的图像识别方法
CN110009095A (zh) 基于深度特征压缩卷积网络的道路行驶区域高效分割方法
CN110148104A (zh) 基于显著性分析与低秩表示的红外与可见光图像融合方法
CN109858487A (zh) 基于分水岭算法和图像类别标签的弱监督语义分割方法
CN108615229B (zh) 基于曲率点聚类及决策树的碰撞检测优化方法
CN109214298A (zh) 一种基于深度卷积网络的亚洲女性颜值评分模型方法
CN109886391A (zh) 一种基于空间正反对角卷积的神经网络压缩方法
CN114419413A (zh) 感受野自适应的变电站绝缘子缺陷检测神经网络构建方法
CN109753996A (zh) 基于三维轻量化深度网络的高光谱图像分类方法
CN114565628B (zh) 一种基于边界感知注意的图像分割方法及系统
CN109919112A (zh) 一种复杂场景中流动人群的分布与计数检测的方法
CN115018039A (zh) 一种神经网络蒸馏方法、目标检测方法以及装置
CN110222772B (zh) 一种基于块级别主动学习的医疗图像标注推荐方法
CN115222754A (zh) 一种基于知识蒸馏和对抗学习的镜面图像分割方法
CN113505719B (zh) 基于局部-整体联合知识蒸馏算法的步态识别模型压缩系统及方法
CN109670506B (zh) 基于克罗内克卷积的场景分割方法和系统
CN110516615A (zh) 基于卷积神经网络的人车分流控制方法
CN113989296A (zh) 基于改进U-net网络的无人机麦田遥感图像分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180717