CN109919011A - 一种基于多时长信息的动作视频识别方法 - Google Patents
一种基于多时长信息的动作视频识别方法 Download PDFInfo
- Publication number
- CN109919011A CN109919011A CN201910077685.2A CN201910077685A CN109919011A CN 109919011 A CN109919011 A CN 109919011A CN 201910077685 A CN201910077685 A CN 201910077685A CN 109919011 A CN109919011 A CN 109919011A
- Authority
- CN
- China
- Prior art keywords
- video
- network
- layers
- duration
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Image Analysis (AREA)
Abstract
一种基于多时长信息的动作视频识别方法,包括以下步骤:1)将动作视频转换成序列帧图像,以等间隔方式进行采样;2)构建多时长信息特征融合层;3)扩展二维卷积神经网络DenseNet121至三维卷积神经网络DenseNet121‑3D,同时将多时长信息特征融合层嵌入到该网络当中;4)将步骤1采样得到的序列图像作为输入数据,对网络进行训练,而后就可以将待识别的动作视频输入到网络当中进行识别分类。本发明通过采用多时长三维卷积神经网络对不同时长特性的动作进行特征学习,使得网络具有更好的鲁棒性,得到较好的分类结果。
Description
技术领域
本发明涉及深度学习、计算机视觉领域,特别是涉及一种基于多时长信息的动作视频识别方法。
背景技术
在计算机视觉领域中,对于人体动作的识别一直是一个十分活跃的课题,其在运动视频分析、视频检索、智能摄像监控等实际生活场景有着广泛的应用前景。然而,人体动作具有高度复杂性,且视频数据具有不同的尺度大小以及光照强弱等特点,采用传统特征工程建模的方法识别效果不佳,也不具有普遍应用性。近年来,随着视频数据的爆发式增长,以深度学习为代表的机器学习方法逐渐被应用到该领域当中,得益于大规模数据以及高效的计算能力,研究人员提出多种深度神经网络模型对动作视频进行识别,取得了较好的效果。
Du Tran提出了15层的三维卷积神经网络,将视频提取帧图像后,以堆叠图像的方式输入到网络中进行训练,经过8层卷积层和5层池化层的特征提取后输入到两个全连接层得到识别分类结果(Tran,Du,et al.Learning spatiotemporal features with 3dconvolutional networks[C]//International Conference on Computer Vision.IEEE,2015:4489-4497,即基于三维卷积神经网络的时空特征学习);Karen Simonyan提出一个双通道三维卷积神经网络,该网络接受两种类型的输入数据,分别是从视频中提取的RGB图像以及从视频中获取的多帧光流图像,对应的经过图像空间域卷积和光流图像时域卷积得到特征,将特征融合后输入到全连接层进行分类(Simonyan,Karen,et al.Two-streamconvolutional networks for action recognition in videos[C]//NeuralInformation Processing Systems.2014:568-576,即基于双流卷积神经网络的动作视频分类);Joao Carreira提出将GoogleNet中的Inception模块扩展成三维卷积,同时将2D图像网络中学习得到的参数辅助初始化三维卷积神经网络,采用逐层递增的空间和时序卷积核以达到良好的分类效果。(Carreira,Joao,et al.Quo vadis,action recognition?anew model and the kinetics dataset[C]//Computer Vision and PatternRecognition.IEEE,2017:4724-4733,即一种用于分类动作视频的新型方法以及kinetics数据集)。
因此,有效的采用视频中的时间序列信息对动作进行识别是一种可行性较强的方法。
发明内容
为了克服现有技术方案无法融合不同时长动作信息的不足,本发明提出一种有效融合多时长信息对动作视频进行识别分类的方法,采用多时长三维卷积神经网络算法进行特征学习,获得的特征有更好的判别性,且具有更好的分类精度。
本发明实现上述发明目的所采用的技术方案为:
一种基于多时长信息的动作视频识别方法,包括以下步骤:
S1:将动作视频转换成序列帧图像,以等间隔方式进行采样;
S2:构建多时长信息特征融合层;
S3:扩展二维卷积神经网络DenseNet121(Huang,Gao,et al.Densely connectedconvolutional networks[C]//Computer Vision and Pattern Recognition.IEEE,2017:2261-2269)至三维卷积神经网络DenseNet121-3D,同时将多时长信息特征融合层嵌入到该网络当中;
S4:将步骤1采样得到的序列图像作为输入数据,对网络进行训练,而后就可以将待识别的动作视频输入到网络当中进行识别分类。
进一步,所述步骤S1中,由于动作视频数据时间长度不同,则原视频所包含的帧图像数量不一致,每一段视频时间长度为Ti,i∈{1,2,...,N},其中N为训练集中视频数量,计算所有训练集动作视频的平均时间长度:
对于原时间长度大于等于平均值的视频,即Ti 以剪切的方式取至时间后续部分舍弃;对于原时间长度小于平均值的视频即以重复的方式在视频末尾补充原视频开始部分,补充时长为处理后的视频转化成帧图像,每段视频共有张序列图像,其中f为视频的FPS值,以等间隔的方式选取M张图像作为神经网络的输入数据。
再进一步,所述步骤S2中,多时长信息特征融合层由3个并行的卷积操作,1个级联操作,1个平均池化操作所组成;其中,3个卷积操作具有不同的卷积核大小,每个卷积操作互相独立,它们的时间维度均不同,即时间维度d∈{T1,T2,...,TD},以此来捕捉不同时长(短时长,中时长,长时长)的动态特征;假定多时长信息特征融合层的输入为xl,将会被该层的不同卷积核进行卷积计算,输出多个中间特征图{S1,S2,...,SK},其中 且均不相同。这些中间特征图被级联成一个特征张量[S1,S2,...,SK]后输入到三维池化层进行特征融合操作,输出特征图x′l。
所述步骤S3中,扩展的DensenNet121-3D共有121层不同的计算操作,其中包含三维卷积操作,三维平均池化等操作,对于三维卷积操作,具体公式如下:
其中xl+1代表第l层的输出数据,(t,i,j)分别是时间、宽、高三个维度的位置,(KT,KW,KH)分别是第l层的卷积核在时间、宽、高三个维度的大小,表示第l层中第K个特征图的卷积核权重,表示第l层中第K个特征图在(t,i,j)位置的值,bK为第K个特征图的偏置向量;对于三维平均池化操作,公式如下:
其中代表第l+1层第K个特征图在位置(t,i,j)的值,t′∈[2t-1,2t+1],i′∈[2i-1,2i+1],j′∈[2j-1,2j+1];
最后是一个全连接层,其神经元个数为k,其中k表示待训练数据里的类别数,后紧接一个Softmax分类器得到动作视频所属每一个类别的概率分布,概率计算公式如下:
其中,pi为模型预测物体属于第i类的概率,zi为最后一层全连接层第i个神经元的输出。
所述步骤S4中,网络训练的损失函数Ltotal由交叉熵损失函数Lcross和L2正则化项组成,如下所示:
Ltotal=Lcross+L2
其中,n是每批次训练样本数量,l是训练类别数,y(i)和分别表示真实标签以及预测标签概率分布。Ind为指示函数,公式如下:
在正则化项L2中,λ是参数正则化的权重参数,w为模型的所有卷积核参数,m为参数的总数量。将步骤1中所得到的M张图像堆叠成图像体输入到网络中进行训练,在迭代E轮后终止训练。将获得的模型参数作为我们的最终模型,进行待识别动作视频的分类。
与现有的技术相比,本发明的有益效果是:采用多时长三维卷积神经网络算法对不同时长的动作图像进行特征融合学习,能够同时获取不同时长动作的特征,有助于获得具有更好判别性的特征,且具有更好的分类精度。
附图说明
图1为基于多时长信息的动作视频识别方法流程图;
图2为多时长特征融合层示意图;
图3为多时长三维卷积神经网络模型框架图;
图4为不同神经网络结果对比示意图。
具体实施方式
下面结合说明书附图对本发明做进一步说明。
参照图1~图4,一种基于多时长信息的动作视频识别方法,本发明使用HMDB51公开数据集来评估所提出的方法。HMDB51数据集共有6766个动作视频片段,51种不同类别的动作,其中每一个动作类别至少包含101个片段,这些片段主要取自Youtube视频网站。具体数量如下表1所示。
类别 | 数量 | 类别 | 数量 | 类别 | 数量 |
brush hair | 108 | hit | 127 | shoot ball | 131 |
cartwheel | 108 | hug | 118 | shoot bow | 112 |
catch | 102 | jump | 151 | shoot gun | 103 |
chew | 109 | kick | 130 | sit | 142 |
clap | 130 | kick ball | 128 | situp | 105 |
climb | 108 | kiss | 102 | smile | 102 |
climb stairs | 112 | laugh | 128 | smoke | 109 |
dive | 127 | pick | 106 | somersault | 140 |
draw sword | 103 | pour | 106 | stand | 154 |
dribble | 145 | pullup | 104 | swing base | 143 |
drink | 165 | punch | 126 | sword | 127 |
eat | 108 | push | 116 | exercise | 127 |
fall floor | 136 | pushup | 103 | talk | 120 |
fencing | 116 | ride bike | 103 | throw | 102 |
flic flac | 107 | ride horse | 116 | turn | 240 |
golf | 105 | run | 232 | walk | 548 |
handstand | 114 | shake hands | 162 | wave | 104 |
表1
本发明包括以下步骤:
S1:将动作视频转换成序列帧图像,以等间隔方式进行采样;
S2:构建多时长信息特征融合层;
S3:扩展二维卷积神经网络DenseNet121至三维卷积神经网络DenseNet121-3D,同时将多时长信息特征融合层嵌入到该网络当中;
S4:将步骤1采样得到的序列图像作为输入数据,对网络进行训练,而后就可以将待识别的动作视频输入到网络当中进行识别分类。
进一步,所述步骤S1中,由于动作视频数据时间长度不同,则原视频所包含的帧图像数量不一致,每一段视频时间长度为Ti,i∈{1,2,...,N},其中N为训练集中视频数量。计算所有训练集动作视频的平均时间长度:
对于原时间长度大于等于平均值的视频,即Ti 以剪切的方式取至时间后续部分舍弃;对于原时间长度小于平均值的视频,即以重复的方式在视频末尾补充原视频开始部分,补充时长为将处理后的视频转化成帧图像,每段视频共有张序列图像,其中f为视频的FPS值为30,以等间隔的方式选取M=16张图像作为神经网络的输入数据。
再进一步,所述步骤S2中,如图2所示,多时长信息特征融合层由3个并行的卷积操作,1个级联操作,1个平均池化操作所组成,其中,3个卷积操作具有不同的卷积核大小,每个卷积操作互相独立,它们的时间维度均不同,即时间维度d∈{T1,T2,...,TD},具体分别为1*1*T1、3*3*T2、3*3*T3,以此来捕捉不同时长(短时长,中时长,长时长)的动态特征,假定多时长信息特征融合层的输入为xl,将会被该层的不同卷积核进行卷积计算,输出多个中间特征图{S1,S2,...,SK},其中且均不相同,这些中间特征图被级联成一个特征张量[S1,S2,...,SK]后输入到三维池化层进行特征融合操作,输出特征图x′l。
所述步骤S3中,如图3所示为扩展的DensenNet121-3D示意图,其中共有121层不同的计算操作,其中包含三维卷积操作,三维平均池化等操作,对于三维卷积操作,公式如下:
其中xl+1代表第l层的输出数据,(t,i,j)分别是时间、宽、高三个维度的位置,(KT,KW,KH)分别是第l层的卷积核在时间、宽、高三个维度的大小,表示第l层中第K个特征图的卷积核权重,表示第l层中第K个特征图在(t,i,j)位置的值,bK为第K个特征图的偏置向量,对于三维平均池化操作,公式如下:
其中代表第l+1层第K个特征图在位置(t,i,j)的值,t′∈[2t-1,2t+1],i′∈[2i-1,2i+1],j′∈[2j-1,2j+1];
最后是一个全连接层,其神经元个数为k,其中k表示待训练数据里的类别数,后紧接一个Softmax分类器得到动作视频所属每一个类别的概率分布,概率计算公式如下:
其中,pi为模型预测物体属于第i类的概率,zi为最后一层全连接层第i个神经元的输出。
所述步骤S4中,网络训练的损失函数Ltotal由交叉熵损失函数Lcross和L2正则化项组成,如下所示:
Ltotal=Lcross+L2
其中,n是每批次训练样本数量,l是训练类别数,y(i)和分别表示真实标签以及预测标签概率分布,Ind为指示函数,公式如下:
在正则化项L2中,λ是参数正则化的权重参数,设定为0.0005。w为模型的所有卷积核参数,用标准偏差为0.05的零均值高斯分布初始化。m为参数的总数量。将步骤1中所得到的16张图像堆叠成图像体输入到网络中进行训练,在迭代E=20轮后终止训练。将获得的模型参数作为我们的最终模型,进行待识别动作视频的分类,在HMDB51数据集上的分类结果如图4所示。
如上所述为本发明基于多时长信息的动作视频识别方法实施例介绍,本发明通过采用多时长三维卷积神经网络对不同时长特性的动作进行特征学习,使得网络具有更好的鲁棒性,得到较好的分类结果。对发明而言仅仅是说明性的,而非限制性的。
本专业技术人员理解,在发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。
Claims (5)
1.一种基于多时长信息的动作视频识别方法,其特征在于,所述方法包括以下步骤:
S1:将动作视频转换成序列帧图像,以等间隔方式进行采样;
S2:构建多时长信息特征融合层;
S3:扩展二维卷积神经网络DenseNet121至三维卷积神经网络DenseNet121-3D,同时将多时长信息特征融合层嵌入到该网络当中;
S4:将步骤1采样得到的序列图像作为输入数据,对网络进行训练,而后就可以将待识别的动作视频输入到网络当中进行识别分类。
2.如权利要求1所述的一种基于多时长信息的动作视频识别方法,其特征在于:所述步骤S1中,由于动作视频数据时间长度不同,则原视频所包含的帧图像数量不一致,每一段视频时间长度为Ti,i∈{1,2,...,N},其中N为训练集中视频数量,计算所有训练集动作视频的平均时间长度:
对于原时间长度大于等于平均值的视频,即以剪切的方式取至时间后续部分舍弃;对于原时间长度小于平均值的视频,即以重复的方式在视频末尾补充原视频开始部分,补充时长为将处理后的视频转化成帧图像,每段视频共有张序列图像,其中f为视频的FPS值,以等间隔的方式选取M张图像作为神经网络的输入数据。
3.如权利要求1或2所述的一种基于多时长信息的动作视频识别方法,其特征在于:所述步骤S2中,多时长信息特征融合层由3个并行的卷积操作,1个级联操作,1个平均池化操作所组成,其中,3个卷积操作具有不同的卷积核大小,每个卷积操作互相独立,它们的时间维度均不同,即时间维度d∈{T1,T2,...,TD},以此来捕捉不同时长的动态特征,假定多时长信息特征融合层的输入为xl,将会被该层的不同卷积核进行卷积计算,输出多个中间特征图{S1,S2,...,SK},其中且均不相同,这些中间特征图被级联成一个特征张量[S1,S2,...,SK]后输入到三维池化层进行特征融合操作,输出特征图x′l。
4.如权利要求3所述的一种基于多时长信息的动作视频识别方法,其特征在于:所述步骤S3中,扩展的DensenNet121-3D共有121层不同的计算操作,其中包含三维卷积操作,三维平均池化操作,对于三维卷积操作,公式如下:
其中xl+1代表第l层的输出数据,(t,i,j)分别是时间、宽、高三个维度的位置,(KT,KW,KH)分别是第l层的卷积核在时间、宽、高三个维度的大小,表示第l层中第K个特征图的卷积核权重,表示第l层中第K个特征图在(t,i,j)位置的值,bK为第K个特征图的偏置向量;对于三维平均池化操作,公式如下:
其中代表第l+1层第K个特征图在位置(t,i,j)的值,t′∈[2t-1,2t+1],i′∈[2i-1,2i+1],j′∈[2j-1,2j+1];
最后是一个全连接层,其神经元个数为k,其中k表示待训练数据里的类别数,后紧接一个Softmax分类器得到动作视频所属每一个类别的概率分布,概率计算公式如下:
其中,pi为模型预测物体属于第i类的概率,zi为最后一层全连接层第i个神经元的输出。
5.如权利要求4所述的一种基于多时长信息的动作视频识别方法,其特征在于:所述步骤S4中,网络训练的损失函数Ltotal由交叉熵损失函数Lcross和L2正则化项组成,如下所示:
Ltotal=Lcross+L2
其中,n是每批次训练样本数量,l是训练类别数,y(i)和分别表示真实标签以及预测标签概率分布,Ind为指示函数,公式如下:
在正则化项L2中,λ是参数正则化的权重参数,w为模型的所有卷积核参数,m为参数的总数量,将步骤1中所得到的M张图像堆叠成图像体输入到网络中进行训练,在迭代E轮后终止训练,将获得的模型参数作为我们的最终模型,进行待识别动作视频的分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910077685.2A CN109919011A (zh) | 2019-01-28 | 2019-01-28 | 一种基于多时长信息的动作视频识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910077685.2A CN109919011A (zh) | 2019-01-28 | 2019-01-28 | 一种基于多时长信息的动作视频识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109919011A true CN109919011A (zh) | 2019-06-21 |
Family
ID=66960858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910077685.2A Pending CN109919011A (zh) | 2019-01-28 | 2019-01-28 | 一种基于多时长信息的动作视频识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109919011A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390315A (zh) * | 2019-07-29 | 2019-10-29 | 深兰科技(上海)有限公司 | 一种图像处理方法及装置 |
CN110866458A (zh) * | 2019-10-28 | 2020-03-06 | 北京影谱科技股份有限公司 | 基于三维卷积神经网络的多人动作检测与识别方法与装置 |
CN111652066A (zh) * | 2020-04-30 | 2020-09-11 | 北京航空航天大学 | 基于多自注意力机制深度学习的医疗行为识别方法 |
CN111881794A (zh) * | 2020-07-20 | 2020-11-03 | 元神科技(杭州)有限公司 | 一种视频行为识别方法及系统 |
CN112464831A (zh) * | 2020-12-01 | 2021-03-09 | 马上消费金融股份有限公司 | 视频分类方法、视频分类模型的训练方法及相关设备 |
CN112528780A (zh) * | 2019-12-06 | 2021-03-19 | 百度(美国)有限责任公司 | 通过混合时域自适应的视频动作分割 |
CN112686329A (zh) * | 2021-01-06 | 2021-04-20 | 西安邮电大学 | 基于双核卷积特征提取的电子喉镜图像分类方法 |
CN112749666A (zh) * | 2021-01-15 | 2021-05-04 | 百果园技术(新加坡)有限公司 | 一种动作识别模型的训练及动作识别方法与相关装置 |
CN113255464A (zh) * | 2021-04-30 | 2021-08-13 | 北京中电联达信息技术有限公司 | 一种飞机动作识别方法及系统 |
CN113673307A (zh) * | 2021-07-05 | 2021-11-19 | 浙江工业大学 | 一种轻量型的视频动作识别方法 |
CN114450938A (zh) * | 2020-06-29 | 2022-05-06 | 腾讯美国有限责任公司 | 具有可堆叠嵌套模型结构的多速率神经图像压缩方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106203283A (zh) * | 2016-06-30 | 2016-12-07 | 重庆理工大学 | 基于三维卷积深度神经网络和深度视频的动作识别方法 |
CN106897714A (zh) * | 2017-03-23 | 2017-06-27 | 北京大学深圳研究生院 | 一种基于卷积神经网络的视频动作检测方法 |
CN107506740A (zh) * | 2017-09-04 | 2017-12-22 | 北京航空航天大学 | 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法 |
CN108288035A (zh) * | 2018-01-11 | 2018-07-17 | 华南理工大学 | 基于深度学习的多通道图像特征融合的人体动作识别方法 |
US10127438B1 (en) * | 2017-08-07 | 2018-11-13 | Standard Cognition, Corp | Predicting inventory events using semantic diffing |
CN108960059A (zh) * | 2018-06-01 | 2018-12-07 | 众安信息技术服务有限公司 | 一种视频动作识别方法及装置 |
CN109214250A (zh) * | 2017-07-05 | 2019-01-15 | 中南大学 | 一种基于多尺度卷积神经网络的静态手势识别方法 |
-
2019
- 2019-01-28 CN CN201910077685.2A patent/CN109919011A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106203283A (zh) * | 2016-06-30 | 2016-12-07 | 重庆理工大学 | 基于三维卷积深度神经网络和深度视频的动作识别方法 |
CN106897714A (zh) * | 2017-03-23 | 2017-06-27 | 北京大学深圳研究生院 | 一种基于卷积神经网络的视频动作检测方法 |
CN109214250A (zh) * | 2017-07-05 | 2019-01-15 | 中南大学 | 一种基于多尺度卷积神经网络的静态手势识别方法 |
US10127438B1 (en) * | 2017-08-07 | 2018-11-13 | Standard Cognition, Corp | Predicting inventory events using semantic diffing |
CN107506740A (zh) * | 2017-09-04 | 2017-12-22 | 北京航空航天大学 | 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法 |
CN108288035A (zh) * | 2018-01-11 | 2018-07-17 | 华南理工大学 | 基于深度学习的多通道图像特征融合的人体动作识别方法 |
CN108960059A (zh) * | 2018-06-01 | 2018-12-07 | 众安信息技术服务有限公司 | 一种视频动作识别方法及装置 |
Non-Patent Citations (2)
Title |
---|
刘智等: "构建多尺度深度卷积神经网络行为识别模型", 《光学精密工程》 * |
高志强等: "《深度学习从入门到实践》", 30 June 2018, 中国铁道出版社 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390315A (zh) * | 2019-07-29 | 2019-10-29 | 深兰科技(上海)有限公司 | 一种图像处理方法及装置 |
CN110866458A (zh) * | 2019-10-28 | 2020-03-06 | 北京影谱科技股份有限公司 | 基于三维卷积神经网络的多人动作检测与识别方法与装置 |
CN112528780A (zh) * | 2019-12-06 | 2021-03-19 | 百度(美国)有限责任公司 | 通过混合时域自适应的视频动作分割 |
CN112528780B (zh) * | 2019-12-06 | 2023-11-21 | 百度(美国)有限责任公司 | 通过混合时域自适应的视频动作分割 |
CN111652066A (zh) * | 2020-04-30 | 2020-09-11 | 北京航空航天大学 | 基于多自注意力机制深度学习的医疗行为识别方法 |
CN111652066B (zh) * | 2020-04-30 | 2022-07-26 | 北京航空航天大学 | 基于多自注意力机制深度学习的医疗行为识别方法 |
CN114450938A (zh) * | 2020-06-29 | 2022-05-06 | 腾讯美国有限责任公司 | 具有可堆叠嵌套模型结构的多速率神经图像压缩方法和装置 |
CN114450938B (zh) * | 2020-06-29 | 2023-03-24 | 腾讯美国有限责任公司 | 多速率神经图像压缩方法、装置以及电子设备 |
CN111881794A (zh) * | 2020-07-20 | 2020-11-03 | 元神科技(杭州)有限公司 | 一种视频行为识别方法及系统 |
CN111881794B (zh) * | 2020-07-20 | 2023-10-10 | 元神科技(杭州)有限公司 | 一种视频行为识别方法及系统 |
CN112464831A (zh) * | 2020-12-01 | 2021-03-09 | 马上消费金融股份有限公司 | 视频分类方法、视频分类模型的训练方法及相关设备 |
CN112464831B (zh) * | 2020-12-01 | 2021-07-30 | 马上消费金融股份有限公司 | 视频分类方法、视频分类模型的训练方法及相关设备 |
CN112686329A (zh) * | 2021-01-06 | 2021-04-20 | 西安邮电大学 | 基于双核卷积特征提取的电子喉镜图像分类方法 |
CN112749666A (zh) * | 2021-01-15 | 2021-05-04 | 百果园技术(新加坡)有限公司 | 一种动作识别模型的训练及动作识别方法与相关装置 |
CN112749666B (zh) * | 2021-01-15 | 2024-06-04 | 百果园技术(新加坡)有限公司 | 一种动作识别模型的训练及动作识别方法与相关装置 |
CN113255464A (zh) * | 2021-04-30 | 2021-08-13 | 北京中电联达信息技术有限公司 | 一种飞机动作识别方法及系统 |
CN113673307A (zh) * | 2021-07-05 | 2021-11-19 | 浙江工业大学 | 一种轻量型的视频动作识别方法 |
CN113673307B (zh) * | 2021-07-05 | 2024-03-29 | 浙江工业大学 | 一种轻量型的视频动作识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109919011A (zh) | 一种基于多时长信息的动作视频识别方法 | |
Sun et al. | Lattice long short-term memory for human action recognition | |
Gammulle et al. | Two stream lstm: A deep fusion framework for human action recognition | |
CN106778854B (zh) | 基于轨迹和卷积神经网络特征提取的行为识别方法 | |
Tran et al. | Two-stream flow-guided convolutional attention networks for action recognition | |
Simonyan et al. | Two-stream convolutional networks for action recognition in videos | |
CN110147711A (zh) | 视频场景识别方法、装置、存储介质和电子装置 | |
CN106778796B (zh) | 基于混合式协同训练的人体动作识别方法及系统 | |
CN108510012A (zh) | 一种基于多尺度特征图的目标快速检测方法 | |
CN110580472B (zh) | 一种基于全卷积网络和条件对抗网络的视频前景检测方法 | |
CN109711422A (zh) | 图像数据处理、模型的建立方法、装置、计算机设备和存储介质 | |
CN110889375B (zh) | 用于行为识别的隐双流协作学习网络及方法 | |
CN110728183A (zh) | 一种基于注意力机制的神经网络的人体动作识别方法 | |
CN112183240B (zh) | 一种基于3d时间流和并行空间流的双流卷积行为识别方法 | |
Ye et al. | Embedding sequential information into spatiotemporal features for action recognition | |
CN110599521A (zh) | 生成易受伤害道路使用者轨迹预测模型的方法及预测方法 | |
WO2022183805A1 (zh) | 视频分类方法、装置及设备 | |
CN113255464A (zh) | 一种飞机动作识别方法及系统 | |
Zhang et al. | Multiscale adaptation fusion networks for depth completion | |
Wang et al. | Basketball shooting angle calculation and analysis by deeply-learned vision model | |
CN113505719A (zh) | 基于局部-整体联合知识蒸馏算法的步态识别模型压缩系统及方法 | |
Yao et al. | Action recognition with 3d convnet-gru architecture | |
He et al. | Local fusion networks with chained residual pooling for video action recognition | |
CN116993760A (zh) | 一种基于图卷积和注意力机制的手势分割方法、系统、设备及介质 | |
Luo et al. | An modified video stream classification method which fuses three-dimensional convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190621 |
|
RJ01 | Rejection of invention patent application after publication |