CN105550699B - 一种基于cnn融合时空显著信息的视频识别分类方法 - Google Patents
一种基于cnn融合时空显著信息的视频识别分类方法 Download PDFInfo
- Publication number
- CN105550699B CN105550699B CN201510901557.7A CN201510901557A CN105550699B CN 105550699 B CN105550699 B CN 105550699B CN 201510901557 A CN201510901557 A CN 201510901557A CN 105550699 B CN105550699 B CN 105550699B
- Authority
- CN
- China
- Prior art keywords
- video
- sequence
- classification
- cnn
- clip
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种基于CNN融合时空显著信息的视频识别分类方法,其能够提高视频分类的准确率。该方法包括步骤:(1)对待识别分类视频进行采样得到多个视频片段;(2)将每个视频片段处理为三个序列:原始图像序列、边缘图像序列和光流图像序列;(3)利用卷积神经网络模型针对原始图像序列、边缘图像序列和光流图像序列这三类数据提取特征,并基于这三类特征,计算视频片段隶属于不同类别的概率;(4)融合不同的特征计算得到的类别概率,得到视频片段的分类结果;(5)融合步骤(4)的各视频片段的分类结果,得到视频的分类结果。
Description
技术领域
本发明属于计算机视觉的技术领域,具体地涉及一种基于CNN融合时空显著信息的视频识别分类方法。
背景技术
随着CNN(Covolution Neural Networks,卷积神经网络)在计算机视觉领域的崛起,几乎任何图像分类相关的任务中,卷积神经网络都取得最好的结果。近两年,卷积网络在视频中的应用也在逐渐增多,主要方法可以分为三类:3D卷积网络(3-DimensionCovolution Neural Networks,3DCNN)、卷积网络结合长短期记忆(Long-Short TermMemory,LSTM)的模型以及结合光流(Optical Flow)的两流法。
Ji等人提出的3D卷积网络方法,将输入视频序列看做若干个三维块,对其进行三维卷积,然后经过卷积神经网络提取特征,再对特征进行分类。这种方法,使用三维卷积,能够很好地兼顾时空信息提取。但三维卷积运算使用参数多,故而内存需求成为其瓶颈。
Ng等人提出的卷积网络结合LSTM的方法,对输入视频的每一帧分别使用卷积神经网络提取单帧特征,再用LSTM将单帧特征串连起来,进行分类。这种方法针对单帧进行计算,所以模型参数相比于三维卷积的方法少了很多。但是这种方法需要提前训练好一个比较有效的单帧特征提取模型,同时,由于是在特征层面进行的时域融合,所以失掉了原本视频帧之间的空间域上的对应关系。
Simonyan等人的结合光流与神经网络,将单帧原始图像和多帧光流图像分别作为卷积神经网络的输入(将原始图像作为空域信息,将光流图像作为时域信息),融合两类识别结果输出最终的视频类别。该方法融合了时域信息和空域信息,但仍然有提升空间。
本发明在两流法的基础上增加空域显著信息,融合时域显著信息(光流)和空域显著信息(边缘),进行视频识别,提高视频分类的准确率。
发明内容
本发明的技术解决问题是:克服现有技术的不足,提供一种基于CNN融合时空显著信息的视频识别分类方法,其能够提高视频分类的准确率。
本发明的技术解决方案是:这种基于CNN融合时空显著信息的视频识别分类方法,该方法包括以下步骤:
(1)对待识别分类视频进行采样得到多个视频片段;
(2)将每个视频片段处理为三个序列:原始图像序列、边缘图像序列和光流图像序列;
(3)利用卷积神经网络模型针对原始图像序列、边缘图像序列和光流图像序列这三类数据提取特征,并基于这三类特征,计算视频片段隶属于不同类别的概率;
(4)融合不同的特征计算得到的类别概率,得到视频片段的分类结果;
(5)融合步骤(4)的各视频片段的分类结果,得到视频的分类结果。
本发明在两流法的基础上增加空域显著信息,融合时域显著信息(光流)和空域显著信息(边缘),进行视频识别,因此提高视频分类的准确率。
附图说明
图1是本方法的流程图。
图2是卷积网络模型的结构图。
具体实施方式
如图1所示,这种基于CNN融合时空显著信息的视频识别分类方法,该方法包括以下步骤:
(1)对待识别分类视频进行采样得到多个视频片段;
(2)将每个视频片段处理为三个序列:原始图像序列、边缘图像序列和光流图像序列;
(3)利用卷积神经网络模型针对原始图像序列、边缘图像序列和光流图像序列这三类数据提取特征,并基于这三类特征,计算视频片段隶属于不同类别的概率;
(4)融合不同的特征计算得到的类别概率,得到视频片段的分类结果;
(5)融合步骤(4)的各视频片段的分类结果,得到视频的分类结果。
本发明在两流法的基础上增加空域显著信息,融合时域显著信息(光流)和空域显著信息(边缘),进行视频识别,因此提高视频分类的准确率。
优选地,所述步骤(1)中采样时根据公式(1)-(3):
Sample(video,m,n)={Clip1,Clip2,…Clipk} (1)
l=1+(m+1)*(n-1)=m*n+n-m (2)
k=s-l+1=s-m*n-n+m+1 (3)
其中video为输入的视频序列,n为采样帧数,m为采样间隔,Clipi(i=1…k)为采样得到的视频片段,s为视频总帧数,k为采样得到的视频序列数目,l为一个片段的帧数跨度。
优选地,在所述步骤(2)中处理为原始图像序列是对原始视频中采样得到一个原始图像片段序列C,基于序列C的识别过程记为PC=CNN(C);处理为边缘图像序列是使用OpenCV中的Canny边缘函数,针对原始图像片段序列的RGB三个通道分别计算边缘,生成片段边缘图像序列E,基于序列E的识别过程记为PE=CNN(E);处理为光流图像序列是使用OpenCV库函数calcOpticalFlowFarneback()计算生成,然后通过孟塞尔颜色系统,将X和Y方向的光流转换为RGB三个通道,对原始图像片段序列的相邻帧进行处理,从而得到光流图像片段序列F,基于序列F的识别过程记为P F=CNN(F)。
优选地,在所述步骤(3)中卷积神经网络模型为公式(4)-(6):
P=CNN(X) (4)
P=(p1,p2,…,pN) (5)
X=(x1,x2,…,xM) (6)
其中pi为某个类别的分类概率,N为类别总数,X为模型的输入序列,M为序列的帧数。
优选地,在所述步骤(3)中三路卷积网络分别进行训练,采用小批次的随机梯度下降方法;训练时,取训练集中15%的视频作为验证集。
优选地,在所述步骤(4)中根据公式(7)-(8)进行融合:
其中,(i=1,2,…,k)为原始图像序列经过CNN输出的类别概率向量,(i=1,2,…,k)为边缘图像序列经过CNN输出的类别概率向量,(i=1,2,…,k)为光流图像序列经过CNN输出的类别概率向量,(i=1,2,…,k)为片段级平均类别概率向量,Yi为片段i的分类类别。
优选地,在所述步骤(5)中根据公式(9)-(10)进行融合:
PV=(∑PA)/k (9)
YV=arg maxindexPV (10)
其中PA为公式(7)中所求得片段级平均类别概率向量,k为片段个数,PV为视频级平均类别概率向量,YV为视频级分类的类别。
现在给出一个本发明的详细实施例。
1.时间序列采样
考虑到一般的分类视频数据集样本数不多,使用卷积网络训练出的模型很容易过拟合,因此本发明首先对数据样本进行扩充。视频数据其相邻两帧之间的相关性较大,但变化幅度不是很大,因此可利用其时间维度上的数据冗余性对视频进行间隔采样,将一次采样输出的序列作为一个新的数据样本。又由于卷积网络模型限制输入数据的维度要相同,故而每次采样取相同的帧数。
采样规则为“每间隔m帧采一帧,每个序列采样n帧”。将视频标签赋予该视频采样得到的各视频片段。
Sample(video,m,n)={Clip1,Clip2,…Clipk}
l=1+(m+1)*(n-1)=m*n+n-m
k=s-l+1=s-m*n-n+m+1
其中n为采样帧数,m为采样间隔,s为视频总帧数,k为采样得到的视频序列数目,l为一个片段的帧数跨度。
2、三路卷积网络模型
本发明中的深度网络采用三路卷积网络模型结构。
2.1卷积网络
本发明中采用的卷积网络模型,如图2所示输入数据为多帧(RGB)图像。例如输入数据为6帧图像,则输入数据为RRRRRRGGGGGGBBBBBB。模型维度为220*220*6*3→55*55*96→27*27*256→13*13*384→13*13*384→13*13*256→4096→4096→N(N为类别数)。
如图2所示,第一个数据块的输入为6×3的多帧(RGB)图像,第一个数据块与第二个数据块之间首先进行卷积操作,然后进行最大池化操作。卷积核大小为11*11,窗口滑动步长为4。池化操作窗口大小为3*3,窗口滑动步长为2。
第二个数据块与第三个数据块之间首先进行卷积操作,然后进行最大池化操作。卷积操作卷积核大小为5*5,窗口滑动步长为1。池化操作窗口大小为3*3,窗口滑动步长为2。
第三、第四、第五、第六个数据块之间均为卷积操作。卷积操作卷积核大小为3*3,窗口滑动步长为1。
第六、第七、第八个数据块之间均为全连接。
第八个数据块与第九个数据块之间为softmax分类器。
模型简记为
P=CNN(X)
P=(p1,p2,…,pN)
X=(x1,x2,…,xM)
其中pi为某个类别的分类概率,N为类别总数,X为模型的输入序列,M为序列的帧数。
2.2模型训练
三路卷积网络分别进行训练,采用小批次(mini-batch)的随机梯度下降方法;训练时,为了防止训练过早终止(early stopping),取训练集中15%的视频作为验证集。
2.3多路卷积网络融合
实验表明,单纯地使用一种数据(无论是原始数据,还是显著数据)其识别准确率都不如多种数据融合的方式。本发明将光流图像(时域显著信息)、边缘图像(空域显著信息)和原始图像进行融合。每一路模型,均采用图1中的卷积网络结构。经过卷积网络输出的类别概率,进行决策层面的融合。
2.3.1原始图像片段序列
本发明对原始视频中采样得到一个原始图像片段序列C,基于序列C的识别过程记为PC=CNN(C)。
2.3.2光流图像片段序列
光流是物体运动在时域上的显著信息,是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性找到的上一帧与当前帧之间的对应关系,相邻帧之间的这种对应关系看作是物体的运动信息。
本发明实验中的光流图像使用OpenCV库函数
calcOpticalFlowFarneback()计算生成,然后通过孟塞尔颜色系统
(Munsell Color System),将X和Y方向的光流转换为RGB三个通道。本发明中对原始图像片段序列的相邻帧进行处理,从而得到光流图像片段序列F。基于序列F的识别过程记为PF=CNN(F)。
2.3.3边缘图像片段序列
图像边缘是图像的空间结构属性,是物体运动在空域上的显著信息。
本发明实验中的边缘图像使用OpenCV中的Canny边缘函数,针对原始图像片段序列的RGB三个通道分别计算边缘,生成片段边缘图像序列E。基于序列E的识别过程记为PE=CNN(E)。
3、视频识别
本发明中,采用从片段到视频的两阶段融合方式进行视频识别。
3.1片段级融合
本发明第一阶段的融合为“片段级决策融合”。
如图1所示,将三类数据分别输入卷积网络,对三个序列输出的类别概率进行加权平均,再输出概率较高的一类的类别标签。
3.2视频级融合
虽然利用分片段的方式改善了CNN在小数据集上的过拟合问题,但片段毕竟只是视频在时间序列上的局部描述,如果单纯地由一个片段的识别结果来断定整个视频序列的识别结果,其识别准确率也是有限的。
所以本发明融合所有片段的分类预测结果得出整个视频的识别结果,如图1所示。融合后的分类准确率有小幅提升,如表2所示。
PV=(ΣPA)/k
表2
对上述方法进行了实验验证,并取得了明显的效果。实验采用caffe深度学习框架,视频样本扩充采样参数设定为(6,6)(即每6帧取1帧,共取6帧)。
实验所用数据集为CAMBRIDGE手势数据集(Kim和Cipolla 2009),该数据集的规模为5组光照模式×20个人×9种手势。将第5组数据中17个人作为训练样本,3个人的数据作为验证样本进行训练;训练结束后,在另外4组数据集上进行评估。
表1为片段级别的识别准确率,表2为视频级别的识别准确率。可以看出,使用原始图像作为直接输入,识别准确率很不稳定,受到非运动信息的影响较大;采用边缘数据或光流数据作为直接输入,在干扰较大的两组数据上(第2、3组)识别率有很大提高;将边缘数据或光流数据的模型与原始图像的模型进行融合,其准确率也均远高于原始图像的准确率。
同时,可以看出,将视频每个片段的识别结果在视频级别进行融合,可以很大程度地提高视频识别的准确率。
表1
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。
Claims (6)
1.一种基于CNN融合时空显著信息的视频识别分类方法,其特征在于,该方法包括以下步骤:
(1)对待识别分类视频进行采样得到多个视频片段;
(2)将每个视频片段处理为三个序列:原始图像序列、边缘图像序列和光流图像序列;
(3)利用卷积神经网络模型针对原始图像序列、边缘图像序列和光流图像序列这三类数据提取特征,并基于这三类特征,计算视频片段隶属于不同类别的概率;
(4)融合不同的特征计算得到的类别概率,得到视频片段的分类结果;
(5)融合步骤(4)的各视频片段的分类结果,得到视频的分类结果;
所述步骤(1)中采样时根据公式(1)-(3):
Sample(video,m,n)={Clip1,Clip2,…Clipk} (1)
l=1+(m+1)*(n-1)=m*n+n-m (2)
k=s-l+1=s-m*n-n+m+1 (3)
其中video为输入的视频序列,n为采样帧数,m为采样间隔,Clipi(i=1,2,…,k)为采样得到的视频片段,s为视频总帧数,k为采样得到的视频序列数目,l为一个片段的帧数跨度。
2.根据权利要求1所述的基于CNN融合时空显著信息的视频识别分类方法,其特征在于,在所述步骤(2)中处理为原始图像序列是对原始视频中采样得到一个原始图像片段序列C,基于序列C的识别过程记为PC=CNN(C);处理为边缘图像序列是使用OpenCV中的Canny边缘函数,针对原始图像片段序列的RGB三个通道分别计算边缘,生成片段边缘图像序列E,基于序列E的识别过程记为PE=CNN(E);处理为光流图像序列是使用OpenCV库函数calcOpticalFlowFarneback()计算生成,然后通过孟塞尔颜色系统,将X和Y方向的光流转换为RGB三个通道,对原始图像片段序列的相邻帧进行处理,从而得到光流图像片段序列F,基于序列F的识别过程记为PF=CNN(F)。
3.根据权利要求2所述的基于CNN融合时空显著信息的视频识别分类方法,其特征在于,在所述步骤(3)中卷积神经网络模型为公式(4)-(6):
P=CNN(X) (4)
P=(p1,p2,…,pN) (5)
X=(x1,x2,…,xM) (6)
其中pi为某个类别的分类概率,P为类别概率向量,N为类别总数,X为模型的输入序列,M为序列的帧数。
4.根据权利要求3所述的基于CNN融合时空显著信息的视频识别分类方法,其特征在于,在所述步骤(3)中三路卷积网络分别进行训练,采用小批次的随机梯度下降方法;训练时,取训练集中15%的视频作为验证集。
5.根据权利要求4所述的基于CNN融合时空显著信息的视频识别分类方法,其特征在于,在所述步骤(4)中根据公式(7)-(8)进行融合:
其中,为原始图像序列经过CNN输出的类别概率向量,为边缘图像序列经过CNN输出的类别概率向量,为光流图像序列经过CNN输出的类别概率向量,为片段i的平均类别概率向量,Yi为片段i的分类类别。
6.根据权利要求5所述的基于CNN融合时空显著信息的视频识别分类方法,其特征在于,在所述步骤(5)中根据公式(9)-(10)进行融合:
PV=(∑PA)/k (9)
YV=arg maxindexPV (10)
其中PA为公式(7)中所求得片段级平均类别概率向量,k为片段个数,PV为视频级平均类别概率向量,YV为视频级分类的类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510901557.7A CN105550699B (zh) | 2015-12-08 | 2015-12-08 | 一种基于cnn融合时空显著信息的视频识别分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510901557.7A CN105550699B (zh) | 2015-12-08 | 2015-12-08 | 一种基于cnn融合时空显著信息的视频识别分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105550699A CN105550699A (zh) | 2016-05-04 |
CN105550699B true CN105550699B (zh) | 2019-02-12 |
Family
ID=55829882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510901557.7A Active CN105550699B (zh) | 2015-12-08 | 2015-12-08 | 一种基于cnn融合时空显著信息的视频识别分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105550699B (zh) |
Families Citing this family (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956626A (zh) * | 2016-05-12 | 2016-09-21 | 成都新舟锐视科技有限公司 | 基于深度学习的对车牌位置不敏感的车牌识别方法 |
CN106599789B (zh) * | 2016-07-29 | 2019-10-11 | 北京市商汤科技开发有限公司 | 视频类别识别方法和装置、数据处理装置和电子设备 |
CN107784358A (zh) * | 2016-08-25 | 2018-03-09 | 苏州创新通用色谱仪器有限公司 | 一种基于lstm神经网络的食品安全图像检测方法 |
CN106469314A (zh) * | 2016-08-31 | 2017-03-01 | 深圳市唯特视科技有限公司 | 一种基于时空共生双流网络的视频图像分类方法 |
CN106612457B (zh) * | 2016-11-09 | 2019-09-03 | 广州视源电子科技股份有限公司 | 视频序列对齐方法和系统 |
US10152627B2 (en) | 2017-03-20 | 2018-12-11 | Microsoft Technology Licensing, Llc | Feature flow for video recognition |
CN106971155B (zh) * | 2017-03-21 | 2020-03-24 | 电子科技大学 | 一种基于高度信息的无人车车道场景分割方法 |
WO2018178212A1 (en) * | 2017-03-28 | 2018-10-04 | Koninklijke Philips N.V. | Ultrasound clinical feature detection and associated devices, systems, and methods |
US11164071B2 (en) * | 2017-04-18 | 2021-11-02 | Samsung Electronics Co., Ltd. | Method and apparatus for reducing computational complexity of convolutional neural networks |
CN107194419A (zh) * | 2017-05-10 | 2017-09-22 | 百度在线网络技术(北京)有限公司 | 视频分类方法及装置、计算机设备与可读介质 |
US10445871B2 (en) | 2017-05-22 | 2019-10-15 | General Electric Company | Image analysis neural network systems |
CN107368798B (zh) * | 2017-07-07 | 2019-11-29 | 四川大学 | 一种基于深度学习的人群情绪识别方法 |
CN107688821B (zh) * | 2017-07-11 | 2021-08-06 | 西安电子科技大学 | 基于视觉显著性与语义属性跨模态图像自然语言描述方法 |
CN107506786B (zh) * | 2017-07-21 | 2020-06-02 | 华中科技大学 | 一种基于深度学习的属性分类识别方法 |
EP3651055A4 (en) * | 2017-08-01 | 2020-10-21 | Huawei Technologies Co., Ltd. | METHOD, APPARATUS AND DEVICE FOR GESTURE RECOGNITION |
CN107437083B (zh) * | 2017-08-16 | 2020-09-22 | 广西荷福智能科技有限公司 | 一种自适应池化的视频行为识别方法 |
CN110532996B (zh) * | 2017-09-15 | 2021-01-22 | 腾讯科技(深圳)有限公司 | 视频分类的方法、信息处理的方法以及服务器 |
CN108288035A (zh) * | 2018-01-11 | 2018-07-17 | 华南理工大学 | 基于深度学习的多通道图像特征融合的人体动作识别方法 |
CN108596206A (zh) * | 2018-03-21 | 2018-09-28 | 杭州电子科技大学 | 基于多尺度多方向空间相关性建模的纹理图像分类方法 |
CN108520532B (zh) * | 2018-04-03 | 2020-12-22 | 北京京东尚科信息技术有限公司 | 识别视频中物体运动方向的方法及装置 |
CN108764084B (zh) * | 2018-05-17 | 2021-07-27 | 西安电子科技大学 | 基于空域分类网络和时域分类网络融合的视频分类方法 |
CN109101896B (zh) * | 2018-07-19 | 2022-03-25 | 电子科技大学 | 一种基于时空融合特征和注意力机制的视频行为识别方法 |
CN109165682B (zh) * | 2018-08-10 | 2020-06-16 | 中国地质大学(武汉) | 一种融合深度特征和显著性特征的遥感图像场景分类方法 |
CN109359539B (zh) * | 2018-09-17 | 2021-04-02 | 中国科学院深圳先进技术研究院 | 注意力评估方法、装置、终端设备及计算机可读存储介质 |
CN109376603A (zh) * | 2018-09-25 | 2019-02-22 | 北京周同科技有限公司 | 一种视频识别方法、装置、计算机设备及存储介质 |
US11200424B2 (en) * | 2018-10-12 | 2021-12-14 | Adobe Inc. | Space-time memory network for locating target object in video content |
CN110166827B (zh) * | 2018-11-27 | 2022-09-13 | 深圳市腾讯信息技术有限公司 | 视频片段的确定方法、装置、存储介质及电子装置 |
CN109840509B (zh) * | 2019-02-15 | 2020-12-01 | 北京工业大学 | 网络直播视频中不良主播的多层次协同识别方法及装置 |
CN109920049B (zh) * | 2019-02-26 | 2021-05-04 | 清华大学 | 边缘信息辅助精细三维人脸重建方法及系统 |
CN109831684B (zh) * | 2019-03-11 | 2022-08-19 | 深圳前海微众银行股份有限公司 | 视频优化推荐方法、装置及可读存储介质 |
CN110135386B (zh) * | 2019-05-24 | 2021-09-03 | 长沙学院 | 一种基于深度学习的人体动作识别方法和系统 |
CN112308885A (zh) * | 2019-07-29 | 2021-02-02 | 顺丰科技有限公司 | 基于光流的暴力抛扔检测方法、装置、设备和存储介质 |
CN110765835A (zh) * | 2019-08-19 | 2020-02-07 | 中科院成都信息技术股份有限公司 | 一种基于边缘信息的手术视频流程识别方法 |
CN110766096B (zh) * | 2019-10-31 | 2022-09-23 | 北京金山云网络技术有限公司 | 视频分类方法、装置及电子设备 |
CN110909672A (zh) * | 2019-11-21 | 2020-03-24 | 江苏德劭信息科技有限公司 | 一种基于双流卷积神经网络和svm的抽烟动作识别方法 |
CN111008596B (zh) * | 2019-12-05 | 2020-12-25 | 西安科技大学 | 基于特征期望子图校正分类的异常视频清洗方法 |
CN111507219A (zh) * | 2020-04-08 | 2020-08-07 | 广东工业大学 | 一种动作识别方法、装置及电子设备和存储介质 |
CN111783692A (zh) * | 2020-07-06 | 2020-10-16 | 广东工业大学 | 一种动作识别方法、装置及电子设备和存储介质 |
CN112000842A (zh) * | 2020-08-31 | 2020-11-27 | 北京字节跳动网络技术有限公司 | 视频处理方法和装置 |
CN114254146A (zh) * | 2020-09-21 | 2022-03-29 | 京东方科技集团股份有限公司 | 图像数据的分类方法、装置和系统 |
CN112380999B (zh) * | 2020-11-16 | 2023-08-01 | 东北大学 | 一种针对直播过程中诱导性不良行为的检测系统及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104156715A (zh) * | 2014-09-01 | 2014-11-19 | 杭州朗和科技有限公司 | 一种终端设备、信息采集方法及装置 |
CN105100823A (zh) * | 2015-09-01 | 2015-11-25 | 京东方科技集团股份有限公司 | 一种自适应媒体业务的处理方法、装置、编码器及解码器 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095862B (zh) * | 2015-07-10 | 2018-05-29 | 南开大学 | 一种基于深度卷积条件随机场的人体动作识别方法 |
-
2015
- 2015-12-08 CN CN201510901557.7A patent/CN105550699B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104156715A (zh) * | 2014-09-01 | 2014-11-19 | 杭州朗和科技有限公司 | 一种终端设备、信息采集方法及装置 |
CN105100823A (zh) * | 2015-09-01 | 2015-11-25 | 京东方科技集团股份有限公司 | 一种自适应媒体业务的处理方法、装置、编码器及解码器 |
Non-Patent Citations (5)
Title |
---|
Modeling Spatial-Temporal Clues in a Hybrid Deep Learning Framework for Video Classification;Zuxuan Wu等;《MM "15 Proceedings of the 23rd ACM international conference on Multimedia》;20151030;第461-470页 * |
Very Deep Convolutional Networks for Large-Scale Image Recognition;K Simonyan等;《Computer Science》;20150410;第1-14页 * |
双目序列图像曲线线流场的计算方法研究;李以文;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140515(第05(2014)期);第I138-2701页 * |
深度学习在图像语义分类中的应用;杜骞;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140915(第09(2014)期);第I138-1181页 * |
稀疏自组合时空卷积神经网络动作识别方法及其并行化;龚丁禧;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140815(第08(2014)期);第I138-1252页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105550699A (zh) | 2016-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105550699B (zh) | 一种基于cnn融合时空显著信息的视频识别分类方法 | |
CN107330362B (zh) | 一种基于时空注意力的视频分类方法 | |
CN105205475B (zh) | 一种动态手势识别方法 | |
Ganin et al. | Unsupervised domain adaptation by backpropagation | |
Wang et al. | Fast sign language recognition benefited from low rank approximation | |
CN108830252A (zh) | 一种融合全局时空特征的卷积神经网络人体动作识别方法 | |
CN105069434B (zh) | 一种视频中人体动作行为识别方法 | |
CN108399435B (zh) | 一种基于动静特征的视频分类方法 | |
CN104361316B (zh) | 一种基于多尺度时序建模的维度情感识别方法 | |
CN110853074B (zh) | 一种利用光流增强目标的视频目标检测网络系统 | |
CN110110580B (zh) | 一种面向Wi-Fi信号的手语孤立词识别网络构建及分类方法 | |
Xu et al. | A survey of CAPTCHA technologies to distinguish between human and computer | |
CN113239801B (zh) | 基于多尺度特征学习和多级域对齐的跨域动作识别方法 | |
CN107203745A (zh) | 一种基于跨域学习的跨视角动作识别方法 | |
CN112560810A (zh) | 基于多尺度时空特征神经网络的微表情识别方法 | |
CN105138983A (zh) | 基于加权部件模型和选择性搜索分割的行人检测方法 | |
CN104484040A (zh) | 一种多媒体互动教学控制系统及教学控制方法 | |
CN111738178A (zh) | 一种基于深度学习的戴口罩人脸表情识别方法 | |
Wang et al. | Occluded person re-identification via defending against attacks from obstacles | |
CN110889335A (zh) | 基于多通道时空融合网络人体骨架双人交互行为识别方法 | |
Shan et al. | Mixtconv: Mixed temporal convolutional kernels for efficient action recognition | |
CN112750128B (zh) | 图像语义分割方法、装置、终端及可读存储介质 | |
Tariq et al. | Sign language localization: Learning to eliminate language dialects | |
CN105469062A (zh) | 一种基于主成分分析网框架的车型识别方法 | |
CN114332711A (zh) | 面部动作识别及模型训练的方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |