CN107463949A - 一种视频动作分类的处理方法及装置 - Google Patents

一种视频动作分类的处理方法及装置 Download PDF

Info

Publication number
CN107463949A
CN107463949A CN201710573692.2A CN201710573692A CN107463949A CN 107463949 A CN107463949 A CN 107463949A CN 201710573692 A CN201710573692 A CN 201710573692A CN 107463949 A CN107463949 A CN 107463949A
Authority
CN
China
Prior art keywords
video
frame
convolution
projection
convolutional layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710573692.2A
Other languages
English (en)
Other versions
CN107463949B (zh
Inventor
陈雯婕
伏文龙
曹立宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Collaborative Innovation Institute
Communication University of China
Original Assignee
Beijing Collaborative Innovation Institute
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Collaborative Innovation Institute, Communication University of China filed Critical Beijing Collaborative Innovation Institute
Priority to CN201710573692.2A priority Critical patent/CN107463949B/zh
Publication of CN107463949A publication Critical patent/CN107463949A/zh
Application granted granted Critical
Publication of CN107463949B publication Critical patent/CN107463949B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供一种视频动作分类的处理方法及装置,方法包括:读取待识别的视频帧,并提取视频帧的光流图像;选择一帧视频帧作为起始帧,提取起始帧后的连续m帧视频帧x方向和y方向的光流图像,并与起始帧的RGB图像作为一个样本;将每一个样本中的光流图像和起始帧的RGB图像同时输入SCNN和TCNN,以分别获得SCNN和TCNN的最高卷积层计算出的卷积投影;根据卷积投影和多尺度卷积核的融合模块,获取视频动作的时空融合特征投影;将时空融合特征投影依次通过卷积层、最大池化层和全连接层进行计算,并根据计算结果和分类器获得视频动作所属分类。装置执行上述方法。本发明实施例提供的视频动作分类的处理方法及装置,能够提高复杂场景下人物动作的识别准确率。

Description

一种视频动作分类的处理方法及装置
技术领域
本发明实施例涉及图像识别技术领域,具体涉及一种视频动作分类的处理方法及装置。
背景技术
近些年来,图像识别成为一个热门的研究领域,基于视频帧的动作识别也越来越被关注。
现有的视频人物动作识别方法有很多,比如双流算法、基于人体骨骼的算法,卷积神经网络是近年发展起来,并引起广泛重视的一种高效识别方法。现在,卷积神经网络已经成为众多科学领域的研究热点之一,特别是在模式分类领域,由于该网络避免了对图像的复杂前期预处理,可以直接输入原始图像,因而得到了更为广泛的应用,但是,上述方法对于复杂场景下人物动作识别的准确性和速度都有待提高。
因此,如何提高复杂场景下人物动作的识别准确率,成为亟须解决的问题。
发明内容
针对现有技术存在的问题,本发明实施例提供一种视频动作分类的处理方法及装置。
第一方面,本发明实施例提供一种视频动作分类的处理方法,所述方法包括:
读取待识别的视频帧,并提取所述视频帧的光流图像;
选择一帧视频帧作为起始帧,提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像,并与所述起始帧的RGB图像作为一个样本;
将每一个样本中的光流图像和起始帧的RGB图像同时输入空间卷积神经网络和时序卷积神经网络,以分别获得所述空间卷积神经网络和所述时序卷积神经网络的最高卷积层计算出的卷积投影;
根据所述卷积投影和多尺度卷积核的融合模块,获取所述视频帧中视频动作的时空融合特征投影;
将所述时空融合特征投影依次通过卷积层、最大池化层和全连接层进行计算,并根据计算出的结果和分类器获得所述时空融合特征投影对应的视频动作的所属分类类别。
第二方面,本发明实施例提供一种视频动作分类的处理装置,所述装置包括:
提取单元,用于读取待识别的视频帧,并提取所述视频帧的光流图像;
选择单元,用于选择一帧视频帧作为起始帧,提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像,并与所述起始帧的RGB图像作为一个样本;
获得单元,用于将每一个样本中的光流图像和起始帧的RGB图像同时输入空间卷积神经网络和时序卷积神经网络,以分别获得所述空间卷积神经网络和所述时序卷积神经网络的最高卷积层计算出的卷积投影;
获取单元,用于根据所述卷积投影和多尺度卷积核的融合模块,获取所述视频帧中视频动作的时空融合特征投影;
分类单元,用于将所述时空融合特征投影依次通过卷积层、最大池化层和全连接层进行计算,并根据计算出的结果和分类器获得所述时空融合特征投影对应的视频动作的所属分类类别。
第三方面,本发明实施例提供另一种视频动作分类的处理装置,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:
读取待识别的视频帧,并提取所述视频帧的光流图像;
选择一帧视频帧作为起始帧,提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像,并与所述起始帧的RGB图像作为一个样本;
将每一个样本中的光流图像和起始帧的RGB图像同时输入空间卷积神经网络和时序卷积神经网络,以分别获得所述空间卷积神经网络和所述时序卷积神经网络的最高卷积层计算出的卷积投影;
根据所述卷积投影和多尺度卷积核的融合模块,获取所述视频帧中视频动作的时空融合特征投影;
将所述时空融合特征投影依次通过卷积层、最大池化层和全连接层进行计算,并根据计算出的结果和分类器获得所述时空融合特征投影对应的视频动作的所属分类类别。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,包括:
所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如下方法:
读取待识别的视频帧,并提取所述视频帧的光流图像;
选择一帧视频帧作为起始帧,提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像,并与所述起始帧的RGB图像作为一个样本;
将每一个样本中的光流图像和起始帧的RGB图像同时输入空间卷积神经网络和时序卷积神经网络,以分别获得所述空间卷积神经网络和所述时序卷积神经网络的最高卷积层计算出的卷积投影;
根据所述卷积投影和多尺度卷积核的融合模块,获取所述视频帧中视频动作的时空融合特征投影;
将所述时空融合特征投影依次通过卷积层、最大池化层和全连接层进行计算,并根据计算出的结果和分类器获得所述时空融合特征投影对应的视频动作的所属分类类别。
本发明实施例提供的视频动作分类的处理方法及装置,能够提高复杂场景下人物动作的识别准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例视频动作分类的处理方法流程示意图;
图2为本发明实施例的识别结果示意图;
图3为本发明另一实施例视频动作分类的处理方法流程示意图;
图4为本发明实施例视频动作分类的处理装置结构示意图;
图5为本发明实施例提供的装置实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例视频动作分类的处理方法流程示意图,如图1所示,本发明实施例提供的一种视频动作分类的处理方法,包括以下步骤:
S1:读取待识别的视频帧,并提取所述视频帧的光流图像。
具体的,装置读取待识别的视频帧,并提取所述视频帧的光流图像。可以采用opencv自带的TVL1方法提取视频帧的光流图像,这方面为较成熟的技术,不再赘述。
S2:选择一帧视频帧作为起始帧,提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像,并与所述起始帧的RGB图像作为一个样本。
具体的,装置选择一帧视频帧作为起始帧,提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像,并与所述起始帧的RGB图像作为一个样本。其中m的数值可以根据实际情况自主设置,可选为10,RGB是工业界的一种颜色标准,是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的,RGB即是代表红、绿、蓝三个通道的颜色,这个标准几乎包括了人类视力所能感知的所有颜色,是目前运用最广的颜色系统之一。可以理解:视频帧包括有多个样本,每一个样本至少包括有起始帧的RGB图像和m帧视频帧x方向和y方向的光流图像。
S3:将每一个样本中的光流图像和起始帧的RGB图像同时输入空间卷积神经网络和时序卷积神经网络,以分别获得所述空间卷积神经网络和所述时序卷积神经网络的最高卷积层计算出的卷积投影。
具体的,装置将每一个样本中的光流图像和起始帧的RGB图像同时输入空间卷积神经网络和时序卷积神经网络,以分别获得所述空间卷积神经网络和所述时序卷积神经网络的最高卷积层计算出的卷积投影。空间卷积神经网络(SCNN)和时序卷积神经网络(TCNN)都可以使用VGG16模型,该模型的可以配置为:第一组卷积层(2,64,3,1,1)->最大池化(2*2)->第二组卷积层(2,128,3,1,1)->最大池化(2*2)->第三组卷积层(3,256,3,1,1)->最大池化(2*2)->第四组卷积层(3,512,3,1,1)->最大池化(2*2)->第五组卷积层(3,512,3,1,1),每组卷积层之后括号内的数字依次代表:该组卷积层的数量、卷积核的数量、卷积核的空间尺度、卷积核移动的空间步长以及该卷积层的输入边缘填充尺度,分别提取这两个通路最高层conv5_3层(第五组卷积层中的第3层卷积层)的卷积投影。
S4:根据所述卷积投影和多尺度卷积核的融合模块,获取所述视频帧中视频动作的时空融合特征投影。
具体的,装置根据所述卷积投影和多尺度卷积核的融合模块,获取所述视频帧中视频动作的时空融合特征投影。分别对所述空间卷积神经网络和所述时序卷积神经网络的卷积投影进行特征归一化计算,即:把每个样本的卷积投影均归一化到0至1的范围内。特征归一化的卷积投影设为Cnorm(n,c,h,w),可以分别根据如下公式进行计算:
其中minCn(n,c,h,w)是指R个样本中第n个样本的conv5_3卷积投影的最小值,maxCn(n,c,h,w)是指R个样本中第n个样本的conv5_3卷积投影的最大值,C(n,c,h,w)是指R个样本中第n个样本的conv5_3卷积投影。其中n、c、h、w分别表示R个样本中的样本个数、空间卷积神经网络或时序卷积神经网络的标识参数,即0≤c<C1表示卷积投影属于空间卷积神经网络;C1≤c<C2表示卷积投影属于时序卷积神经网络,其中C1和C2可以自主设置、表示起始帧的RGB图像的高度数值、表示起始帧的RGB图像的宽度数值。
然后,将并联的归一化特征输入多尺度卷积核的融合模块,该多尺度卷积核的融合模块具有3个并联的卷积核,卷积核的空间尺度分别为1*1、3*3以及5*5;每个卷积核的计算结果之后还连接有relu激活函数(Rectified Linear Units,修正线性单元)进行非线性变换;并联多尺度卷积核的融合模块得到的3组非线性变换后的计算结果(特征投影),得到该视频动作的时空融合特征投影。
S5:将所述时空融合特征投影依次通过卷积层、最大池化层和全连接层进行计算,并根据计算出的结果和分类器获得所述时空融合特征投影对应的视频动作的所属分类类别。
具体的,装置将所述时空融合特征投影依次通过卷积层、最大池化层和全连接层进行计算,并根据计算出的结果和分类器获得所述时空融合特征投影对应的视频动作的所属分类类别。将该时空融合特征投影通过尺度参数为1*1的卷积层、尺度参数为2*2的最大池化层,进行降维,得到降维特征;再将降维特征依次通过长度为4096和2048的全连接层计算处理,并选择所有样本的计算结果中的最大值,根据分类器的映射关系,为所有样本计算结果中的最大值匹配对应的分类类别作为视频动作所属分类类别。图2为本发明实施例的识别结果示意图,并将分类结果显示在如图2所示对话框中,该分类结果是frisbee(飞盘)。
本发明实施例提供的视频动作分类的处理方法,能够提高复杂场景下人物动作的识别准确率。
在上述实施例的基础上,所述多尺度卷积核的融合模块具有p个并联的卷积核,相应的,所述根据所述卷积投影和多尺度卷积核的融合模块,获取所述视频帧中视频动作的时空融合特征投影,包括:
分别对所述空间卷积神经网络和所述时序卷积神经网络的卷积投影进行特征归一化计算。
具体的,装置分别对所述空间卷积神经网络和所述时序卷积神经网络的卷积投影进行特征归一化计算。可参照上述实施例,不再赘述。
将并联后的特征归一化计算结果输入多尺度卷积核的融合模块,以获得所述融合模块的p个计算结果。
具体的,装置将并联后的特征归一化计算结果输入多尺度卷积核的融合模块,以获得所述融合模块的p个计算结果。可参照上述实施例,不再赘述。
分别对所述p个计算结果进行非线性变换。
具体的,装置分别对所述p个计算结果进行非线性变换。可参照上述实施例,不再赘述。
并联非线性变换后的计算结果,以获取所述视频帧中视频动作的时空融合特征投影。
具体的,装置并联非线性变换后的计算结果,以获取所述视频帧中视频动作的时空融合特征投影。可参照上述实施例,不再赘述。
本发明实施例提供的视频动作分类的处理方法,通过归一化计算、输入多尺度卷积核的融合模块进行计算、非线性变换得到了时空融合特征投影,进一步能够提高复杂场景下人物动作的识别准确率。
在上述实施例的基础上,所述p的数值为3,相应的,3个卷积核的空间尺度分别为1*1、3*3以及5*5。
具体的,装置中的所述p的数值为3,相应的,3个卷积核的空间尺度分别为1*1、3*3以及5*5。可参照上述实施例,不再赘述。
本发明实施例提供的视频动作分类的处理方法,通过设置多尺度卷积核的融合模块3个卷积核的空间尺度具体数值,进一步优化了整体的运算过程,更加提高了复杂场景下人物动作的识别准确率。
在上述实施例的基础上,所述分别对所述p个计算结果进行非线性变换,包括:
将每个计算结果分别输入relu激活函数,根据所述relu激活函数以对每个计算结果进行非线性变换。
具体的,装置将每个计算结果分别输入relu激活函数,根据所述relu激活函数以对每个计算结果进行非线性变换。可参照上述实施例,不再赘述。
本发明实施例提供的视频动作分类的处理方法,通过relu激活函数对每个计算结果进行非线性变换,保证了复杂场景下人物动作的识别的准确性。
在上述实施例的基础上,所述视频帧包括R个所述样本、所述分类器为softmax分类器,相应的,所述并根据计算出的结果和分类器获得所述时空融合特征投影对应的视频动作的所属分类类别,包括:
选择R个所述样本计算结果中的最大值。
具体的,装置选择R个所述样本计算结果中的最大值。
将所述最大值在所述softmax分类器中对应的分类类别作为视频动作的所属分类类别。
具体的,装置将所述最大值在所述softmax分类器中对应的分类类别作为视频动作的所属分类类别。softmax分类器预先设置有多个数值与视频动作的所属分类类别的映射关系,举例说明如下:数值范围在100~1000之间对应的视频动作是走路、数值范围在1000~3000之间对应的视频动作是跑步。因此可以根据最大值对应的映射关系,获得该视频动作的所属分类类别。
本发明实施例提供的视频动作分类的处理方法,通过使用softmax分类器判断视频动作的所属分类类别,更加提高了复杂场景下人物动作的识别准确率。
在上述实施例的基础上,所述空间卷积神经网络和所述时序卷积神经网络使用VGG16模型,所述VGG16模型为:
第一组卷积层及其参数2,64,3,1,1、最大池化层;第二组卷积层及其参数2,128,3,1,1、最大池化层;第三组卷积层及其参数3,256,3,1,1、最大池化层;第四组卷积层及其参数3,512,3,1,1、最大池化层;第五组卷积层及其参数3,512,3,1,1,每组卷积层参数的数字依次代表:该组卷积层的数量、卷积核的数量、卷积核的空间尺度、卷积核移动的空间步长以及该卷积层的输入边缘填充尺度,每组卷积层中的最大池化层的参数为2*2。
具体的,装置中的所述VGG16模型为:
第一组卷积层及其参数2,64,3,1,1、最大池化层;第二组卷积层及其参数2,128,3,1,1、最大池化层;第三组卷积层及其参数3,256,3,1,1、最大池化层;第四组卷积层及其参数3,512,3,1,1、最大池化层;第五组卷积层及其参数3,512,3,1,1,每组卷积层参数的数字依次代表:该组卷积层的数量、卷积核的数量、卷积核的空间尺度、卷积核移动的空间步长以及该卷积层的输入边缘填充尺度,每组卷积层中的最大池化层的参数为2*2。可参照上述实施例,不再赘述。
本发明实施例提供的视频动作分类的处理方法,通过为空间卷积神经网络和时序卷积神经网络选择、配置VGG16模型,进一步提高了复杂场景下人物动作的识别准确率。
在上述实施例的基础上,所述最高卷积层为所述第五组卷积层中的第3层卷积层。
具体的,装置中的所述最高卷积层为所述第五组卷积层中的第3层卷积层。可参照上述实施例,不再赘述。
本发明实施例提供的视频动作分类的处理方法,通过将最高卷积层选为第五组卷积层中的第3层卷积层,保证了卷积投影获得的合理性,有助于提高复杂场景下人物动作的识别准确率。
进一步,本发明还可应用于以下两个方面:
(1)基于监控视频的犯罪报警:例如监控摄像头对某一路口的环境进行监控,有人在路口打架,那么应用该视频人物动作识别,可以对发生该情况的路口进行实时报警。
(2)电视互动:在体育比赛中,对运动员的动作进行识别,如果发生重要的动作,比如足球比赛中的进球,那么就可以进行提醒,与观众进行互动。
图3为本发明另一实施例视频动作分类的处理方法流程示意图,如图3所示再次对视频动作分类的处理方法流程作简要说明:
(1)将每一个样本中视频帧的起始帧的RGB图像和起始帧后连续10帧视频帧的x方向和y方向的光流图像同时输入SCNN和TCNN。
(2)提取SCNN和TCNN第五组卷积层的第三层卷积层的计算结果作为卷积投影。
(3)将两条通路的卷积投影进行特征归一化,得到特征归一化的计算结果。
(4)并联合并两条通路的特征归一化的计算结果,得到并联归一化特征。
(5)将并联归一化特征输入多尺度卷积核的融合模块,以获得3个计算结果。
(6)分别对该3个计算结果进行非线性变换(图3为示出),并联非线性变换后的计算结果,以获取视频动作的时空融合特征投影。
(7)将时空融合特征投影进行卷积层、最大池化层和全连接层的计算,并选择R个样本计算结果中的最大值。
(8)根据softmax分类器的映射关系,为R个样本计算结果中的最大值匹配对应的分类类别作为输出结果。
本发明实施例提供的视频动作分类的处理方法,能够提高复杂场景下人物动作的识别准确率。
图4为本发明实施例视频动作分类的处理装置结构示意图,如图4所示,本发明实施例提供了一种视频动作分类的处理装置,包括提取单元1、选择单元2、获得单元3、获取单元4和分类单元5,其中:
提取单元1用于读取待识别的视频帧,并提取所述视频帧的光流图像;选择单元2用于选择一帧视频帧作为起始帧,提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像,并与所述起始帧的RGB图像作为一个样本;获得单元3用于将每一个样本中的光流图像和起始帧的RGB图像同时输入空间卷积神经网络和时序卷积神经网络,以分别获得所述空间卷积神经网络和所述时序卷积神经网络的最高卷积层计算出的卷积投影;获取单元4用于根据所述卷积投影和多尺度卷积核的融合模块,获取所述视频帧中视频动作的时空融合特征投影;分类单元5用于将所述时空融合特征投影依次通过卷积层、最大池化层和全连接层进行计算,并根据计算出的结果和分类器获得所述时空融合特征投影对应的视频动作的所属分类类别。
具体的,提取单元1用于读取待识别的视频帧,并提取所述视频帧的光流图像,提取单元1将视频帧和视频帧的光流图像发送给选择单元2;选择单元2用于选择一帧视频帧作为起始帧,提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像,并与所述起始帧的RGB图像作为一个样本,选择单元2将每一个样本中的光流图像和起始帧的RGB图像发送给获得单元3;获得单元3用于将每一个样本中的光流图像和起始帧的RGB图像同时输入空间卷积神经网络和时序卷积神经网络,以分别获得所述空间卷积神经网络和所述时序卷积神经网络的最高卷积层计算出的卷积投影,获得单元3将卷积投影发送给获取单元4;获取单元4用于根据所述卷积投影和多尺度卷积核的融合模块,获取所述视频帧中视频动作的时空融合特征投影,获取单元4将时空融合特征投影发送给分类单元5;分类单元5用于将所述时空融合特征投影依次通过卷积层、最大池化层和全连接层进行计算,并根据计算出的结果和分类器获得所述时空融合特征投影对应的视频动作的所属分类类别。
本发明实施例提供的视频动作分类的处理装置,能够提高复杂场景下人物动作的识别准确率。
本发明实施例提供的视频动作分类的处理装置具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
图5为本发明实施例提供的装置实体结构示意图,如图5所示,所述装置包括:处理器(processor)501、存储器(memory)502和总线503;
其中,所述处理器501、存储器502通过总线503完成相互间的通信;
所述处理器501用于调用所述存储器502中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:读取待识别的视频帧,并提取所述视频帧的光流图像;选择一帧视频帧作为起始帧,提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像,并与所述起始帧的RGB图像作为一个样本;将每一个样本中的光流图像和起始帧的RGB图像同时输入空间卷积神经网络和时序卷积神经网络,以分别获得所述空间卷积神经网络和所述时序卷积神经网络的最高卷积层计算出的卷积投影;根据所述卷积投影和多尺度卷积核的融合模块,获取所述视频帧中视频动作的时空融合特征投影;将所述时空融合特征投影依次通过卷积层、最大池化层和全连接层进行计算,并根据计算出的结果和分类器获得所述时空融合特征投影对应的视频动作的所属分类类别。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:读取待识别的视频帧,并提取所述视频帧的光流图像;选择一帧视频帧作为起始帧,提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像,并与所述起始帧的RGB图像作为一个样本;将每一个样本中的光流图像和起始帧的RGB图像同时输入空间卷积神经网络和时序卷积神经网络,以分别获得所述空间卷积神经网络和所述时序卷积神经网络的最高卷积层计算出的卷积投影;根据所述卷积投影和多尺度卷积核的融合模块,获取所述视频帧中视频动作的时空融合特征投影;将所述时空融合特征投影依次通过卷积层、最大池化层和全连接层进行计算,并根据计算出的结果和分类器获得所述时空融合特征投影对应的视频动作的所属分类类别。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:读取待识别的视频帧,并提取所述视频帧的光流图像;选择一帧视频帧作为起始帧,提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像,并与所述起始帧的RGB图像作为一个样本;将每一个样本中的光流图像和起始帧的RGB图像同时输入空间卷积神经网络和时序卷积神经网络,以分别获得所述空间卷积神经网络和所述时序卷积神经网络的最高卷积层计算出的卷积投影;根据所述卷积投影和多尺度卷积核的融合模块,获取所述视频帧中视频动作的时空融合特征投影;将所述时空融合特征投影依次通过卷积层、最大池化层和全连接层进行计算,并根据计算出的结果和分类器获得所述时空融合特征投影对应的视频动作的所属分类类别。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上各实施例仅用以说明本发明的实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明的实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims (10)

1.一种视频动作分类的处理方法,其特征在于,包括:
读取待识别的视频帧,并提取所述视频帧的光流图像;
选择一帧视频帧作为起始帧,提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像,并与所述起始帧的RGB图像作为一个样本;
将每一个样本中的光流图像和起始帧的RGB图像同时输入空间卷积神经网络和时序卷积神经网络,以分别获得所述空间卷积神经网络和所述时序卷积神经网络的最高卷积层计算出的卷积投影;
根据所述卷积投影和多尺度卷积核的融合模块,获取所述视频帧中视频动作的时空融合特征投影;
将所述时空融合特征投影依次通过卷积层、最大池化层和全连接层进行计算,并根据计算出的结果和分类器获得所述时空融合特征投影对应的视频动作的所属分类类别。
2.根据权利要求1所述的方法,其特征在于,所述多尺度卷积核的融合模块具有p个并联的卷积核,相应的,所述根据所述卷积投影和多尺度卷积核的融合模块,获取所述视频帧中视频动作的时空融合特征投影,包括:
分别对所述空间卷积神经网络和所述时序卷积神经网络的卷积投影进行特征归一化计算;
将并联后的特征归一化计算结果输入多尺度卷积核的融合模块,以获得所述融合模块的p个计算结果;
分别对所述p个计算结果进行非线性变换;
并联非线性变换后的计算结果,以获取所述视频帧中视频动作的时空融合特征投影。
3.根据权利要求2所述的方法,其特征在于,所述p的数值为3,相应的,3个卷积核的空间尺度分别为1*1、3*3以及5*5。
4.根据权利要求2所述的方法,其特征在于,所述分别对所述p个计算结果进行非线性变换,包括:
将每个计算结果分别输入relu激活函数,根据所述relu激活函数以对每个计算结果进行非线性变换。
5.根据权利要求1至4任一所述的方法,其特征在于,所述视频帧包括R个所述样本、所述分类器为softmax分类器,相应的,所述并根据计算出的结果和分类器获得所述时空融合特征投影对应的视频动作的所属分类类别,包括:
选择R个所述样本计算结果中的最大值;
将所述最大值在所述softmax分类器中对应的分类类别作为视频动作的所属分类类别。
6.根据权利要求1至4任一所述的方法,其特征在于,所述空间卷积神经网络和所述时序卷积神经网络使用VGG16模型,所述VGG16模型为:
第一组卷积层及其参数2,64,3,1,1、最大池化层;第二组卷积层及其参数2,128,3,1,1、最大池化层;第三组卷积层及其参数3,256,3,1,1、最大池化层;第四组卷积层及其参数3,512,3,1,1、最大池化层;第五组卷积层及其参数3,512,3,1,1,每组卷积层参数的数字依次代表:该组卷积层的数量、卷积核的数量、卷积核的空间尺度、卷积核移动的空间步长以及该卷积层的输入边缘填充尺度,每组卷积层中的最大池化层的参数为2*2。
7.根据权利要求6所述的方法,其特征在于,所述最高卷积层为所述第五组卷积层中的第3层卷积层。
8.一种视频动作分类的处理装置,其特征在于,包括:
提取单元,用于读取待识别的视频帧,并提取所述视频帧的光流图像;
选择单元,用于选择一帧视频帧作为起始帧,提取所述起始帧后的连续m帧视频帧x方向和y方向的光流图像,并与所述起始帧的RGB图像作为一个样本;
获得单元,用于将每一个样本中的光流图像和起始帧的RGB图像同时输入空间卷积神经网络和时序卷积神经网络,以分别获得所述空间卷积神经网络和所述时序卷积神经网络的最高卷积层计算出的卷积投影;
获取单元,用于根据所述卷积投影和多尺度卷积核的融合模块,获取所述视频帧中视频动作的时空融合特征投影;
分类单元,用于将所述时空融合特征投影依次通过卷积层、最大池化层和全连接层进行计算,并根据计算出的结果和分类器获得所述时空融合特征投影对应的视频动作的所属分类类别。
9.一种视频动作分类的处理装置,其特征在于,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。
CN201710573692.2A 2017-07-14 2017-07-14 一种视频动作分类的处理方法及装置 Expired - Fee Related CN107463949B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710573692.2A CN107463949B (zh) 2017-07-14 2017-07-14 一种视频动作分类的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710573692.2A CN107463949B (zh) 2017-07-14 2017-07-14 一种视频动作分类的处理方法及装置

Publications (2)

Publication Number Publication Date
CN107463949A true CN107463949A (zh) 2017-12-12
CN107463949B CN107463949B (zh) 2020-02-21

Family

ID=60544326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710573692.2A Expired - Fee Related CN107463949B (zh) 2017-07-14 2017-07-14 一种视频动作分类的处理方法及装置

Country Status (1)

Country Link
CN (1) CN107463949B (zh)

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460335A (zh) * 2018-01-26 2018-08-28 百度在线网络技术(北京)有限公司 视频细粒度识别方法、装置、计算机设备及存储介质
CN108648746A (zh) * 2018-05-15 2018-10-12 南京航空航天大学 一种基于多模态特征融合的开放域视频自然语言描述生成方法
CN108875611A (zh) * 2018-06-05 2018-11-23 北京字节跳动网络技术有限公司 视频动作识别方法和装置
CN108970091A (zh) * 2018-09-14 2018-12-11 郑强 一种羽毛球动作分析方法及系统
CN108985223A (zh) * 2018-07-12 2018-12-11 天津艾思科尔科技有限公司 一种人体动作识别方法
CN109002766A (zh) * 2018-06-22 2018-12-14 北京邮电大学 一种表情识别方法及装置
CN109034000A (zh) * 2018-07-04 2018-12-18 广州视源电子科技股份有限公司 广告机屏幕运动的控制方法、装置、存储介质及广告机
CN109410242A (zh) * 2018-09-05 2019-03-01 华南理工大学 基于双流卷积神经网络的目标跟踪方法、系统、设备及介质
CN109543513A (zh) * 2018-10-11 2019-03-29 平安科技(深圳)有限公司 智能监控实时处理的方法、装置、设备及存储介质
CN109871828A (zh) * 2019-03-15 2019-06-11 京东方科技集团股份有限公司 视频识别方法和识别装置、存储介质
CN109902547A (zh) * 2018-05-29 2019-06-18 华为技术有限公司 动作识别方法和装置
CN110070002A (zh) * 2019-03-29 2019-07-30 上海理工大学 一种基于3d卷积神经网络的行为识别方法
CN110119707A (zh) * 2019-05-10 2019-08-13 苏州大学 一种人体动作识别方法
CN110120020A (zh) * 2019-04-30 2019-08-13 西北工业大学 一种基于多尺度空洞残差注意力网络的sar图像去噪方法
CN110147699A (zh) * 2018-04-12 2019-08-20 北京大学 一种图像识别方法、装置以及相关设备
CN110287820A (zh) * 2019-06-06 2019-09-27 北京清微智能科技有限公司 基于lrcn网络的行为识别方法、装置、设备及介质
CN110399789A (zh) * 2019-06-14 2019-11-01 佳都新太科技股份有限公司 行人重识别方法、模型构建方法、装置、设备和存储介质
CN110533749A (zh) * 2018-02-07 2019-12-03 深圳市腾讯计算机系统有限公司 一种动态纹理视频生成方法、装置、服务器及存储介质
CN110543856A (zh) * 2019-09-05 2019-12-06 新华智云科技有限公司 足球射门时刻识别方法、装置、存储介质及计算机设备
CN110546645A (zh) * 2017-12-13 2019-12-06 北京市商汤科技开发有限公司 视频识别及训练方法和装置、电子设备和介质
CN110866509A (zh) * 2019-11-20 2020-03-06 腾讯科技(深圳)有限公司 动作识别方法、装置、计算机存储介质和计算机设备
CN110969066A (zh) * 2018-09-30 2020-04-07 北京金山云网络技术有限公司 直播视频的识别方法、装置及电子设备
CN111325253A (zh) * 2020-02-12 2020-06-23 杭州涂鸦信息技术有限公司 一种基于深度学习的双流法行为识别方法及系统
CN111428771A (zh) * 2019-11-08 2020-07-17 腾讯科技(深圳)有限公司 视频场景分类方法、装置和计算机可读存储介质
CN111859023A (zh) * 2020-06-11 2020-10-30 中国科学院深圳先进技术研究院 视频分类方法、装置、设备及计算机可读存储介质
CN112017135A (zh) * 2020-07-13 2020-12-01 香港理工大学深圳研究院 一种遥感影像数据时空融合的方法、系统及设备
CN112131908A (zh) * 2019-06-24 2020-12-25 北京眼神智能科技有限公司 基于双流网络的动作识别方法、装置、存储介质及设备
CN108848389B (zh) * 2018-07-27 2021-03-30 恒信东方文化股份有限公司 一种全景视频处理方法及播放系统
CN112597856A (zh) * 2020-12-16 2021-04-02 中山大学 一种基于部分解耦条件下通道分配的动作识别方法及系统
CN112668495A (zh) * 2020-12-30 2021-04-16 东北大学 一种基于全时空卷积模块的暴力视频检测算法
CN112749666A (zh) * 2021-01-15 2021-05-04 百果园技术(新加坡)有限公司 一种动作识别模型的训练及动作识别方法与相关装置
CN112784704A (zh) * 2021-01-04 2021-05-11 上海海事大学 一种面向小样本视频动作分类的方法
CN114495271A (zh) * 2022-01-18 2022-05-13 西安邮电大学 一种基于深度ConvLSTM与双流融合网络的人体行为识别方法
CN114550027A (zh) * 2022-01-18 2022-05-27 清华大学 基于视觉的运动视频精细分析方法和装置
CN115294639A (zh) * 2022-07-11 2022-11-04 惠州市慧昊光电有限公司 色温可调灯带及其控制方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599789A (zh) * 2016-07-29 2017-04-26 北京市商汤科技开发有限公司 视频类别识别方法和装置、数据处理装置和电子设备
CN106709461A (zh) * 2016-12-28 2017-05-24 中国科学院深圳先进技术研究院 基于视频的行为识别方法及装置
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法
CN106599789A (zh) * 2016-07-29 2017-04-26 北京市商汤科技开发有限公司 视频类别识别方法和装置、数据处理装置和电子设备
CN106709461A (zh) * 2016-12-28 2017-05-24 中国科学院深圳先进技术研究院 基于视频的行为识别方法及装置

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CHRISTOPH FEICHTENHOFER等: "Convolutional Two-Stream Network Fusion for Video Action Recognition", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION(CVPR)》 *
KAREN SIMONYAN等: "Two-Stream Convolutional Networks for Action Recognition in Videos", 《NEURAL INFORMATION PROCESSING SYSTEMS(NIPS)》 *
KAREN SIMONYAN等: "Very Deep Convolutional Nefor Large-Scale Image Recognitiontworks", 《COMPUTER VISION AND PATTERN RECOGNITION》 *
LIMIN WANG等: "Temporal Segment Networks:Towards Good Practices for Deep Action Recognition", 《SPRINGER》 *
WANGJIANG ZHU等: "A Key Volume Mining Deep Framework for Action Recognition", 《THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
XIAOJIANG PENG等: "Multi-region two-stream R-CNN for action detection", 《EUROPEAN CONFERENCE ON COMPUTER VISION》 *

Cited By (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110546645A (zh) * 2017-12-13 2019-12-06 北京市商汤科技开发有限公司 视频识别及训练方法和装置、电子设备和介质
CN110546645B (zh) * 2017-12-13 2023-09-19 北京市商汤科技开发有限公司 视频识别及训练方法和装置、电子设备和介质
CN108460335A (zh) * 2018-01-26 2018-08-28 百度在线网络技术(北京)有限公司 视频细粒度识别方法、装置、计算机设备及存储介质
CN108460335B (zh) * 2018-01-26 2022-05-27 百度在线网络技术(北京)有限公司 视频细粒度识别方法、装置、计算机设备及存储介质
CN110533749A (zh) * 2018-02-07 2019-12-03 深圳市腾讯计算机系统有限公司 一种动态纹理视频生成方法、装置、服务器及存储介质
CN110147699A (zh) * 2018-04-12 2019-08-20 北京大学 一种图像识别方法、装置以及相关设备
CN110147699B (zh) * 2018-04-12 2023-11-21 北京大学 一种图像识别方法、装置以及相关设备
CN108648746B (zh) * 2018-05-15 2020-11-20 南京航空航天大学 一种基于多模态特征融合的开放域视频自然语言描述生成方法
CN108648746A (zh) * 2018-05-15 2018-10-12 南京航空航天大学 一种基于多模态特征融合的开放域视频自然语言描述生成方法
CN109902547A (zh) * 2018-05-29 2019-06-18 华为技术有限公司 动作识别方法和装置
US11392801B2 (en) 2018-05-29 2022-07-19 Huawei Technologies Co., Ltd. Action recognition method and apparatus
US11704938B2 (en) 2018-05-29 2023-07-18 Huawei Technologies Co., Ltd. Action recognition method and apparatus
CN108875611A (zh) * 2018-06-05 2018-11-23 北京字节跳动网络技术有限公司 视频动作识别方法和装置
CN109002766A (zh) * 2018-06-22 2018-12-14 北京邮电大学 一种表情识别方法及装置
CN109002766B (zh) * 2018-06-22 2021-07-09 北京邮电大学 一种表情识别方法及装置
CN109034000A (zh) * 2018-07-04 2018-12-18 广州视源电子科技股份有限公司 广告机屏幕运动的控制方法、装置、存储介质及广告机
CN108985223A (zh) * 2018-07-12 2018-12-11 天津艾思科尔科技有限公司 一种人体动作识别方法
CN108985223B (zh) * 2018-07-12 2024-05-07 天津艾思科尔科技有限公司 一种人体动作识别方法
CN108848389B (zh) * 2018-07-27 2021-03-30 恒信东方文化股份有限公司 一种全景视频处理方法及播放系统
CN109410242A (zh) * 2018-09-05 2019-03-01 华南理工大学 基于双流卷积神经网络的目标跟踪方法、系统、设备及介质
CN109410242B (zh) * 2018-09-05 2020-09-22 华南理工大学 基于双流卷积神经网络的目标跟踪方法、系统、设备及介质
CN108970091B (zh) * 2018-09-14 2023-08-01 郑强 一种羽毛球动作分析方法及系统
CN108970091A (zh) * 2018-09-14 2018-12-11 郑强 一种羽毛球动作分析方法及系统
CN110969066A (zh) * 2018-09-30 2020-04-07 北京金山云网络技术有限公司 直播视频的识别方法、装置及电子设备
CN110969066B (zh) * 2018-09-30 2023-10-10 北京金山云网络技术有限公司 直播视频的识别方法、装置及电子设备
CN109543513A (zh) * 2018-10-11 2019-03-29 平安科技(深圳)有限公司 智能监控实时处理的方法、装置、设备及存储介质
CN109871828A (zh) * 2019-03-15 2019-06-11 京东方科技集团股份有限公司 视频识别方法和识别装置、存储介质
US11113536B2 (en) 2019-03-15 2021-09-07 Boe Technology Group Co., Ltd. Video identification method, video identification device, and storage medium
CN110070002A (zh) * 2019-03-29 2019-07-30 上海理工大学 一种基于3d卷积神经网络的行为识别方法
CN110120020A (zh) * 2019-04-30 2019-08-13 西北工业大学 一种基于多尺度空洞残差注意力网络的sar图像去噪方法
CN110119707A (zh) * 2019-05-10 2019-08-13 苏州大学 一种人体动作识别方法
CN110287820A (zh) * 2019-06-06 2019-09-27 北京清微智能科技有限公司 基于lrcn网络的行为识别方法、装置、设备及介质
CN110287820B (zh) * 2019-06-06 2021-07-23 北京清微智能科技有限公司 基于lrcn网络的行为识别方法、装置、设备及介质
CN110399789A (zh) * 2019-06-14 2019-11-01 佳都新太科技股份有限公司 行人重识别方法、模型构建方法、装置、设备和存储介质
CN112131908B (zh) * 2019-06-24 2024-06-11 北京眼神智能科技有限公司 基于双流网络的动作识别方法、装置、存储介质及设备
CN112131908A (zh) * 2019-06-24 2020-12-25 北京眼神智能科技有限公司 基于双流网络的动作识别方法、装置、存储介质及设备
CN110543856B (zh) * 2019-09-05 2022-04-22 新华智云科技有限公司 足球射门时刻识别方法、装置、存储介质及计算机设备
CN110543856A (zh) * 2019-09-05 2019-12-06 新华智云科技有限公司 足球射门时刻识别方法、装置、存储介质及计算机设备
CN111428771B (zh) * 2019-11-08 2023-04-18 腾讯科技(深圳)有限公司 视频场景分类方法、装置和计算机可读存储介质
CN111428771A (zh) * 2019-11-08 2020-07-17 腾讯科技(深圳)有限公司 视频场景分类方法、装置和计算机可读存储介质
CN110866509A (zh) * 2019-11-20 2020-03-06 腾讯科技(深圳)有限公司 动作识别方法、装置、计算机存储介质和计算机设备
CN110866509B (zh) * 2019-11-20 2023-04-28 腾讯科技(深圳)有限公司 动作识别方法、装置、计算机存储介质和计算机设备
CN111325253B (zh) * 2020-02-12 2023-05-05 杭州涂鸦信息技术有限公司 一种基于深度学习的双流法行为识别方法及系统
CN111325253A (zh) * 2020-02-12 2020-06-23 杭州涂鸦信息技术有限公司 一种基于深度学习的双流法行为识别方法及系统
CN111859023B (zh) * 2020-06-11 2024-05-03 中国科学院深圳先进技术研究院 视频分类方法、装置、设备及计算机可读存储介质
CN111859023A (zh) * 2020-06-11 2020-10-30 中国科学院深圳先进技术研究院 视频分类方法、装置、设备及计算机可读存储介质
CN112017135A (zh) * 2020-07-13 2020-12-01 香港理工大学深圳研究院 一种遥感影像数据时空融合的方法、系统及设备
CN112017135B (zh) * 2020-07-13 2021-09-21 香港理工大学深圳研究院 一种遥感影像数据时空融合的方法、系统及设备
CN112597856A (zh) * 2020-12-16 2021-04-02 中山大学 一种基于部分解耦条件下通道分配的动作识别方法及系统
CN112597856B (zh) * 2020-12-16 2023-09-26 中山大学 一种基于部分解耦条件下通道分配的动作识别方法及系统
CN112668495B (zh) * 2020-12-30 2024-02-02 东北大学 一种基于全时空卷积模块的暴力视频检测算法
CN112668495A (zh) * 2020-12-30 2021-04-16 东北大学 一种基于全时空卷积模块的暴力视频检测算法
CN112784704A (zh) * 2021-01-04 2021-05-11 上海海事大学 一种面向小样本视频动作分类的方法
CN112749666A (zh) * 2021-01-15 2021-05-04 百果园技术(新加坡)有限公司 一种动作识别模型的训练及动作识别方法与相关装置
CN112749666B (zh) * 2021-01-15 2024-06-04 百果园技术(新加坡)有限公司 一种动作识别模型的训练及动作识别方法与相关装置
CN114495271A (zh) * 2022-01-18 2022-05-13 西安邮电大学 一种基于深度ConvLSTM与双流融合网络的人体行为识别方法
CN114550027A (zh) * 2022-01-18 2022-05-27 清华大学 基于视觉的运动视频精细分析方法和装置
CN115294639A (zh) * 2022-07-11 2022-11-04 惠州市慧昊光电有限公司 色温可调灯带及其控制方法

Also Published As

Publication number Publication date
CN107463949B (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN107463949A (zh) 一种视频动作分类的处理方法及装置
CN106709461B (zh) 基于视频的行为识别方法及装置
CN109325443B (zh) 一种基于多实例多标签深度迁移学习的人脸属性识别方法
CN109325954A (zh) 图像分割方法、装置及电子设备
CN109191558A (zh) 图像打光方法和装置
CN107977932A (zh) 一种基于可鉴别属性约束生成对抗网络的人脸图像超分辨率重建方法
CN109614996A (zh) 基于生成对抗网络的弱可见光与红外图像融合的识别方法
CN109410239A (zh) 一种基于条件生成对抗网络的文本图像超分辨率重建方法
CN108171266A (zh) 一种多目标深度卷积生成式对抗网络模型的学习方法
CN107992842A (zh) 活体检测方法、计算机装置及计算机可读存储介质
CN109035260A (zh) 一种天空区域分割方法、装置和卷积神经网络
CN106203363A (zh) 人体骨架运动序列行为识别方法
CN109214298B (zh) 一种基于深度卷积网络的亚洲女性颜值评分模型方法
CN110163813A (zh) 一种图像去雨方法、装置、可读存储介质及终端设备
CN109685072A (zh) 一种基于生成对抗网络的复合降质图像高质量重建方法
CN110378943A (zh) 图像处理方法、装置、电子设备及存储介质
CN106156781A (zh) 排序卷积神经网络构建方法及其图像处理方法与装置
CN112131908A (zh) 基于双流网络的动作识别方法、装置、存储介质及设备
CN108921942B (zh) 对图像进行2d转制3d的方法及装置
CN108256404A (zh) 行人检测方法和装置
CN109815846A (zh) 图像处理方法、装置、存储介质和电子装置
CN113822982A (zh) 一种人体三维模型构建方法、装置、电子设备及存储介质
CN111832592A (zh) Rgbd显著性检测方法以及相关装置
CN106855996A (zh) 一种基于卷积神经网络的灰阶图像着色方法及其装置
CN110378344A (zh) 基于谱维转换网络的卷积神经网络多光谱图像分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200221

Termination date: 20210714

CF01 Termination of patent right due to non-payment of annual fee