CN112990126A - 视频分类方法、装置、计算机设备和介质 - Google Patents

视频分类方法、装置、计算机设备和介质 Download PDF

Info

Publication number
CN112990126A
CN112990126A CN202110456439.5A CN202110456439A CN112990126A CN 112990126 A CN112990126 A CN 112990126A CN 202110456439 A CN202110456439 A CN 202110456439A CN 112990126 A CN112990126 A CN 112990126A
Authority
CN
China
Prior art keywords
feature map
video
gradient
spatial
spatial feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110456439.5A
Other languages
English (en)
Other versions
CN112990126B (zh
Inventor
陈博昱
冀志龙
高原
刘霄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202110456439.5A priority Critical patent/CN112990126B/zh
Publication of CN112990126A publication Critical patent/CN112990126A/zh
Application granted granted Critical
Publication of CN112990126B publication Critical patent/CN112990126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及图像处理技术领域,尤其涉及一种视频分类方法、装置、计算机设备和介质。该方法包括:获取待分类视频对应的视频帧序列,视频帧序列包括至少两个视频帧,至少两个视频帧为待分类视频的部分或者全部视频帧;将视频帧序列输入视频分类模型中,获取视频分类结果,其中,视频分类模型包括:梯度提升模型GAM,GAM用于获取所述视频帧序列中的每个视频帧对应的梯度提升特征图,梯度提升特征图是根据视频帧的上一时刻视频帧对应的梯度特征图以及视频帧得到的。从而,提高了视频分类模型的效率以及视频分类结果的精度。

Description

视频分类方法、装置、计算机设备和介质
技术领域
本公开涉及图像处理技术领域,尤其涉及一种视频分类方法、装置、计算机设备和介质。
背景技术
视频分类,是指以视频片段为对象,利用数字图像处理、模式识别等方法,实现对视频片段包含的内容分类。
现有技术中,视频分类的实现方式主要包括以下两种:第一,在二维卷积网络中添加一维卷积进行分类模型的训练,得到输出的分类结果;第二,在二维卷积网络中添加提取的光流信息进行分类模型的训练,得到输出的分类结果。
然而,采用现有技术的方法进行视频分类,效率不高,分类结果精度低。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种视频分类方法、装置、计算机设备和介质。
第一方面,本公开提供了一种频分类方法,包括:
获取待分类视频对应的视频帧序列,所述视频帧序列包括至少两个视频帧,所述至少两个视频帧为所述待分类视频的部分或者全部视频帧;
将所述视频帧序列输入视频分类模型中,获取视频分类结果,其中,所述视频分类模型包括:梯度提升模型GAM,所述GAM用于获取所述视频帧序列中的每个视频帧对应的梯度提升特征图,所述梯度提升特征图是根据所述视频帧的上一时刻视频帧对应的梯度特征图以及所述视频帧得到的。
可选的,所述视频分类模型包括:卷积层、至少一个处理模块和全连接层;
所述将所述视频帧序列输入视频分类模型中,获取视频分类结果,包括:
将所述视频帧序列输入所述卷积层进行卷积处理,得到每个视频帧对应的初始空间特征图;
将所述初始空间特征图依次经过所述至少一个处理模块进行处理,得到目标梯度提升特征图;
将所述目标梯度提升特征图输入全连接层处理,得到视频分类结果。
可选的,所述处理模块包括:至少一个瓶颈层,所述瓶颈层包括:第一GAM和第二GAM;
所述将所述初始空间特征图依次经过所述至少一个处理模块进行处理,得到目标梯度提升特征图,包括:
针对每个处理模块的每个瓶颈层进行如下处理:对所述瓶颈层的输入特征图进行降维卷积,得到第一空间特征图;通过第一GAM获取所述第一空间特征图对应的第一梯度提升特征图;对所述第一梯度提升特征图进行卷积处理,得到第二空间特征图;通过第二GAM获取所述第二空间特征图对应的第二梯度提升特征图;对所述第二梯度提升特征图进行升维处理,得到第三梯度提升特征图,其中,第一个瓶颈层的输入特征图为所述初始空间特征图,其他瓶颈层的输入特征图为所述第三梯度提升特征图。
可选的,所述通过第一GAM获取所述第一空间特征图对应的第一梯度提升特征图,包括:
所述第一GAM根据所述第一空间特征图和上一时刻的所述第一空间特征图对应的梯度特征图,得到所述第一空间特征图对应的注意力机制特征图;
所述第一GAM根据所述第一空间特征图和所述第一空间特征图对应的注意力机制特征图,得到所述第一空间特征图对应的第一梯度提升特征图;
通过第二GAM获取所述第二空间特征图对应的第二梯度提升特征图,包括:
所述第二GAM根据所述第二空间特征图和上一时刻的所述第二空间特征图对应的梯度特征图,得到所述第二空间特征图对应的注意力机制特征图;
所述第二GAM根据所述第二空间特征图和所述第二空间特征图对应的注意力机制特征图,得到所述第二空间特征图对应的第二梯度提升特征图。
可选的,所述第一GAM根据所述第一空间特征图和上一时刻的所述第一空间特征图对应的梯度特征图,得到所述第一空间特征图对应的注意力机制特征图,包括:
第一GAM对所述第一空间特征图和上一时刻的所述第一空间特征图对应的梯度特征图进行内积,得到所述第一空间特征图对应的注意力机制特征图;
所述第一GAM根据所述第一空间特征图和所述第一空间特征图对应的注意力机制特征图,得到所述第一空间特征图对应的第一梯度提升特征图,包括:
所述第一GAM对所述第一空间特征图和所述第一空间特征图对应的注意力机制特征图进行融合处理,得到所述第一空间特征图对应的第一梯度提升特征图;
所述第二GAM根据所述第二空间特征图和上一时刻的所述第二空间特征图对应的梯度特征图,得到所述第二空间特征图对应的注意力机制特征图,包括:
所述第二GAM对所述第二空间特征图和上一时刻的所述第二空间特征图对应的梯度特征图进行内积,得到所述第二空间特征图对应的注意力机制特征图;
所述第二GAM根据所述第二空间特征图和所述第二空间特征图对应的注意力机制特征图,得到所述第二空间特征图对应的第二梯度提升特征图,包括:
所述第二GAM对所述第二空间特征图和所述第二空间特征图对应的注意力机制特征图进行融合处理,得到所述第二空间特征图对应的第二梯度提升特征图。
可选的,视频分类方法还包括:
通过反向传播获取上一时刻的所述第一空间特征图对应的梯度特征图;
以及
通过反向传播获取上一时刻的所述第二空间特征图对应的梯度特征图。
可选的,视频分类方法还包括:
所述梯度特征图包含所述视频帧序列的视频帧中运动目标的边缘特征信息。
第二方面,本公开提供了一种视频分类装置,包括:
视频帧序列获取模块,用于获取待分类视频对应的视频帧序列,所述视频帧序列包括至少两个视频帧,所述至少两个视频帧为所述待分类视频的部分或者全部视频帧;
视频分类结果获取模块,用于将所述视频帧序列输入视频分类模型中,获取视频分类结果,其中,所述视频分类模型包括:梯度提升模型GAM,所述GAM用于获取所述视频帧序列中的每个视频帧对应的梯度提升特征图,所述梯度提升特征图是根据所述视频帧的上一时刻视频帧对应的梯度特征图以及所述视频帧得到的。
第三方面,本公开提供一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面任一项所述方法的步骤。
第四方面,本公开提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一项所述方法的步骤。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
通过获取待分类视频对应的视频帧序列,视频帧序列包括至少两个视频帧,至少两个视频帧为待分类视频的部分或者全部视频帧,将视频帧序列输入视频分类模型中,获取视频分类结果,其中,视频分类模型包括:梯度提升模型GAM,GAM用于获取视频帧序列中的每个视频帧对应的梯度提升特征图,梯度提升特征图是根据视频帧的上一时刻视频帧对应的梯度特征图以及视频帧得到的,相当于将上一时刻视频帧的梯度信息添加至当前视频帧中,以此方式引进了视频帧时序上的信息,从而,利用时序上的信息在一定程度上提高了视频分类模型的效率,以及视频分类结果的精度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种视频分类方法的流程示意图;
图2为本公开实施例提供的另一种视频分类方法的流程示意图;
图3为本公开实施例提供的再一种视频分类方法的流程示意图;
图4为本公开实施例提供的又一种视频分类方法的流程示意图;
图5为本公开实施例提供的又一种视频分类方法的流程示意图;
图6为本公开实施例提供的又一种视频分类方法的流程示意图;
图7为本公开实施例提供的又一种视频分类方法的流程示意图;
图8为本公开实施例提供的一种视频分类装置的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
图1为本公开实施例提供的一种视频分类方法的流程示意图,如图1所示,具体包括:
S110,获取待分类视频对应的视频帧序列。
其中,视频帧序列包括至少两个视频帧,至少两个视频帧为待分类视频的部分或者全部视频帧。
具体的,待分类视频进行抽帧处理获取待分类视频的部分视频帧以此得到待分类视频对应的视频帧序列,示例性的,将待分类视频等间隔分为多段,从每段中随机抽取一个视频帧,实现等间隔抽帧采样,以此保证通过抽帧得到的视频帧能够遍布在整个待分类视频的时间维度上。需要说明的是,将整个待分类视频在时间维度上进行抽帧处理,保证在进行抽帧处理获取视频帧序列能够在时间维度上涵盖整个视频,同时为了尽可能获取待分类视频的全局信息,提高计算效率,且尽可能不丢失重要的待分类视频的信息,本公开利用稀疏分段采样视频帧的方式对待分类视频进行抽帧处理获取对应的视频帧序列,但不限于此,本公开不具体限制。
可选的,将待分类视频的全部视频帧作为其对应的视频帧序列。
S120,将视频帧序列输入视频分类模型中,获取视频分类结果。
其中,视频分类模型包括:梯度提升模型GAM,GAM用于获取视频帧序列中的每个视频帧对应的梯度提升特征图,梯度提升特征图是根据视频帧的上一时刻视频帧对应的梯度特征图以及视频帧得到的。
示例性的,视频分类模型是基于卷积神经网络对网络模型进行端到端的训练,实现对各个待分类视频分类处理,从而获取视频帧序列的视频分类结果。其中,视频分类结果例如可以是“动物类”、“植物类”、“交通工具类”等粗粒度分类,也可以是直接输出例如“猫”、“菊花”、“汽车”等细粒度分类,当然,还可以输出待分类视频的视频名称,例如待分类视频是某一综艺节目时,视频分类结果可以是该综艺节目的名称例如可以是“吐槽大会”。其中,本公开采用的卷积神经网络为残差网络模型,残差网络模型也属于卷积网络模型的一种,通过其内部的残差块与跳跃连接,能够缓解在深度神经网络中增加深度带来的梯度消失的问题,但不限于此,本公开不具体限制。
具体地,将获取得到待分类视频对应地视频帧序列输入至视频分类模型中如残差网络模型,以此获取待分类视频的分类结果。
示例性的,对于一段待分类视频,该待分类视频例如可以是一小段关于足球运动员在运动场上踢球的视频片段,将该待分类视频送入训练好的视频分类模型中,从而获取得到一段带有标签的视频,如该视频内的足球运动员、足球等被标注“人”、“运动器械”等标签。
需要说明的是,梯度提升模型(Gradient advance module,GAM)通过获取待分类视频对应的视频帧序列中每个视频帧对应的梯度提升特征图,该梯度提升特征图是根据视频帧的上一时刻视频帧对应的梯度特征图以及视频帧得到的,即通过该方式将视频帧序列的上一时刻视频帧的梯度信息融合到视频帧序列中,相当于通过引进上一时刻视频帧的梯度信息以此增加时序上的信息。对于视频帧序列的每一帧视频帧来说,梯度信息是指每帧视频帧中某一像素在X与Y方向上的变化率,由X轴的变化与Y轴的变化两个分量组成的,可以理解为与相邻像素进行比较的变化,相当于两个相邻像素之间的差值,即在每一帧视频帧的边缘处的变化较明显,通过获取每一帧视频帧的梯度信息进行边缘轮廓检测,进而通过每一帧视频帧的边缘轮廓信息预测下一时刻视频帧序列中运动物体的位置,也就是说梯度信息更加关注待视频帧序列中物体运动本身。
本公开实施例提供的技术方案中,通过获取待分类视频对应的视频帧序列,视频帧序列包括至少两个视频帧,至少两个视频帧为待分类视频的部分或者全部视频帧,将视频帧序列输入视频分类模型中,获取视频分类结果,其中,视频分类模型包括:梯度提升模型GAM, GAM用于获取视频帧序列中的每个视频帧对应的梯度提升特征图,梯度提升特征图是根据视频帧的上一时刻视频帧对应的梯度特征图以及视频帧得到的,相当于将上一时刻视频帧的梯度信息添加至当前视频帧中,以此方式引进了视频帧时序上的信息,从而,利用时序上的信息在一定程度上提高了视频分类模型的效率,以及视频分类结果的精度。
在上述实施例的基础上,在本实施例中,本公开采用的视频分类模型如残差网络模型包括卷积层、至少一个处理模块和全连接层。
图2为本公开实施例提供的另一种视频分类方法的流程示意图,图2是在图1所示实施例的基础上,进一步地,对S120的一种可能的实现方式的描述,如图2所示:
S121,将视频帧序列输入卷积层进行卷积处理,得到每个视频帧对应的初始空间特征图。
其中,初始空间特征图是指将视频帧序列输入视频分类模型中,通过对视频帧序列进行一次卷积操作,以此提取视频帧序列的空间特征信息,空间特征信息是指视频帧中多个目标之间的相互的空间位置或相对方向关系,例如连接、交叠或者包含关系等,利用空间特征信息可以加强对视频帧内容的描述区分能力,通常空间特征信息可以分为两类:相对空间特征信息与绝对空间特征信息,相对空间特征信息强调的是视频帧中多个目标之间的相对情况,如上下左右关系等,绝对空间特征信息进一步强调的是多个目标之间的距离大小以及方位等。
具体的,将视频帧序列输入一个卷积核大小为7*7的卷积层进行卷积操作,提取每个视频帧的空间特征信息,得到每个视频帧对应的初始空间特征图,该初始空间特征图体现了视频帧中的多个目标之间的空间位置信息或相对方向关系。
S122,将初始空间特征图依次经过至少一个处理模块进行处理,得到目标梯度提升特征图。
其中,处理模块是指视频分类模型如残差网络模型内部所包含的部分网络模型,该处理模块的数量为大于等于1的整数,例如可以是4个处理模块,但不限于此,本公开不具体限制,目标梯度提升特征图是指引入视频帧的上一时刻视频帧对应的梯度信息的特征图。
具体的,视频帧序列通过卷积操作之后,获取得到对应的初始空间特征图,将该初始空间特征图依次经过至少一个处理模块例如依次经过4个处理模块,从而得到包含上一时刻视频帧对应的梯度信息的目标梯度提升特征图。
S123,将目标梯度提升特征图输入全连接层处理,得到视频分类结果。
具体的,将通过视频帧序列获取得到的目标梯度提升特征图作为全连接层的输入,进一步的通过全连接层将提取到的目标梯度提升特征图的特征综合起来,即整合经过卷积操作等得到的目标梯度提升特征图中具有类别区分性的局部信息,进而得到待分类视频的视频分类结果。
这样,本实施例通过将视频帧序列输入卷积层进行卷积处理,得到每个视频帧对应的初始空间特征图,将获取到的初始空间特征图依次经过至少一个处理模块进行处理,进而得到目标梯度提升特征图,将目标梯度提升特征图作为全连接层的输入,依此得到视频分类结果,通过该方式引进视频帧上一时刻对应的梯度信息,从而,提高视频分类模型的效率,以及视频分类结果的精度。
可选的,在上述实施例的基础上,处理模块包括:至少一个瓶颈层,瓶颈层包括:第一GAM和第二GAM。
图3为本公开实施例提供的再一种视频分类方法的流程示意图,图3是在图2所示实施例的基础上,进一步地,对S122的一种可能的实现方式的描述,如图3所示:
S1221:针对每个处理模块的每个瓶颈层进行如下处理:对瓶颈层的输入特征图进行降维卷积,得到第一空间特征图;通过第一GAM获取第一空间特征图对应的第一梯度提升特征图;对第一梯度提升特征图进行卷积处理,得到第二空间特征图;通过第二GAM获取第二空间特征图对应的第二梯度提升特征图;对第二梯度提升特征图进行升维处理,得到第三梯度提升特征图。
其中,第一个瓶颈层的输入特征图为所述初始空间特征图,其他瓶颈层的输入特征图为所述第三梯度提升特征图。上述瓶颈层是残差网络模型的核心内容,通过两个卷积核为1*1的卷积层替换残差块里的一层卷积核为3*3的卷积层,即瓶颈层依次由一层卷积核为1*1的卷积层、一层卷积核为3*3的卷积层以及一层卷积核为1*1的卷积层组成。
具体的,将输入特征图输入卷积核为1*1的瓶颈层的第一卷积层,得到第一卷积层的输出特征图,即第一空间特征图,其中,采用卷积核为1*1的卷积层进行卷积操作用于降低特征维度,减少参数的数量,从而减少计算量,且降维之后能够更加有效、直观地进行数据地训练和特征提取。然后将上述得到的第一空间特征图输入至第一GAM,从而得到包含视频帧上一时刻对应的梯度信息的第一梯度提升特征图,以此引入时序上的信息。将上述第一GAM输出的第一梯度提升特征图输入至卷积核为3*3的第二层卷积层进行卷积操作,得到上述卷积核为3*3的第二层卷积层的第二空间特征图,进一步的,将上述卷积核为3*3的第二层卷积层输出的第二空间特征图输入至第二GAM,进一步得到第二梯度提升特征图,其次,将上述第二GAM输出的第二梯度提升特征图输入至卷积核为1*1的第三层卷积层进行卷积操作,得到第三梯度提升特征图。其中,采用卷积核为1*1的卷积层进行卷积用于提高特征维度,得到与上述瓶颈层的第一卷积层的输入特征图维度相同的特征图。
这样,本实施例通过该方式提取得到第一梯度提升特征图、第二梯度提升特征图与第三梯度提升特征图,从而引进包含上一时刻视频帧对应的梯度信息,依此提高视频分类结果的精度。
可选的,通过第一GAM获取所述第一空间特征图对应的第一梯度提升特征图,一种可能实现的方式为:如图4所示,
S401:第一GAM根据第一空间特征图和上一时刻的第一空间特征图对应的梯度特征图,得到第一空间特征图对应的注意力机制特征图。
其中,注意力机制是人类视觉所特有的大脑信号处理机制,人类视觉通过快速扫描全景图像,获取需要重点关注的目标区域,对该目标区域投入更多注意力资源,以获取更多需要关注目标的细节信息,从而抑制其它无用信息。
具体的,第一GAM根据经过瓶颈层的卷积核为1*1的第一层卷积层得到的第一空间特征图以及该上一时刻的第一空间特征图对应的梯度特征图,获取该第一空间特征图对应的注意力机制特征图,从而将上一时刻的第一空间特征图的梯度信息引入视频分类模型中,相当于视频分类模型中添加了时序上的信息,且该注意力机制特征图能够体现视频帧序列中运动物体的边缘轮廓信息,进一步的关注视频帧序列中运动物体。
S402:第一GAM根据第一空间特征图和第一空间特征图对应的注意力机制特征图,得到第一空间特征图对应的第一梯度提升特征图。
具体的,第一GAM进一步根据经过瓶颈层的卷积核为1*1的第一层卷积层得到的第一空间特征图和第一空间特征图对应的注意力机制特征图,获取得到该第一空间特征图对应的第一梯度提升特征图,从而将注意力机制引入该视频分类网络模型中,使得视频分类模型训练时优先关注运动物体。
这样,本实施例通过获取第一空间特征图对应的注意力机制特征图从而引进上一时刻的梯度信息,相当于在视频分类模型中添加了时序上的信息,通过获取第一空间特征图对应的第一梯度提升特征图,相当于在视频分类模型中添加了注意力机制的特征信息,从而进一步的提高视频分类模型的效率,以及视频分类结果的精度。
可选的,通过第二GAM获取第二空间特征图对应的第二梯度提升特征图,一种可能实现的方式为:如图5所示,
S501:第二GAM根据第二空间特征图和上一时刻的第二空间特征图对应的梯度特征图,得到第二空间特征图对应的注意力机制特征图。具体说明请参阅上述实施例中步骤S401的说明,此处不在赘述。
S502:第二GAM根据第二空间特征图和所述第二空间特征图对应的注意力机制特征图,得到第二空间特征图对应的第二梯度提升特征图。具体说明请参阅上述实施例中步骤S402的说明,此处不在赘述。
图6为本公开实施例提供的又一种视频分类方法的流程示意图,图6是在图4所示实施例的基础上,进一步地,对S401与S402的一种可能的实现方式的描述,如图6所示:
S4011:第一GAM对所述第一空间特征图和上一时刻的所述第一空间特征图对应的梯度特征图进行内积,得到所述第一空间特征图对应的注意力机制特征图。
具体的,第一GAM根据经过瓶颈层的卷积核为1*1的第一层卷积层得到的第一空间特征图与该上一时刻的第一空间特征图对应的梯度特征图进行内积,且将得到的多维度的注意力机制特征图在多维度上取平均进一步得到该第一空间特征图对应的注意力机制特征图,从而将上一时刻第一空间特征图对应的梯度信息引入视频分类模型中,相当于视频分类模型中添加了时序上的信息,且该注意力机制特征图能够体现视频帧序列中运动物体的边缘轮廓信息,进一步的关注视频帧序列中运动物体。
S4022:第一GAM对所述第一空间特征图和所述第一空间特征图对应的注意力机制特征图进行融合处理,得到所述第一空间特征图对应的第一梯度提升特征图。
具体的,第一GAM进一步根据经过瓶颈层的卷积核为1*1的第一层卷积层得到的第一空间特征图和第一空间特征图对应的注意力机制特征图进行融合操作,获取得到该第一空间特征图对应的第一梯度提升特征图,从而将注意力机制引入该视频分类网络模型中,使得视频分类模型训练时优先关注运动物体。
示例性的,通过将第一空间特征图和第一空间特征图对应的注意力机制特征图进行点对点相乘,从而实现该第一空间特征图和第一空间特征图对应的注意力机制特征图的融合,但不限于此,本公开不具体限制。
这样,本实施例通过获取第一空间特征图对应的注意力机制特征图从而引进上一时刻的梯度信息与注意力机制特征信息,相当于在视频分类模型中添加了时序上的信息,通过获取第一空间特征图对应的第一梯度提升特征图,相当于在视频分类模型中添加了注意力机制的特征信息,从而进一步的提高视频分类模型的效率,以及视频分类结果的精度。
图7为本公开实施例提供的又一种视频分类方法的流程示意图,图7是在图5所示实施例的基础上,进一步地,对S501与S502的一种可能的实现方式的描述,如图7所示:
S5011:第二GAM对第二空间特征图和上一时刻的第二空间特征图对应的梯度特征图进行内积,得到第二空间特征图对应的注意力机制特征图。具体说明请参阅上述实施例中步骤S4011的说明,此处不在赘述。
S5022:第二GAM对所述第二空间特征图和第二空间特征图对应的注意力机制特征图进行融合处理,得到第二空间特征图对应的第二梯度提升特征图。具体说明请参阅上述实施例中步骤S4022的说明,此处不在赘述。
在上述实施例的基础上,该视频分类方法还包括通过反向传播获取上一时刻的第一空间特征图对应的梯度特征图;以及通过反向传播获取上一时刻的第二空间特征图对应的梯度特征图。
其中,反向传播是指在视频分类模型训练过程中,不同于前向传播,从输入层到输出层,计算网络模型的节点值,反向传播是从输出层到输入层,通过对误差函数求偏导从而进一步进行网络模型参数的调节,使得网络模型在下一次前向传播时的误差减小,即降低损失。
具体的,将视频帧序列输入至视频分类模型如残差网络模型进行端到端的训练过程中,在对视频分类模型如残差网络模型参数调节的同时,提取了反向传播过程中视频帧的上一时刻视频帧对应的梯度特征图,相当于获取了视频帧的上一时刻视频帧对应的梯度信息。
这样,本实施例通过该方式在视频分类模型训练的过程中,通过反向传播调整网络参数的同时,提取将视频帧序列中的每一帧视频帧的上一时刻视频帧对应的梯度特征图,以此将上一时刻视频帧对应的梯度信息添加至视频分类模型中,相当于在视频分类模型中增加了时序上的信息,在一定程度上降低了提取时序信息所需的计算率,且提高了视频分类模型的效率以及视频分类结果的精度。
在上述实施例的基础上,该视频分类方法还包括梯度特征图包含视频帧序列的视频帧中运动目标的边缘特征信息。
其中,梯度特征图是指获取视频帧中运动目标的梯度信息,即获取运动目标的边缘特征信息,由于视频帧中运动目标的边缘处变化较明显,进而通过每帧视频帧中运动目标的边缘特征信息预测下一时刻视频帧运动目标的位置,也就是说边缘特征信息更加关注待视频帧序列中运动目标本身。
这样,本实施例通过该方式引入视频帧中运动目标的边缘特征信息,进一步的关注视频帧序列中运动目标,以此提高视频分类模型的效率,以及视频分类结果的精度。
本公开实施例还提供了一种视频分类装置,用于执行上述实施例提提供的任一种视频分类方法,具备视频分类方法相应的有益效果。
图8为本公开实施例提供的一种视频分类装置的结构示意图,如图8所示,视频分类装置包括:视频帧序列获取模块110和视频分类结果获取模块120。
其中,视频帧序列获取模块110用于获取待分类视频对应的视频帧序列,视频帧序列包括至少两个视频帧,至少两个视频帧为待分类视频的部分或者全部视频帧。
视频分类结果获取模块120用于将视频帧序列输入视频分类模型中,获取视频分类结果,其中,视频分类模型包括:梯度提升模型GAM,GAM用于获取视频帧序列中的每个视频帧对应的梯度提升特征图,梯度提升特征图是根据视频帧的上一时刻视频帧对应的梯度特征图以及视频帧得到的。
在本公开实施例一实施方式中,视频分类结果获取模块120还用于将视频帧序列输入卷积层进行卷积处理,得到每个视频帧对应的初始空间特征图;将初始空间特征图依次经过至少一个处理模块进行处理,得到目标梯度提升特征图;将目标梯度提升特征图输入全连接层处理,得到视频分类结果。
在本公开实施例一实施方式中,视频分类结果获取模块120还包括目标梯度提升特征图获取模块,用于将初始空间特征图依次经过至少一个处理模块进行处理,得到目标梯度提升特征图,包括:针对每个处理模块的每个瓶颈层进行如下处理:对瓶颈层的输入特征图进行降维卷积,得到第一空间特征图;通过第一GAM获取第一空间特征图对应的第一梯度提升特征图;对第一梯度提升特征图进行卷积处理,得到第二空间特征图;通过第二GAM获取第二空间特征图对应的第二梯度提升特征图;对第二梯度提升特征图进行升维处理,得到第三梯度提升特征图,其中,第一个瓶颈层的输入特征图为初始空间特征图,其他瓶颈层的输入特征图为第三梯度提升特征图。
在本公开实施例一实施方式中,视频分类结果获取模块120还包括第一梯度提升特征图获取模块,用于第一GAM根据第一空间特征图和上一时刻的第一空间特征图对应的梯度特征图,得到第一空间特征图对应的注意力机制特征图;第一GAM根据第一空间特征图和第一空间特征图对应的注意力机制特征图,得到第一空间特征图对应的第一梯度提升特征图。视频分类结果获取模块120还包括第二梯度提升特征图获取模块,用于第二GAM根据所述第二空间特征图和上一时刻的第二空间特征图对应的梯度特征图,得到第二空间特征图对应的注意力机制特征图;第二GAM根据所述第二空间特征图和第二空间特征图对应的注意力机制特征图,得到第二空间特征图对应的第二梯度提升特征图。
在本公开实施例一实施方式中,第一梯度提升特征图获取模块还用于第一GAM对所述第一空间特征图和上一时刻的所述第一空间特征图对应的梯度特征图进行内积,得到第一空间特征图对应的注意力机制特征图;第一GAM对第一空间特征图和所述第一空间特征图对应的注意力机制特征图进行融合处理,得到第一空间特征图对应的第一梯度提升特征图;第二梯度提升特征图获取模块还用于第二GAM对第二空间特征图和上一时刻的第二空间特征图对应的梯度特征图进行内积,得到第二空间特征图对应的注意力机制特征图;第二GAM对第二空间特征图和第二空间特征图对应的注意力机制特征图进行融合处理,得到第二空间特征图对应的第二梯度提升特征图。
在本公开实施例一实施方式中,视频分类结果获取模块120还包括梯度特征图获取模块,用于通过反向传播获取上一时刻的第一空间特征图对应的梯度特征图;以及通过反向传播获取上一时刻的第二空间特征图对应的梯度特征图。梯度特征图包含视频帧序列的视频帧中运动目标的边缘特征信息。
本公开实施例提供的技术方案中,通过视频帧序列获取模块110获取待分类视频对应的视频帧序列,视频帧序列包括至少两个视频帧,至少两个视频帧为待分类视频的部分或者全部视频帧;视频分类结果获取模块120将视频帧序列输入视频分类模型中,获取视频分类结果,其中,视频分类模型包括:梯度提升模型GAM,GAM用于获取视频帧序列中的每个视频帧对应的梯度提升特征图,梯度提升特征图是根据视频帧的上一时刻视频帧对应的梯度特征图以及视频帧得到的,相当于将上一时刻视频帧的梯度信息添加至当前视频帧中,以此方式引进了视频帧时序上的信息,从而,利用时序上的信息在一定程度上提高了视频分类模型的效率,以及视频分类结果的精度。
本实施例的装置对应的可用于执行上述图1到图7任一所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本公开实施例提供了一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时可以实现图1到图7任一所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现图1到图7任一所示方法实施例的技术方案。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种视频分类方法,其特征在于,包括:
获取待分类视频对应的视频帧序列,所述视频帧序列包括至少两个视频帧,所述至少两个视频帧为所述待分类视频的部分或者全部视频帧;
将所述视频帧序列输入视频分类模型中,获取视频分类结果,其中,所述视频分类模型包括:梯度提升模型GAM,所述GAM用于获取所述视频帧序列中的每个视频帧对应的梯度提升特征图,所述梯度提升特征图是根据所述视频帧的上一时刻视频帧对应的梯度特征图以及所述视频帧得到的。
2.根据权利要求1所述的方法,其特征在于,所述视频分类模型包括:
卷积层、至少一个处理模块和全连接层;
所述将所述视频帧序列输入视频分类模型中,获取视频分类结果,包括:
将所述视频帧序列输入所述卷积层进行卷积处理,得到每个视频帧对应的初始空间特征图;
将所述初始空间特征图依次经过所述至少一个处理模块进行处理,得到目标梯度提升特征图;
将所述目标梯度提升特征图输入全连接层处理,得到视频分类结果。
3.根据权利要求2所述的方法,其特征在于,所述处理模块包括:至少一个瓶颈层,所述瓶颈层包括:第一GAM和第二GAM;
所述将所述初始空间特征图依次经过所述至少一个处理模块进行处理,得到目标梯度提升特征图,包括:
针对每个处理模块的每个瓶颈层进行如下处理:对所述瓶颈层的输入特征图进行降维卷积,得到第一空间特征图;通过第一GAM获取所述第一空间特征图对应的第一梯度提升特征图;对所述第一梯度提升特征图进行卷积处理,得到第二空间特征图;通过第二GAM获取所述第二空间特征图对应的第二梯度提升特征图;对所述第二梯度提升特征图进行升维处理,得到第三梯度提升特征图,其中,第一个瓶颈层的输入特征图为所述初始空间特征图,其他瓶颈层的输入特征图为所述第三梯度提升特征图。
4.根据权利要求3所述的方法,其特征在于,所述通过第一GAM获取所述第一空间特征图对应的第一梯度提升特征图,包括:
所述第一GAM根据所述第一空间特征图和上一时刻的所述第一空间特征图对应的梯度特征图,得到所述第一空间特征图对应的注意力机制特征图;
所述第一GAM根据所述第一空间特征图和所述第一空间特征图对应的注意力机制特征图,得到所述第一空间特征图对应的第一梯度提升特征图;
通过第二GAM获取所述第二空间特征图对应的第二梯度提升特征图,包括:
所述第二GAM根据所述第二空间特征图和上一时刻的所述第二空间特征图对应的梯度特征图,得到所述第二空间特征图对应的注意力机制特征图;
所述第二GAM根据所述第二空间特征图和所述第二空间特征图对应的注意力机制特征图,得到所述第二空间特征图对应的第二梯度提升特征图。
5.根据权利要求4所述的方法,其特征在于,所述第一GAM根据所述第一空间特征图和上一时刻的所述第一空间特征图对应的梯度特征图,得到所述第一空间特征图对应的注意力机制特征图,包括:
第一GAM对所述第一空间特征图和上一时刻的所述第一空间特征图对应的梯度特征图进行内积,得到所述第一空间特征图对应的注意力机制特征图;
所述第一GAM根据所述第一空间特征图和所述第一空间特征图对应的注意力机制特征图,得到所述第一空间特征图对应的第一梯度提升特征图,包括:
所述第一GAM对所述第一空间特征图和所述第一空间特征图对应的注意力机制特征图进行融合处理,得到所述第一空间特征图对应的第一梯度提升特征图;
所述第二GAM根据所述第二空间特征图和上一时刻的所述第二空间特征图对应的梯度特征图,得到所述第二空间特征图对应的注意力机制特征图,包括:
所述第二GAM对所述第二空间特征图和上一时刻的所述第二空间特征图对应的梯度特征图进行内积,得到所述第二空间特征图对应的注意力机制特征图;
所述第二GAM根据所述第二空间特征图和所述第二空间特征图对应的注意力机制特征图,得到所述第二空间特征图对应的第二梯度提升特征图,包括:
所述第二GAM对所述第二空间特征图和所述第二空间特征图对应的注意力机制特征图进行融合处理,得到所述第二空间特征图对应的第二梯度提升特征图。
6.根据权利要求4或5所述的方法,其特征在于,还包括:
通过反向传播获取上一时刻的所述第一空间特征图对应的梯度特征图;
以及
通过反向传播获取上一时刻的所述第二空间特征图对应的梯度特征图。
7.根据权利要求6所述的方法,其特征在于,还包括:
所述梯度特征图包含所述视频帧序列的视频帧中运动目标的边缘特征信息。
8.一种视频分类装置,其特征在于,包括:
视频帧序列获取模块,用于获取待分类视频对应的视频帧序列,所述视频帧序列包括至少两个视频帧,所述至少两个视频帧为所述待分类视频的部分或者全部视频帧;
视频分类结果获取模块,用于将所述视频帧序列输入视频分类模型中,获取视频分类结果,其中,所述视频分类模型包括:梯度提升模型GAM,所述GAM用于获取所述视频帧序列中的每个视频帧对应的梯度提升特征图,所述梯度提升特征图是根据所述视频帧的上一时刻视频帧对应的梯度特征图以及所述视频帧得到的。
9.一种计算机设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。
CN202110456439.5A 2021-04-27 2021-04-27 视频分类方法、装置、计算机设备和介质 Active CN112990126B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110456439.5A CN112990126B (zh) 2021-04-27 2021-04-27 视频分类方法、装置、计算机设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110456439.5A CN112990126B (zh) 2021-04-27 2021-04-27 视频分类方法、装置、计算机设备和介质

Publications (2)

Publication Number Publication Date
CN112990126A true CN112990126A (zh) 2021-06-18
CN112990126B CN112990126B (zh) 2021-08-13

Family

ID=76340261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110456439.5A Active CN112990126B (zh) 2021-04-27 2021-04-27 视频分类方法、装置、计算机设备和介质

Country Status (1)

Country Link
CN (1) CN112990126B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229300A (zh) * 2017-11-02 2018-06-29 深圳市商汤科技有限公司 视频分类方法、装置、计算机可读存储介质和电子设备
CN108241854A (zh) * 2018-01-02 2018-07-03 天津大学 一种基于运动和记忆信息的深度视频显著性检测方法
CN109284720A (zh) * 2018-09-28 2019-01-29 大连民族大学 度量视频连续帧与其卷积特征图间差异在视频行为识别中的应用
CN109389055A (zh) * 2018-09-21 2019-02-26 西安电子科技大学 基于混合卷积和注意力机制的视频分类方法
US20190215518A1 (en) * 2018-01-10 2019-07-11 Qualcomm Incorporated Histogram of gradient based optical flow
CN110162669A (zh) * 2019-04-04 2019-08-23 腾讯科技(深圳)有限公司 视频分类处理方法、装置、计算机设备及存储介质
CN111241996A (zh) * 2020-01-09 2020-06-05 桂林电子科技大学 一种用于识别视频中人物动作的方法
CN111507275A (zh) * 2020-04-20 2020-08-07 北京理工大学 一种基于深度学习的视频数据时序信息提取方法及装置
CN112149459A (zh) * 2019-06-27 2020-12-29 哈尔滨工业大学(深圳) 一种基于交叉注意力机制的视频显著性物体检测模型及系统
CN112633260A (zh) * 2021-03-08 2021-04-09 北京世纪好未来教育科技有限公司 视频动作分类方法、装置、可读存储介质及设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229300A (zh) * 2017-11-02 2018-06-29 深圳市商汤科技有限公司 视频分类方法、装置、计算机可读存储介质和电子设备
CN108241854A (zh) * 2018-01-02 2018-07-03 天津大学 一种基于运动和记忆信息的深度视频显著性检测方法
US20190215518A1 (en) * 2018-01-10 2019-07-11 Qualcomm Incorporated Histogram of gradient based optical flow
CN109389055A (zh) * 2018-09-21 2019-02-26 西安电子科技大学 基于混合卷积和注意力机制的视频分类方法
CN109284720A (zh) * 2018-09-28 2019-01-29 大连民族大学 度量视频连续帧与其卷积特征图间差异在视频行为识别中的应用
CN110162669A (zh) * 2019-04-04 2019-08-23 腾讯科技(深圳)有限公司 视频分类处理方法、装置、计算机设备及存储介质
CN112149459A (zh) * 2019-06-27 2020-12-29 哈尔滨工业大学(深圳) 一种基于交叉注意力机制的视频显著性物体检测模型及系统
CN111241996A (zh) * 2020-01-09 2020-06-05 桂林电子科技大学 一种用于识别视频中人物动作的方法
CN111507275A (zh) * 2020-04-20 2020-08-07 北京理工大学 一种基于深度学习的视频数据时序信息提取方法及装置
CN112633260A (zh) * 2021-03-08 2021-04-09 北京世纪好未来教育科技有限公司 视频动作分类方法、装置、可读存储介质及设备

Also Published As

Publication number Publication date
CN112990126B (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN111354017B (zh) 一种基于孪生神经网络及平行注意力模块的目标跟踪方法
CN108229490B (zh) 关键点检测方法、神经网络训练方法、装置和电子设备
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
Wang et al. A robust and efficient video representation for action recognition
Hara et al. Learning spatio-temporal features with 3d residual networks for action recognition
Fu et al. Foreground gating and background refining network for surveillance object detection
Zhang et al. Object detection with location-aware deformable convolution and backward attention filtering
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
CN110310305B (zh) 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置
CN107967692A (zh) 一种基于跟踪学习检测的目标跟踪优化方法
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
CN114821058A (zh) 一种图像语义分割方法、装置、电子设备及存储介质
CN114898457B (zh) 一种基于手部关键点和transformer的动态手势识别方法和系统
CN114170623A (zh) 一种人物交互检测设备及其方法、装置、可读存储介质
CN112489088A (zh) 一种基于记忆单元的孪生网络视觉跟踪方法
CN112785626A (zh) 一种基于多尺度特征融合的孪生网络小目标跟踪方法
CN104021395B (zh) 一种基于高阶偏最小二乘法的目标跟踪算法
CN111415370A (zh) 一种基于嵌入式的红外复杂场景目标实时跟踪方法及系统
CN108876776B (zh) 一种分类模型生成方法、眼底图像分类方法及装置
CN108764233B (zh) 一种基于连续卷积激活的场景字符识别方法
CN112070181B (zh) 一种基于图像流的协同检测方法及装置、存储介质
CN114882204A (zh) 船名自动识别方法
CN117649610A (zh) 一种基于YOLOv5的害虫检测方法及系统
Wang et al. Predicting diverse future frames with local transformation-guided masking
CN112990126B (zh) 视频分类方法、装置、计算机设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant