CN112633260B - 视频动作分类方法、装置、可读存储介质及设备 - Google Patents
视频动作分类方法、装置、可读存储介质及设备 Download PDFInfo
- Publication number
- CN112633260B CN112633260B CN202110250187.0A CN202110250187A CN112633260B CN 112633260 B CN112633260 B CN 112633260B CN 202110250187 A CN202110250187 A CN 202110250187A CN 112633260 B CN112633260 B CN 112633260B
- Authority
- CN
- China
- Prior art keywords
- sequence
- feature
- video
- time
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Television Systems (AREA)
Abstract
Description
技术领域
本发明涉及视频分类技术领域,尤其涉及一种视频动作分类方法、装置、可读存储介质及设备。
背景技术
随着电子设备的普及,基于视频的信息传递和交流,在人们的生活和工作中的份量越来越重要。视频动作识别是视频任务中的一项基本任务,在很多方面都得到了成功的应用,例如智能监控、自动驾驶、个人推荐和娱乐等方面。
目前,对于视频动作分类任务,主要基于两方面的信息来解决。第一,基于相邻帧之间的运动信息,已有的主要是两种方法,一是采用光流方法计算相邻帧之间的运动信息,二是计算神经网络提取的相邻帧之间的特征差值作为一种运动信息的近似表示。光流方法的计算量非常大,无法做到实时。特征差的方法是一种简单的近似求解,不能很好的代表运动信息。第二,基于视频序列上的时间信息融合特征,已有的主要采用两种方法,一是通过3D卷积做时序上信息的融合,二是在时序通道上做位移错位操作以达到时序信息的融合。采用3D卷积时,单层中只能融合卷积核大小的信息,随着卷积层数的加深,时序信息融合的范围会加深,但是无法做到大尺度、长距离的时序信息融合。时间错位操作是在邻近时序通道的错位,存在同样的问题。
发明内容
为了解决上述技术问题中的至少一个,本发明的一些方面提供了一种视频动作分类方法、装置、可读存储介质及设备,以增加对大尺度、长距离的信息融合,提高算法的精度。
一方面,本发明提供一种视频动作分类方法,采用视频动作分类模型对视频动作进行分类,视频动作分类方法包括:
获取输入视频序列,所述输入视频序列包括多个视频帧图像;
将所述输入视频序列输入卷积层,得到卷积输出特征序列F;
计算卷积输出特征序列F中每相邻两帧视频帧图像对应的卷积输出特征之间的互相关特征,并按照通道维度将所述互相关特征与所述相邻两帧中的后一帧对应的卷积输出特征进行第二融合处理,得到多个第二融合输出特征Hi;
将所述多个第二融合输出特征Hi进行第三融合处理,得到第三融合输出特征H;
在所述计算所述卷积输出特征序列F中每相邻两帧视频帧图像对应的卷积输出特征之间的互相关特征,并按照通道维度将所述互相关特征与所述相邻两帧中的后一帧对应的卷积输出特征进行第二融合处理,得到多个第二融合输出特征Hi之前,对所述卷积输出特征序列F采用指定维度的卷积层按照预设比例进行降维处理,得到降维后的输出特征;其中,;并用所述降维后的输出特征代替所述卷积输出特征序列F进行后续处理。
在本发明的至少一个实施例中,计算卷积输出特征序列F中每相邻两帧视频帧图像对应的卷积输出特征之间的互相关特征,并按照通道维度将所述互相关特征与所述相邻两帧中的后一帧对应的卷积输出特征进行第二融合处理,得到多个第二融合输出特征Hi,包括:
在本发明的至少一个实施例中,所述第二融合处理、第三融合处理、第四融合处理均为按照通道维度进行拼接处理。
根据相邻两个时间维度各自对应的下采样特征,计算所述相邻两个时间维度中时间维度靠前的下采样特征对应的时序增强特征;
在本发明的至少一个实施例中,所述根据相邻两个时间维度各自对应的下采样特征,计算所述相邻两个时间维度中时间维度靠前的下采样特征对应的时序增强特征,将各所述时序增强特征、所述下采样特征按照时间维度拼接,组成第一融合特征,包括:
在本发明的至少一个实施例中,所述第一融合处理为相加处理。
在本发明的至少一个实施例中,所述视频动作分类模型通过以下方法训练得到:
获取样本输入视频序列,所述样本输入视频序列包括多个样本视频帧图像;
获取样本输入视频序列中多个样本视频帧图像的标注数据;
根据所述样本输入视频序列及标注数据,对初始视频动作分类模型进行训练,得到所述视频动作分类模型。
在本发明的至少一个实施例中,根据所述样本输入视频序列及标注数据,对初始视频动作分类模型进行训练,得到所述视频动作分类模型,包括:采用公式作为损失函数对所述初始视频动作分类模型进行训练,直至所述视频动作分类模型收敛;
在本发明的至少一个实施例中,所述方法还包括:
获取视频,并将视频平均切分为多个片段;
从每个片段中随机抽取一张图像,得到所述输入视频序列。
另一方面,本发明还提供一种视频动作分类装置,包括:
视频序列获取模块,用于获取输入视频序列,所述输入视频序列包括多个视频帧图像;
卷积层,用于对所述输入视频序列进行卷积处理,得到卷积输出特征序列F;
又一方面,本发明还提供一种可读存储介质,其上具有可执行指令,当可执行指令被执行时,使得计算机执行如上任一项所述的视频动作分类方法中的步骤。
又一方面,本发明还提供一种视频动作分类设备,设备包括处理器和存储器,存储器中存储有适于处理器执行的计算机程序指令,计算机程序指令被处理器运行时执行如上任一项所述的视频动作分类方法中的步骤。
本发明的视频动作分类方法、装置、可读存储介质及设备,利用运动增强处理能更好的提取相邻帧之间的运动相关性,并与采用时序增强处理的特征进行融合,可以有效提取视频中的有效信息,增加对大尺度长距离的信息融合,提高算法预测精度。
附图说明
附图示出了本发明的示例性实施方式,并与其说明一起用于解释本发明的原理,其中包括了这些附图以提供对本发明的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1为本发明视频动作分类方法的示例性流程示意图;
图2为本发明视频动作分类方法的又一示例性流程示意图;
图3为本发明运动增强处理以及时序增强处理环节的示例性流程示意图;
图4为本发明运动增强处理过程的示例性流程示意图;
图5为本发明时序增强处理过程的示例性流程示意图;
图6为本发明视频动作分类装置的示例性结构示意图;
图7为本发明视频动作分类设备的示例性结构示意图。
具体实施方式
下面结合附图和实施方式对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分。
需要说明的是,在不冲突的情况下,本发明中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本发明。
需要说明的是,文中的步骤编号,仅为了方便具体实施例的解释,不作为限定步骤执行先后顺序的作用。
本发明实施例提供的方法可以由相关的处理器执行,且下文均以处理器作为执行主体为例进行说明。其中,执行主体可以根据具体案例进行调整,如服务器、电子设备、计算机等。
本发明实施例提供了一种视频动作分类方法、装置、可读存储介质及设备,以增加对大尺度、长距离的信息融合,提高算法的精度。
参见图1和图2,示例性地示出了视频动作分类方法的流程示意图;本发明实施例提供的视频动作分类方法具体包括:
S101、获取输入视频序列S,输入视频序列包括多个视频帧图像。
可选的,将一段视频平均切分为t个片段,然后从每个片段中随机抽取一张图像,组成一个输入视频序列S,其中t一般大于等于8。输入视频序列S由按照时间序列排列的t帧视频帧图像组成。
S102、将输入视频序列S输入视频动作分类模型的卷积层,得到卷积输出特征序列F。卷积输出特征序列F由各个视频图像帧经卷积层处理后得到的卷积输出特征组成。
S105、将所述卷积输出特征序列F与所述时序增强输出特征进行第一融合处理,得到第一融合输出特征。在本发明的一种实施方式中,第一融合输出特征也可称为TME(Temporal and Motion Enhance时序和运动增强)输出特征。第一融合输出特征是指经过时序增强和运动增强处理之后的特征,包含了从输入视频序列S中提取的对后续分类重要的有效信息。
本发明的视频动作分类方法通过利用运动增强处理,能更好的提取相邻帧之间的运动相关性,并与采用时序增强处理的特征进行融合,可以有效提取视频中的有效信息,增加对大尺度长距离的信息融合,提高算法预测的精度。
进一步的,参见图3所示的运动增强处理以及时序增强处理环节的示例性流程示意图,以及图4所示的运动增强处理过程的示例性流程示意图,在发明的一种实施方式中,对所述卷积输出特征序列F进行运动增强处理,得到运动增强输出特征,包括:
S201、计算卷积输出特征序列F中每相邻两帧视频帧图像对应的卷积输出特征之间的互相关特征,并按照通道(channel)维度将所述互相关特征与所述相邻两帧中的后一帧对应的卷积输出特征进行第二融合处理,得到多个第二融合输出特征Hi。
可选的,可以采用互相关计算公式来计算卷积输出特征序列F中每相邻两帧视频帧图像对应的卷积输出特征之间的互相关特征,并按照通道维度将互相关特征与相邻两帧中的后一帧对应的卷积输出特征进行第二融合处理,得到多个第二融合输出特征Hi:
互相关是将第i帧中各个区域的像素和第i+1帧中对应区域的像素进行遍历相乘并求和,计算公式为:
第二融合处理可以是按照通道维度进行拼接处理,采用的公式为:
其中,为第i帧和第i+1帧的互相关特征;为与第i+1帧的原始特征即原始的卷积输出特征进行拼接后的特征;k为每个像素计算互相关区域的大小;,为像素的矩阵坐标,具体的讲是指第i帧图像中参与互相关计算的像素所在的行、列值形成的一对数字;是指第i+1帧图像中参与互相关计算的像素所在的行、列值形成的一对数字;<A,B>表示A与B在互相关区域的像素点积之和,也就是说,表示与在互相关区域的像素点积之和。
S202、将所述多个第二融合输出特征Hi进行第三融合处理,得到第三融合输出特征H。
在本发明的一种实施方式中,第三融合处理可以是按照通道维度进行拼接处理。例如,如果有n帧按照时序排列的图像,会在时间维度上生成n-1个第二融合输出特征Hi。第三融合处理实质上是将不同时间维度的第二融合输出特征Hi按时序进行拼接,形成第三融合输出特征H。
在本发明的一种实施方式中,第四融合处理可以是按照通道维度进行拼接处理。
由于经过步骤S202处理后,输入视频序列S中的t帧特征可产生t-1帧第三融合输出特征H,为了保证时间维度的一致性,故此生成一帧与第三融合输出特征H同样维度的全零特征(feature)代表最后一帧的特征,然后与第三融合输出特征H按照通道(channel)维度拼接起来,作为运动增强输出特征。采用该方法处理得到的运动增强输出特征由于利用了相邻帧之间的互相关特征,因此能够更好的提取相邻帧之间的运动相关性。
可选的,为了降低处理的计算量,在步骤S201之前,可以对所述卷积输出特征序列F采用指定维度的卷积层,例如1x1卷积层,按照预设比例,,进行降维处理,得到降维后的输出特征。在后续步骤中,用降维后的输出特征来代替卷积输出特征序列F,后续步骤的执行过程均与对卷积输出特征序列F进行处理时的情况相同。降低卷积输出特征F的维度,生成输出特征,可以减少后续运算的计算量。图3中的“1×1 2D Conv”指的是1×1卷积层,ME(Motion Enhance)是指运动增强,TE(Temporal Enhance)是指时序增强。
进一步的,参见图3所示的运动增强处理以及时序增强处理环节的示例性流程示意图,以及图5所示的时序增强处理过程的示例性流程示意图,在本发明的一种实施方式中,对所述运动增强输出特征进行时序增强处理,得到时序增强输出特征,包括:
S301、将所述运动增强输出特征按照预设比例进行时间维度t/20,t/21,…,t/2n的下采样,分别得到各自对应的下采样特征,,…,;其中n>0,n为整数。以n取值为2进行举例说明,将所述时序增强输出特征按照一定的比例进行时间维度t,t/2,t/4的下采样,分别记为,,。上下采样通常为2的整倍数,这样方便信息的融合。
S302、根据相邻两个时间维度各自对应的下采样特征,计算所述相邻两个时间维度中时间维度靠前的下采样特征对应的时序增强特征。继续参照上述进行时间维度t,t/2,t/4的下采样的案例进行说明,例如可根据时间维度t/2,t/4各自对应的下采样特征,,计算时间维度靠前的t/2的下采样特征对应的时序增强特征,记为。
S305、采用所述指定维度的卷积层按照预设比例对第二融合特征进行处理,获得与所述卷积输出特征序列F维度一致的所述时序增强输出特征。例如,与前面降维处理相对应的,按照的比例进行升维处理。具体的,采用1x1卷积层,按照比例,将第二融合特征升维到与卷积输出特征序列F维度一致,形成所述时序增强输出特征。
进一步的,根据相邻两个时间维度各自对应的下采样特征,计算所述相邻两个时间维度中时间维度靠前的下采样特征对应的时序增强特征,将各所述时序增强特征、所述下采样特征按照时间维度拼接,组成第一融合特征,包括:
需要说明的是,计算相邻两个时间维度中时间维度靠前的下采样特征对应的时序增强特征的过程是一个递归循环的过程,递归循环的次数为n的取值。例如当n=2时,截至S402则完成所有时序增强特征的计算,也就是将相同的计算过程递归循环2次,最终获得时序增强特征、,并跳转到步骤S404,将各时序增强特征、与下采样特征按照时间维度拼接,组成第一融合特征。
以下继续参照上述进行时间维度t,t/2,t/4的下采样的案例,并结合图5进行说明。
具体的,将时间维度t/2的时序增强特征升维到时间维度t的特征,将下采样特征和分别通过一个共享卷积层计算新的特征和,根据新的特征和计算得到第二注意度Att2。第二注意度Att2与第一注意力度的计算公式类似。
当n>2时,如n=3,来针对进行时间维度t,t/2,t/4,t/8的下采样的案例进行说明。
具体的,可以采用插值或者repeat的方法,将t/8的下采样特征F t/8 升维到时间维度t/4的下采样特征,将下采样特征和分别通过一个共享卷积层计算新的特征和,根据新的特征和计算得到第一注意度Att1;
具体的,将时间维度t/4的第一时序增强特征升维到时间维度t/2的下采样特征,将下采样特征和分别通过一个共享卷积层计算新的特征和,根据新的特征和计算得到第二注意度Att2。第二注意度Att2与第一注意力度的计算公式类似。
具体的,将时间维度t/2的第二时序增强特征升维到时间维度t的下采样特征,将下采样特征和分别通过一个共享卷积层计算新的特征和,根据新的特征和计算得到第三注意度Att3。第三注意度Att3与第一、第二注意力度的计算公式类似。
在本发明实施例中,视频动作分类模型通过以下方法训练得到:
获取样本输入视频序列,所述样本输入视频序列包括多个样本视频帧图像;
获取样本输入视频序列中多个样本视频帧图像的标注数据;
根据所述样本输入视频序列及标注数据,对初始视频动作分类模型进行训练,得到所述视频动作分类模型。
在本发明实施例中,在根据所述样本输入视频序列及标注数据,对初始视频动作分类模型进行训练,得到所述视频动作分类模型的步骤中,采用公式作为损失函数对所述初始视频动作分类模型进行训练,直至所述视频动作分类模型收敛;
本发明另一方面,提供一种视频动作分类装置,用于执行前面所描述的视频动作分类方法,参见图6,视频动作分类装置包括:
视频序列获取模块401,用于获取输入视频序列。输入视频序列包括多个视频帧图像。可选的,视频序列获取模块可以将一段视频平均切分为t个片段,然后从每个片段中随机抽取一张图像,组成一个输入视频序列S,其中t一般大于等于8。输入视频序列S由按照时间序列排列的t帧图像组成。
卷积层402,用于对所述输入视频序列进行卷积处理,得到卷积输出特征序列F。卷积层为经过训练后的神经网络模型的卷积层,用于初步提取输入视频序列S中的有效信息。
进一步的,运动增强处理模块403包括:
互相关特征处理模块,用于计算卷积输出特征序列中每相邻两帧视频帧图像对应的卷积输出特征之间的互相关特征,并按照通道维度将所述互相关特征与所述相邻两帧中的后一帧对应的卷积输出特征进行第二融合处理,得到多个第二融合输出特征Hi。
融合特征处理模块,用于将所述多个第二融合输出特征Hi进行第三融合处理,得到第三融合输出特征H。
进一步的,运动增强处理模块403还包括:
进一步的,互相关特征处理模块,还用于:通过以下公式计算互相关特征:
以及,利用以下公式进行第二融合处理,得到Hi:
进一步的,时序增强处理模块404包括:
时序增强特征计算模块,用于根据相邻两个时间维度各自对应的下采样特征,计算所述相邻两个时间维度中时间维度靠前的下采样特征对应的时序增强特征。
进一步的,时序增强特征计算模块,具体用于:针对进行时间维度的下采样处理后对应的下采样特征,根据与其相邻时间维度t/2n的下采样特征,计算下采样特征对应的第一时序增强特征;将所述第一时序增强特征作为所述时间维度的新的下采样特征,利用所述第一时序增强特征同样的计算方式,计算时间维度的下采样特征对应的第二时序增强特征;采用所述第二时序增强特征的计算方式,分别得到下采样特征,,…,对应的时序增强特征,,…,。
具体的,时序增强特征计算模块,通过将时间维度t/2n的下采样特征升维到时间维度的特征,将下采样特征和分别通过一个共享卷积层计算新的特征和,根据新的特征和计算得到第一注意度Att1;将所述第一注意度Att1与下采样特征相乘,来获得第一时序增强特征。
进一步的,时序增强特征计算模块,根据以下公式计算得到第一注意力度Att1:
在本发明实施例中,视频动作分类装置还包括模型训练模块,用于采用公式作为损失函数进行模型训练,直至所述视频动作分类模型收敛;其中,为为样本输入视频序列的标注数据,为样本输入视频序列中各样本视频帧图像的样本预测分类结果。
本发明的又一方面,还提供一种可读存储介质,其上具有可执行指令,当可执行指令被执行时,使得计算机执行前述任一项所述的视频动作分类方法中的步骤。
本发明的又一方面,还提供一种视频动作分类设备,图7所示的视频动作分类设备的示例性结构示意图,设备包括通信接口1000、存储器2000和处理器3000。通信接口1000用于与外界设备进行通信,进行数据交互传输。存储器2000内存储有可在处理器3000上运行的计算机程序。所述存储器2000和处理器3000的数量可以为一个或多个。
如果通信接口1000、存储器2000及处理器3000独立实现,则通信接口1000、存储器2000及处理器3000可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果通信接口1000、存储器2000、及处理器3000集成在一块芯片上,则通信接口1000、存储器2000、及处理器3000可以通过内部接口完成相互间的通信。
处理器用于执行上述任一实施例所述视频动作分类方法中的一个或多个步骤。处理器可以是中央处理单元(Central Processing Unit,简称CPU),还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器中存储有适于所述处理器执行的计算机程序指令,所述计算机程序指令被所述处理器运行时执行上述任一实施例所述视频动作分类方法中的一个或多个步骤。
存储器可以是只读存储器(Read-Only Memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(Random Access Memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过通信总线与处理器相连接。存储器也可以和处理器集成在一起。
在本说明书的描述中,参考术语“一个实施例/方式”、“一些实施例/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例/方式或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例/方式或示例以及不同实施例/方式或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。同时,在本发明的描述中,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电性连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本发明,而并非是对本发明的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本发明的范围内。
Claims (14)
1.一种视频动作分类方法,其特征在于,采用视频动作分类模型对视频动作进行分类,视频动作分类方法包括:
获取输入视频序列,所述输入视频序列包括按照时间序列排列的t帧视频帧图像,t表示时间维度;
将所述输入视频序列输入卷积层,得到卷积输出特征序列F;所述t帧视频帧图像组成的序列与所述卷积输出特征序列F一一对应;
计算所述卷积输出特征序列F中每相邻两帧视频帧图像对应的卷积输出特征之间的互相关特征,并按照通道维度将所述互相关特征与所述相邻两帧中的后一帧对应的卷积输出特征进行第二融合处理,得到多个第二融合输出特征Hi;
将所述多个第二融合输出特征Hi进行第三融合处理,得到第三融合输出特征H;
所述第二融合处理、第三融合处理、第四融合处理均为按照通道维度进行拼接处理。
根据相邻两个时间维度各自对应的下采样特征,计算所述相邻两个时间维度中时间维度靠前的下采样特征对应的时序增强特征;
6.根据权利要求5所述的视频动作分类方法,其特征在于,所述根据相邻两个时间维度
各自对应的下采样特征,计算所述相邻两个时间维度中时间维度靠前的下采样特征对应的
时序增强特征,将各所述时序增强特征、所述下采样特征按照时间维度拼接,组成第
一融合特征,包括:
9.根据权利要求1所述的视频动作分类方法,其特征在于,所述视频动作分类模型通过以下方法训练得到:
获取样本输入视频序列,所述样本输入视频序列包括多个样本视频帧图像;
获取样本输入视频序列中多个样本视频帧图像的标注数据;
根据所述样本输入视频序列及标注数据,对初始视频动作分类模型进行训练,得到所述视频动作分类模型。
11.根据权利要求1所述的视频动作分类方法,其特征在于,所述方法还包括:
获取视频,并将视频平均切分为多个片段;
从每个片段中随机抽取一张图像,得到所述输入视频序列。
12.一种视频动作分类装置,其特征在于,包括:
视频序列获取模块,用于获取输入视频序列,所述输入视频序列包括按照时间序列排列的t帧视频帧图像,t表示时间维度;
卷积层,用于对所述输入视频序列进行卷积处理,得到卷积输出特征序列F;所述t帧视频帧图像组成的序列与所述卷积输出特征序列F一一对应;
第一融合模块,用于将所述卷积输出特征序列F与所述时序增强输出特征进行第一融合处理,得到第一融合输出特征;所述第一融合处理为相加处理;以及
13.一种可读存储介质,其特征在于,其上具有可执行指令,当可执行指令被执行时,使得计算机执行如权利要求1-11任一项所述的视频动作分类方法中的步骤。
14.一种视频动作分类设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有适于所述处理器执行的计算机程序指令,所述计算机程序指令被所述处理器运行时执行如权利要求1-11任一项所述的视频动作分类方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110250187.0A CN112633260B (zh) | 2021-03-08 | 2021-03-08 | 视频动作分类方法、装置、可读存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110250187.0A CN112633260B (zh) | 2021-03-08 | 2021-03-08 | 视频动作分类方法、装置、可读存储介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112633260A CN112633260A (zh) | 2021-04-09 |
CN112633260B true CN112633260B (zh) | 2021-06-22 |
Family
ID=75297738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110250187.0A Active CN112633260B (zh) | 2021-03-08 | 2021-03-08 | 视频动作分类方法、装置、可读存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112633260B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990126B (zh) * | 2021-04-27 | 2021-08-13 | 北京世纪好未来教育科技有限公司 | 视频分类方法、装置、计算机设备和介质 |
CN113486763A (zh) * | 2021-06-30 | 2021-10-08 | 上海商汤临港智能科技有限公司 | 车舱内人员冲突行为的识别方法及装置、设备和介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109753897A (zh) * | 2018-12-21 | 2019-05-14 | 西北工业大学 | 基于记忆单元强化-时序动态学习的行为识别方法 |
CN110866509A (zh) * | 2019-11-20 | 2020-03-06 | 腾讯科技(深圳)有限公司 | 动作识别方法、装置、计算机存储介质和计算机设备 |
CN110909658A (zh) * | 2019-11-19 | 2020-03-24 | 北京工商大学 | 一种基于双流卷积网络的视频中人体行为识别方法 |
CN111209883A (zh) * | 2020-01-13 | 2020-05-29 | 南京大学 | 一种基于多源运动特征融合的时序自适应视频分类方法 |
CN111259782A (zh) * | 2020-01-14 | 2020-06-09 | 北京大学 | 基于混合多尺度时序可分离卷积操作的视频行为识别方法 |
CN111597929A (zh) * | 2020-04-30 | 2020-08-28 | 青岛科技大学 | 基于通道信息融合和组群关系空间结构化建模的组群行为识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3608844A1 (en) * | 2018-08-10 | 2020-02-12 | Naver Corporation | Methods for training a crnn and for semantic segmentation of an inputted video using said crnn |
-
2021
- 2021-03-08 CN CN202110250187.0A patent/CN112633260B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109753897A (zh) * | 2018-12-21 | 2019-05-14 | 西北工业大学 | 基于记忆单元强化-时序动态学习的行为识别方法 |
CN110909658A (zh) * | 2019-11-19 | 2020-03-24 | 北京工商大学 | 一种基于双流卷积网络的视频中人体行为识别方法 |
CN110866509A (zh) * | 2019-11-20 | 2020-03-06 | 腾讯科技(深圳)有限公司 | 动作识别方法、装置、计算机存储介质和计算机设备 |
CN111209883A (zh) * | 2020-01-13 | 2020-05-29 | 南京大学 | 一种基于多源运动特征融合的时序自适应视频分类方法 |
CN111259782A (zh) * | 2020-01-14 | 2020-06-09 | 北京大学 | 基于混合多尺度时序可分离卷积操作的视频行为识别方法 |
CN111597929A (zh) * | 2020-04-30 | 2020-08-28 | 青岛科技大学 | 基于通道信息融合和组群关系空间结构化建模的组群行为识别方法 |
Non-Patent Citations (1)
Title |
---|
《时序增强的视频动作识别方法》;张浩博、付冬梅、周珂;《模式识别与人工智能》;20201031;第33卷(第10期);第951-958页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112633260A (zh) | 2021-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11328430B2 (en) | Methods, systems, and media for segmenting images | |
US11861816B2 (en) | System and method for detecting image forgery through convolutional neural network and method for providing non-manipulation detection service using the same | |
US11521039B2 (en) | Method and apparatus with neural network performing convolution | |
CN111104962B (zh) | 图像的语义分割方法、装置、电子设备及可读存储介质 | |
US10810435B2 (en) | Segmenting objects in video sequences | |
US20210287378A1 (en) | Foreground-background-aware atrous multiscale network for disparity estimation | |
US11200424B2 (en) | Space-time memory network for locating target object in video content | |
US20200273192A1 (en) | Systems and methods for depth estimation using convolutional spatial propagation networks | |
US11755889B2 (en) | Method, system and apparatus for pattern recognition | |
CN111276240B (zh) | 一种基于图卷积网络的多标签多模态全息脉象识别方法 | |
CN111445418A (zh) | 图像去雾处理方法、装置及计算机设备 | |
CN112633260B (zh) | 视频动作分类方法、装置、可读存储介质及设备 | |
Yang et al. | NDNet: Narrow while deep network for real-time semantic segmentation | |
CN114549913B (zh) | 一种语义分割方法、装置、计算机设备和存储介质 | |
CN114170167B (zh) | 基于注意力引导上下文校正的息肉分割方法和计算机设备 | |
CN110866938B (zh) | 一种全自动视频运动目标分割方法 | |
CN112488923A (zh) | 图像超分辨率重建方法、装置、存储介质及电子设备 | |
CN114119975A (zh) | 一种语言引导的跨模态实例分割方法 | |
Wan et al. | Generative adversarial learning for detail-preserving face sketch synthesis | |
Lu et al. | DCELANM‐Net: Medical image segmentation based on dual channel efficient layer aggregation network with learner | |
WO2024041235A1 (zh) | 图像处理方法、装置、设备、存储介质及程序产品 | |
US20230073175A1 (en) | Method and system for processing image based on weighted multiple kernels | |
CN116468979A (zh) | 一种双向特征融合网络、回归预测网络、训练方法及装置 | |
CN115439470A (zh) | 息肉图像分割方法、计算机可读存储介质及计算机设备 | |
WO2022033088A1 (zh) | 图像处理方法、装置、电子设备和计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |