CN114419524A - 一种基于伪光流辅助的视频分类方法及系统 - Google Patents
一种基于伪光流辅助的视频分类方法及系统 Download PDFInfo
- Publication number
- CN114419524A CN114419524A CN202210316304.3A CN202210316304A CN114419524A CN 114419524 A CN114419524 A CN 114419524A CN 202210316304 A CN202210316304 A CN 202210316304A CN 114419524 A CN114419524 A CN 114419524A
- Authority
- CN
- China
- Prior art keywords
- pseudo
- optical flow
- video
- convolution
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000003287 optical effect Effects 0.000 claims abstract description 42
- 238000004364 calculation method Methods 0.000 claims abstract description 26
- 230000005284 excitation Effects 0.000 claims abstract description 19
- 238000012935 Averaging Methods 0.000 claims abstract description 11
- 230000017105 transposition Effects 0.000 claims abstract description 5
- 230000004927 fusion Effects 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 4
- 101100436086 Escherichia coli (strain K12) asmA gene Proteins 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000009471 action Effects 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 8
- 230000002123 temporal effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于伪光流辅助的视频分类方法及系统,能够计算伪光流特征并利用其辅助进行视频分类,其中伪光流计算模块利用相关性计算/卷积/转置卷积等操作,无监督地估计伪光流特征,然后将其融合到主干网络中,从而对段间运动信息进行有效显式建模;伪光流激励模块则在将伪光流特征对通道维度取均值后,用来对主干网络中的视频卷积特征进行空间注意力操作,从而使得主干网络更关注与运动信息更相关的空间位置。本发明实现方法简便,思路灵活,在动作视频数据集上取得了显著的分类效果提升。
Description
技术领域
本发明涉及视频分类技术领域,尤其是涉及一种基于伪光流辅助的视频分类方法及系统。
背景技术
随着通信技术的发展,我们已经从“文字时代”、“图片时代”步入了“视频时代”,智能视频分析技术逐渐成为研究热点,并在智能安防、鉴黄鉴恐、人机交互等领域得到了广泛应用,而动作视频分类任务作为智能视频分析领域的基础任务,吸引了众多研究者的关注。
在视频分类任务中主要有两种研究思路:一是从原始视频中取连续的视频段(如16帧)输入到深度网络中,对其时空特征进行建模,代表性方法有C3D,I3D,R(2+1)D等;二是对原始视频分段后进行采样,然后将各段的采样帧输入到深度网络中,再将其识别结果融合起来作为视频分类结果,代表性方法有TSN,TSM,TEA等。
本发明主要延续第二种研究思路,现有的TSM/TEA等网络通过时域转移(TemporalShift)、1D按通道时域卷积(Channel-wise Temporal Convolution)、计算帧差等方法对各段采样的视频帧间信息进行时域建模,但是一方面这些方法或者缺乏对帧间运动信息的显式计算,或者计算方法过于简单;另一方面因为视频帧是由各段中采样得到,所以帧间信息复杂多变,难以建模,这两方面的原因影响了现有方法的视频分类准确率。
本发明中,取得了良好的识别效果。
发明内容
为解决现有技术的不足,通过显式计算各段视频帧间的伪光流特征辅助视频分类,实现提高视频分类准确度的目的,本发明采用如下的技术方案:
一种基于伪光流辅助的视频分类方法,包括如下步骤:
步骤S1:对输入的视频样本进行均匀分段,在每个视频段中随机采样一帧,并将视频帧输入到主干网络中;
步骤S2:在主干网络的每层(Layer)之后,将相邻段的采样视频帧的卷积特征输入到伪光流计算模块中,计算相邻段视频帧深度特征之间的相关性,并得到伪光流特征;
步骤S3:将伪光流特征与视频帧卷积特征共同输入到伪光流激励模块,首先对两种特征进行加权融合,然后将伪光流特征在通道上取均值操作后,用于对融合后的深度特征进行空间加权,从而使网络更关注与运动信息更相关的空间区域,得到空间加权特征;
步骤S4:各段采样视频帧的识别结果融合后,得到视频样本的分类结果,通过分类结果与视频样本的真值,采用交叉熵损失函数(Cross Entropy Loss Function)进行训练,用于分类阶段获取最终的视频分类结果。
进一步地,所述步骤S2中,计算相邻段视频帧深度特征之间的相关性(Correlation Layer),再通过多个卷积层(Convolution Layer)和转置卷积层(Transposed Convolution Layer)计算伪光流特征,最后通过一层卷积将其通道数与各层视频特征进行对齐。
进一步地,在计算伪光流特征时,首先对输入特征利用卷积操作减少通道数,以降低整个模块的运算开销,然后计算相邻段视频帧深度特征之间的相关性,除最后一层卷积映射用于特征对齐外,其他各层均共享参数,以便于网络训练。
进一步地,所述步骤S4中,将段视频帧的识别结果进行均匀融合后,得到视频样本的分类预测结果:
采用交叉熵损失函数进行训练:
进一步地,所述主干网络基于残差网络ResNet50框架进行扩展,在各网络层的每个块(Block)中,使用2D卷积和1D按通道卷积同时进行时空建模,1D按通道卷积采用等价于TSM网络中时域转移操作(Temporal Shift)的方式进行初始化。
一种基于伪光流辅助的视频分类系统,包括主干网络、伪光流计算模块和伪光流激励模块;
所述主干网络,用于获取相邻段的采样视频帧,并在主干网络的每层之后,将相邻段的采样视频帧的卷积特征输入伪光流计算模块;对各段采样视频帧的识别结果进行融合,得到视频样本的分类结果,通过分类结果与视频样本的真实类别,采用交叉熵损失函数进行训练,用于分类阶段获取最终的视频分类结果;
所述伪光流计算模块,用于计算相邻段视频帧深度特征之间的相关性,进而得到伪光流特征;将得到的伪光流特征与视频帧卷积特征,输入伪光流激励模块;
所述伪光流激励模块,对伪光流特征与视频帧卷积特征进行加权融合,再对伪光流特征在通道上取均值操作,然后用于对融合后的深度特征进行空间加权,从而使网络更关注与运动信息更相关的空间区域,得到的空间加权特征用于视频帧的识别。
进一步地,所述伪光流计算模块包括相关性层、卷积层、转置卷积层和映射卷积层,相关性层用于计算相邻段视频帧深度特征之间的相关性,卷积层和转置卷积层用于计算伪光流特征,映射卷积层将其通道数与各层视频特征进行对齐。
进一步地,所述伪光流激励模块包括加权融合层、取均值层、卷积层和激活层,加权融合层用于对伪光流特征与视频帧卷积特征进行加权融合,得到融合特征;对于伪光流特征,依次通过取均值层、卷积层和激活层,进行取均值操作、卷积操作和激活操作,得到特征空间权重,然后将空间权重与融合特征相乘后,再与融合特征相加,得到空间加权特征。
本发明的优势和有益效果在于:
本发明的一种基于伪光流辅助的视频分类方法及装置,利用相关性计算/卷积/转置卷积等操作,无监督地计算伪光流特征,并将其作为较为准确的段间运动信息估计融合到主干网络中,从而对段间运动信息进行有效建模。此外类似空间注意力机制,伪光流特征在通道上取均值操作后,用来对主干网络中的视频卷积特征进行空间加权,从而使得主干网络更关注与运动信息更加相关的空间位置。
附图说明
图1是本发明实施例中的方法流程图。
图2是本发明实施例中POPCM模式的流程图。
图3是本发明实施例中POPEM模式的流程图。
图4是本发明实施例中其他方法与本方法在Sth-Sth V1数据集上的视频分类结果对比图。
图5是本发明实施例中的系统结构图。
图6是本发明实施例中的装置结构图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
一种基于伪光流辅助的视频分类方法,主要解决动作视频分类问题,定义有个
视频样本的训练数据集,为视频样本,为视频动作标
签。定义分类模型的预测结果为,其中为网络参数,表示映射函
数,维实数空间。在主干网络的conv1/conv2_x/conv3_x层之后,加入所提出的伪
光流计算模块(POPCM,Pseudo Optical Flow Computing Module)和伪光流激励模块
(POPEM,Pseudo Optical Flow Excitation Module),如图1所示。具体地,在伪光流计算模
块中,首先通过相关性层(Correlation Layer)计算当前帧中特征点与相邻帧周围空间
邻域内特征点的相关性,再通过三个卷积层和两个转置卷积层提取伪光流特征,最后使用
一层卷积实现特征通道数的匹配;在伪光流激励模块中,首先对视频卷积特征和伪光流特
征进行加权融合,然后将伪光流特征经过取均值层和卷积层后对视频特征进行空间加权,
如图2所示。进一步地,为了易于网络训练,在插入的所有伪光流计算模块中,除最后一层卷
积映射以外其它层均共享参数。本实施例中,采用Pytorch框架进行实验,并使用初始学习
率为0.01的随机梯度下降SGD优化器与MultiStepLR调度器。在Something-Something V1数
据集上设置训练55个迭代,在第30和45次迭代调整学习率。批处理大小为64,视频分段数,伪光流激励模块中融合权重,。主干网络使用了在ImageNet上预
训练的ResNet50网络进行初始化,而且其各块(Block)中的1D按通道卷积采用等价于TSM网
络中时域转移操作(Temporal Shift)的方式进行初始化。
如图1所示,视频分类方法具体包括如下步骤:
步骤S1:对输入的视频样本进行均匀分段,在每个视频段中随机采样一帧,并将视频帧输入到主干网络中。
主干网络基于残差网络ResNet50框架进行扩展,在各网络层的每个块(Block)中,使用2D卷积和1D按通道卷积同时进行时空建模。1D按通道卷积采用等价于TSM网络中时域转移操作(Temporal Shift)的方式进行初始化。
步骤S2:如图2所示,在主干网络的每层(Layer)之后,将相邻段的采样视频帧的卷积特征输入到伪光流计算模块中,在计算伪光流特征时,首先对输入特征利用卷积操作减少通道数,以降低整个模块的运算开销,然后计算相邻段视频帧深度特征之间的相关性(Correlation Layer),再通过多个卷积层(Convolution Layer)和转置卷积层(Transposed Convolution Layer)计算伪光流特征,最后通过一层卷积将其通道数与各层视频特征进行对齐,得到伪光流特征,除最后一层卷积用于映射外,其他各层均共享参数,以便于网络训练。
最后一层卷积的作用是将伪光流特征的通道数映射到和视频特征一致,POPCM中其它层都是共享的,例如:得到的伪光流特征通道里为49,但是网络第1/2/3层输出的卷积特征通道数分别为64/256/512,所以需要进行映射。
步骤S3:如图3所示,将伪光流特征与视频帧卷积特征共同输入到伪光流激励模块,首先对两种特征进行加权融合,然后将伪光流特征在通道上取均值操作后,用于对加权融合后的深度特征进行空间加权,从而使网络更关注与运动信息更相关的空间区域,得到空间加权特征。
步骤S4:各段采样视频帧的识别结果融合后,得到视频样本的分类结果,通过分类结果与视频样本的真值,采用交叉熵损失函数(Cross Entropy Loss Function)进行训练,用于分类阶段获取最终的视频分类结果。
将段视频帧的识别结果进行均匀融合后,得到视频样本的分类预测结果:
采用交叉熵损失函数进行训练:
通过交叉熵损失函数的训练,得到整个POFN伪光流网络的最优参数,参数包括提出的POPCM和POPEM模块的参数,以及conv1/conv2_x/conv3_x/conv4_x/conv5_x层中的2D卷积,1D按通道卷积,BN层等参数。虽然主干网络使用在ImageNet上预训练的ResNet50网络进行初始化,但是在训练过程中参数仍然微调更新。
如图4所示,在Something-Something V1(Sth-Sth V1)数据集上,将本发明实施例中的方法(POFN: Pseudo Optical Flow Network,伪光流网络)与其他方法(TSN、TSM、TSN+(2+1)D)进行比较,通过的视频分类结果得分可以看出,本方法的效果优于其他方法。其中TSN:Temporal Segment Network,时域分割网络,TSM: Temporal Shift Module,时域转移模块,TSN + (2+1)D: Temporal Segment Network with (2+1)D Convolution,使用(2+1)D卷积操作的时域分割网络。
如图5所示,一种基于伪光流辅助的视频分类系统,包括主干网络、伪光流计算模块和伪光流激励模块;
主干网络,用于获取相邻段的采样视频帧,并在主干网络的每层之后,将相邻段的采样视频帧的卷积特征输入伪光流计算模块;对各段采样视频帧的识别结果进行融合,得到视频样本的分类结果,通过分类结果与视频样本的真实类别,采用交叉熵损失函数进行训练,用于分类阶段获取最终的视频分类结果;
伪光流计算模块,用于计算相邻段视频帧深度特征之间的相关性,进而得到伪光流特征。将得到的伪光流特征与视频帧卷积特征,输入伪光流激励模块;
具体地,伪光流计算模块包括相关性层、卷积层、转置卷积层和映射卷积层,相关性层用于计算相邻段视频帧深度特征之间的相关性,卷积层和转置卷积层用于计算伪光流特征,映射卷积层将其通道数与各层视频特征进行对齐。
伪光流激励模块,对伪光流特征与视频帧卷积特征进行加权融合,再对伪光流特征在通道上取均值操作,然后用于对融合后的深度特征进行空间加权,从而使网络更关注与运动信息更相关的空间区域,得到的空间加权特征用于视频帧的识别。
具体地,伪光流激励模块包括加权融合层、取均值层、卷积层和激活层,加权融合层用于对伪光流特征与视频帧卷积特征进行加权融合,得到融合特征。对于伪光流特征,依次通过取均值层、卷积层和激活层,进行取均值操作、卷积操作和激活操作,得到特征空间权重,然后将空间权重与融合特征相乘后,再与融合特征相加,得到空间加权特征。
与前述一种基于伪光流辅助的视频分类方法的实施例相对应,本发明还提供了一种基于伪光流辅助的视频分类装置的实施例。
参见图6,本发明实施例提供的一种基于伪光流辅助的视频分类装置,包括存储器和一个或多个处理器,存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的一种基于伪光流辅助的视频分类方法。
本发明一种基于伪光流辅助的视频分类装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图6所示,为本发明一种基于伪光流辅助的视频分类装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种基于伪光流辅助的视频分类方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。
Claims (10)
1.一种基于伪光流辅助的视频分类方法,其特征在于包括如下步骤:
步骤S1:对输入的视频样本进行均匀分段,在每个视频段中随机采样一帧,并将视频帧输入到主干网络中;
步骤S2:在主干网络的每层之后,将相邻段的采样视频帧的卷积特征输入到伪光流计算模块中,计算相邻段视频帧深度特征之间的相关性,并得到伪光流特征;
步骤S3:将伪光流特征与视频帧卷积特征共同输入到伪光流激励模块,首先对两种特征进行加权融合,然后将伪光流特征在通道上取均值操作后,用于对融合后的深度特征进行空间加权,得到加权特征;
步骤S4:将各段采样视频帧的识别结果融合后,得到视频样本的分类结果,通过分类结果与视频样本的真值,采用交叉熵损失函数进行训练,用于分类阶段获取最终的视频分类结果。
2.根据权利要求1所述的一种基于伪光流辅助的视频分类方法,其特征在于:所述步骤S2中,计算相邻段视频帧深度特征之间的相关性,再通过多个卷积层和转置卷积层计算伪光流特征,最后通过一层卷积将其通道数与各层视频特征进行对齐。
3.根据权利要求2所述的一种基于伪光流辅助的视频分类方法,其特征在于:在计算伪光流特征时,首先对输入特征利用卷积操作减少通道数,然后计算相邻段视频帧深度特征之间的相关性,除最后一层卷积映射用于特征对齐外,其他各层均共享参数。
7.根据权利要求1所述的一种基于伪光流辅助的视频分类方法,其特征在于:所述主干网络基于残差网络ResNet50框架进行扩展,在各网络层的每个块中,使用2D卷积和1D按通道卷积同时进行时空建模,1D按通道卷积采用时域转移操作的方式进行初始化。
8.一种基于伪光流辅助的视频分类系统,包括主干网络、伪光流计算模块和伪光流激励模块,其特征在于:
所述主干网络,用于获取相邻段的采样视频帧,并在主干网络的每层之后,将相邻段的采样视频帧的卷积特征输入伪光流计算模块;对各段采样视频帧的识别结果进行融合,得到视频样本的分类结果,通过分类结果与视频样本的真实类别,采用交叉熵损失函数进行训练,用于分类阶段获取最终的视频分类结果;
所述伪光流计算模块,用于计算相邻段视频帧深度特征之间的相关性,进而得到伪光流特征;将得到的伪光流特征与视频帧卷积特征,输入伪光流激励模块;
所述伪光流激励模块,对伪光流特征与视频帧卷积特征进行加权融合,再对伪光流特征在通道上取均值操作,然后用于对融合后的深度特征进行空间加权,得到的加权特征用于视频帧的识别。
9.根据权利要求8所述的一种基于伪光流辅助的视频分类系统,其特征在于:所述伪光流计算模块包括相关性层、卷积层、转置卷积层和映射卷积层,相关性层用于计算相邻段视频帧深度特征之间的相关性,卷积层和转置卷积层用于计算伪光流特征,映射卷积层将其通道数与各层视频特征进行对齐。
10.根据权利要求8所述的一种基于伪光流辅助的视频分类系统,其特征在于:所述伪光流激励模块包括加权融合层、取均值层、卷积层和激活层,加权融合层用于对伪光流特征与视频帧卷积特征进行加权融合,得到融合特征;对于伪光流特征,依次通过取均值层、卷积层和激活层,进行通道取均值操作、卷积操作和激活操作,得到特征空间权重,然后将空间权重与融合特征相乘后,再与融合特征相加,得到空间加权特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210316304.3A CN114419524B (zh) | 2022-03-29 | 2022-03-29 | 一种基于伪光流辅助的视频分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210316304.3A CN114419524B (zh) | 2022-03-29 | 2022-03-29 | 一种基于伪光流辅助的视频分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114419524A true CN114419524A (zh) | 2022-04-29 |
CN114419524B CN114419524B (zh) | 2022-08-05 |
Family
ID=81264101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210316304.3A Active CN114419524B (zh) | 2022-03-29 | 2022-03-29 | 一种基于伪光流辅助的视频分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114419524B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197586A (zh) * | 2017-12-12 | 2018-06-22 | 北京深醒科技有限公司 | 脸部识别方法和装置 |
CN108229338A (zh) * | 2017-12-14 | 2018-06-29 | 华南理工大学 | 一种基于深度卷积特征的视频行为识别方法 |
CN108288015A (zh) * | 2017-01-10 | 2018-07-17 | 武汉大学 | 基于时间尺度不变性的视频中人体动作识别方法及系统 |
CN109063549A (zh) * | 2018-06-19 | 2018-12-21 | 中国科学院自动化研究所 | 基于深度神经网络的高分辨率航拍视频运动目标检测方法 |
CN109711316A (zh) * | 2018-12-21 | 2019-05-03 | 广东工业大学 | 一种行人重识别方法、装置、设备及存储介质 |
CN109740419A (zh) * | 2018-11-22 | 2019-05-10 | 东南大学 | 一种基于Attention-LSTM网络的视频行为识别方法 |
CN110246160A (zh) * | 2019-06-20 | 2019-09-17 | 腾讯科技(深圳)有限公司 | 视频目标的检测方法、装置、设备及介质 |
CN110378348A (zh) * | 2019-07-11 | 2019-10-25 | 北京悉见科技有限公司 | 视频实例分割方法、设备及计算机可读存储介质 |
CN110909658A (zh) * | 2019-11-19 | 2020-03-24 | 北京工商大学 | 一种基于双流卷积网络的视频中人体行为识别方法 |
CN113158972A (zh) * | 2021-05-12 | 2021-07-23 | 山东浪潮科学研究院有限公司 | 基于光流估测的视频分类张量构造方法 |
CN113673307A (zh) * | 2021-07-05 | 2021-11-19 | 浙江工业大学 | 一种轻量型的视频动作识别方法 |
CN113963301A (zh) * | 2021-11-04 | 2022-01-21 | 西安邮电大学 | 一种时空特征融合的视频火灾烟雾探测方法及系统 |
-
2022
- 2022-03-29 CN CN202210316304.3A patent/CN114419524B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108288015A (zh) * | 2017-01-10 | 2018-07-17 | 武汉大学 | 基于时间尺度不变性的视频中人体动作识别方法及系统 |
CN108197586A (zh) * | 2017-12-12 | 2018-06-22 | 北京深醒科技有限公司 | 脸部识别方法和装置 |
CN108229338A (zh) * | 2017-12-14 | 2018-06-29 | 华南理工大学 | 一种基于深度卷积特征的视频行为识别方法 |
CN109063549A (zh) * | 2018-06-19 | 2018-12-21 | 中国科学院自动化研究所 | 基于深度神经网络的高分辨率航拍视频运动目标检测方法 |
CN109740419A (zh) * | 2018-11-22 | 2019-05-10 | 东南大学 | 一种基于Attention-LSTM网络的视频行为识别方法 |
CN109711316A (zh) * | 2018-12-21 | 2019-05-03 | 广东工业大学 | 一种行人重识别方法、装置、设备及存储介质 |
CN110246160A (zh) * | 2019-06-20 | 2019-09-17 | 腾讯科技(深圳)有限公司 | 视频目标的检测方法、装置、设备及介质 |
CN110378348A (zh) * | 2019-07-11 | 2019-10-25 | 北京悉见科技有限公司 | 视频实例分割方法、设备及计算机可读存储介质 |
CN110909658A (zh) * | 2019-11-19 | 2020-03-24 | 北京工商大学 | 一种基于双流卷积网络的视频中人体行为识别方法 |
CN113158972A (zh) * | 2021-05-12 | 2021-07-23 | 山东浪潮科学研究院有限公司 | 基于光流估测的视频分类张量构造方法 |
CN113673307A (zh) * | 2021-07-05 | 2021-11-19 | 浙江工业大学 | 一种轻量型的视频动作识别方法 |
CN113963301A (zh) * | 2021-11-04 | 2022-01-21 | 西安邮电大学 | 一种时空特征融合的视频火灾烟雾探测方法及系统 |
Non-Patent Citations (4)
Title |
---|
XIAOXIA LUO等: "An Modified Video Stream Classification Method Which Fuses Three-Dimensional Convolutional Neural Network", 《2019 INTERNATIONAL CONFERENCE ON MACHINE LEARNING, BIG DATA AND BUSINESS INTELLIGENCE (MLBDBI)》 * |
XINGYU XU等: "Violent Video Classification Based on Spatial-Temporal Cues Using Deep Learning", 《2018 11TH INTERNATIONAL SYMPOSIUM ON COMPUTATIONAL INTELLIGENCE AND DESIGN (ISCID)》 * |
孙宁等: "结合注意力机制与时空特征融合的长时程行为识别方法", 《合肥工业大学学报(自然科学版)》 * |
梁鸿等: "融入时序激励机制的人体行为识别", 《计算机工程与设计》 * |
Also Published As
Publication number | Publication date |
---|---|
CN114419524B (zh) | 2022-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11200424B2 (en) | Space-time memory network for locating target object in video content | |
CN111832570B (zh) | 一种图像语义分割模型训练方法及系统 | |
CN112634296A (zh) | 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端 | |
CN112749666B (zh) | 一种动作识别模型的训练及动作识别方法与相关装置 | |
CN114494981B (zh) | 一种基于多层次运动建模的动作视频分类方法及系统 | |
CN115731505B (zh) | 视频显著性区域检测方法、装置、电子设备及存储介质 | |
CN114663798B (zh) | 一种基于强化学习的单步视频内容识别方法 | |
CN115861462B (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
CN114283352A (zh) | 一种视频语义分割装置、训练方法以及视频语义分割方法 | |
CN113435430A (zh) | 基于自适应时空纠缠的视频行为识别方法、系统、设备 | |
Wei et al. | A robust image watermarking approach using cycle variational autoencoder | |
CN115565177A (zh) | 文字识别模型训练、文字识别方法、装置、设备及介质 | |
CN114170558B (zh) | 用于视频处理的方法、系统、设备、介质和产品 | |
Su et al. | Physical model and image translation fused network for single-image dehazing | |
Qin et al. | Depth estimation by parameter transfer with a lightweight model for single still images | |
CN110659641B (zh) | 一种文字识别的方法、装置及电子设备 | |
CN113177483B (zh) | 视频目标分割方法、装置、设备以及存储介质 | |
CN116980541B (zh) | 视频编辑方法、装置、电子设备以及存储介质 | |
Lu et al. | Siamese graph attention networks for robust visual object tracking | |
CN117830537A (zh) | 一种弱监督的3d场景图生成方法、装置、设备及介质 | |
CN113610016A (zh) | 视频帧特征提取模型的训练方法、系统、设备及存储介质 | |
CN114419524B (zh) | 一种基于伪光流辅助的视频分类方法及系统 | |
CN116975347A (zh) | 图像生成模型训练方法及相关装置 | |
CN117095460A (zh) | 基于长短时关系预测编码的自监督群体行为识别方法及其识别系统 | |
CN116704433A (zh) | 基于上下文感知关系预测编码的自监督群体行为识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |