CN112597856A - 一种基于部分解耦条件下通道分配的动作识别方法及系统 - Google Patents
一种基于部分解耦条件下通道分配的动作识别方法及系统 Download PDFInfo
- Publication number
- CN112597856A CN112597856A CN202011484595.4A CN202011484595A CN112597856A CN 112597856 A CN112597856 A CN 112597856A CN 202011484595 A CN202011484595 A CN 202011484595A CN 112597856 A CN112597856 A CN 112597856A
- Authority
- CN
- China
- Prior art keywords
- frame image
- video frame
- module
- convolution
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于部分解耦条件下通道分配的动作识别方法及系统,该方法包括:获取视频信息并对视频信息进行处理,抽取视频帧图像;将视频帧图像输入到预设的卷积神经网络进行动作识别,得到识别结果;所述预设的卷积神经网络包括残差层、两个R(2+1)块、Decoupled‑3D模块、池化层和全连接层。该系统包括:视频帧抽取模块和识别模块。本发明通过Decoupled‑3D模块分配空间和时间上的通道维度信息来平衡模型的表达能力。本发明作为一种基于部分解耦条件下通道分配的动作识别方法及系统,可广泛应用于模型改进领域。
Description
技术领域
本发明属于模型改进领域,尤其涉及一种基于部分解耦条件下通道分配的动作识别方法及系统。
背景技术
当前主流的视频动作识别方法包括融合表观和光流等动态特征的双流网络、3DCNN及其分解的方法和基于循环神经网络的方法。双流网络一般包括两个分支,一个分支利用RGB图像提取动作的表观特征,另一个分支利用光流或者相邻帧间的动态信息来提取时间特征;3DCNN则是将2D卷积网络进行扩展,使得卷积核可以同时在时间和空间上进行特征提取,分解方法则是将原始3D卷积分解为2D空间卷积和1D时间卷积;循环神经网络因为其在文本和语音分析中对时间序列建模的优秀表现也被应用到动作识别领域中,主要是利用LSTM、GRU等来实现。但是当前一些主流的分解工作并没有考虑卷积核时空表达能力的均衡问题。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于部分解耦条件下通道分配的动作识别的动作识别方法,通过分配空间和时间上的通道维度信息来平衡模型的表达能力。
本发明所采用的第一技术方案是:一种基于部分解耦条件下通道分配的动作识别方法,包括以下步骤:
获取视频信息并对视频信息进行处理,抽取视频帧图像;
将视频帧图像输入到预设的卷积神经网络进行动作识别,得到识别结果;
所述预设的卷积神经网络包括残差层、两个R(2+1)块、Decoupled-3D模块、池化层和全连接层。
进一步,所述获取视频信息并对视频信息进行处理,抽取视频帧图像这一步骤,其具体包括:
获取视频并将视频按某一帧率裁剪成画面帧,选取连续的画面帧图像;
将选取的画面帧图像按预设规则裁剪尺寸,得到视频帧图像。
进一步,所述Decoupled-3D模块基于通道分解的部分解耦时空滤波器设计形成,所述Decoupled-3D模块包括利用通道分解形成的空间卷积层和时间卷积层。
进一步,所述将视频帧图像输入到预设的卷积神经网络进行动作识别,得到识别结果这一步骤,其具体包括:
将视频帧图像输入到预设的卷积神经网络;
依次经过残差层、两个R(2+1)D块和Decoupled-3D模块对视频帧图像的数据进行卷积操作,经过池化层进行下采样,最后基于全连接层对特征进行分类,得到识别结果。
具体地,经过这几个层得到的是时空分辨率逐渐减小的特征图。
进一步,经过Decoupled-3D模块对视频帧图像的数据进行卷积操作具体为数据进入Decoupled-3D模块后依次进行空间卷积、归一化、激活、时间卷积、归一化、激活操作,输出特征图。
本发明所采用的第二技术方案是:一种基于部分解耦条件下通道分配的动作识别系统,包括以下模块:
视频帧抽取模块,用于获取视频信息并对视频信息进行处理,抽取视频帧图像;
识别模块,用于将视频帧图像输入到预设的卷积神经网络进行动作识别,得到识别结果。
本发明方法及系统的有益效果是:本发明提出了Decoupled-3D结构,将Decoupled-3D结构应用到卷积神经网络,基于Decoupled-3D结构进行解耦和通道分解,另外,在部分解耦的条件下,Decoupled-3D模块利用通道分解来平衡模型的时空表达能力。
附图说明
图1是本发明具体实施例预设的卷积神经网络的结构示意图;
图2是本发明具体实施例部分解耦示意图;
图3是本发明具体实施例一种基于部分解耦条件下通道分配的动作识别方法的步骤流程图;
图4是本发明具体实施例一种基于部分解耦条件下通道分配的动作识别系统的结构框图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
参照图1和图3,本发明提供了一种基于部分解耦条件下通道分配的动作识别方法,该方法包括以下步骤:
S1、获取视频信息并对视频信息进行处理,抽取视频帧图像;
S2、将视频帧图像输入到预设的卷积神经网络进行动作识别,得到识别结果;
所述预设的卷积神经网络包括残差层、两个R(2+1)块、Decoupled-3D模块、池化层和全连接层。
具体地,由于卷积核之间的相互耦合会导致冗余表达,因此在卷积分解过程中对3D卷积核进行解耦。分解后的伪三维卷积核一般由空间二维卷积滤波器和时间一维卷积滤波器组成,如R(2+1)D块。对于3D卷积分解后的时间卷积部分,我们对卷积层中的耦合度进行定义,表示为:
其中m代表共享参数的卷积核个数,Co代表总的卷积核个数。
图2为3D卷积分解过程中的部分解耦示意图,输入特征先后进行空间卷积与时间卷积,Ci代表输入通道数,Cm代表空间卷积层输出特征的通道数,一个虚线框即为一个耦合组。
进一步作为本方法的优选实施例,所述获取视频信息并对视频信息进行处理,抽取视频帧图像这一步骤,其具体包括:
获取视频并将视频按某一帧率裁剪成画面帧,选取连续的画面帧图像;
将选取的画面帧图像按预设规则裁剪尺寸,得到视频帧图像。
所述R(2+1)D块是构成残差层的基础单元,一个R(2+1)D块称为一个block。
进一步作为本发明的优选实施例,所述Decoupled-3D模块基于通道分解的部分解耦时空滤波器设计形成,所述Decoupled-3D模块包括利用通道分解形成的空间卷积层和时间卷积层。
具体地,本发明将3D卷积核在部分解耦的条件下分解为空间和时间核,并将其命名为Decoupled-3D卷积核。本发明考虑3D卷积核的分解形式,其大小为h×w×t,输入通道数为Ci,并将其分解过程定义为:
与以前将3D卷积核简单分解为时空卷积核的工作不同,本发明探讨了通道信息在时空维度上的分配与建模。当通道参数复杂度在空间和时间维度上扩展时,我们利用分组卷积来进行通道划分,实现通道维度信息的分配。
进一步作为本发明优选实施例,所述将视频帧图像输入到预设的卷积神经网络进行动作识别,得到识别结果这一步骤,其具体包括;
将视频帧图像输入到预设的卷积神经网络;
依次经过残差层、两个R(2+1)D块和Decoupled-3D模块对视频帧图像的数据进行卷积操作,经过池化层进行下采样,最后基于全连接层对特征进行分类,得到识别结果。
进一步作为本发明优选实施例,经过Decoupled-3D模块对视频帧图像的数据进行卷积操作具体为数据进入Decoupled-3D模块后依次进行空间卷积、归一化、激活、时间卷积、归一化、激活操作,输出特征图。
具体地,本发明用基于通道分解的部分解耦时空滤波器设计形成Decoupled-3D模块。
所述Decoupled-3D模块的设计步骤包括部分解耦和通道分配,上文已经对部分解耦步骤进行了说明,另外,卷积在部分解耦条件下进行通道分配的情况分析如下:
(1)一般情况下的时空滤波器,对于具有Ci个输入通道和大小为h×w×t核的3D卷积层,其参数量为CihwtCo,基于部分解耦的通道分解时空卷积层的参数量表达式可写成如下形式
其中M为空间卷积核的个数,通过调整M可以使本发明的卷积层参数量与3D卷积层参数量保持一致,方便在同等条件下进行对比,调整公式为:
下文对分解时的特殊情况进行说明时,也会对空间卷积核的数量M进行计算。
特殊情况下的时空滤波器,对于单个时空分解卷积核,在进行通道分配时,会出现通道参数复杂度全在空间维度展开、通道参数复杂度全在时间维度展开的情况。扩展至卷积层,在部分解耦的情况下,一个时间卷积核会对应处理部分空间卷积核的输出特征,通道参数复杂度在空间的分配包含全在空间与全在时间两种极限情况。
当通道参数复杂度全在空间维度展开时,对于每个输入通道,都由不共享参数的大小为h×w而通道数为Ci的空间卷积核来进行对应的卷积操作,M个空间滤波器会对应产生具有Cm个通道的特征图,在部分解耦的情况下,时间卷积层将空间卷积层的输出特征图划分为个耦合组,然后在每个组内执行卷积运算,这种情况下空间卷积核的个数为
当通道参数复杂度全在时间维度展开时,空间卷积核是在每个输入通道上共享参数的单通道卷积核而时间卷积核包含m×Ci个1D分量由于通道维度信息都是在时间维度上建模的,所以空间卷积是逐通道卷积,参数在所有输入通道上都是共享的,1D分量在时间维度上对所有通道信息进行建模。这种情况下空间卷积核的个数为:
如图4所示,一种基于部分解耦条件下通道分配的动作识别系统,包括以下模块:
视频帧抽取模块,用于获取视频信息并对视频信息进行处理,抽取视频帧图像;
识别模块,用于将视频帧图像输入到预设的卷积神经网络进行动作识别,得到识别结果。
进一步作为本系统优选实施例,所述视频帧抽取模块还包括:
画面帧裁剪子模块,用于获取视频并将视频按某一帧率裁剪成画面帧,选取连续的画面帧图像;
尺寸裁剪子模块,用于将选取的画面帧图像按预设规则裁剪尺寸,得到视频帧图像。
上述系统实施例中的内容均适用于本方法实施例中,本方法实施例所具体实现的功能与上述系统实施例相同,并且达到的有益效果与上述系统实施例所达到的有益效果也相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (6)
1.一种基于部分解耦条件下通道分配的动作识别方法,其特征在于,包括以下步骤:
获取视频信息并对视频信息进行处理,抽取视频帧图像;
将视频帧图像输入到预设的卷积神经网络进行动作识别,得到识别结果;
所述预设的卷积神经网络包括残差层、两个R(2+1)块、Decoupled-3D模块、池化层和全连接层。
2.根据权利要求1所述一种基于部分解耦条件下通道分配的动作识别方法,其特征在于,所述获取视频信息并对视频信息进行处理,抽取视频帧图像这一步骤,其具体包括:
获取视频并将视频按某一帧率裁剪成画面帧,选取连续的画面帧图像;
将选取的画面帧图像按预设规则裁剪尺寸,得到视频帧图像。
3.根据权利要求2所述一种基于部分解耦条件下通道分配的动作识别方法,其特征在于,所述Decoupled-3D模块基于通道分解的部分解耦时空滤波器设计形成,所述Decoupled-3D模块包括部分解耦条件下利用通道分解形成的空间卷积层和时间卷积层。
4.根据权利要求3所述一种基于部分解耦条件下通道分配的动作识别方法,其特征在于,所述将视频帧图像输入到预设的卷积神经网络进行动作识别,得到识别结果这一步骤,其具体包括:
将视频帧图像输入到预设的卷积神经网络;
依次经过残差层、两个R(2+1)D块和Decoupled-3D模块对视频帧图像的数据进行卷积操作,经过池化层进行下采样,最后基于全连接层对特征进行分类,得到识别结果。
5.根据权利要求4所述一种基于部分解耦条件下通道分配的动作识别方法,其特征在于,经过Decoupled-3D模块对视频帧图像的数据进行卷积操作具体为数据进入Decoupled-3D模块后依次进行空间卷积、归一化、激活、时间卷积、归一化、激活操作,输出特征图。
6.一种基于部分解耦条件下通道分配的动作识别系统,其特征在于,包括以下模块:
视频帧抽取模块,用于获取视频信息并对视频信息进行处理,抽取视频帧图像;
识别模块,用于将视频帧图像输入到预设的卷积神经网络进行动作识别,得到识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011484595.4A CN112597856B (zh) | 2020-12-16 | 2020-12-16 | 一种基于部分解耦条件下通道分配的动作识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011484595.4A CN112597856B (zh) | 2020-12-16 | 2020-12-16 | 一种基于部分解耦条件下通道分配的动作识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112597856A true CN112597856A (zh) | 2021-04-02 |
CN112597856B CN112597856B (zh) | 2023-09-26 |
Family
ID=75196250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011484595.4A Active CN112597856B (zh) | 2020-12-16 | 2020-12-16 | 一种基于部分解耦条件下通道分配的动作识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112597856B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341452A (zh) * | 2017-06-20 | 2017-11-10 | 东北电力大学 | 基于四元数时空卷积神经网络的人体行为识别方法 |
CN107463949A (zh) * | 2017-07-14 | 2017-12-12 | 北京协同创新研究院 | 一种视频动作分类的处理方法及装置 |
CN108764128A (zh) * | 2018-05-25 | 2018-11-06 | 华中科技大学 | 一种基于稀疏时间分段网络的视频动作识别方法 |
CN110909658A (zh) * | 2019-11-19 | 2020-03-24 | 北京工商大学 | 一种基于双流卷积网络的视频中人体行为识别方法 |
-
2020
- 2020-12-16 CN CN202011484595.4A patent/CN112597856B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341452A (zh) * | 2017-06-20 | 2017-11-10 | 东北电力大学 | 基于四元数时空卷积神经网络的人体行为识别方法 |
CN107463949A (zh) * | 2017-07-14 | 2017-12-12 | 北京协同创新研究院 | 一种视频动作分类的处理方法及装置 |
CN108764128A (zh) * | 2018-05-25 | 2018-11-06 | 华中科技大学 | 一种基于稀疏时间分段网络的视频动作识别方法 |
CN110909658A (zh) * | 2019-11-19 | 2020-03-24 | 北京工商大学 | 一种基于双流卷积网络的视频中人体行为识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112597856B (zh) | 2023-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112132023B (zh) | 基于多尺度上下文增强网络的人群计数方法 | |
US11610351B2 (en) | Method and device for image synthesis | |
US10311547B2 (en) | Image upscaling system, training method thereof, and image upscaling method | |
Narang et al. | Compact support biorthogonal wavelet filterbanks for arbitrary undirected graphs | |
EP4109392A1 (en) | Image processing method and image processing device | |
CN112862681B (zh) | 一种超分辨率方法、装置、终端设备及存储介质 | |
DE102019130702A1 (de) | Stilbasierte architektur für generative neuronale netzwerke | |
CN109964250A (zh) | 用于分析卷积神经网络中的图像的方法和系统 | |
CN111832570A (zh) | 一种图像语义分割模型训练方法及系统 | |
DE112018002228T5 (de) | Konfigurierbare faltungsmaschine für verschachtelte kanaldaten | |
CN111932445A (zh) | 对风格迁移网络的压缩方法及风格迁移方法、装置和系统 | |
CN112862669B (zh) | 图像生成模型的训练方法、生成方法、装置及设备 | |
CN114973049B (zh) | 一种统一卷积与自注意力的轻量视频分类方法 | |
JP6476531B1 (ja) | 処理装置、処理方法、コンピュータプログラム及び処理システム | |
CN111008936A (zh) | 一种多光谱图像全色锐化方法 | |
CN111709415B (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN110782406A (zh) | 一种基于信息蒸馏网络的图像去噪方法及装置 | |
CN111368941A (zh) | 一种图像处理方法、装置以及计算机存储介质 | |
CN111886604A (zh) | 用于运行人工神经网络的方法 | |
CN112597856B (zh) | 一种基于部分解耦条件下通道分配的动作识别方法及系统 | |
Abbas et al. | Reduced reference image quality assessment technique based on DWT and path integral local binary patterns | |
US20220398696A1 (en) | Image processing method and device, and computer-readable storage medium | |
CN114170082A (zh) | 视频播放、图像处理和模型训练方法、装置以及电子设备 | |
CN113627460A (zh) | 一种基于时间切片卷积神经网络的目标识别系统与方法 | |
CN109409300A (zh) | 一种基于fpga的高光谱目标检测osp算法的实现系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |