CN116959100A - 一种基于频域增强的压缩视频人体行为识别方法 - Google Patents
一种基于频域增强的压缩视频人体行为识别方法 Download PDFInfo
- Publication number
- CN116959100A CN116959100A CN202310732026.4A CN202310732026A CN116959100A CN 116959100 A CN116959100 A CN 116959100A CN 202310732026 A CN202310732026 A CN 202310732026A CN 116959100 A CN116959100 A CN 116959100A
- Authority
- CN
- China
- Prior art keywords
- network
- module
- frequency domain
- channel
- fenet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000006399 behavior Effects 0.000 claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000011176 pooling Methods 0.000 claims description 15
- 230000002123 temporal effect Effects 0.000 claims description 11
- 230000036961 partial effect Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000002860 competitive effect Effects 0.000 abstract description 2
- 239000013598 vector Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Psychiatry (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于频域增强的压缩视频人体行为识别方法。该方法包括:构建频域增强FE模块,所述FE模块包括时间‑通道双头注意力TCTHA模块和频段重叠的分组卷积FOGC模块;将所述FE模块插入到骨干网络为ResNet‑50的网络中,得到频域增强的压缩视频人体行为识别FENet网络,对所述FENet网络进行训练;将待识别的压缩视频数据输入到训练好的FENet网络中,FENet网络输出所述待识别的压缩视频的人体行为识别结果。本发明方法解决了频域学习的低频纹理和边缘线索丢失问题、时空建模不足的问题,与其他基于频域数据的方法相比,达到了更高的识别准确率,与其他基于压缩域数据的方法和基于RGB数据方法相比,也达到了具有竞争力的准确率,同时具有较高的效率。
Description
技术领域
本发明涉及视频分析技术领域,尤其涉及一种基于频域增强的压缩视频人体行为识别方法。
背景技术
人体行为识别是智能视频分析领域的研究热点,是智能视频分析与理解、视频监控、人机交互等诸多领域的理论基础,近年来得到了学术界及工程界的广泛重视,人体行为识别在视频检索、自动驾驶和智能监控等方面有广泛的应用前景。而基于压缩域数据和频域数据的人体行为识别方法,由于其高效性,以及压缩域数据、频域数据与RGB数据含有的不同语义和运动线索,近年也受到了大量关注。
而对于实际应用,需要考虑实时性和准确性的问题,现有的方法仍存在许多问题和挑战。在基于RGB数据的人体行为识别方法中,基于卷积神经网络(ConvolutionalNeural Network,CNN)的方法取得了较好的识别效果,但仍存在计算量大、缺乏对全局信息的建模等问题;而视觉Transformer的方法能够捕获长距离的特征依赖关系,提升了人体行为识别任务的识别效果,但仍存在计算量大、需要大量训练数据和缺乏对局部信息的建模等问题。另一方面,基于压缩域数据的人体行为识别方法近年来也受到大量关注。基于压缩域数据的人体行为识别利用视频的压缩域数据而不是RGB数据进行人体行为识别。压缩域数据只保留少数完整帧,即I帧(I frame,I),其他帧基于偏移进行重建,称为运动矢量(Motion Vector,MV)和残差(Residual,R)。基于压缩域数据的人体行为识别方法达到了较高的识别速度,但解码过程仍需花费较长时间,且仍存在空间信息冗余的问题。此外,基于频域数据进行视觉任务的处理的方法也受到了广泛关注,其将频域数据,即离散余弦变换(Discrete Cosine Transform,DCT)系数作为原始图像或压缩视频格式的替代,提供了数据的频域形式,但大部分方法需要完整解压图像或视频,然后再通过DCT变换计算获得其DCT系数,因此速度并没有显著提升。并且,目前基于频域数据的方法忽略了频域不同通道的显著性不同的特点,造成低频包含的显著纹理和边缘信息的丢失,导致目前基于频域数据的方法的识别准确率相较于基于RGB视频帧的方法仍有一定差距。
目前,现有技术的视频人体行为识别方法存在信息冗余问题和识别效率较低的问题。由于视频的相邻帧之间的相似性较高,视频中含有大量的冗余信息。而视频的压缩域数据只保留少数完整帧(I帧),其他帧(P帧,包括残差R和运动矢量MV)基于偏移进行重建,能够一定程度降低视频的信息冗余。另一方面,传统的基于RGB数据的人体行为识别方法需要对视频进行完全解码以获得RGB视频帧,而基于压缩域的方法也需要对I帧和残差R进行完全解码获得RGB数据,解码过程所需的预处理时间较长,降低了人体行为识别的效率;且需要对解码得到的RGB帧进行空间下采样,造成了空间显著信息的丢失。
现有技术的基于频域的人体行为识别方法存在低频显著时空纹理和边缘信息丢失的问题。与RGB数据的通道不同,频域数据的通道显著性分布具有一定的特点,即主要时空信息集中在DC和低频通道,而高频通道包含一部分冗余信息和噪声等。现有的频域学习方法直接采用卷积操作对频域数据的所有通道进行相同处理,忽略了不同频域通道所包含信息量不同的特点,导致了低频的显著时空纹理和边缘线索的丢失,造成频域中行为相关的物体和背景信息不能被有效获取,使得基于频域数据的人体行为识别方法的准确率与基于RGB数据及压缩域数据的方法相比有一定的差距。
现有技术中的第一种压缩视频人体行为识别(CoViAR)方法包括:利用压缩视频的I帧、运动矢量MV、残差R进行人体行为识别。具体处理步骤包括:
1)视频解码。通过对压缩视频进行解码,得到压缩域I帧和P帧(残差R、运动矢量
MV)数据。
2)数据处理。为了打破连续P帧之间的依赖性,使得每个P帧只依赖于参考I帧,而不依赖于其他P帧,累计运动矢量和残差到参考I帧。
3)输入网络。将I帧、残差R、运动矢量MV分别输入到ResNet-152、ResNet-18、
ResNet-18网络中,输入帧数均为3帧,最后对输出的预测分数取平均,得到最终的预测结果。
上述现有技术中的第一种压缩视频人体行为识别(CoViAR)方法的缺点包括:
1)采用ResNet-152作为I帧的骨干网络,计算复杂度较高,导致识别速度下降。
2)仍然需要将压缩域的I帧和残差R解码为RGB图片数据,解码过程仍需要较多时间,降低了人体行为识别的效率。
3)存在空间下采样过程中帧内显著空间信息丢失的问题。
现有技术中的第二种从频域进行快速人体行为识别(Fast-CoViAR)的方法包括:利用压缩视频的频域数据进行人体行为识别。具体处理步骤包括:
1)通过对压缩视频进行解码,得到I帧和运动矢量MV数据,不使用残差R。
2)通过熵解码获得I帧频域DCT数据,并选择16或32个主要通道作为输入。
3)将I帧和运动矢量MV分别输入到适应于DCT输入的ResNet50、ResNet18中,输入帧数均为3帧,最后对输出的预测分数取平均,得到最终的预测结果。
上述现有技术中的第二种从频域进行快速人体行为识别(Fast-CoViAR)的方法的缺点包括:
1)频域数据的获取较为复杂,效率提升不明显。
2)缺乏对频域数据的时空上下文的提取。
3)没有充分利用频域数据的显著性分布特点,导致识别准确率相比基于压缩域的基线方法CoViAR出现明显下降,识别性能与基于压缩域的方法相比有较大差距。
现有技术中的第三种基于频域数据的快速压缩视频人体行为识别方法(Faster-FCoViAR)包括:利用压缩视频部分解码,直接获得视频的频域数据,进行快速的压缩视频人体行为识别。具体处理步骤包括:
1)部分解码。通过对压缩视频进行部分解码,得到I帧和残差R的频域数据以及运动矢量MV,效率较高。
2)通道选择。通过实验选择24个信息显著的通道作为输入。
3)输入网络。将频域I帧、频域残差R、运动矢量MV分别输入到ResNet-50、ResNet-
50、ResNet-18网络中,输入帧数均为3帧,最后对输出的预测分数取平均。
4)空间域-频域联合学习。通过知识蒸馏,将空间语义知识从空间教师网络转移到轻量级的频域学生网络。
上述现有技术中的第三种基于频域数据的快速压缩视频人体行为识别方法(Faster-FCoViAR)的缺点包括:
1)输入帧数较少,不利于网络捕获长期运动线索。
2)缺乏对频域数据的时空上下文的提取。
3)对输入网络的频域数据的所有通道进行同等处理,没有充分利用频域数据不同通道的时空显著性不同的特点,造成时空信息的丢失,导致与基于RGB数据的方法仍有准确率的差距。
发明内容
本发明的实施例提供了一种基于频域增强的压缩视频人体行为识别方法,以实现有效地对压缩视频进行人体行为识别。
为了实现上述目的,本发明采取了如下技术方案。
一种基于频域增强的压缩视频人体行为识别方法,包括:
构建频域增强FE模块,所述FE模块包括时间-通道双头注意力TCTHA模块和频段重叠的分组卷积FOGC模块;
将所述FE模块插入到骨干网络为ResNet-50的网络中,得到频域增强的压缩视频人体行为识别FENet网络,对所述FENet网络进行训练;
将待识别的压缩视频数据输入到训练好的FENet网络中,FENet网络输出所述待识别的压缩视频的人体行为识别结果。
优选地,所述的构建频域增强FE模块,所述FE模块包括时间-通道双头注意力TCTHA模块和频段重叠的分组卷积FOGC模块,包括:
构建包括TCTHA模块和FOGC模块的FE模块,输入特征首先经过TCTHA模块,将TCTHA模块输出的特征输入到FOGC模块中;
所述TCTHA模块对输入特征X进行全局平均池化,得到空间池化后的特征,对空间池化后的特征进行通道维度的1D卷积,得到不同通道的注意力权重,使用通道注意力权重对输入特征的通道维度进行加权,得到输出特征;
所述FOGC模块将输入特征X的通道分成G组,使得每组内只含有相邻频段的通道,组与组之间有部分通道重叠,对每组特征进行一个时间维度的1D卷积和一个空间2D卷积,对不同组的输出特征沿通道维度进行拼接,应用一个1×1的2D卷积将通道维度转换为与输入通道大小一致,得到最终的输出结果。
优选地,所述的TCTHA模块将输入特征分别输入到通道注意力分支和时间注意力分支,在通道注意力分支中,将输入特征X进行全局平均池化,得到空间池化后的特征/>
对特征Uchannel进行通道维度的1D卷积,得到不同通道的注意力权重:
schannel=σ(Conv1D(Uchannel)) (2)
其中Conv1D为卷积核大小为5的1D卷积,σ为sigmoid函数;
使用通道注意力权重对输入特征的通道维度进行加权,得到输出特征
其中·为通道维度的乘法。
在时间注意力分支中,将特征X进行全局平均池化)后,得到空间池化后的特征
对特征Utemporal进行时间维度的1D卷积,得到不同帧的时间注意力权重,捕获时间上下文信息:
stemporal=σ(Conv1D(Utemporal)) (5)
其中Conv1D为卷积核大小为5的1D卷积,σ为sigmoid函数。
使用时间注意力权重对输入特征的时间维度进行加权,得到输出特征
其中·为时间维度的乘法。
将通道注意力分支和时间注意力分支的输出特征沿通道维度进行拼接,经过一个1×1的2D卷积将通道维度恢复到输入通道大小,得到最终的输出结果
其中Conv1×1D为1×1的2D卷积,表示通道注意力分支和时间注意力分支的输出特征沿通道维度进行拼接。
优选地,所述的将所述FE模块插入到骨干网络为ResNet-50的网络中,得到频域增强的压缩视频人体行为识别FENet网络,对所述FENet网络进行训练,包括:
将FE模块插入到骨干网络为ResNet-50的网络中,使用TCTHA模块和FOGC模块替换掉所有ResNet-50的瓶颈块的3×3的2D卷积,得到频域增强的FENet网络;
FENet网络采用ResNet-50作为骨干网络,采用频域部分解码方法获得压缩视频的频域I帧数据,采样帧数为8帧,将频域I帧数据输入到FENet网络中;
训练FENet网络时,对频域I帧进行随机翻转以进行数据增强,采用权重衰减为0.0001的Adam优化器进行训练,训练的批处理Batch大小设置为64,采用和Kinetics-700数据集进行训练,实验一共训练60轮,初始学习率为0.001,且在第10、24和44轮时衰减为原学习率的1/10,得到训练好的FENet网络。
优选地,所述的将待识别的压缩视频数据输入到训练好的FENet网络中,FENet网络输出所述待识别的压缩视频的人体行为识别结果,包括:
对于待识别的压缩域视频,采样共8帧的频域I帧,作为训练好的FENet网络的输入数据,输入数据经过FENet网络中的全连接层后,对所有频域I帧的分类分数进行平均,得到所述待识别的压缩域视频的人体行为识别结果。
由上述本发明的实施例提供的技术方案可以看出,本发明方法解决了频域学习的低频纹理和边缘线索丢失问题、时空建模不足的问题,与其他基于频域数据的方法相比,达到了更高的识别准确率,与其他基于压缩域数据的方法和基于RGB数据方法相比,也达到了具有竞争力的准确率,同时具有较高的效率。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于频域增强的压缩视频人体行为识别方法的处理流程图;
图2为本发明实施例提出的一种频域增强模块(FEBlock)的结构示意图。
图3为本发明实施例提出的一种时间-通道双头注意力模块(TCTHA)结构图;
图4为本发明实施例提出的一种频段重叠的分组卷积模块的结构图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
本发明实施例提供了一种基于频域增强的压缩视频人体行为识别方法的处理流程如图1所示,包括如下的处理步骤:
步骤S10:构建如图2所示的频域增强(Frequency Enhancement,FE)模块,该FE模块包括一个时间-通道双头注意力(Temporal-channel Two-heads Attention,TCTHA)模块和一个频段重叠的分组卷积(Frequency Overlapping Group Convolution,FOGC)模块。输入特征首先经过TCTHA模块增强时间和通道关联,随后将TCTHA模块输出的特征输入到FOGC模块中,进一步增强特征的显著低频时空边缘和纹理线索。
步骤S20:将FE模块插入到骨干网络为ResNet-50的网络中,具体地,使用TCTHA模块和FOGC模块替换掉所有ResNet-50的瓶颈块的3×3的2D卷积,得到频域增强的压缩视频人体行为识别网络(Frequency Enhancement Network,FENet)。
FENet网络采用ResNet-50作为骨干网络。首先,采用频域部分解码方法获得压缩视频的频域I帧数据,采样帧数为8帧。随后,将频域I帧数据输入到FENet中。
训练FENet网络时,对频域I帧进行随机翻转以进行数据增强。采用权重衰减为0.0001的Adam优化器进行训练。训练的批处理(Batch)大小设置为64。采用和Kinetics-700数据集进行训练,实验一共训练60轮,初始学习率为0.001,且在第10、24和44轮时衰减为原学习率的1/10。
步骤S30:将待识别的压缩视频数据输入到训练好的FENet网络中,FENet网络输出所述待识别的压缩视频的人体行为识别结果。
对于待识别的压缩域视频,采样共8帧的频域I帧,不进行任何数据增强,采用一个剪辑(Clip),作为训练好的FENet网络的输入数据,输入数据经过FENet网络,最终经过全连接层(FC Layer)后,对所有频域I帧的分类分数进行平均(Temporal Average),得到上述待识别的压缩域视频的人体行为识别结果。
本发明方法可以应用于人体行为识别、视频分类任务中,如:如在视频检索中,对视频进行分类;在智能监控中,对当前行为类别进行分类等;在人机交互中,对人体行为、手势等进行识别。
具体的,上述步骤S10包括:本发明利用压缩视频的频域数据的分布特点,针对频域学习中低频纹理和边缘线索,导致行为相关的物体和场景特征不能被有效提取,造成识别性能的下降的问题,提出了一种FE模块,该FE模块包括一个TCTHA模块和一个FOGC模块。首先,TCTHA模块通过注意力机制强调帧间的时间上下文关联和帧内的显著频率语义。然后,FOGC模块对不同频段的通道进行分组,强调低频纹理和边缘线索,且每组包含共享通道来保持不同频率信息间的交互。
本发明实施例提出的一种时间-通道双头注意力模块(TCTHA)结构如图3所示。为了增强对于人体行为识别重要的频域通道,并加入时间上下文关联信息。首先,对于输入特征将特征X分别输入到两个分支,其一为通道注意力分支,其二为时间注意力分支。
对于通道注意力分支,将输入特征X进行全局平均池化(Global AveragePooling,GAP),得到空间池化后的特征
随后对特征Uchannel进行通道维度的1D卷积,捕获跨通道的交互信息,得到不同通道的注意力权重:
schannel=σ(Conv1D(Uchannel)) (2)
其中Conv1D为卷积核大小为5的1D卷积,σ为sigmoid函数。
然后使用通道注意力权重对输入特征的通道维度进行加权,得到输出特征
其中·为通道维度的乘法。
另一方面,对于时间注意力分支,同样将特征X进行全局平均池化(GAP)后,得到空间池化后的特征
随后对特征Utemporal进行时间维度的1D卷积,得到不同帧的时间注意力权重,捕获时间上下文信息:
stemporal=σ(Conv1D(Utemporal)) (5)
其中Conv1D为卷积核大小为5的1D卷积,σ为sigmoid函数。
然后使用时间注意力权重对输入特征的时间维度进行加权,得到输出特征
其中·为时间维度的乘法。
最后,将通道注意力分支和时间注意力分支的输出特征沿通道维度进行拼接,最后经过一个1×1的2D卷积将通道维度恢复到输入通道大小,得到最终的输出结果
其中Conv1×1D为1×1的2D卷积,表示通道注意力分支和时间注意力分支的输出特征沿通道维度进行拼接。
本发明实施例提出的一种频段重叠的分组卷积模块的结构如图4所示。突出低频时空线索,抑制高频冗余和噪声,提高网络的频域时空特征提取能力。首先将输入特征X的通道分成G组,使得每组内只含有相邻频段的通道,减少高频冗余和噪声对低频显著时空语义的干扰:
X=[X1;X2;…;Xg;…;XG] (8)
并且,组与组之间有部分通道重叠,以促进不同频段通道间的信息交互,重叠部分通道数与每组通道数的比例为α=noverlap/ng。
然后,对每组特征进行一个时间维度的1D卷积和一个空间2D卷积[14],加强组内的时间上下文联系:
最后,对不同组的输出特征沿通道维度进行拼接,并应用一个1×1的2D卷积将通道维度转换为与输入通道大小一致,得到最终的输出结果,
其中Conv1×1D表示1×1的2D卷积。
通过这种方式,FOGC模块可以更好地提取低频时空线索,提高网络的频域时空建模能力,且分组卷积的计算复杂度低于普通卷积,保持了网络的高效性。
本发明使用时间-通道双头注意力(TCTHA)模块和频段重叠的分组卷积(FOGC)模块替换ResNet-50的瓶颈块的3×3的2D卷积,将FE模块插入到骨干网络为ResNet-50的网络中,替换原ResNet-50的瓶颈块,即得到频域增强的快速压缩视频人体行为识别网络(FENet)。通过FE模块,FENet具有更强的提取低频时空边缘和纹理线索的能力。
综上所述,本发明实施例缓解了现有的频域和压缩域行为算法面临的3个问题:
频域数据的获取的效率问题。本发明利用部分解码,直接获取频域I帧数据作为输入,保留了视频主要信息的同时,降低了数据预处理的复杂度,提高了人体行为识别的效率。
压缩视频的频域数据的时空信息获取不足的问题。本发明提出基于注意力的时间-通道注意力模块(TCTHA),通过时间注意力和通道注意力,增强对于人体行为识别重要的频域通道,并加入时间上下文关联信息,提高网络对频域关键时间和频域线索的提取能力,进而提高了频域人体行为识别的准确率。
频域学习中低频纹理和边缘信息的丢失导致视频中行为相关的物体和场景特征不能被有效提取的问题。本发明提出一种频段重叠的分组卷积模块(FOGC),针对频域数据的通道分布特点,即频域的显著纹理和边缘线索集中在DC和低频通道,而高频通道包含冗余信息和噪声,提出将不同频段的通道进行分组,突出低频时空线索,抑制高频冗余和噪声,提高网络的频域时空特征提取能力。通过这种方式,网络能够捕获到关键的低频时空线索,如边缘和纹理线索,使得网络对具有细小边缘、物体纹理较明显的行为类别具有更好的识别效果;且分组卷积的计算复杂度较低,使得网络具有较高的效率。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (5)
1.一种基于频域增强的压缩视频人体行为识别方法,其特征在于,包括:
构建频域增强FE模块,所述FE模块包括时间-通道双头注意力TCTHA模块和频段重叠的分组卷积FOGC模块;
将所述FE模块插入到骨干网络为ResNet-50的网络中,得到频域增强的压缩视频人体行为识别FENet网络,对所述FENet网络进行训练;
将待识别的压缩视频数据输入到训练好的FENet网络中,FENet网络输出所述待识别的压缩视频的人体行为识别结果。
2.根据权利要求1所述的方法,其特征在于,所述的构建频域增强FE模块,所述FE模块包括时间-通道双头注意力TCTHA模块和频段重叠的分组卷积FOGC模块,包括:
构建包括TCTHA模块和FOGC模块的FE模块,输入特征首先经过TCTHA模块,将TCTHA模块输出的特征输入到FOGC模块中;
所述TCTHA模块对输入特征X进行全局平均池化,得到空间池化后的特征,对空间池化后的特征进行通道维度的1D卷积,得到不同通道的注意力权重,使用通道注意力权重对输入特征的通道维度进行加权,得到输出特征;
所述FOGC模块将输入特征X的通道分成G组,使得每组内只含有相邻频段的通道,组与组之间有部分通道重叠,对每组特征进行一个时间维度的1D卷积和一个空间2D卷积,对不同组的输出特征沿通道维度进行拼接,应用一个1×1的2D卷积将通道维度转换为与输入通道大小一致,得到最终的输出结果。
3.根据权利要求2所述的方法,其特征在于,所述的TCTHA模块将输入特征 分别输入到通道注意力分支和时间注意力分支,在通道注意力分支中,将输入特征X进行全局平均池化,得到空间池化后的特征/>
对特征Uchannel进行通道维度的1D卷积,得到不同通道的注意力权重:
schannel=σ(Conv1D(Uchannel)) (2)
其中Conv1D为卷积核大小为5的1D卷积,σ为sigmoid函数;
使用通道注意力权重对输入特征的通道维度进行加权,得到输出特征
其中·为通道维度的乘法。
在时间注意力分支中,将特征X进行全局平均池化)后,得到空间池化后的特征
对特征Utemporal进行时间维度的1D卷积,得到不同帧的时间注意力权重,捕获时间上下文信息:
stemporal=σ(Conv1D(Utemporal)) (5)
其中Conv1D为卷积核大小为5的1D卷积,σ为sigmoid函数。
使用时间注意力权重对输入特征的时间维度进行加权,得到输出特征
其中·为时间维度的乘法。
将通道注意力分支和时间注意力分支的输出特征沿通道维度进行拼接,经过一个1×1的2D卷积将通道维度恢复到输入通道大小,得到最终的输出结果
其中Conv1×1D为1×1的2D卷积,表示通道注意力分支和时间注意力分支的输出特征沿通道维度进行拼接。
4.根据权利要求1所述的方法,其特征在于,所述的将所述FE模块插入到骨干网络为ResNet-50的网络中,得到频域增强的压缩视频人体行为识别FENet网络,对所述FENet网络进行训练,包括:
将FE模块插入到骨干网络为ResNet-50的网络中,使用TCTHA模块和FOGC模块替换掉所有ResNet-50的瓶颈块的3×3的2D卷积,得到频域增强的FENet网络;
FENet网络采用ResNet-50作为骨干网络,采用频域部分解码方法获得压缩视频的频域I帧数据,采样帧数为8帧,将频域I帧数据输入到FENet网络中;
训练FENet网络时,对频域I帧进行随机翻转以进行数据增强,采用权重衰减为0.0001的Adam优化器进行训练,训练的批处理Batch大小设置为64,采用和Kinetics-700数据集进行训练,实验一共训练60轮,初始学习率为0.001,且在第10、24和44轮时衰减为原学习率的1/10,得到训练好的FENet网络。
5.根据权利要求4所述的方法,其特征在于,所述的将待识别的压缩视频数据输入到训练好的FENet网络中,FENet网络输出所述待识别的压缩视频的人体行为识别结果,包括:
对于待识别的压缩域视频,采样共8帧的频域I帧,作为训练好的FENet网络的输入数据,输入数据经过FENet网络中的全连接层后,对所有频域I帧的分类分数进行平均,得到所述待识别的压缩域视频的人体行为识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310732026.4A CN116959100A (zh) | 2023-06-20 | 2023-06-20 | 一种基于频域增强的压缩视频人体行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310732026.4A CN116959100A (zh) | 2023-06-20 | 2023-06-20 | 一种基于频域增强的压缩视频人体行为识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116959100A true CN116959100A (zh) | 2023-10-27 |
Family
ID=88443506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310732026.4A Pending CN116959100A (zh) | 2023-06-20 | 2023-06-20 | 一种基于频域增强的压缩视频人体行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116959100A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008938A (zh) * | 2019-11-25 | 2020-04-14 | 天津大学 | 一种基于内容和连续性引导的实时多帧比特增强方法 |
US11064207B1 (en) * | 2020-04-09 | 2021-07-13 | Jianghong Yu | Image and video processing methods and systems |
US20220207356A1 (en) * | 2020-12-30 | 2022-06-30 | Quopin Co., Ltd. | Neural network processing unit with network processor and convolution processor |
CN115273169A (zh) * | 2022-05-23 | 2022-11-01 | 西安电子科技大学 | 基于时-空频域线索增强的人脸伪造检测系统和方法 |
CN116110121A (zh) * | 2022-12-13 | 2023-05-12 | 北京交通大学 | 基于特征压缩的轻量化行为识别方法及系统 |
CN116189306A (zh) * | 2023-03-13 | 2023-05-30 | 重庆邮电大学 | 基于联合注意力机制的人体行为识别方法 |
-
2023
- 2023-06-20 CN CN202310732026.4A patent/CN116959100A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008938A (zh) * | 2019-11-25 | 2020-04-14 | 天津大学 | 一种基于内容和连续性引导的实时多帧比特增强方法 |
US11064207B1 (en) * | 2020-04-09 | 2021-07-13 | Jianghong Yu | Image and video processing methods and systems |
US20220207356A1 (en) * | 2020-12-30 | 2022-06-30 | Quopin Co., Ltd. | Neural network processing unit with network processor and convolution processor |
CN115273169A (zh) * | 2022-05-23 | 2022-11-01 | 西安电子科技大学 | 基于时-空频域线索增强的人脸伪造检测系统和方法 |
CN116110121A (zh) * | 2022-12-13 | 2023-05-12 | 北京交通大学 | 基于特征压缩的轻量化行为识别方法及系统 |
CN116189306A (zh) * | 2023-03-13 | 2023-05-30 | 重庆邮电大学 | 基于联合注意力机制的人体行为识别方法 |
Non-Patent Citations (2)
Title |
---|
ZEQUN QIN ET AL: "FcaNet: Frequency Channel Attention Networks", ARXIV, 22 December 2020 (2020-12-22) * |
解怀奇;乐红兵;: "基于通道注意力机制的视频人体行为识别", 电子技术与软件工程, no. 04, 15 February 2020 (2020-02-15) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Min et al. | Tased-net: Temporally-aggregating spatial encoder-decoder network for video saliency detection | |
Kim et al. | Fully deep blind image quality predictor | |
US10153001B2 (en) | Video skimming methods and systems | |
CN110798690B (zh) | 视频解码方法、环路滤波模型的训练方法、装置和设备 | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
CN112468888B (zh) | 基于gru网络的视频摘要生成方法与系统 | |
Zhang et al. | Msfc: Deep feature compression in multi-task network | |
CN112801068B (zh) | 一种视频多目标跟踪与分割系统和方法 | |
CN112200096B (zh) | 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质 | |
WO2023159765A1 (zh) | 视频搜索方法和装置、电子设备、存储介质 | |
dos Santos et al. | CV-C3D: action recognition on compressed videos with convolutional 3d networks | |
Zhou et al. | Transformer-based multi-scale feature integration network for video saliency prediction | |
CN116311525A (zh) | 一种基于跨模态融合的视频行为识别方法 | |
Kumar et al. | Learning unsupervised visual representations using 3d convolutional autoencoder with temporal contrastive modeling for video retrieval | |
Liu et al. | Video action recognition with visual privacy protection based on compressed sensing | |
CN111680618A (zh) | 基于视频数据特性的动态手势识别方法、存储介质和设备 | |
CN115393788B (zh) | 一种基于增强全局信息注意力的多尺度监控行人重识别方法 | |
Li et al. | Fine-grained adversarial image inpainting with super resolution | |
CN116959100A (zh) | 一种基于频域增强的压缩视频人体行为识别方法 | |
CN115965898A (zh) | 多级分支卷积与膨胀交互采样结合的视频情感分类方法 | |
Luo et al. | Deep semantic image compression via cooperative network pruning | |
Roka et al. | Deep stacked denoising autoencoder for unsupervised anomaly detection in video surveillance | |
CN114782995A (zh) | 一种基于自注意力机制的人交互行为检测方法 | |
Galteri et al. | Reading text in the wild from compressed images | |
CN115546885A (zh) | 一种基于增强时空特征的动作识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |