CN112861698B - 一种基于多尺度时序感受野的压缩域行为识别方法 - Google Patents
一种基于多尺度时序感受野的压缩域行为识别方法 Download PDFInfo
- Publication number
- CN112861698B CN112861698B CN202110150371.8A CN202110150371A CN112861698B CN 112861698 B CN112861698 B CN 112861698B CN 202110150371 A CN202110150371 A CN 202110150371A CN 112861698 B CN112861698 B CN 112861698B
- Authority
- CN
- China
- Prior art keywords
- time sequence
- frame
- receptive field
- motion vector
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000033001 locomotion Effects 0.000 claims abstract description 96
- 239000013598 vector Substances 0.000 claims abstract description 71
- 230000007246 mechanism Effects 0.000 claims abstract description 18
- 230000006835 compression Effects 0.000 claims abstract description 10
- 238000007906 compression Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 6
- 230000006399 behavior Effects 0.000 claims description 36
- 238000005070 sampling Methods 0.000 claims description 14
- 238000012935 Averaging Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000004927 fusion Effects 0.000 claims description 2
- 230000002401 inhibitory effect Effects 0.000 claims description 2
- 238000011084 recovery Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 abstract description 6
- 238000013527 convolutional neural network Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多尺度时序感受野的压缩域行为识别方法,该方法对于压缩编码后的视频流,先将视频均等划分为8段,从每段中随机选择一个视频组,解码其I帧和4个P帧运动矢量图像,送入包含长时序感受野网络和短时序感受野网络两个支路的多尺度感受野网络中进行预测,最终结果为两个支路预测分数的加权平均。同时在长时序感受野支路加入运动矢量特征引导的通道注意力机制,突出前景特征,减少背景的干扰。经过在公开数据集上训练和测试,验证了本发明的有效性,对于压缩域行为识别的精度提升明显。
Description
技术领域
本发明属于行为识别领域,具体涉及一种基于多尺度时序感受野的压缩域行为识别方法。
背景技术
行为识别技术通过从视频中提取具有判别力的运动特征,实现对视频中行为的分类。行为识别的难点包括视频中不同动作的持续时间差异较大、背景复杂时受背景干扰产生误检等。现有的行为识别算法包括图像域和压缩域两大类。其中图像域算法输入为原始未编码的视频,而压缩域算法则是对经过视频编码技术压缩编码后的视频进行分析。
随着城市智能化的发展,城市中的监控摄像头几乎覆盖城市公共区域的每个角落。同时为了更快的分析监控视频并实时响应,越来越多的边缘服务器被部署到城市的各个区域。边缘服务器相较云服务器,具有距离监控节点近,传输时延短,可快速响应等优点,但是同时其存储空间和计算能力均有一定的限制。在边缘服务器场景下,图像域的行为识别算法需要将视频解压完后再进行分析,解压过程消耗了大量的时间和空间资源,无法满足要求。而压缩域行为识别算法避免了完全解压视频的过程,且往往采用轻量的2D卷积网络,因此在边缘服务器场景下,其时间、空间以及计算效率方面优势明显。
压缩域行为算法通常是将压缩域中的I帧图像、运动矢量图像以及残差图像分别送入不同的2D卷积神经网络中提取空间信息,最终将三者分数进行融合。该结构算法具有时序感受野较小和残差获取耗时的问题。其中:1)时序感受野较小是因为运动矢量和残差仅反映P帧和本视频组I帧间的时序变化信息,时序感受野较小,仅有一个视频组大小。而实际中,不同的行为其持续时间并不相同。对于一些快速运动的行为,如跳跃、摔倒等,其持续时间较短,但是一些缓慢运动的行为,如翻跟头、跨栏等,持续时间较长。仅使用运动矢量特征作为运动表征无法识别不同持续时间的行为。2)为了获取残差图像,需要对当前P帧完全解压,得到P帧原始图像。同时在解压完运动矢量之后,计算由运动矢量和I帧恢复的P帧与原始P帧之间的差异,作为残差图像。其中解压原始P帧的过程大大降低了整体算法的速率。
发明内容
本发明的目的是针对目前压缩域行为识别方法存在的问题,提供了一种基于多尺度时序感受野的压缩域行为识别方法。
本发明采用如下技术方案来实现:
一种基于多尺度时序感受野的压缩域行为识别方法,包括以下步骤:
1)压缩域数据采样,对于压缩编码后的视频流,先将视频均等划分为8段,对每段视频随机选择一个视频组,解码视频组中的I帧图像和4个P帧的运动矢量图像,送入多尺度感受野网络中;
2)多尺度感受野网络结构,包括具有视频级长时序感受野网络和具有帧级别短时序感受野网络两个支路,长时序感受野网络输入为I帧图像和运动矢量图像,短时序感受野网络输入仅为运动矢量图像,最终将两个支路的分数加权平均作为多尺度感受野网络的输出;
3)运动矢量引导的通道注意力机制,在长时序感受野网络中加入运动矢量引导的通道注意力机制,为前景运动通道赋予更大的权值,同时抑制背景通道特征,减少背景的干扰。
本发明进一步的改进在于,步骤1)中,压缩域视频每个帧组设置为12帧图像,其中包含1个I帧图像和11个P帧图像;采样时,先将视频均等划分为8段,每段随机选取一个帧组;之后从选取的帧组中获取I帧和4个P帧的运动矢量图像作为输入数据。
本发明进一步的改进在于,I帧数据由每个帧组的I帧图像堆叠得到,运动矢量数据通过采样每个帧组中的第1、4、7、10号P帧的运动矢量信息,将其拆分为X方向和Y方向,分别存储为二维图像矩阵形式,最终将每个帧组的运动矢量图像堆叠获得。
本发明进一步的改进在于,步骤2)中,长时序感受野网络输入为I帧数据和运动矢量数据,通过2D-CNN提取空间特征的同时,加入特征时序移动,提取时序信息,I帧采样位置遍布整个视频,因此具有视频级的长时序感受野;短时序感受野网络输入为运动矢量图像,经过2D-CNN获取运动特征,运动矢量反映一个帧组内相邻几帧的运动信息,因此具有帧级别的短时序感受野;最终将以上两个支路分类分数加权平均,保证网络结构具有多尺度时序感受野,可识别不同时间长度的行为。
本发明进一步的改进在于,特征时序移动方式如式1所示,其中为I帧的中间层特征,c为特征通道序号,t代表第t个视频组,x,y分别代表特征图中的横纵坐标位置;Vc,i是一维时序卷积核,c代表特征通道序号,i代表一维卷积核中位置;最终的输出特征Yc,t,x,y是中间层特征经过部分特征通道时序移动后的融合特征,融合了I帧间的时序信息;
本发明进一步的改进在于,步骤3)中,加入运动矢量引导通道注意力的机制,如式2-6所示;其中mvc,x,y代表运动矢量特征,c为通道数,x,y为特征图的位置坐标;运动矢量特征先经过一层3*3 2D卷积层和Relu激活函数提取特征,之后通过特征空间平均Avgpool的方式,将特征fc,x,y转换为一维特征dc,1,1;为了进一步整合特征得到通道权值,对dc,1,1分别进行了如式4-5所示的通道压缩和恢复操作,其中r为压缩系数,sc/r,1,1为通道压缩后的中间特征;最终经过Sigmoid函数将值归一化到(0,1),减去0.5,通道权值ac,1,1的范围为(-0.5,0.5)之间;在通道加权后使用残差结构,保留I帧原始特征,其中ic为I帧第c个通道的特征图,最终输出为I帧特征与经过通道权值加权后的特征之和;通过训练网络,注意力机制能够为I帧特征中反映前景目标通道赋予更大的权值,同时为反映背景信息的特征通道赋予较小的权值,达到抑制背景干扰的目的;
fc,x,y=Relu(Conv3*3(mvc,x,y)) (2)
dc,1,1=Avgpool(fc,x,y) (3)
sc/r,1,1=Relu(Conv1*1(dc,1,1)) (4)
ac,1,1=Sigmoid(Conv1*1(sc/r,1,1))-0.5 (5)
Oc=ic+ac*ic (6)。
本发明至少具有以下有益的技术效果:
本发明提供了一种基于多尺度时序感受野的压缩域行为识别方法。该方法从压缩域视频流中采样I帧和运动矢量图像,避免提取残差,具有更快的速度;经过长时序感受野网络和短时序感受野网络的分别提取适用于慢动作的视频级特征和适用于快动作的帧级别特征,采用将两路网络输出加权平均的方式,使网络具有多尺度感受野,可同时识别不同持续时长的动作。同时在长时序感受野中加入运动矢量引导的通道注意力机制,突出前景运动特征通道,抑制背景特征,从而减小了背景的干扰,具有更高的识别精度,因此本算法可实现对不同时长行为的快速、准确识别。
所述方法中的压缩域数据采样,仅获取I帧和运动矢量信息,避免完全解压P帧以及计算残差的时间开销,加快压缩域数据采集速率。同时一个视频组中等间隔采样4帧,相较于通常的仅采样一帧方法,可以更全面地获取视频组中的短时运动信息。
进一步,所述方法中的多尺度感受野网络结构,分为长时序感受野网络和短时序感受野网络两个分支,一方面,利用了I帧图像时序间隔较大且采样的时序位置覆盖了整个视频特点,长时序感受野网络通过提取I帧的空间和时序特征获得视频级感受野,有利于识别持续时间较长的慢动作;另一方面,利用了运动矢量时序间隔较小且仅反映视频组内短时运动信息,短时感受野网络通过提取运动矢量特征,获得帧级别的感受野,有利于识别持续时间较短,变化较快的快动作。最终采用加权平均的方式,融合二者结果,使网络具有多尺度的感受野,对快慢视频均具有较好的识别效果。
进一步,所述方法中的运动矢量引导的通道注意力机制,通过提取运动矢量特征,获取运动前景信息,利用通道注意力机制加强长时序感受野支路中包含前景运动的特征通道,同时抑制背景运动通道,从而减少背景的干扰,提高行为识别准确率。
进一步,为了验证方法的有效性,在公开行为识别数据集HMDB51的split1中进行了训练和测试,通过实验证明所述方法中的多尺度时序感受野和运动矢量引导的通道注意力机制均对行为识别的准确性有一定的提升效果。
综上所述,本发明提供了一种基于多尺度时序感受野的压缩域行为识别方法,针对压缩域视频的特点和行为识别中的不同行为持续时间差异较大、视频中的背景干扰等难点问题,分别提出了压缩域数据采样、多尺度感受野网络结构和运动矢量引导的通道注意力机制,从压缩视频流中提取I帧和等间隔的P帧运动矢量,利用2D-CNN和特征时序移动的方式,提取I帧间的长时序特征,利用2D-CNN提取运动矢量中的短时序特征,通过两路分数加权平均的方式使网络具有多时序感受野,提高网络对于不同持续时长行为的适应能力,可适应不同持续时间的行为。同时,使用运动矢量作为引导,利用注意力机制为I帧不同特征通道赋予不同的权值,突出前景运动特征,抑制背景特征,减少背景的干扰。最后通过在行为识别数据集上的训练和测试,证明了本发明有效地提高了压缩域行为识别的准确率,具有良好的应用价值。
附图说明
图1为本发明中一种基于多尺度时序感受野的压缩域行为识别方法流程图。
图2为本发明中压缩域数据采样的流程图。
图3为本发明中加入运动矢量引导的通道注意力机制后的多尺度感受野网络结构。
具体实施方式
下面结合附图对本发明进行详细阐述:
如图1所示,本发明提供的一种基于多尺度时序感受野的压缩域行为识别方法,以下步骤:
1)压缩域数据采样,如图2所示,对于输入的压缩域视频流,先将视频等间隔划分为8段,每段随机采样一个视频组,每个视频组采用I帧图像和4个P帧的运动矢量图像,作为输入数据。
2)多尺度感受野网络结构,如图3所示,包含长时序和短时序两路网络。对于I帧图像和运动矢量图像,一起送入长时序感受野网络中,通过2D-CNN和特征时序移动的方式,提取I帧空间和时序特征,获取分类分数,因为I帧间隔较大且采样的时序位置覆盖了整段视频,因此具有视频级的长时序感受野;同时将运动矢量图像送入短时序感受野网络,通过2D-CNN提取特征,获取分类分数。最终将两个网络分数加权平均,得到最终的分类结果。
3)运动矢量引导的通道注意力机制,如图3所示,在步骤2)中的长时序感受野网络中加入运动矢量引导的通道注意力机制,使用运动矢量特征为I帧的不同特征通道赋予不同的权值,起到突出前景运动特征,抑制背景特征的作用。
具体来说,在步骤1)压缩域数据采样,对于选中的每个视频组采样其I帧图像,将所有视频组的I帧图像堆叠,作为I帧输入数据。同时,采样每个视频组的第1、4、7、10号P帧的运动矢量,将运动矢量拆分为X和Y方向,每个方向保存为一个图像矩阵,其中的像素值代表当前位置运动矢量X方向或Y方向的大小,并将其归一化至[0,255]图像像素范围内,经所有视频组的运动矢量堆叠作为运动矢量输入数据。
在步骤2)多尺度感受野网络结构,其中长时序感受野支路输入为I帧数据和运动矢量数据,1其2D-CNN采用ResNet50网络结构,对于I帧数据通过2D-CNN和特征时序移动的方式提取并融合时序特征,特征移动时仅移动八分之一通道的特征,避免对原I帧的空间特征影响较大。另一支短时序感受野网络输入为运动矢量数据,其2D-CNN也采用ResNet50的网络结构,通过2D-CNN提取运动矢量特征,得到分类分数。最终多尺度感受野网络的输出为长时序和短时序感受野两路分数以2:1的权值加权平均的结果。
在步骤3)运动矢量引导的通道注意力机制,在步骤2)中多尺度感受野的长时序感受野网络中,经过特征时序移动方式获得I帧的时序特征后,使用运动矢量特征为I帧不同特征通道赋予不同的权值。运动矢量特征经过一层3*3卷积层整合特征后,使用空间归一化Avgpooling的方式,将运动矢量特征转化为一维特征,其中维度为I帧特征通道的大小。之后依次送入两个1*1卷积层,对特征通道进行压缩和恢复,目的是混合运动矢量的多通道信息,对I帧通道的权值设置更准确。再经过Sigmoid函数并减去0.5,将权值归一化至[-0.5,0.5]之间,与I帧特征逐通道相乘。最终将加权后的特征与原本I帧特征相加,实现既保留了I帧原有特征,又突出了前景特征,抑制了背景特征。运动矢量能够反映前景运动目标的空间位置,经过通道注意力机制,为I帧特征中前景目标运动突出的特征通道赋予更大的权值,同时抑制背景特征,从而减少背景的干扰,提高算法的鲁棒性。
为了测试本发明对于压缩域行为识别的有效性,在公开的HMDB51数据集的split1上进行了训练和测试,视频采用MPEG-4进行编码,视频组长度设置为12帧,其中包括一个I帧和11个P帧。表1中展示了本发明与现有1压缩域行为识别算法(Coviar和DMC-Net)的实验结果对比。根据测试结果,本发明中提出的多尺度感受野网络结构和运动矢量引导的通道注意力机制对于压缩域行为识别的精度提升明显。
表1本发明在HMDB51-split1上的评估结果
Claims (4)
1.一种基于多尺度时序感受野的压缩域行为识别方法,其特征在于,包括以下步骤:
1)压缩域数据采样,对于压缩编码后的视频流,先将视频均等划分为8段,对每段视频随机选择一个视频组,解码视频组中的I帧图像和4个P帧的运动矢量图像,送入多尺度感受野网络中;
2)多尺度感受野网络结构,包括具有视频级长时序感受野网络和具有帧级别短时序感受野网络两个支路,长时序感受野网络输入为I帧图像和运动矢量图像,短时序感受野网络输入仅为运动矢量图像,最终将两个支路的分数加权平均作为多尺度感受野网络的输出;长时序感受野网络输入为I帧数据和运动矢量数据,通过2D-CNN提取空间特征的同时,加入特征时序移动,提取时序信息,I帧采样位置遍布整个视频,因此具有视频级的长时序感受野;短时序感受野网络输入为运动矢量图像,经过2D-CNN获取运动特征,运动矢量反映一个帧组内相邻几帧的运动信息,因此具有帧级别的短时序感受野;最终将以上两个支路分类分数加权平均,保证网络结构具有多尺度时序感受野,可识别不同时间长度的行为;
特征时序移动方式如式(1)所示,其中为I帧的中间层特征,c为特征通道序号,t代表第t个视频组,x,y分别代表特征图中的横纵坐标位置;Vc,i是一维时序卷积核,i代表一维卷积核中位置;最终的输出特征Yc,t,x,y是中间层特征经过部分特征通道时序移动后的融合特征,融合了I帧间的时序信息;
3)运动矢量引导的通道注意力机制,在长时序感受野网络中加入运动矢量引导的通道注意力机制,为前景运动通道赋予更大的权值,同时抑制背景通道特征,减少背景的干扰。
2.根据权利要求1所述的一种基于多尺度时序感受野的压缩域行为识别方法,其特征在于,步骤1)中,压缩域视频每个帧组设置为12帧图像,其中包含1个I帧图像和11个P帧图像;采样时,先将视频均等划分为8段,每段随机选取一个帧组;之后从选取的帧组中获取I帧和4个P帧的运动矢量图像作为输入数据。
3.根据权利要求2所述的一种基于多尺度时序感受野的压缩域行为识别方法,其特征在于,I帧数据由每个帧组的I帧图像堆叠得到,运动矢量数据通过采样每个帧组中的第1、4、7、10号P帧的运动矢量信息,将其拆分为X方向和Y方向,分别存储为二维图像矩阵形式,最终将每个帧组的运动矢量图像堆叠获得。
4.根据权利要求1所述的一种基于多尺度时序感受野的压缩域行为识别方法,其特征在于,步骤3)中,加入运动矢量引导通道注意力的机制,如式(2)-(6)所示;其中mvc,x,y代表运动矢量特征,x,y为特征图的位置坐标;运动矢量特征先经过一层3*32D卷积层和Relu激活函数提取特征,之后通过特征空间平均Avgpool的方式,将特征fc,x,y转换为一维特征dc,1,1;为了进一步整合特征得到通道权值,对dc,1,1分别进行了如式(4)-(5)所示的通道压缩和恢复操作,其中r为压缩系数,sc/r,1,1为通道压缩后的中间特征;最终经过Sigmoid函数将值归一化到(0,1),减去0.5,通道权值ac,1,1的范围为(-0.5,0.5)之间;在通道加权后使用残差结构,保留I帧原始特征,其中ic为I帧第c个通道的特征图,最终输出为I帧特征与经过通道权值加权后的特征之和;通过训练网络,注意力机制能够为I帧特征中反映前景目标通道赋予更大的权值,同时为反映背景信息的特征通道赋予较小的权值,达到抑制背景干扰的目的;
fc,x,y=Relu(Conv3*3(mvc,x,y)) (2)
dc,1,1=Avgpool(fc,x,y) (3)
sc/r,1,1=Relu(Conv1*1(dc,1,1)) (4)
ac,1,1=Sigmoid(Conv1*1(sc/r,1,1))-0.5 (5)
Oc=ic+ac*ic (6)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110150371.8A CN112861698B (zh) | 2021-02-03 | 2021-02-03 | 一种基于多尺度时序感受野的压缩域行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110150371.8A CN112861698B (zh) | 2021-02-03 | 2021-02-03 | 一种基于多尺度时序感受野的压缩域行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112861698A CN112861698A (zh) | 2021-05-28 |
CN112861698B true CN112861698B (zh) | 2023-04-07 |
Family
ID=75987839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110150371.8A Active CN112861698B (zh) | 2021-02-03 | 2021-02-03 | 一种基于多尺度时序感受野的压缩域行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112861698B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117474956B (zh) * | 2023-12-25 | 2024-03-26 | 浙江优众新材料科技有限公司 | 基于运动估计注意力的光场重建模型训练方法及相关设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7227893B1 (en) * | 2002-08-22 | 2007-06-05 | Xlabs Holdings, Llc | Application-specific object-based segmentation and recognition system |
CN111310676A (zh) * | 2020-02-21 | 2020-06-19 | 重庆邮电大学 | 基于CNN-LSTM和attention的视频动作识别方法 |
CN111414876A (zh) * | 2020-03-26 | 2020-07-14 | 西安交通大学 | 一种基于时序引导空间注意力的暴力行为识别方法 |
CN112235569A (zh) * | 2020-10-12 | 2021-01-15 | 国家计算机网络与信息安全管理中心 | 基于h264压缩域的快速视频分类方法、系统及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11361557B2 (en) * | 2019-01-18 | 2022-06-14 | Toyota Research Institute, Inc. | Attention-based recurrent convolutional network for vehicle taillight recognition |
-
2021
- 2021-02-03 CN CN202110150371.8A patent/CN112861698B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7227893B1 (en) * | 2002-08-22 | 2007-06-05 | Xlabs Holdings, Llc | Application-specific object-based segmentation and recognition system |
CN111310676A (zh) * | 2020-02-21 | 2020-06-19 | 重庆邮电大学 | 基于CNN-LSTM和attention的视频动作识别方法 |
CN111414876A (zh) * | 2020-03-26 | 2020-07-14 | 西安交通大学 | 一种基于时序引导空间注意力的暴力行为识别方法 |
CN112235569A (zh) * | 2020-10-12 | 2021-01-15 | 国家计算机网络与信息安全管理中心 | 基于h264压缩域的快速视频分类方法、系统及装置 |
Non-Patent Citations (2)
Title |
---|
A Slow-I-Fast-P Architecture for Compressed Video Action Recognition;Jiapeng Li等;《MM "20: Proceedings of the 28th ACMInternationalConferenceonMultimedia》;20201012;第2039-2047页 * |
集成BP神经网络预测模型的研究与应用;赵会敏等;《电信科学》;20160229;第32卷(第2期);第60-67页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112861698A (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wen et al. | Detection, tracking, and counting meets drones in crowds: A benchmark | |
Poyser et al. | On the impact of lossy image and video compression on the performance of deep convolutional neural network architectures | |
CN112464807A (zh) | 视频动作识别方法、装置、电子设备和存储介质 | |
Ditsanthia et al. | Video representation learning for cctv-based violence detection | |
Liu et al. | Highway vehicle counting in compressed domain | |
Sankisa et al. | Video error concealment using deep neural networks | |
dos Santos et al. | CV-C3D: action recognition on compressed videos with convolutional 3d networks | |
CN114241379A (zh) | 一种乘客异常行为识别方法、装置、设备及乘客监控系统 | |
CN113591674A (zh) | 一种面向实时视频流的边缘环境行为识别系统 | |
CN112861698B (zh) | 一种基于多尺度时序感受野的压缩域行为识别方法 | |
Li et al. | Video prediction for driving scenes with a memory differential motion network model | |
Lu et al. | Environment-aware multiscene image enhancement for internet of things enabled edge cameras | |
CN113489958A (zh) | 一种基于视频编码数据多特征融合的动态手势识别方法及系统 | |
CN113014923A (zh) | 一种基于压缩域表征运动向量的行为识别方法 | |
Chang et al. | Stip: A spatiotemporal information-preserving and perception-augmented model for high-resolution video prediction | |
Sun et al. | Transformer with spatio-temporal representation for video anomaly detection | |
CN111680618A (zh) | 基于视频数据特性的动态手势识别方法、存储介质和设备 | |
Golda et al. | What goes around comes around: Cycle-consistency-based short-term motion prediction for anomaly detection using generative adversarial networks | |
Jia et al. | PV-YOLO: An Object Detection Model for Panoramic Video based on YOLOv4 | |
Jing et al. | Video prediction: a step-by-step improvement of a video synthesis network | |
CN114173206B (zh) | 融合用户兴趣和行为特征的低复杂度视点预测方法 | |
Mahmud et al. | Multi-view frame reconstruction with conditional gan | |
He et al. | MTRFN: Multiscale temporal receptive field network for compressed video action recognition at edge servers | |
Ghafari et al. | Novel gaussian mixture-based video coding for fixed background video streaming | |
CN114863336A (zh) | 一种信息确定方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |