CN113014923A - 一种基于压缩域表征运动向量的行为识别方法 - Google Patents
一种基于压缩域表征运动向量的行为识别方法 Download PDFInfo
- Publication number
- CN113014923A CN113014923A CN202110232921.0A CN202110232921A CN113014923A CN 113014923 A CN113014923 A CN 113014923A CN 202110232921 A CN202110232921 A CN 202110232921A CN 113014923 A CN113014923 A CN 113014923A
- Authority
- CN
- China
- Prior art keywords
- motion
- motion vector
- video
- information
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 title claims abstract description 97
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000005070 sampling Methods 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 claims description 7
- 230000002902 bimodal effect Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000006073 displacement reaction Methods 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 claims 1
- 238000005192 partition Methods 0.000 claims 1
- 230000009471 action Effects 0.000 abstract description 9
- 230000006399 behavior Effects 0.000 description 25
- 230000003287 optical effect Effects 0.000 description 10
- 238000000605 extraction Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- NVNSXBXKNMWKEJ-UHFFFAOYSA-N 5-[[5-(2-nitrophenyl)furan-2-yl]methylidene]-1,3-diphenyl-2-sulfanylidene-1,3-diazinane-4,6-dione Chemical compound [O-][N+](=O)C1=CC=CC=C1C(O1)=CC=C1C=C1C(=O)N(C=2C=CC=CC=2)C(=S)N(C=2C=CC=CC=2)C1=O NVNSXBXKNMWKEJ-UHFFFAOYSA-N 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
- H04N19/137—Motion inside a coding unit, e.g. average field, frame or block difference
- H04N19/139—Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/149—Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/513—Processing of motion vectors
- H04N19/517—Processing of motion vectors by encoding
- H04N19/52—Processing of motion vectors by encoding by predictive encoding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Psychiatry (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于压缩域表征运动向量的行为识别方法,首先,使用提出的利用运动向量进行视频关键信息序列检测模块提取源视频内关键信息子序列,并在子序列中进行稀疏采样,降低整体的计算复杂度。其次,利用视频编码解耦合以及相机方向角估计方法来提升运动向量的信息完整性和准确性。最后利用多输入多模态行为识别网络模型对视频动作进行有效识别。本发明极大程度降低了整体方法的计算复杂度,有效地提高视频端到端行为识别的实时性;提高了网络模型对视频有效信息的利用,在不增加计算复杂度的前提下有效地提高了行为识别准确率;克服了原始运动向量表征信息不完整导致网络模型直接利用运动向量识别精度下降的问题。
Description
技术领域
本发明涉及深度学习、计算机视觉和视频编码技术领域,尤其是一种人体行为识别方法。
背景技术
视频行为识别已经成为人工智能的活跃领域,并被广泛的应用于人机交互、智慧交通、智慧安防等各个领域。随着智能终端的快速发展,视频已经逐渐取代文字和图片成为人们日常信息的主要获取方式。视频行为识别任务不同于传统的静态图片分类任务在于它包含了丰富的运动信息,然而视频的有效信息密度稀疏,关键信息定位不准确,传统时序特征提取计算复杂度高等问题仍然使得快速有效地识别视频动作具有挑战性。目前,面向视频行为识别的方法中与本发明相关的领域主要有两个:(1)如何利用视频的时序特征;(2)如何实现高效的视频有效信息采样策略;
深度神经网络的快速发展对视频行为识别任务产生了深远的影响。大量研究者们提出了有效的卷积神经网络提取视频内的深度特征用于行为识别任务。Zisserman提出了经典的Two-stream网络结构,文献名“Two-stream convolutional networks for actionrecognition in videos”,通过在空域和时域上分别训练各自的卷积神经网络(convolution neural network,CNN)来提取视频中RGB图像信息和时域运动信息,最后使用加权融合两个网络的分类结果获得最终的识别结果。这些网络结构虽然在识别准确度上达到了优秀的结果,但在利用视频的时序特征上依旧依赖传统的光流特征,这也导致了这些方法无法实现实时性的终端部署。
由于视频内有效信息密度非常稀疏,研究者们对如何高效地提取视频有效信息进行了大量的研究。Shi在文献“Sequential deep trajectory descriptor for actionrecognition with three-stream cnn”中提出了视频序列深度轨迹描述符(sequentialDeep Trajectory Descriptor,sDTD),并将其引入三流(Three Stream)网络中进行视频序列行为识别。Song在文献“Temporalspatial mapping for action recognition”中提出了一种简单但非常有效的时空域映射方法(spatial-temporal mapping,STM),用于获取视频内图像帧的时域信息辨识度。这些方法都需要在一定时间范围内进行密集采样,从而增加了网络模型的计算复杂度。
发明内容
为了克服现有技术的不足,本发明提供一种基于压缩域表征运动向量的行为识别方法。首先,使用提出的利用运动向量进行视频关键信息序列检测模块提取源视频内关键信息子序列,并在子序列中进行稀疏采样,降低整体的计算复杂度。其次,利用视频编码解耦合以及相机方向角估计方法来提升运动向量的信息完整性和准确性。最后利用多输入多模态行为识别网络模型对视频动作进行有效识别。
本发明的主要目的在于提出了一种基于压缩域表征运动向量的行为识别方法(Compressed Video Action Recognition using Motion Vector Representation),使用运动向量替换光流作为视频的时序特征,设计了关键信息序列提取方法,更好地获取视频内有效信息,以进行高效准确地行为识别。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤3、利用相邻运动向量间的相互依赖性,通过线性累加的方式获得当前图像组的第一帧参考帧到当前采样帧的所有运动信息其中是当前采样帧像素点t所代表的位置信息,是像素点t在当前图像组第一帧参考帧处的相对位置,表示解耦合后的当前采样帧的运动向量信息;向量表示从终点到起点的位移信息;
步骤4、利用角度投票算法,估算出视频内由于相机移动带来的背景移动运动信息,并通过目标区域的运动补偿减少由于相机移动带来的影响,具体形式如下max hist(Ux,yA(Mx,y)),其中A((Mx,y)表示位于(x,y)位置上的运动向量的方向角,hist(·)表示运动向量方向角的直方图,即选择选择含有最大直方图的角度作为相机运动的估计方向,并对中心目标进行运动补偿;
所述步骤2具体步骤为:
步骤2.3、MVresidual越大表示该区域的运动信息越丰富,将MVresidual小于所设置的阈值的区域作为关键信息区域的划分边界,而前后边界之间的区域为运动信息关键区域,其中阈值为整段视频中运动向量的平均值;
步骤2.4、根据弱连续运动向量残差评价标准定位视频内关键信息序列的边界;弱连续运动向量残差评价标准为当MVresidual小于预先设定的阈值的连续图像帧数超过长度阈值L时,代表当前区域的运动状态变化不明显,即有效运动信息密度较低,可将其作为关键信息序列的边界,其中阈值设定为整段视频的平均运动向量强度。
所述步骤2.4中,由于数据集中视频的帧率通常为35帧每秒,通过实验设定L为10最合适,即当MVresidual小于该视频的平均运动向量强度的连续帧数超过10帧时则表明该区域为边界区域。
所述其中步骤4具体包括:
步骤4.1、根据编码单元的划分深度确认图像的背景区域。通常而言,背景区域的划分深度通常而言比运动目标的划分深度更小,通过编码单元的划分深度来确定图像中的背景区域其中x,y为像素坐标,D表示坐标为(x,y)的划分深度,N为总的编码单元数目;
步骤4.3、根据Mc确定相机运动角度,将360°平均划分为12份,每份30°,将各个A(Mx,y)划分到各自的角度范围内,划分结束后通过计算各自角度范围内所有运动向量平均值来计算各个角度范围内的相机运动强度r(Mx,y);
步骤4.4、由A(Mx,y)和r(Mx,y)确定出每一帧图像所包含的相机运动角度和运动强度;
步骤4.5、确定相机运动角度和运动强度对中心区域在相机运动角度的相反方向进行运动强度的补偿。
所述步骤7中,空域和时域的默认加权值为1:1.5。
本发明的有益效果为:第一,本发明利用运动向量替换光流作为视频时序特征,极大程度降低了整体方法的计算复杂度,有效地提高视频端到端行为识别的实时性;第二,本发明利用运动向量提取关键信息序列,提高了网络模型对视频有效信息的利用,在不增加计算复杂度的前提下有效地提高了行为识别准确率;第三,本发明利用视频编码解耦合方法和相机运动角度估计方法克服了原始运动向量表征信息不完整导致网络模型直接利用运动向量识别精度下降的问题。
附图说明
图1是本发明方法处理流程示意图。
图2是本发明的算法模型图。
图3是运动向量和光流信息结构对比示意图。
图4是相机移动所引起的背景移动示意图,图4(a)为相机相对静止的背景移动示意图图4(b)为相机从右往左移动的背景移动示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
图2为本发明的整体模型图。模型以关键信息序列检测,增强运动向量,空域网络,时域网络,多段单一模态特征融合,多模态特征融合六个关键部分组成。其中空域网络和时域网络都是以ResNet50为基础构建的多输入网络模型。算法以三段RGB图像和运动向量图分别作为空域模型和时域模型的输入,随后分别对多段单一模态输出特征向量进行全局平均融合获得单一模态特征向量,最后通过加权融合将两段单一模态特征向量获得最终的多模态特征向量。
该方法包括下列顺序的步骤:
步骤1:获取相应的视频行为识别数据集:下载UCF101和HMDB51数据集,UCF101数据集包括13320个视频、101类动作,有三种不同的训练集测试集划分方法有split、split2和split3,其中split1是最常用的训练接测试集划分方法,UCF101是一个大型多环境人类行为动作视频数据集,所包含的动作视频有着非常大的多样性,包含角度变换,光线变换,物体比例变换,相机运动等。HMDB51数据集包含6849个视频样本,由51个类组成,其中每个类别至少包含101个视频样本。大多数视频样本来自电影,背景混乱和光线变化使识别视频所代表的的行为动作具有非常大的挑战性。
步骤2:基于运动向量提取视频关键信息序列:通过计算每一帧图像的相对运动强度和运动残差,结合弱连续原则,确定关键信息序列边界,从源视频内提取出3段子序列。具体是指:计算整个视频的运动向量信息:MVi。相对运动强度为通过求取相对运动向量强度可以在一定程度上降低背景移动带来的影响。为了更好的检测关键信息序列边界,本发明引入了运动残差考虑到运动向量类似于物理学中的‘速度’,长时间的高速运动并不代表运动状态发生变化,而运动残差相似于‘运动加速度’,可以更好地体现运动状态的变化。考虑到视频内容的持续性,本发明采用了弱连续的评价方法,当运动残差绝对值小于所预先设定的阈值的连续帧数超过某一数量时,代表当前区域的运动状态变化不明显,有效信息密度较低。
步骤3:利用相邻运动向量间的相互依赖性,具体是指通过线性累加的方式获得当前图像组的第一帧参考帧到当前采样帧的所有运动信息,其中是当前采样帧像素点t所代表的位置信息,是像素点t在当前图像组第一帧参考帧处的相对位置,表示解耦合后的当前采样帧的运动向量信息。
步骤4:利用角度投票算法,估算出视频内由于相机移动带来的背景移动运动信息,相机运动所引起的背景移动如图4所示,通过目标区域的运动补偿来减少由于相机移动带来的影响。具体形式如下max hist(∪x,yA(Mx,y)),其中A((Mx,y)表示位于(x,y)位置上的运动向量的方向角,hist(·)表示运动向量方向角的直方图,即选择含有最大直方图的角度作为相机运动的估计方向,并对中心目标进行运动补偿。
步骤6:利用在关键信息序列中采样得到的时域图像帧经过时域行为识别网络模型获得相应的单一模态多段特征向量并通过平均求值求得时域模型最终的特征向量特别的是,时间网络模型的输入为在x和y方向上分别选取连续10帧运动向量图像堆叠而成的20通道图像堆。在Resnet50的基础上在第一个卷积层的卷积核沿通道数求平均,并进行复制叠加成20通道数,作为新的第一层卷积层的参数。
步骤7:对空域模型的输出和时域模型的输出进行加权求和得到最终的双模态特征向量空域和时域的默认加权值为1:1.5,可根据实际应用调整融合权重。将双模态特征向量与标签数据进行损失计算,损失函数为交叉熵损失函数,将损失值进行反向传播,进行多轮的训练优化,获得最终的行为识别网络模型。交叉熵损失函数如下公式:
其中,C是视频样本类别总数,yi是当前样本的真实标签,pi是指预测向量中每一类别的预测分数。
实施例
为了验证本发明的有效性,本发明在公开的UCF101数据集和HMDB51数据集上进行试验。UCF101和HMDB51有三种不同的训练集测试集划分方法:split、split2和split3,其中split1是最常用的训练集测试集划分方法。
表1是实验过程中的各个参数设置(以UCF101为例):
表1是实验过程中的各个参数设置(以UCF101为例)
模型 | 输入尺寸 | 初始学习率 | Epoch数 | 训练时长 |
空域 | 224*224 | 0.001 | 60 | 1.5h |
时域 | 224*224 | 0.001 | 300 | 4h |
表2是本发明运动向量提取速度和传统光流提取速度的比较:
表2运动向量提取速度和传统光流提取速度的比较
表2是本发明提出的增强运动向量方法在UCF101和HMDB51两种相同分辨率的数据集条件下和光流特征提取速度对比,可以看出本发明在特征提取过程中具有非常大的优势,即使在强计算能力GPU的加持下,在320*240低清晰度的视频中提取光流特征的速度依旧非常缓慢,而运动向量仅仅在CPU条件下就可以实现特征提取速度约为光流的20倍,因此利用运动向量可以充分满足行为识别算法的实时性部署。
表3是本发明和其他经典算法的表现比较:
表3本发明和其他经典算法的表现比较(以UCF101为例)
UCF101 | 准确度 | 处理速度(FPS) |
Two-stream | 88.0% | 14.3 |
Two-stream+I3D | 93.4% | <14 |
Ours | 92.1% | 461.5 |
经试验对比,相较于现有借助传统时序特征光流的算法,本发明通过改进压缩视频内运动向量表征信息提高视频行为识别的准确率和识别速度,说明了本发明方法的有效性。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
Claims (5)
1.一种基于压缩域表征运动向量的行为识别方法,其特征在于包括下述步骤:
步骤3、利用相邻运动向量间的相互依赖性,通过线性累加的方式获得当前图像组的第一帧参考帧到当前采样帧的所有运动信息其中是当前采样帧像素点t所代表的位置信息,是像素点t在当前图像组第一帧参考帧处的相对位置,表示解耦合后的当前采样帧的运动向量信息;向量表示从终点到起点的位移信息;
步骤4、利用角度投票算法,估算出视频内由于相机移动带来的背景移动运动信息,并通过目标区域的运动补偿减少由于相机移动带来的影响,具体形式如下max hist(∪x,yA(Mx,y)),其中A((Mx,y)表示位于(x,y)位置上的运动向量的方向角,hist(·)表示运动向量方向角的直方图,即选择选择含有最大直方图的角度作为相机运动的估计方向,并对中心目标进行运动补偿;
2.根据权利要求1所述的基于压缩域表征运动向量的行为识别方法,其特征在于:
所述步骤2具体步骤为:
步骤2.3、将MVresidual小于所设置的阈值的区域作为关键信息区域的划分边界,而前后边界之间的区域为运动信息关键区域,其中阈值为整段视频中运动向量的平均值;
步骤2.4、根据弱连续运动向量残差评价标准定位视频内关键信息序列的边界;弱连续运动向量残差评价标准为当MVresidual小于预先设定的阈值的连续图像帧数超过长度阈值L时,代表当前区域的运动状态变化不明显,即有效运动信息密度较低,将其作为关键信息序列的边界,其中阈值设定为整段视频的平均运动向量强度。
3.根据权利要求1所述的基于压缩域表征运动向量的行为识别方法,其特征在于:
所述步骤2.4中,阈值L为整段视频的平均运动向量强度,L取值为10。
4.根据权利要求1所述的基于压缩域表征运动向量的行为识别方法,其特征在于:
所述其中步骤4具体步骤为:
步骤4.3、根据Mc确定相机运动角度,将360°平均划分为12份,每份30°,将各个A(Mx,y)划分到各自的角度范围内,划分结束后通过计算各自角度范围内所有运动向量平均值来计算各个角度范围内的相机运动强度r(Mx,y);
步骤4.4、由A(Mx,y)和r(Mx,y)确定出每一帧图像所包含的相机运动角度和运动强度;
步骤4.5、确定相机运动角度和运动强度对中心区域在相机运动角度的相反方向进行运动强度的补偿。
5.根据权利要求1所述的基于压缩域表征运动向量的行为识别方法,其特征在于:
所述步骤7中,空域和时域的默认加权值为1∶1.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110232921.0A CN113014923B (zh) | 2021-03-03 | 2021-03-03 | 一种基于压缩域表征运动向量的行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110232921.0A CN113014923B (zh) | 2021-03-03 | 2021-03-03 | 一种基于压缩域表征运动向量的行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113014923A true CN113014923A (zh) | 2021-06-22 |
CN113014923B CN113014923B (zh) | 2022-12-06 |
Family
ID=76403116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110232921.0A Active CN113014923B (zh) | 2021-03-03 | 2021-03-03 | 一种基于压缩域表征运动向量的行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113014923B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114359784A (zh) * | 2021-12-03 | 2022-04-15 | 湖南财政经济学院 | 一种面向视频压缩的人眼恰可察觉失真的预测方法及系统 |
CN117857808A (zh) * | 2024-03-06 | 2024-04-09 | 深圳市旭景数字技术有限公司 | 一种基于数据分类压缩的高效视频传输方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080310734A1 (en) * | 2007-06-18 | 2008-12-18 | The Regents Of The University Of California | High speed video action recognition and localization |
US20160148391A1 (en) * | 2013-06-12 | 2016-05-26 | Agency For Science, Technology And Research | Method and system for human motion recognition |
CN111079567A (zh) * | 2019-11-28 | 2020-04-28 | 中科驭数(北京)科技有限公司 | 采样方法、模型生成方法、视频行为识别方法及装置 |
CN112200096A (zh) * | 2020-10-14 | 2021-01-08 | 公安部第三研究所 | 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质 |
-
2021
- 2021-03-03 CN CN202110232921.0A patent/CN113014923B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080310734A1 (en) * | 2007-06-18 | 2008-12-18 | The Regents Of The University Of California | High speed video action recognition and localization |
US20160148391A1 (en) * | 2013-06-12 | 2016-05-26 | Agency For Science, Technology And Research | Method and system for human motion recognition |
CN111079567A (zh) * | 2019-11-28 | 2020-04-28 | 中科驭数(北京)科技有限公司 | 采样方法、模型生成方法、视频行为识别方法及装置 |
CN112200096A (zh) * | 2020-10-14 | 2021-01-08 | 公安部第三研究所 | 基于压缩视频实现实时异常行为识别的方法、装置及其存储介质 |
Non-Patent Citations (8)
Title |
---|
BOWEN ZHANG等: "Real-Time Action Recognition With Deeply Transferred Motion Vector CNNs", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 * |
RUIHAN BAO等: "Spatio-temporal motion field descriptors for the hierarchical action recognition system", 《2011 5TH INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING AND COMMUNICATION SYSTEMS (ICSPCS)》 * |
SIMONYAN K, ZISSERMAN A: "Two-stream convolutional networks for action recognition in videos", 《ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS》 * |
XIAOLIN SONG等: "Temporal–Spatial Mapping for Action Recognition", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 * |
YEMIN SHI等: "Sequential Deep Trajectory Descriptor for Action Recognition with Three-stream CNN", 《IEEE TRANSACTIONS ON MULTIMEDIA》 * |
冯波等: "基于光流特征与序列比对的实时行为识别", 《计算机应用研究》 * |
李庆辉等: "结合有序光流图和双流卷积网络的行为识别", 《光学学报》 * |
王晓芳等: "一种运用显著性检测的行为识别方法", 《西安交通大学学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114359784A (zh) * | 2021-12-03 | 2022-04-15 | 湖南财政经济学院 | 一种面向视频压缩的人眼恰可察觉失真的预测方法及系统 |
CN117857808A (zh) * | 2024-03-06 | 2024-04-09 | 深圳市旭景数字技术有限公司 | 一种基于数据分类压缩的高效视频传输方法及系统 |
CN117857808B (zh) * | 2024-03-06 | 2024-06-04 | 深圳市旭景数字技术有限公司 | 一种基于数据分类压缩的高效视频传输方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113014923B (zh) | 2022-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108133188B (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
WO2020108362A1 (zh) | 人体姿态检测方法、装置、设备及存储介质 | |
CN103593464B (zh) | 基于视觉特征的视频指纹检测及视频序列匹配方法及系统 | |
CN110120064B (zh) | 一种基于互强化与多注意机制学习的深度相关目标跟踪算法 | |
CN105528794A (zh) | 基于混合高斯模型与超像素分割的运动目标检测方法 | |
Zhang et al. | Coarse-to-fine object detection in unmanned aerial vehicle imagery using lightweight convolutional neural network and deep motion saliency | |
CN113011357A (zh) | 基于时空融合的深度伪造人脸视频定位方法 | |
CN113014923B (zh) | 一种基于压缩域表征运动向量的行为识别方法 | |
CN114220061B (zh) | 一种基于深度学习的多目标跟踪方法 | |
CN112329784A (zh) | 一种基于时空感知及多峰响应的相关滤波跟踪方法 | |
Xiong et al. | Contrastive learning for automotive mmWave radar detection points based instance segmentation | |
CN112163508A (zh) | 一种基于真实场景的文字识别方法、系统及ocr终端 | |
CN114973112A (zh) | 一种基于对抗学习网络的尺度自适应密集人群计数方法 | |
CN113591674A (zh) | 一种面向实时视频流的边缘环境行为识别系统 | |
CN110503049B (zh) | 基于生成对抗网络的卫星视频车辆数目估计方法 | |
CN109002808B (zh) | 一种人体行为识别方法及系统 | |
Guo et al. | Small aerial target detection using trajectory hypothesis and verification | |
CN114049483A (zh) | 基于事件相机的目标检测网络自监督训练方法及装置 | |
Zhang | [Retracted] Sports Action Recognition Based on Particle Swarm Optimization Neural Networks | |
Yang et al. | No-reference image quality assessment focusing on human facial region | |
CN116645718A (zh) | 一种基于多流架构的微表情识别方法及系统 | |
CN114419729A (zh) | 一种基于轻量双流网络的行为识别方法 | |
CN113762149A (zh) | 基于分割注意力的特征融合人体行为识别系统及方法 | |
Yuan et al. | A rapid recognition method for pedestrian abnormal behavior | |
Almalki et al. | Characterizing scattered occlusions for effective dense-mode crowd counting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |