CN113673307B - 一种轻量型的视频动作识别方法 - Google Patents
一种轻量型的视频动作识别方法 Download PDFInfo
- Publication number
- CN113673307B CN113673307B CN202110755765.6A CN202110755765A CN113673307B CN 113673307 B CN113673307 B CN 113673307B CN 202110755765 A CN202110755765 A CN 202110755765A CN 113673307 B CN113673307 B CN 113673307B
- Authority
- CN
- China
- Prior art keywords
- network
- video
- image
- lrdn
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000009471 action Effects 0.000 title claims abstract description 14
- 230000003287 optical effect Effects 0.000 claims abstract description 58
- 230000004927 fusion Effects 0.000 claims abstract description 54
- 238000012549 training Methods 0.000 claims abstract description 47
- 238000000605 extraction Methods 0.000 claims abstract description 32
- 238000013528 artificial neural network Methods 0.000 claims abstract description 26
- 238000004364 calculation method Methods 0.000 claims abstract description 21
- 230000007246 mechanism Effects 0.000 claims abstract description 21
- 238000001914 filtration Methods 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 17
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 15
- 238000010586 diagram Methods 0.000 claims abstract description 9
- 238000009432 framing Methods 0.000 claims abstract description 8
- 238000006073 displacement reaction Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 22
- 238000009826 distribution Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 238000012821 model calculation Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000001133 acceleration Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 3
- 238000011423 initialization method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims 1
- 238000004220 aggregation Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 claims 1
- 230000002349 favourable effect Effects 0.000 claims 1
- 230000006399 behavior Effects 0.000 description 28
- 239000000284 extract Substances 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000009827 uniform distribution Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000002853 ongoing effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
一种轻量型的视频动作识别方法,首先对帧化处理后的RGB视频帧图像进行图像增强、引导滤波去噪等预处理,同时利用视频帧序列计算光流序列、提取光流特征图。然后设计LRDN模型以实现轻量化地完成特征提取,并利用预处理后的RGB视频帧对其反复进行迭代训练,以优化其性能。最后基于训练好的LRDN网络模型研发轻量化双流卷积循环神经网络,完成对视频动作的识别分类。其中,利用轻量型的LRDN网络来搭建双流卷积神经网络以分别提取视频的空间特征信息和时域特征信息,接着用特征融合网络将二者进行卷积融合,紧接着将时空融合特征输入到含有软注意力机制的Bi‑GRU网络以获取视频的全局时域信息,快速实现视频动作分类识别。本发明降低了视频动作识别中的计算损耗。
Description
技术领域
本发明涉及一种轻量型的视频动作识别方法。
技术背景
计算机视觉技术的突飞猛进和深度学习方法的发展不仅拓宽了其在图像领域的应用,同时也给视频领域带来了新的可能性。依托于强大的GPU并行计算能力以及海量的带标签数据资源,深度学习算法尤其是卷积神经网络极大地提高了计算机代替人眼对人体动作、各类物体等目标进行识别、跟踪、分割和预测的能力,而借助深度学习技术,人体动作识别算法也得到了飞速发展。
基于视频的人体动作识别是指利用视觉处理信息系统从一段未知的视频或者是视频帧序列中自动分析、处理其中正在进行的动作,进而自动识别出视频中的人体目标的动作类别。与一帧帧的图像不同的是,视频数据比图像数据多了时间维度的信息,这也使得基于视频的模型计算更为复杂。高性能GPU的出现,使得训练深层卷积神经网络模型成为了现实。但使用视频数据代替图像数据进行特征训练时,模型的计算量会急剧增加,训练的时间开销也会成倍增长,导致网络模型的实际运行速度将难以满足实时处理的需求。所以,设计轻量级基于视频的人体动作识别算法是极其必要的。
发明内容
本发明要克服现有技术的上述缺点,提出一种轻量型的视频动作识别方法。
本发明首先对帧化处理后的RGB视频帧图像进行图像增强、引导滤波去噪等预处理,同时利用视频帧序列计算光流序列、提取光流特征图。然后设计LRDN模型以实现轻量化地完成特征提取,并利用预处理后的RGB视频帧对其反复进行迭代训练,以优化其性能。最后基于训练好的LRDN网络模型研发轻量化双流卷积循环神经网络,完成对视频动作的识别分类。其中,利用轻量型的LRDN网络来搭建双流卷积神经网络以分别提取视频的空间特征信息和时域特征信息,接着用特征融合网络将二者进行卷积融合,紧接着将时空融合特征输入到含有软注意力机制的Bi-GRU网络以获取视频的全局时域信息,快速实现视频动作分类识别。
为了实现上述目的,本发明采用以下技术方案:
一种轻量型的视频动作识别方法,包括如下步骤:
步骤一,视频样本预处理;
将获取到的实时监控视频或现有视频序列利用OpenCV进行视频帧化处理,即把将视频转化为一帧帧的RGB图像。然后对RGB视频帧进行图像增强、去噪等预处理,同时通过视频帧序列计算光流序列,进而提取光流特征图像。
(1)RGB视频帧图像预处理;
对于RGB视频帧图像的预处理,本发明首先对其进行图像增强。具体有:先将图像划分为N个大小相等且互不重叠的图像子块。其次,对于每个子块,将它的像素个数均匀分配到它的各个灰度级中,由此可得每个灰度级所分配到的平均像素个数,进一步得到对比度阈值T。再次,利用对比度阈值T对每个图像子块的灰度直方图(即局部直方图)进行裁剪,然后将裁剪部分的像素个数均匀分配到各个灰度级,得到各个灰度级平均分配到的像素个数。然后,反复进行像素裁剪和均匀分配,直至各个灰度级的像素个数均小于阈值。紧接着对重新分配像素后的每个图像子块进行直方图均衡化处理。在对图像子块完成直方图均衡化后,若仅仅利用映射函数进行变换得到每个子块像素点的值,则不仅会导致算法耗时严重,还会让互不重叠的图像子块在图像重构时产生块效应。为了提高图像的质量,加快图像的处理速度,最后利用双线性插值算法计算像素点的值。经过图像增强后,图像的亮度和对比度都会得到较理想的改善,直方图的灰度分布也会变得更加均衡。
随后,利用引导滤波对经过图像增强的视频帧图像样本进行去噪。引导滤波是一种以较低运算耗时去除噪声、保持边缘的滤波方法。与其他滤波方法相比,它有着更强的适应性和更优的滤波性能。
(2)提取光流特征图像;
假设视频帧图像梯度恒定且局部光流恒定,本发明提取光流特征图像的步骤主要有:
S1:图像的近似建模;
使用一个二次多项式来近似表示一个二维的灰色图像。因为图像一般是二维的,那么图像像素点(x,y)的灰度值可以看成是一个二维变量函数f(x,y),若以感兴趣的像素点为中心构建一个局部坐标系(并不是针对整张图像),那么对该函数进行二项展开,可以近似为:
其中,x为二维列向量;A为2×2的对称矩阵;B为2×1的矩阵;C为常量。
然后以该像素点为中心,设定一个方形邻域(2n+1)×(2n+1),把邻域内的共(2n+1)2个像素点作为样本点,通过计算这些样本点的值和坐标来进行中心像素点的六维系数的估计,估计的方法常使用加权最小二乘法,其中加权是因为在邻域内,距离中心越近的像素点与中心像素具有越大的相关性,而距离越远的点提供的信息则越少,因此可以将邻域以外的像素点的权重都视为0。此处的系数是针对像素点(x,y)而确定的,对于其他像素点可能并不适用,即对于图像中的每个像素点,都有一个六维向量。
S2:位移估计;
首先通过全局位移来构造一个新的信号,假设某一个像素点M的原始位置为f1(x),即有:
则像素点M在邻域范围内移动d后,有:
其中,A2=A1,B2=B1-2A1d,
然后通过假定二次多项式中的系数相等来计算整体的位移。假设式(3)中的A1为非奇异矩阵,则可得到图形的全局位移d值为:
按照理论推导,其中必定有A2=A1,但实际情况中未必能满足这一项要求,因此可以用均值来近似真实值,若令:
则有:
Ad=ΔB (7)
d=(ATA)-1(ATΔB) (8)
在计算过程中,可以利用一个先验位移值来缩减迭代次数,因为适当的先验位移值意味着更小的相对位移,从而可以得到更加精准的图像帧间的位移估计,进而在迭代位移估计的过程中获得视频图像帧之间的最优位移值。
S3:生成光流特征图;
本发明利用HSV颜色模型将光流场转换为光流图像。因为经步骤S1和步骤S2提取到的只是一个光流场,该光流场只是一个二维向量场,需要将其转换为光流特征图才能输入网络中进行特征提取。
步骤二,设计LRDN模型;
本发明通过设计LRDN模型以实现轻量化地完成特征提取,该模型以预处理后的RGB视频帧或者光流特征图为输入,并且主要由三部分组成:浅层特征提取模块、深层特征提取模块以及图像分类模块。
首先,利用1层标准卷积和1层改进的深度可分离卷积提取输入图像的浅层特征。其中,本发明对传统深度可分离卷积操作的改进有:第一,在深度卷积前增加一层1×1卷积的“扩张”层,目的是为了提升通道数,获得更多特征。第二,最后不采用ReLU激活函数,而是直接线性输出,目的是防止ReLU破坏特征。
然后,将浅层特征作为深度特征提取模块的输入,利用LRDB中的局部密集连接、特征复用、下采样操作与残差融合结构获取图像的各项细节特征。其中,对于LRDN模型,深层特征提取模块是其核心部分,而深层特征提取模块主要是由LRDB组成。LRDB通常包含一个密集连接块、一个下采样过渡块以及一个带池化的恒等连接。而对于模型中的最后一个LRDB,通常直接利用1×1Conv对该密集块的输出特征进行压缩、整理,然后在倒数第二个LRDB输出的深层特征与压缩后的特征之间加入残差连接,获取最终的深层特征。
最后,利用全局平均池化聚合特征图,由全连接层作为特征分类器,对输入的图像进行分类。
步骤三,训练LRDN模型;
利用视频库中每段视频预处理后的RGB视频帧对LRDN模型进行迭代训练,以保证LRDN网络的鲁棒性,使之可稳定用于步骤四轻量化双流卷积循环神经网络的设计。
步骤四,设计轻量化双流卷积循环神经网络;
本发明基于LRDN网络模型设计轻量化双流卷积循环神经网络,以快速获取视频行为特征数据。为了获得轻量化双流卷积循环神经网络,利用轻量型的LRDN网络来搭建双流卷积神经网络以分别提取视频的空间特征信息和时域特征信息,再将时空特征融合之后的特征输入含有软注意力机制的Bi-GRU网络以获取视频的全局时域信息,实现快速视频动作分类识别。
1)构建空间LRDN网络;
综合考虑模型性能、网络计算损耗等因素,选择LRDN网络作为轻量化双流卷积循环神经网络的空间特征提取网络。同时,通过稀疏下采样切割截取视频帧序列作为整段视频的代表。由此,保证每张视频帧图像的代表性,同时维持视频帧的连贯性;另一方面,去除原始视频帧中的冗余信息,减少数据量,降低计算损耗。
帧化处理后得到的视频帧经图像增强、去噪等预处理后即可用以空间LRDN网络的训练,最后得到空间LRDN网络模型的参数。同时,为了便于网络后续的特征融合的加速处理,本发明采用LRDN网络全局平均池化后的特征向量作为输入RGB视频帧的空间特征,并将其保存为中间文件。
2)搭建时域LRDN网络;
轻量化双流卷积循环神经网络的时域特征提取网络与空间特征提取网络采用平行的结构,即有时域LRDN网络,但二者需独立进行训练且彼此的训练方式也有所区别。对于时域LRDN网络的训练,由于光流视频不能直接作为网络的输入,同时也为了提高网络后期的卷积融合速率,因此本发明以空间LRDN网络前向传播选择的RGB视频帧为基准,抽取每帧RGB视频帧所对应的前4张、后5张以及本身共10张光流图组合成堆叠的光流特征图像输入到网络中,以进行时域LRDN网络的前向传播运算,在得到时域LRDN网络的模型参数的同时将时域网络全局平均池化的输出保存为中间文件,用以后续的特征融合。
3)设计特征融合网络;
在模型的训练过程中,空间LRDN网络负责提取RGB视频帧序列卷积特征,时域LRDN网络负责提取由视频帧序列计算得来的光流序列卷积特征。因两流网络均为LRDN网络,且两个网络流的输入图像尺寸、通道数相同,所以二者输出的特征图大小也是相等的,因此不需要采取额外的变换操作,可直接进行特征融合。
本发明采用的卷积融合网络是一个三层堆叠的卷积层,即第一层利用128个尺寸为1×1×64的卷积核对输入的特征进行整理、压缩,第二层采用的是64个尺寸为3×3×128的卷积核,第三层再次使用尺寸为1×1×64的卷积核进行降维,以减少网络的参数数量和计算量。
对于每段视频,利用空间LRDN网络产生的空间特征图和时域LRDN网络产生的时域特征图作为输入对卷积融合网络进行训练,其中训练时在网络的后面添加一层全连接层,由此得到一个维度与空间网络或时域网络输出相同的融合特征图,并在进行前向传播时保存为中间文件用于含有软注意力机制的Bi-GRU网络的训练。
4)建立含有软注意力机制的视频分类器;
本发明利用基于软注意力机制的Bi-GRU网络进一步提取时空融合特征中表征视频序列的全局时域信息。在Bi-GRU网络的输入端采用软注意力机制,可以让网络模型学会根据视频帧内容的重要性分配不同的权重,通过给关键帧分配更大的权重,让模型的注意力集中于视频片段的关键帧部分,更加关注视频帧序列中与行为相关的区域,从而排除视频内无关信息对视频行为分析的阻扰,进而提升模型对行为识别的效率与准确率。具体过程如下:
在模型的解码过程中,将视频时空融合特征序列的加权和作为Bi-GRU网络的输入,即有:
其中,表示t时刻第i帧视频帧在网络模型注意力分配中待学习的权重,且有 反映了在t时刻第i帧视频帧时空融合特征在行为识别过程中的重要程度,该视频帧对模型完成行为识别越有利,则该注意力权重值越大。而/>值的大小取决于模型当前时刻t输入的时空融合特征qi以及Bi-GRU网络上一时刻的隐藏层状态值ht-1。
然后计算出与qi、ht-1之间的相关程度/>
其中,Mα和Nα表示网络待学习的权重矩阵;Bα表示待学习的偏置参数;tanh(·)表示激活函数。
进一步,把进行Softmax归一化处理即可得到/>值的计算公式:
此外,本发明利用经典的软注意力机制初始化策略来计算Bi-GRU网络中单元状态初始值c0和隐藏层状态初始值h0,分别有:
其中,与/>为多层感知器;N表示一个视频帧序列的帧数。通过式(12)和式(13)可计算得到注意力权重向量α1,再利用式(9)可得到Bi-GRU网络的初始输入向量Q1。实验证明了利用这种初始化方法会使得网络更加容易收敛。
最后,Bi-GRU网络的输出向量yt的计算较为简单,利用网络隐藏层状态ht,通过式(14)即可得到,有:
yt=Softmax(Wht+b) (14)
其中,W表示隐藏层状态ht的权重矩阵;b表示偏置向量。Softmax分类器会对每一时刻行为类别的概率分布进行预测,最终输出T个类别概率分布。模型最后一个时刻(即第T时刻)输出的概率分布是最具有代表性的,因其关联了整个视频帧序列之间的信息,所以本发明选择最后一个时刻输出的概率分布中概率最大所对应的行为类别为模型当前输入的视频帧序列所属的行为类别。
此外,在模型的训练过程中,本发明使用交叉熵损失函数与注意力正则化以及双随机惩罚原则来定义网络的损失函数用于计算模型的预测值与真实值之间的误差,推动其反向传播更新参数。其中,使用双随机惩罚原则是为了对注意力权重值施加额外的约束,从而保证的实现,而使用注意力正则化是为了约束网络模型在视频帧每个区域的观察时间。通过不断优化如式(15)所定义的损失函数,使其达到全局最小,完成对网络模型的训练调优。
其中,训练集且ri为训练集中的第i个视频样本,/>为样本的行为类别标签,n为训练集的大小,并且假定当/>时,有Pg'(ri)=1,当/>时,则Pg'(ri)=0,即当样本的行为类别标签为g时,模型计算该样本得到的行为类别g所属的概率为1,否则为0;Pg(ri)表示视频样本ri对于行为类别g的预测概率值;T表示时间步长的总数;G表示模型待识别的视频行为类别数;/>表示注意力惩罚系数;ζ表示注意力权重衰减系数;θ表示所有的模型参数。
本发明的优点是:
本发明基于轻量化双流卷积循环神经网络,提出了一种轻量型的视频动作识别方法。其突出特点有:其一,提出了轻量化卷积神经网络——LRDN模型,它不只是利用更高效的卷积计算方式去减少模型的参数和计算量,还在标准卷积的基础上利用残差连接、密集连接等改变卷积层之间的连接方式以优化模型的结构,降低计算损耗。其二,提出了轻量化双流网络,利用LRDN模型构建轻量化双流卷积网络,以充分提取视频的空间特征信息和时域特征信息。其三,设计了一种能将两路卷积神经网络的输出特征进行真正意义上的互通和融合的特征融合网络。其四,在双向门控循环单元内引入了软注意力机制来提取视频的全局时域信息,一方面减轻模型处理高维度输入数据的计算负担,另一方面提高模型的输出质量。
附图说明
图1是本发明的技术路线图;
图2是本发明的图像增强的流程图;
图3是本发明的深度可分离卷积原理示意图;
图4是本发明的HSV颜色模型的概述图;
图5是本发明的特征融合网络结构。
具体实施方式
为了验证本发明提出的方法的可行性和优越性,现结合应用场景对本发明做进一步的阐述:
一种轻量型的视频动作识别方法,包括如下步骤:
步骤一,视频样本预处理;
将获取到的实时监控视频或现有视频序列利用OpenCV进行视频帧化处理,即把将视频转化为一帧帧的RGB图像。然后对RGB视频帧进行图像增强、去噪等预处理,同时通过视频帧序列计算光流序列,进而提取光流特征图像。
(1)RGB视频帧图像预处理;
对于RGB视频帧图像的预处理,本发明首先对其进行图像增强。具体有:先将图像划分为N个大小相等且互不重叠的图像子块。其次,对于每个子块,将它的像素个数均匀分配到它的各个灰度级中,由此可得每个灰度级所分配到的平均像素个数,进一步得到对比度阈值T。再次,利用对比度阈值T对每个图像子块的灰度直方图(即局部直方图)进行裁剪,然后将裁剪部分的像素个数均匀分配到各个灰度级,得到各个灰度级平均分配到的像素个数。然后,反复进行像素裁剪和均匀分配,直至各个灰度级的像素个数均小于阈值。紧接着对重新分配像素后的每个图像子块进行直方图均衡化处理。在对图像子块完成直方图均衡化后,若仅仅利用映射函数进行变换得到每个子块像素点的值,则不仅会导致算法耗时严重,还会让互不重叠的图像子块在图像重构时产生块效应。为了提高图像的质量,加快图像的处理速度,最后利用双线性插值算法计算像素点的值。经过图像增强后,图像的亮度和对比度都会得到较理想的改善,直方图的灰度分布也会变得更加均衡。
随后,利用引导滤波对经过图像增强的视频帧图像样本进行去噪。引导滤波是一种以较低运算耗时去除噪声、保持边缘的滤波方法。与其他滤波方法相比,它有着更强的适应性和更优的滤波性能。
(2)提取光流特征图像;
假设视频帧图像梯度恒定且局部光流恒定,本发明提取光流特征图像的步骤主要有:
S1:图像的近似建模;
使用一个二次多项式来近似表示一个二维的灰色图像。因为图像一般是二维的,那么图像像素点(x,y)的灰度值可以看成是一个二维变量函数f(x,y),若以感兴趣的像素点为中心构建一个局部坐标系(并不是针对整张图像),那么对该函数进行二项展开,可以近似为:
其中,x为二维列向量;A为2×2的对称矩阵;B为2×1的矩阵;C为常量。
然后以该像素点为中心,设定一个方形邻域(2n+1)×(2n+1),把邻域内的共(2n+1)2个像素点作为样本点,通过计算这些样本点的值和坐标来进行中心像素点的六维系数的估计,估计的方法常使用加权最小二乘法,其中加权是因为在邻域内,距离中心越近的像素点与中心像素具有越大的相关性,而距离越远的点提供的信息则越少,因此可以将邻域以外的像素点的权重都视为0。此处的系数是针对像素点(x,y)而确定的,对于其他像素点可能并不适用,即对于图像中的每个像素点,都有一个六维向量。
S2:位移估计;
首先通过全局位移来构造一个新的信号,假设某一个像素点M的原始位置为f1(x),即有:
则像素点M在邻域范围内移动d后,有:
其中,A2=A1,B2=B1-2A1d,
然后通过假定二次多项式中的系数相等来计算整体的位移。假设式(3)中的A1为非奇异矩阵,则可得到图形的全局位移d值为:
按照理论推导,其中必定有A2=A1,但实际情况中未必能满足这一项要求,因此可以用均值来近似真实值,若令:
则有:
Ad=ΔB (7)
d=(ATA)-1(ATΔB) (8)
在计算过程中,可以利用一个先验位移值来缩减迭代次数,因为适当的先验位移值意味着更小的相对位移,从而可以得到更加精准的图像帧间的位移估计,进而在迭代位移估计的过程中获得视频图像帧之间的最优位移值。
S3:生成光流特征图;
本发明利用HSV颜色模型将光流场转换为光流图像。因为经步骤S1和步骤S2提取到的只是一个光流场,该光流场只是一个二维向量场,需要将其转换为光流特征图才能输入网络中进行特征提取。
步骤二,设计LRDN模型;
本发明通过设计LRDN模型以实现轻量化地完成特征提取,该模型以预处理后的RGB视频帧或者光流特征图为输入,并且主要由三部分组成:浅层特征提取模块、深层特征提取模块以及图像分类模块。
首先,利用1层标准卷积和1层改进的深度可分离卷积提取输入图像的浅层特征。其中,本发明对传统深度可分离卷积操作的改进有:第一,在深度卷积前增加一层1×1卷积的“扩张”层,目的是为了提升通道数,获得更多特征。第二,最后不采用ReLU激活函数,而是直接线性输出,目的是防止ReLU破坏特征。
然后,将浅层特征作为深度特征提取模块的输入,利用LRDB中的局部密集连接、特征复用、下采样操作与残差融合结构获取图像的各项细节特征。其中,对于LRDN模型,深层特征提取模块是其核心部分,而深层特征提取模块主要是由LRDB组成。LRDB通常包含一个密集连接块、一个下采样过渡块以及一个带池化的恒等连接。而对于模型中的最后一个LRDB,通常直接利用1×1Conv对该密集块的输出特征进行压缩、整理,然后在倒数第二个LRDB输出的深层特征与压缩后的特征之间加入残差连接,获取最终的深层特征。
最后,利用全局平均池化聚合特征图,由全连接层作为特征分类器,对输入的图像进行分类。
步骤三,训练LRDN模型;
利用视频库中每段视频预处理后的RGB视频帧对LRDN模型进行迭代训练,以保证LRDN网络的鲁棒性,使之可稳定用于步骤四轻量化双流卷积循环神经网络的设计。
步骤四,设计轻量化双流卷积循环神经网络;
本发明基于LRDN网络模型设计轻量化双流卷积循环神经网络,以快速获取视频行为特征数据。为了获得轻量化双流卷积循环神经网络,利用轻量型的LRDN网络来搭建双流卷积神经网络以分别提取视频的空间特征信息和时域特征信息,再将时空特征融合之后的特征输入含有软注意力机制的Bi-GRU网络以获取视频的全局时域信息,实现快速视频动作分类识别。
1)构建空间LRDN网络;
综合考虑模型性能、网络计算损耗等因素,选择LRDN网络作为轻量化双流卷积循环神经网络的空间特征提取网络。同时,通过稀疏下采样切割截取视频帧序列作为整段视频的代表。由此,保证每张视频帧图像的代表性,同时维持视频帧的连贯性;另一方面,去除原始视频帧中的冗余信息,减少数据量,降低计算损耗。
帧化处理后得到的视频帧经图像增强、去噪等预处理后即可用以空间LRDN网络的训练,最后得到空间LRDN网络模型的参数。同时,为了便于网络后续的特征融合的加速处理,本发明采用LRDN网络全局平均池化后的特征向量作为输入RGB视频帧的空间特征,并将其保存为中间文件。
2)搭建时域LRDN网络;
轻量化双流卷积循环神经网络的时域特征提取网络与空间特征提取网络采用平行的结构,即有时域LRDN网络,但二者需独立进行训练且彼此的训练方式也有所区别。对于时域LRDN网络的训练,由于光流视频不能直接作为网络的输入,同时也为了提高网络后期的卷积融合速率,因此本发明以空间LRDN网络前向传播选择的RGB视频帧为基准,抽取每帧RGB视频帧所对应的前4张、后5张以及本身共10张光流图组合成堆叠的光流特征图像输入到网络中,以进行时域LRDN网络的前向传播运算,在得到时域LRDN网络的模型参数的同时将时域网络全局平均池化的输出保存为中间文件,用以后续的特征融合。
3)设计特征融合网络;
在模型的训练过程中,空间LRDN网络负责提取RGB视频帧序列卷积特征,时域LRDN网络负责提取由视频帧序列计算得来的光流序列卷积特征。因两流网络均为LRDN网络,且两个网络流的输入图像尺寸、通道数相同,所以二者输出的特征图大小也是相等的,因此不需要采取额外的变换操作,可直接进行特征融合。
本发明采用的卷积融合网络是一个三层堆叠的卷积层,即第一层利用128个尺寸为1×1×64的卷积核对输入的特征进行整理、压缩,第二层采用的是64个尺寸为3×3×128的卷积核,第三层再次使用尺寸为1×1×64的卷积核进行降维,以减少网络的参数数量和计算量。
对于每段视频,利用空间LRDN网络产生的空间特征图和时域LRDN网络产生的时域特征图作为输入对卷积融合网络进行训练,其中训练时在网络的后面添加一层全连接层,由此得到一个维度与空间网络或时域网络输出相同的融合特征图,并在进行前向传播时保存为中间文件用于含有软注意力机制的Bi-GRU网络的训练。
4)建立含有软注意力机制的视频分类器;
本发明利用基于软注意力机制的Bi-GRU网络进一步提取时空融合特征中表征视频序列的全局时域信息。在Bi-GRU网络的输入端采用软注意力机制,可以让网络模型学会根据视频帧内容的重要性分配不同的权重,通过给关键帧分配更大的权重,让模型的注意力集中于视频片段的关键帧部分,更加关注视频帧序列中与行为相关的区域,从而排除视频内无关信息对视频行为分析的阻扰,进而提升模型对行为识别的效率与准确率。具体过程如下:
在模型的解码过程中,将视频时空融合特征序列的加权和作为Bi-GRU网络的输入,即有:
其中,表示t时刻第i帧视频帧在网络模型注意力分配中待学习的权重,且有 反映了在t时刻第i帧视频帧时空融合特征在行为识别过程中的重要程度,该视频帧对模型完成行为识别越有利,则该注意力权重值越大。而/>值的大小取决于模型当前时刻t输入的时空融合特征qi以及Bi-GRU网络上一时刻的隐藏层状态值ht-1。
然后计算出与qi、ht-1之间的相关程度/>
其中,Mα和Nα表示网络待学习的权重矩阵;Bα表示待学习的偏置参数;tanh(·)表示激活函数。
进一步,把进行Softmax归一化处理即可得到/>值的计算公式:
此外,本发明利用经典的软注意力机制初始化策略来计算Bi-GRU网络中单元状态初始值c0和隐藏层状态初始值h0,分别有:
其中,与/>为多层感知器;N表示一个视频帧序列的帧数。通过式(12)和式(13)可计算得到注意力权重向量α1,再利用式(9)可得到Bi-GRU网络的初始输入向量Q1。实验证明了利用这种初始化方法会使得网络更加容易收敛。
最后,Bi-GRU网络的输出向量yt的计算较为简单,利用网络隐藏层状态ht,通过式(14)即可得到,有:
yt=Softmax(Wht+b) (14)
其中,W表示隐藏层状态ht的权重矩阵;b表示偏置向量。Softmax分类器会对每一时刻行为类别的概率分布进行预测,最终输出T个类别概率分布。模型最后一个时刻(即第T时刻)输出的概率分布是最具有代表性的,因其关联了整个视频帧序列之间的信息,所以本发明选择最后一个时刻输出的概率分布中概率最大所对应的行为类别为模型当前输入的视频帧序列所属的行为类别。
此外,在模型的训练过程中,本发明使用交叉熵损失函数与注意力正则化以及双随机惩罚原则来定义网络的损失函数用于计算模型的预测值与真实值之间的误差,推动其反向传播更新参数。其中,使用双随机惩罚原则是为了对注意力权重值施加额外的约束,从而保证的实现,而使用注意力正则化是为了约束网络模型在视频帧每个区域的观察时间。通过不断优化如式(15)所定义的损失函数,使其达到全局最小,完成对网络模型的训练调优。/>
其中,训练集且ri为训练集中的第i个视频样本,/>为样本的行为类别标签,n为训练集的大小,并且假定当/>时,有Pg'(ri)=1,当/>时,则Pg'(ri)=0,即当样本的行为类别标签为g时,模型计算该样本得到的行为类别g所属的概率为1,否则为0;Pg(ri)表示视频样本ri对于行为类别g的预测概率值;T表示时间步长的总数;G表示模型待识别的视频行为类别数;/>表示注意力惩罚系数;ζ表示注意力权重衰减系数;θ表示所有的模型参数。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (1)
1.一种轻量型的视频动作识别方法,包括如下步骤:
步骤一,视频样本预处理;
将获取到的实时监控视频或现有视频序列利用OpenCV进行视频帧化处理,即把将视频转化为一帧帧的RGB图像;然后对RGB视频帧进行图像增强、去噪的预处理,同时通过视频帧序列计算光流序列,进而提取光流特征图像;
(1)RGB视频帧图像预处理;
对于RGB视频帧图像的预处理,首先对其进行图像增强;具体有:先将图像划分为N个大小相等且互不重叠的图像子块;其次,对于每个子块,将它的像素个数均匀分配到它的各个灰度级中,由此可得每个灰度级所分配到的平均像素个数,进一步得到对比度阈值T;再次,利用对比度阈值T对每个图像子块的灰度直方图即局部直方图进行裁剪,然后将裁剪部分的像素个数均匀分配到各个灰度级,得到各个灰度级平均分配到的像素个数;然后,反复进行像素裁剪和均匀分配,直至各个灰度级的像素个数均小于阈值;紧接着对重新分配像素后的每个图像子块进行直方图均衡化处理;在对图像子块完成直方图均衡化后,若仅仅利用映射函数进行变换得到每个子块像素点的值,则不仅会导致算法耗时严重,还会让互不重叠的图像子块在图像重构时产生块效应;为了提高图像的质量,加快图像的处理速度,最后利用双线性插值算法计算像素点的值;经过图像增强后,图像的亮度和对比度都会得到较理想的改善,直方图的灰度分布也会变得更加均衡;
随后,利用引导滤波对经过图像增强的视频帧图像样本进行去噪;引导滤波是一种以较低运算耗时去除噪声、保持边缘的滤波方法;与其他滤波方法相比,它有着更强的适应性和更优的滤波性能;
(2)提取光流特征图像;
假设视频帧图像梯度恒定且局部光流恒定,提取光流特征图像的步骤主要有:
S1:图像的近似建模;
使用一个二次多项式来近似表示一个二维的灰色图像;因为图像是二维的,那么图像像素点(x,y)的灰度值看成是一个二维变量函数f(x,y),若以感兴趣的像素点为中心构建一个局部坐标系,那么对该函数进行二项展开,近似为:
其中,x为二维列向量;A为2×2的对称矩阵;B为2×1的矩阵;C为常量;
然后以该像素点为中心,设定一个方形邻域(2n+1)×(2n+1),把邻域内的共(2n+1)2个像素点作为样本点,通过计算这些样本点的值和坐标来进行中心像素点的六维系数的估计,估计的方法常使用加权最小二乘法,其中加权是因为在邻域内,距离中心越近的像素点与中心像素具有越大的相关性,而距离越远的点提供的信息则越少,因此将邻域以外的像素点的权重都视为0;此处的系数是针对像素点(x,y)而确定的,即对于图像中的每个像素点,都有一个六维向量;
S2:位移估计;
首先通过全局位移来构造一个新的信号,假设某一个像素点M的原始位置为f1(x),即有:
则像素点M在邻域范围内移动d后,有:
其中,A2=A1,B2=B1-2A1d,
然后通过假定二次多项式中的系数相等来计算整体的位移;假设式(3)中的A1为非奇异矩阵,则可得到图形的全局位移d值为:
按照理论推导,其中必定有A2=A1,但实际情况中未必能满足这一项要求,因此用均值来近似真实值,若令:
则有:
Ad=ΔB (7)
d=(ATA)-1(ATΔB) (8)
在计算过程中,利用一个先验位移值来缩减迭代次数,因为适当的先验位移值意味着更小的相对位移,从而得到更加精准的图像帧间的位移估计,进而在迭代位移估计的过程中获得视频图像帧之间的最优位移值;
S3:生成光流特征图;
利用HSV颜色模型将光流场转换为光流图像;因为经步骤S1和步骤S2提取到的只是一个光流场,该光流场只是一个二维向量场,需要将其转换为光流特征图才能输入网络中进行特征提取;
步骤二,设计LRDN模型;
通过设计LRDN模型以实现轻量化地完成特征提取,该模型以预处理后的RGB视频帧或者光流特征图为输入,并且主要由三部分组成:浅层特征提取模块、深层特征提取模块以及图像分类模块;
首先,利用1层标准卷积和1层改进的深度可分离卷积提取输入图像的浅层特征;其中,对传统深度可分离卷积操作的改进有:第一,在深度卷积前增加一层1×1卷积的“扩张”层,目的是为了提升通道数,获得更多特征;第二,最后不采用ReLU激活函数,而是直接线性输出,目的是防止ReLU破坏特征;
然后,将浅层特征作为深度特征提取模块的输入,利用LRDB中的局部密集连接、特征复用、下采样操作与残差融合结构获取图像的各项细节特征;其中,对于LRDN模型,深层特征提取模块是其核心部分,而深层特征提取模块主要是由LRDB组成;LRDB包含一个密集连接块、一个下采样过渡块以及一个带池化的恒等连接;而对于模型中的最后一个LRDB,直接利用1×1Conv对该密集连接块的输出特征进行压缩、整理,然后在倒数第二个LRDB输出的深层特征与压缩后的特征之间加入残差连接,获取最终的深层特征;
最后,利用全局平均池化聚合特征图,由全连接层作为特征分类器,对输入的图像进行分类;
步骤三,训练LRDN模型;
利用视频库中每段视频预处理后的RGB视频帧对LRDN模型进行迭代训练,以保证LRDN网络的鲁棒性,使之可稳定用于步骤四轻量化双流卷积循环神经网络的设计;
步骤四,设计轻量化双流卷积循环神经网络;
基于LRDN网络模型设计轻量化双流卷积循环神经网络,以快速获取视频行为特征数据;为了获得轻量化双流卷积循环神经网络,利用轻量型的LRDN网络来搭建双流卷积神经网络以分别提取视频的空间特征信息和时域特征信息,再将时空特征融合之后的特征输入含有软注意力机制的Bi-GRU网络以获取视频的全局时域信息,实现快速视频动作分类识别;
1)构建空间LRDN网络;
综合考虑模型性能、网络计算损耗等因素,选择LRDN网络作为轻量化双流卷积循环神经网络的空间特征提取网络;同时,通过稀疏下采样切割截取视频帧序列作为整段视频的代表;由此,保证每张视频帧图像的代表性,同时维持视频帧的连贯性;另一方面,去除原始视频帧中的冗余信息,减少数据量,降低计算损耗;
帧化处理后得到的视频帧经图像增强、去噪等预处理后即可用以空间LRDN网络的训练,最后得到空间LRDN网络模型的参数;同时,为了便于网络后续的特征融合的加速处理,采用LRDN网络全局平均池化后的特征向量作为输入RGB视频帧的空间特征,并将其保存为中间文件;
2)搭建时域LRDN网络;
轻量化双流卷积循环神经网络的时域特征提取网络与空间特征提取网络采用平行的结构,即有时域LRDN网络,但二者需独立进行训练且彼此的训练方式也有所区别;对于时域LRDN网络的训练,由于光流视频不能直接作为网络的输入,同时也为了提高网络后期的卷积融合速率,因此以空间LRDN网络前向传播选择的RGB视频帧为基准,抽取每帧RGB视频帧所对应的前4张、后5张以及本身共10张光流图组合成堆叠的光流特征图像输入到网络中,以进行时域LRDN网络的前向传播运算,在得到时域LRDN网络的模型参数的同时将时域网络全局平均池化的输出保存为中间文件,用以后续的特征融合;
3)设计特征融合网络;
在模型的训练过程中,空间LRDN网络负责提取RGB视频帧序列卷积特征,时域LRDN网络负责提取由视频帧序列计算得来的光流序列卷积特征;因两流网络均为LRDN网络,且两个网络流的输入图像尺寸、通道数相同,所以二者输出的特征图大小也是相等的,因此不需要采取额外的变换操作,可直接进行特征融合;
采用的卷积融合网络是一个三层堆叠的卷积层,即第一层利用128个尺寸为1×1×64的卷积核对输入的特征进行整理、压缩,第二层采用的是64个尺寸为3×3×128的卷积核,第三层再次使用尺寸为1×1×64的卷积核进行降维,以减少网络的参数数量和计算量;
对于每段视频,利用空间LRDN网络产生的空间特征图和时域LRDN网络产生的时域特征图作为输入对卷积融合网络进行训练,其中训练时在网络的后面添加一层全连接层,由此得到一个维度与空间网络或时域网络输出相同的融合特征图,并在进行前向传播时保存为中间文件用于含有软注意力机制的Bi-GRU网络的训练;
4)建立含有软注意力机制的视频分类器;
利用基于软注意力机制的Bi-GRU网络进一步提取时空融合特征中表征视频序列的全局时域信息;在Bi-GRU网络的输入端采用软注意力机制,让网络模型学会根据视频帧内容的重要性分配不同的权重,通过给关键帧分配更大的权重,让模型的注意力集中于视频片段的关键帧部分,更加关注视频帧序列中与行为相关的区域,从而排除视频内无关信息对视频行为分析的阻扰,进而提升模型对行为识别的效率与准确率;具体过程如下:
在模型的解码过程中,将视频时空融合特征序列的加权和作为Bi-GRU网络的输入,即有:
其中,表示t时刻第i帧视频帧在网络模型注意力分配中待学习的权重,且有 反映了在t时刻第i帧视频帧时空融合特征在行为识别过程中的重要程度,该视频帧对模型完成行为识别越有利,则注意力权重值越大;而/>值的大小取决于模型当前时刻t输入的时空融合特征qi以及Bi-GRU网络上一时刻的隐藏层状态值ht-1;
然后计算出与qi、ht-1之间的相关程度/>
其中,Mα和Nα表示网络待学习的权重矩阵;Bα表示待学习的偏置参数;tanh(·)表示激活函数;
进一步,把进行Softmax归一化处理即可得到/>值的计算公式:
此外,利用经典的软注意力机制初始化策略来计算Bi-GRU网络中单元状态初始值c0和隐藏层状态初始值h0,分别有:
其中,与/>为多层感知器;N表示一个视频帧序列的帧数;通过式(12)和式(13)可计算得到注意力权重向量α1,再利用式(9)可得到Bi-GRU网络的初始输入向量Q1;实验证明了利用这种初始化方法会使得网络更加容易收敛;
最后,Bi-GRU网络的输出向量yt的计算较为简单,利用网络隐藏层状态ht,通过式(14)即可得到,有:
yt=Softmax(Wht+b) (14)
其中,W表示隐藏层状态ht的权重矩阵;b表示偏置向量;Softmax分类器会对每一时刻行为类别的概率分布进行预测,最终输出T个类别概率分布;模型最后一个时刻(即第T时刻)输出的概率分布是最具有代表性的,因其关联了整个视频帧序列之间的信息,所以选择最后一个时刻输出的概率分布中概率最大所对应的行为类别为模型当前输入的视频帧序列所属的行为类别;
此外,在模型的训练过程中,使用交叉熵损失函数与注意力正则化以及双随机惩罚原则来定义网络的损失函数用于计算模型的预测值与真实值之间的误差,推动其反向传播更新参数;其中,使用双随机惩罚原则是为了对注意力权重值施加额外的约束,从而保证的实现,而使用注意力正则化是为了约束网络模型在视频帧每个区域的观察时间;通过不断优化如式(15)所定义的损失函数,使其达到全局最小,完成对网络模型的训练调优;
其中,训练集且ri为训练集中的第i个视频样本,/>为样本的行为类别标签,n为训练集的大小,并且假定当/>时,有P′g(ri)=1,当/>时,则P′g(ri)=0,即当样本的行为类别标签为g时,模型计算该样本得到的行为类别g所属的概率为1,否则为0;Pg(ri)表示视频样本ri对于行为类别g的预测概率值;T表示时间步长的总数;G表示模型待识别的视频行为类别数;/>表示注意力惩罚系数;ζ表示注意力权重衰减系数;θ表示所有的模型参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110755765.6A CN113673307B (zh) | 2021-07-05 | 2021-07-05 | 一种轻量型的视频动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110755765.6A CN113673307B (zh) | 2021-07-05 | 2021-07-05 | 一种轻量型的视频动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113673307A CN113673307A (zh) | 2021-11-19 |
CN113673307B true CN113673307B (zh) | 2024-03-29 |
Family
ID=78538598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110755765.6A Active CN113673307B (zh) | 2021-07-05 | 2021-07-05 | 一种轻量型的视频动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113673307B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114241360A (zh) * | 2021-11-23 | 2022-03-25 | 清华大学 | 一种基于自适应推理的视频识别方法和装置 |
CN114187485B (zh) * | 2021-11-30 | 2024-04-16 | 江苏大学 | 一种基于四元特征融合图的轻量级Tor流量分类方法及系统 |
CN114169252B (zh) * | 2021-12-27 | 2022-11-29 | 广东工业大学 | 一种动态选择代表风电场的短期区域风电功率预测方法 |
CN114550298A (zh) * | 2022-02-25 | 2022-05-27 | 北京拙河科技有限公司 | 短视频的动作识别方法及系统 |
CN114639169B (zh) * | 2022-03-28 | 2024-02-20 | 合肥工业大学 | 基于注意力机制特征融合与位置无关的人体动作识别系统 |
CN114419524B (zh) * | 2022-03-29 | 2022-08-05 | 之江实验室 | 一种基于伪光流辅助的视频分类方法及系统 |
CN114640860B (zh) * | 2022-05-07 | 2022-07-15 | 深圳市温暖生活科技有限公司 | 一种网络数据处理与传输方法及系统 |
CN115035597B (zh) * | 2022-06-07 | 2024-04-02 | 中国科学技术大学 | 一种基于事件相机的变光照动作识别方法 |
CN114724012B (zh) * | 2022-06-10 | 2022-08-23 | 天津大学 | 基于时空跨尺度注意力融合热带不稳定波预警方法及装置 |
CN115209119B (zh) * | 2022-06-15 | 2023-06-23 | 华南理工大学 | 一种基于深度神经网络的视频自动着色方法 |
CN115115610B (zh) * | 2022-07-20 | 2023-08-22 | 南京航空航天大学 | 基于改进卷积神经网络的工业ct识别复材内部缺陷方法 |
CN115147935B (zh) * | 2022-09-05 | 2022-12-13 | 浙江壹体科技有限公司 | 一种基于关节点的行为识别方法、电子设备及存储介质 |
CN115272943B (zh) * | 2022-09-29 | 2022-12-23 | 南通双和食品有限公司 | 一种基于数据处理的畜牧家禽进食异常识别方法 |
CN116189281B (zh) * | 2022-12-13 | 2024-04-02 | 北京交通大学 | 基于时空自适应融合的端到端人体行为分类方法及系统 |
CN116645917A (zh) * | 2023-06-09 | 2023-08-25 | 浙江技加智能科技有限公司 | Led显示屏亮度调节系统及其方法 |
CN116823673B (zh) * | 2023-08-24 | 2023-11-10 | 常熟理工学院 | 基于图像处理的高速电梯轿厢乘客状态视觉感知方法 |
CN117115155A (zh) * | 2023-10-23 | 2023-11-24 | 江西拓世智能科技股份有限公司 | 一种基于ai直播的图像分析方法及系统 |
CN117392760B (zh) * | 2023-12-12 | 2024-04-23 | 河海大学 | 一种基于折半交叉网络的健康指导方法和系统 |
CN117437392B (zh) * | 2023-12-15 | 2024-03-26 | 杭州锐健医疗科技有限公司 | 交叉韧带止点标记及其模型训练的方法和关节镜系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919011A (zh) * | 2019-01-28 | 2019-06-21 | 浙江工业大学 | 一种基于多时长信息的动作视频识别方法 |
CN110175596A (zh) * | 2019-06-04 | 2019-08-27 | 重庆邮电大学 | 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN112926396A (zh) * | 2021-01-28 | 2021-06-08 | 杭州电子科技大学 | 一种基于双流卷积注意力的动作识别方法 |
-
2021
- 2021-07-05 CN CN202110755765.6A patent/CN113673307B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919011A (zh) * | 2019-01-28 | 2019-06-21 | 浙江工业大学 | 一种基于多时长信息的动作视频识别方法 |
CN110175596A (zh) * | 2019-06-04 | 2019-08-27 | 重庆邮电大学 | 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN112926396A (zh) * | 2021-01-28 | 2021-06-08 | 杭州电子科技大学 | 一种基于双流卷积注意力的动作识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113673307A (zh) | 2021-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113673307B (zh) | 一种轻量型的视频动作识别方法 | |
CN112052886B (zh) | 基于卷积神经网络的人体动作姿态智能估计方法及装置 | |
CN110135366B (zh) | 基于多尺度生成对抗网络的遮挡行人重识别方法 | |
CN108133188B (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
CN109271933B (zh) | 基于视频流进行三维人体姿态估计的方法 | |
CN112288011B (zh) | 一种基于自注意力深度神经网络的图像匹配方法 | |
CN112396607A (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN109598732B (zh) | 一种基于三维空间加权的医学图像分割方法 | |
CN112489164B (zh) | 基于改进深度可分离卷积神经网络的图像着色方法 | |
CN113743269B (zh) | 一种轻量化识别视频人体姿态的方法 | |
CN113033570A (zh) | 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法 | |
CN112749626A (zh) | 一种面向dsp平台的快速人脸检测与识别方法 | |
CN111861906A (zh) | 一种路面裂缝图像虚拟增广模型建立及图像虚拟增广方法 | |
CN113177882A (zh) | 一种基于扩散模型的单帧图像超分辨处理方法 | |
CN112884668A (zh) | 基于多尺度的轻量级低光图像增强方法 | |
CN113222998B (zh) | 基于自监督低秩网络的半监督图像语义分割方法及装置 | |
CN116563146A (zh) | 基于可学习曲率图的图像增强方法与系统 | |
CN116205962A (zh) | 基于完整上下文信息的单目深度估计方法及系统 | |
CN113379606B (zh) | 一种基于预训练生成模型的人脸超分辨方法 | |
CN110942463B (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
CN114663315B (zh) | 基于语义融合生成对抗网络的图像比特增强方法及装置 | |
CN111768326A (zh) | 一种基于gan扩增图像前景物体的高容量数据保护方法 | |
CN116977200A (zh) | 视频去噪模型的处理方法、装置、计算机设备和存储介质 | |
CN116246110A (zh) | 基于改进胶囊网络的图像分类方法 | |
CN116385281A (zh) | 一种基于真实噪声模型与生成对抗网络的遥感图像去噪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |