CN113743269A - 一种轻量化识别视频人体姿态的方法 - Google Patents
一种轻量化识别视频人体姿态的方法 Download PDFInfo
- Publication number
- CN113743269A CN113743269A CN202110987258.5A CN202110987258A CN113743269A CN 113743269 A CN113743269 A CN 113743269A CN 202110987258 A CN202110987258 A CN 202110987258A CN 113743269 A CN113743269 A CN 113743269A
- Authority
- CN
- China
- Prior art keywords
- image
- model
- optical flow
- video
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000003287 optical effect Effects 0.000 claims abstract description 52
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 238000001914 filtration Methods 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 11
- 239000000284 extract Substances 0.000 claims abstract description 7
- 238000009432 framing Methods 0.000 claims abstract description 5
- 238000006073 displacement reaction Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000012706 support-vector machine Methods 0.000 claims description 6
- 238000005215 recombination Methods 0.000 claims description 4
- 230000006798 recombination Effects 0.000 claims description 4
- 238000000926 separation method Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000000903 blocking effect Effects 0.000 claims description 3
- 239000002131 composite material Substances 0.000 claims description 3
- 230000007547 defect Effects 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000013526 transfer learning Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000009827 uniform distribution Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 description 3
- 230000006378 damage Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
一种轻量化识别视频人体姿态的方法,首先对帧化处理后的RGB视频帧图像进行图像增强、引导滤波去噪等预处理,同时利用视频帧序列计算光流序列、提取光流特征图。然后通过构建轻量级的LHN模型提取RGB视频帧的特征,完成空间领域轻量、有效的人体姿态估计。接着设计LRDN模型以实现轻量化地完成光流特征提取,获取视频在时序领域的人体姿态信息。最后利用训练好的LHN模型和LRDN网络模型搭建并联式异构卷积神经网络,完成对视频人体姿态的准确估计。其中,利用以堆叠的L2标准化的softmax分数作为特征的多类别线性SVM将两个网络的softmax概率进行融合,最终选择最大概率值所对应的姿态类别为模型当前输入的视频帧序列所属的人体姿态类别。
Description
技术领域
本发明涉及一种轻量化识别视频人体姿态的方法。
技术背景
计算机视觉技术的突飞猛进和深度学习方法的发展不仅拓宽了其在图像领域的应用,同时也赋予了视频领域新的可能性。依托于强大的GPU并行计算能力以及海量的带标签数据资源,深度学习算法尤其是卷积神经网络极大地提高了计算机代替人眼对人体动作、各类物体等目标进行识别、跟踪、分割和预测的能力,而依托深度学习技术,人体姿态估计也逐渐成为计算机视觉领域的一个重要研究方向。人体姿态估计的目标在于准确定位人体关键点的位置,但与一帧帧的图像不同的是,视频数据比图像数据多了时间维度的信息,这也使得基于视频的人体姿态识别模型的计算量更为庞大。由此构建的模型难以在嵌入式、移动式等设备上部署,所以,设计轻量化识别视频人体姿态的网络显得格外重要。
发明内容
针对上述问题,本发明提出一种轻量化识别视频人体姿态的方法。
本发明首先对帧化处理后的RGB视频帧图像进行图像增强、引导滤波去噪等预处理,同时利用视频帧序列计算光流序列、提取光流特征图。然后通过构建轻量级的LHN模型提取RGB视频帧的特征,完成空间领域轻量、有效的人体姿态估计。接着设计LRDN模型以实现轻量化地完成光流特征提取,获取视频在时序领域的人体姿态信息。最后利用训练好的LHN模型和LRDN网络模型搭建并联式异构卷积神经网络,完成对视频人体姿态的准确估计。其中,利用以堆叠的L2标准化的softmax分数作为特征的多类别线性SVM将两个网络的softmax概率进行融合,最终选择最大概率值所对应的姿态类别为模型当前输入的视频帧序列所属的人体姿态类别。
为了实现上述目的,本发明采用以下技术方案:
一种轻量化识别视频人体姿态的方法,包括如下步骤:
步骤一,视频样本预处理;
将获取到的实时监控视频或现有视频序列利用OpenCV进行视频帧化处理,即把将视频转化为一帧帧的RGB图像。然后对RGB视频帧进行图像增强、去噪等预处理,同时通过视频帧序列计算光流序列,进而提取光流特征图像;具体包括:
(1)RGB视频帧图像预处理;
对于RGB视频帧图像的预处理,本发明首先对其进行图像增强。具体有:先将图像划分为N个大小相等且互不重叠的图像子块。其次,对于每个子块,将它的像素个数均匀分配到它的各个灰度级中,由此可得每个灰度级所分配到的平均像素个数,进一步得到对比度阈值T。再次,利用对比度阈值T对每个图像子块的灰度直方图(即局部直方图)进行裁剪,然后将裁剪部分的像素个数均匀分配到各个灰度级,得到各个灰度级平均分配到的像素个数。然后,反复进行像素裁剪和均匀分配,直至各个灰度级的像素个数均小于阈值。紧接着对重新分配像素后的每个图像子块进行直方图均衡化处理。在对图像子块完成直方图均衡化后,若仅仅利用映射函数进行变换得到每个子块像素点的值,则不仅会导致算法耗时严重,还会让互不重叠的图像子块在图像重构时产生块效应。为了提高图像的质量,加快图像的处理速度,最后利用双线性插值算法计算像素点的值。经过图像增强后,图像的亮度和对比度都会得到较理想的改善,直方图的灰度分布也会变得更加均衡。
随后,利用引导滤波对经过图像增强的视频帧图像样本进行去噪。引导滤波是一种以较低运算耗时去除噪声、保持边缘的滤波方法。与其他滤波方法相比,它有着更强的适应性和更优的滤波性能。
(2)提取光流特征图像;
假设视频帧图像梯度恒定且局部光流恒定,本发明提取光流特征图像的步骤主要有:
S1:图像的近似建模;
使用一个二次多项式来近似表示一个二维的灰色图像。因为图像一般是二维的,那么图像像素点(x,y)的灰度值可以看成是一个二维变量函数f(x,y),若以感兴趣的像素点为中心构建一个局部坐标系(并不是针对整张图像),那么对该函数进行二项展开,可以近似为:
其中,x为二维列向量;A为2×2的对称矩阵;B为2×1的矩阵;C为常量。
然后以该像素点为中心,设定一个方形邻域(2n+1)×(2n+1),把邻域内的共(2n+1)2个像素点作为样本点,通过计算这些样本点的值和坐标来进行中心像素点的六维系数的估计,估计的方法常使用加权最小二乘法,其中加权是因为在邻域内,距离中心越近的像素点与中心像素具有越大的相关性,而距离越远的点提供的信息则越少,因此可以将邻域以外的像素点的权重都视为0。此处的系数是针对像素点(x,y)而确定的,对于其他像素点可能并不适用,即对于图像中的每个像素点,都有一个六维向量。
S2:位移估计;
首先通过全局位移来构造一个新的信号,假设某一个像素点M的原始位置为f1(x),即有:
则像素点M在邻域范围内移动d后,有:
f2(x)=f1(x-d)
然后通过假定二次多项式中的系数相等来计算整体的位移。假设式(3)中的A1为非奇异矩阵,则可得到图形的全局位移d值为:
按照理论推导,其中必定有A2=A1,但实际情况中未必能满足这一项要求,因此可以用均值来近似真实值,若令:
则有:
Ad=ΔB (7)
d=(ATA)-1(ATΔB) (8)
在计算过程中,可以利用一个先验位移值来缩减迭代次数,因为适当的先验位移值意味着更小的相对位移,从而可以得到更加精准的图像帧间的位移估计,进而在迭代位移估计的过程中获得视频图像帧之间的最优位移值。
S3:生成光流特征图;
本发明利用HSV颜色模型将光流场转换为光流图像。因为经步骤S1和步骤S2提取到的只是一个光流场,该光流场只是一个二维向量场,需要将其转换为光流特征图才能输入网络中进行特征提取。
步骤二,构建LHN模型;
本发明通过构建轻量级的LHN模型来实现RGB视频帧的特征提取,该模型由四阶LHBlock组建而成。其中,一阶的LH Block由两个支路组成,在上支路中,输入依次经过三个轻量级的残差模块,并保留输入图像当前尺度的特征信息;在下支路中,输入会先经过一层最大池化层进行下采样操作,然后依次经过三个轻量级的残差模块,在获取了输入图像的当前尺度的特征后,利用最近邻插值法进行一次上采样操作获取原始分辨率图像。因上支路不会改变图像的分辨率,所以接着将上支路提取的特征图和下支路提取的特征图进行相加操作,最终得到图像在两种尺度下的特征信息。四阶LH Block均由一阶LHBlock拼接而成,即都是先分为上支路和下支路,上支路先依次经过三个轻量级的残差模块,保留输入图像当前尺度的特征信息;下支路则要先经过一个最大池化下采样操作,降低图像的分辨率,接着依次经过三个轻量级的残差模块提取图像特征,然后与前一阶的LH Block进行拼接,最后经过一次上采样操作与上支路获取的图像特征图进行相加操作,以融合图像的多个分辨率的特征,进而进行轻量、有效的人体姿态估计。其中,本发明对残差模块的轻量级设计主要包括:将残差模块中的普通卷积方式更改为深度可分离卷积,同时融入通道分离重组,由此减少模型的参数量、计算量,同时减少传输时的通道数,以保证各部分的图像特征均能有效地传输到模型的后端,提高各特征之间的相关性,以保证人体姿态的准确估计。
步骤三,训练LHN模型;
为了避免网络从头开始训练带来的耗时长以及过拟合带来的弊端,本发明利用ImageNet数据集对LHN网络做预训练,然后对此获取的权重以预处理后的RGB视频帧为输入进行迁移学习的训练。
步骤四,设计LRDN模型;
本发明通过设计LRDN模型以实现轻量化地完成光流图特征提取,该模型由三部分组成:浅层特征提取模块、深层特征提取模块以及图像分类模块。
首先,利用1层标准卷积和1层改进的深度可分离卷积提取输入图像的浅层特征。其中,本发明对传统深度可分离卷积操作的改进有:第一,在深度卷积前增加一层1×1卷积的“扩张”层,目的是为了提升通道数,获得更多特征。第二,最后不采用ReLU激活函数,而是直接线性输出,目的是防止ReLU破坏特征。
然后,将浅层特征作为深度特征提取模块的输入,利用LRDB中的局部密集连接、特征复用、下采样操作与残差融合结构获取图像的各项细节特征。对于LRDN模型,深层特征提取模块是其核心部分,而深层特征提取模块主要是由LRDB组成。LRDB通常包含一个密集连接块、一个下采样过渡块以及一个带池化操作的恒等连接。其中,LRDN中的密集块由24层卷积层密集连接而成,且每一层的非线性组合函数为BN+ReLU+1×1Conv+BN+ReLU+3×3Conv的组合。其中,1×1Conv在这里的作用是固定输出通道数,将输出的特征图个数降低为4k,达到降维的目的,从而提升计算效率。当网络中的十几个1×1Conv+3×3Conv的复合卷积相连接时,串联后的特征通道数会增加到上千,如果不增加1×1Conv来降维,那么后续3×3Conv所需的参数量会急剧增加。此外,因LRDB中包含有残差连接,故在密集块中采用了预激活设计,即激活函数在前、卷积层在后的BN-ReLU-Conv的顺序。而对于模型中的最后一个LRDB,通常直接利用1×1Conv对该密集块的输出特征进行压缩、整理,然后在倒数第二个LRDB输出的深层特征与压缩后的特征之间加入残差连接,获取最终的深层特征。
最后,利用全局平均池化聚合特征图,由全连接层、softmax层作为特征分类器,对输入的图像进行分类,并获取分类的概率。
步骤五,训练LRDN模型;
对于LRDN模型的训练,由于光流视频不能直接作为网络的输入,同时也为了提高网络的分类识别准确率,因此本发明以空间LRDN网络前向传播选择的RGB视频帧为基准,抽取每帧RGB视频帧所对应的前4张、后5张以及本身共10张光流图组合成堆叠的光流特征图像输入到网络中,以进行LRDN网络的前向传播运算,迭代训练,以保证LRDN网络的鲁棒性。
步骤六,搭建并联式异构卷积神经网络;
将步骤二中构建的LHN模型与步骤四中设计的LRDN模型以并联的方式进行拼接,进而构建双流异构卷积神经网络,因双流网络均为深度卷积网络,最后将两个网络的softmax概率利用以堆叠的L2标准化的softmax分数作为特征的多类别线性SVM进行融合,最终选择最大概率值所对应的姿态类别为模型当前输入的视频帧序列所属的人体姿态类别。
本发明的优点是:
本发明基于并联式异构卷积神经网络,提出了一种轻量化识别视频人体姿态的方法。其突出特点有:其一,提出了融合深度可分离卷积、通道分离重组的轻量级LHN模型,以轻量、有效的方式获取视频在空间领域的人体姿态信息。其二,提出了轻量化卷积神经网络——LRDN模型,它不只是利用更高效的卷积计算方式去减少模型的参数和计算量,还在标准卷积的基础上利用残差连接、密集连接等改变卷积层之间的连接方式以优化模型的结构,降低计算损耗,获取视频在时序领域的人体姿态信息。其三,提出了并联式异构卷积神经网络,利用LHN模型与LRDN模型构建轻量化双流卷积网络,以充分提取视频在时空领域的人体姿态信息。
附图说明
图1是本发明的技术路线图;
图2是本发明的图像增强的流程图。
具体实施方式
为了验证本发明提出的方法的可行性和优越性,现结合应用场景对本发明做进一步的阐述:
一种轻量化识别视频人体姿态的方法,包括如下步骤:
步骤一,视频样本预处理;
将获取到的实时监控视频或现有视频序列利用OpenCV进行视频帧化处理,即把将视频转化为一帧帧的RGB图像。然后对RGB视频帧进行图像增强、去噪等预处理,同时通过视频帧序列计算光流序列,进而提取光流特征图像;具体包括:
(1)RGB视频帧图像预处理;
对于RGB视频帧图像的预处理,本发明首先对其进行图像增强。具体有:先将图像划分为N个大小相等且互不重叠的图像子块。其次,对于每个子块,将它的像素个数均匀分配到它的各个灰度级中,由此可得每个灰度级所分配到的平均像素个数,进一步得到对比度阈值T。再次,利用对比度阈值T对每个图像子块的灰度直方图(即局部直方图)进行裁剪,然后将裁剪部分的像素个数均匀分配到各个灰度级,得到各个灰度级平均分配到的像素个数。然后,反复进行像素裁剪和均匀分配,直至各个灰度级的像素个数均小于阈值。紧接着对重新分配像素后的每个图像子块进行直方图均衡化处理。在对图像子块完成直方图均衡化后,若仅仅利用映射函数进行变换得到每个子块像素点的值,则不仅会导致算法耗时严重,还会让互不重叠的图像子块在图像重构时产生块效应。为了提高图像的质量,加快图像的处理速度,最后利用双线性插值算法计算像素点的值。经过图像增强后,图像的亮度和对比度都会得到较理想的改善,直方图的灰度分布也会变得更加均衡。
随后,利用引导滤波对经过图像增强的视频帧图像样本进行去噪。引导滤波是一种以较低运算耗时去除噪声、保持边缘的滤波方法。与其他滤波方法相比,它有着更强的适应性和更优的滤波性能。
(2)提取光流特征图像;
假设视频帧图像梯度恒定且局部光流恒定,本发明提取光流特征图像的步骤主要有:
S1:图像的近似建模;
使用一个二次多项式来近似表示一个二维的灰色图像。因为图像一般是二维的,那么图像像素点(x,y)的灰度值可以看成是一个二维变量函数f(x,y),若以感兴趣的像素点为中心构建一个局部坐标系(并不是针对整张图像),那么对该函数进行二项展开,可以近似为:
其中,x为二维列向量;A为2×2的对称矩阵;B为2×1的矩阵;C为常量。
然后以该像素点为中心,设定一个方形邻域(2n+1)×(2n+1),把邻域内的共(2n+1)2个像素点作为样本点,通过计算这些样本点的值和坐标来进行中心像素点的六维系数的估计,估计的方法常使用加权最小二乘法,其中加权是因为在邻域内,距离中心越近的像素点与中心像素具有越大的相关性,而距离越远的点提供的信息则越少,因此可以将邻域以外的像素点的权重都视为0。此处的系数是针对像素点(x,y)而确定的,对于其他像素点可能并不适用,即对于图像中的每个像素点,都有一个六维向量。
S2:位移估计;
首先通过全局位移来构造一个新的信号,假设某一个像素点M的原始位置为f1(x),即有:
则像素点M在邻域范围内移动d后,有:
然后通过假定二次多项式中的系数相等来计算整体的位移。假设式(3)中的A1为非奇异矩阵,则可得到图形的全局位移d值为:
按照理论推导,其中必定有A2=A1,但实际情况中未必能满足这一项要求,因此可以用均值来近似真实值,若令:
则有:
Ad=ΔB (7)
d=(ATA)-1(ATΔB) (8)
在计算过程中,可以利用一个先验位移值来缩减迭代次数,因为适当的先验位移值意味着更小的相对位移,从而可以得到更加精准的图像帧间的位移估计,进而在迭代位移估计的过程中获得视频图像帧之间的最优位移值。
S3:生成光流特征图;
本发明利用HSV颜色模型将光流场转换为光流图像。因为经步骤S1和步骤S2提取到的只是一个光流场,该光流场只是一个二维向量场,需要将其转换为光流特征图才能输入网络中进行特征提取。
步骤二,构建LHN模型;
本发明通过构建轻量级的LHN模型来实现RGB视频帧的特征提取,该模型由四阶LHBlock组建而成。其中,一阶的LH Block由两个支路组成,在上支路中,输入依次经过三个轻量级的残差模块,并保留输入图像当前尺度的特征信息;在下支路中,输入会先经过一层最大池化层进行下采样操作,然后依次经过三个轻量级的残差模块,在获取了输入图像的当前尺度的特征后,利用最近邻插值法进行一次上采样操作获取原始分辨率图像。因上支路不会改变图像的分辨率,所以接着将上支路提取的特征图和下支路提取的特征图进行相加操作,最终得到图像在两种尺度下的特征信息。四阶LH Block均由一阶LHBlock拼接而成,即都是先分为上支路和下支路,上支路先依次经过三个轻量级的残差模块,保留输入图像当前尺度的特征信息;下支路则要先经过一个最大池化下采样操作,降低图像的分辨率,接着依次经过三个轻量级的残差模块提取图像特征,然后与前一阶的LH Block进行拼接,最后经过一次上采样操作与上支路获取的图像特征图进行相加操作,以融合图像的多个分辨率的特征,进而进行轻量、有效的人体姿态估计。其中,本发明对残差模块的轻量级设计主要包括:将残差模块中的普通卷积方式更改为深度可分离卷积,同时融入通道分离重组,由此减少模型的参数量、计算量,同时减少传输时的通道数,以保证各部分的图像特征均能有效地传输到模型的后端,提高各特征之间的相关性,以保证人体姿态的准确估计。
步骤三,训练LHN模型;
为了避免网络从头开始训练带来的耗时长以及过拟合带来的弊端,本发明利用ImageNet数据集对LHN网络做预训练,然后对此获取的权重以预处理后的RGB视频帧为输入进行迁移学习的训练。
步骤四,设计LRDN模型;
本发明通过设计LRDN模型以实现轻量化地完成光流图特征提取,该模型由三部分组成:浅层特征提取模块、深层特征提取模块以及图像分类模块。
首先,利用1层标准卷积和1层改进的深度可分离卷积提取输入图像的浅层特征。其中,本发明对传统深度可分离卷积操作的改进有:第一,在深度卷积前增加一层1×1卷积的“扩张”层,目的是为了提升通道数,获得更多特征。第二,最后不采用ReLU激活函数,而是直接线性输出,目的是防止ReLU破坏特征。
然后,将浅层特征作为深度特征提取模块的输入,利用LRDB中的局部密集连接、特征复用、下采样操作与残差融合结构获取图像的各项细节特征。对于LRDN模型,深层特征提取模块是其核心部分,而深层特征提取模块主要是由LRDB组成。LRDB通常包含一个密集连接块、一个下采样过渡块以及一个带池化操作的恒等连接。其中,LRDN中的密集块由24层卷积层密集连接而成,且每一层的非线性组合函数为BN+ReLU+1×1Conv+BN+ReLU+3×3Conv的组合。其中,1×1Conv在这里的作用是固定输出通道数,将输出的特征图个数降低为4k,达到降维的目的,从而提升计算效率。当网络中的十几个1×1Conv+3×3Conv的复合卷积相连接时,串联后的特征通道数会增加到上千,如果不增加1×1Conv来降维,那么后续3×3Conv所需的参数量会急剧增加。此外,因LRDB中包含有残差连接,故在密集块中采用了预激活设计,即激活函数在前、卷积层在后的BN-ReLU-Conv的顺序。而对于模型中的最后一个LRDB,通常直接利用1×1Conv对该密集块的输出特征进行压缩、整理,然后在倒数第二个LRDB输出的深层特征与压缩后的特征之间加入残差连接,获取最终的深层特征。
最后,利用全局平均池化聚合特征图,由全连接层、softmax层作为特征分类器,对输入的图像进行分类,并获取分类的概率。
步骤五,训练LRDN模型;
对于LRDN模型的训练,由于光流视频不能直接作为网络的输入,同时也为了提高网络的分类识别准确率,因此本发明以空间LRDN网络前向传播选择的RGB视频帧为基准,抽取每帧RGB视频帧所对应的前4张、后5张以及本身共10张光流图组合成堆叠的光流特征图像输入到网络中,以进行LRDN网络的前向传播运算,迭代训练,以保证LRDN网络的鲁棒性。
步骤六,搭建并联式异构卷积神经网络;
将步骤二中构建的LHN模型与步骤四中设计的LRDN模型以并联的方式进行拼接,进而构建双流异构卷积神经网络,因双流网络均为深度卷积网络,最后将两个网络的softmax概率利用以堆叠的L2标准化的softmax分数作为特征的多类别线性SVM进行融合,最终选择最大概率值所对应的姿态类别为模型当前输入的视频帧序列所属的人体姿态类别。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (1)
1.一种轻量化识别视频人体姿态的方法,包括如下步骤:
步骤一,视频样本预处理;
将获取到的实时监控视频或现有视频序列利用OpenCV进行视频帧化处理,即把将视频转化为一帧帧的RGB图像;然后对RGB视频帧进行图像增强、去噪等预处理,同时通过视频帧序列计算光流序列,进而提取光流特征图像;具体包括:
(1)RGB视频帧图像预处理;
对于RGB视频帧图像的预处理,首先对其进行图像增强;具体有:先将图像划分为N个大小相等且互不重叠的图像子块;其次,对于每个子块,将它的像素个数均匀分配到它的各个灰度级中,由此可得每个灰度级所分配到的平均像素个数,进一步得到对比度阈值T;再次,利用对比度阈值T对每个图像子块的灰度直方图(即局部直方图)进行裁剪,然后将裁剪部分的像素个数均匀分配到各个灰度级,得到各个灰度级平均分配到的像素个数;然后,反复进行像素裁剪和均匀分配,直至各个灰度级的像素个数均小于阈值;紧接着对重新分配像素后的每个图像子块进行直方图均衡化处理;在对图像子块完成直方图均衡化后,若仅仅利用映射函数进行变换得到每个子块像素点的值,则不仅会导致算法耗时严重,还会让互不重叠的图像子块在图像重构时产生块效应;为了提高图像的质量,加快图像的处理速度,最后利用双线性插值算法计算像素点的值;经过图像增强后,图像的亮度和对比度都会得到较理想的改善,直方图的灰度分布也会变得更加均衡;
随后,利用引导滤波对经过图像增强的视频帧图像样本进行去噪;引导滤波是一种以较低运算耗时去除噪声、保持边缘的滤波方法;与其他滤波方法相比,它有着更强的适应性和更优的滤波性能;
(2)提取光流特征图像;
假设视频帧图像梯度恒定且局部光流恒定,提取光流特征图像的步骤主要有:
S1:图像的近似建模;
使用一个二次多项式来近似表示一个二维的灰色图像;因为图像一般是二维的,那么图像像素点(x,y)的灰度值可以看成是一个二维变量函数f(x,y),若以感兴趣的像素点为中心构建一个局部坐标系(并不是针对整张图像),那么对该函数进行二项展开,可以近似为:
f(x,y)≈a1+a2x+a3y+a4xy+a5x2+a6y2
其中,x为二维列向量;A为2×2的对称矩阵;B为2×1的矩阵;C为常量;
然后以该像素点为中心,设定一个方形邻域(2n+1)×(2n+1),把邻域内的共(2n+1)2个像素点作为样本点,通过计算这些样本点的值和坐标来进行中心像素点的六维系数的估计,估计的方法常使用加权最小二乘法,其中加权是因为在邻域内,距离中心越近的像素点与中心像素具有越大的相关性,而距离越远的点提供的信息则越少,因此可以将邻域以外的像素点的权重都视为0;此处的系数是针对像素点(x,y)而确定的,对于其他像素点可能并不适用,即对于图像中的每个像素点,都有一个六维向量;
S2:位移估计;
首先通过全局位移来构造一个新的信号,假设某一个像素点M的原始位置为f1(x),即有:
则像素点M在邻域范围内移动d后,有:
然后通过假定二次多项式中的系数相等来计算整体的位移;假设式(3)中的A1为非奇异矩阵,则可得到图形的全局位移d值为:
按照理论推导,其中必定有A2=A1,但实际情况中未必能满足这一项要求,因此可以用均值来近似真实值,若令:
则有:
Ad=ΔB (7)
d=(ATA)-1(ATΔB) (8)
在计算过程中,可以利用一个先验位移值来缩减迭代次数,因为适当的先验位移值意味着更小的相对位移,从而可以得到更加精准的图像帧间的位移估计,进而在迭代位移估计的过程中获得视频图像帧之间的最优位移值;
S3:生成光流特征图;
利用HSV颜色模型将光流场转换为光流图像;因为经步骤S1和步骤S2提取到的只是一个光流场,该光流场只是一个二维向量场,需要将其转换为光流特征图才能输入网络中进行特征提取;
步骤二,构建LHN模型;
通过构建轻量级的LHN模型来实现RGB视频帧的特征提取,该模型由四阶LH Block组建而成;其中,一阶的LH Block由两个支路组成,在上支路中,输入依次经过三个轻量级的残差模块,并保留输入图像当前尺度的特征信息;在下支路中,输入会先经过一层最大池化层进行下采样操作,然后依次经过三个轻量级的残差模块,在获取了输入图像的当前尺度的特征后,利用最近邻插值法进行一次上采样操作获取原始分辨率图像;因上支路不会改变图像的分辨率,所以接着将上支路提取的特征图和下支路提取的特征图进行相加操作,最终得到图像在两种尺度下的特征信息;四阶LH Block均由一阶LH Block拼接而成,即都是先分为上支路和下支路,上支路先依次经过三个轻量级的残差模块,保留输入图像当前尺度的特征信息;下支路则要先经过一个最大池化下采样操作,降低图像的分辨率,接着依次经过三个轻量级的残差模块提取图像特征,然后与前一阶的LH Block进行拼接,最后经过一次上采样操作与上支路获取的图像特征图进行相加操作,以融合图像的多个分辨率的特征,进而进行轻量、有效的人体姿态估计;其中,对残差模块的轻量级设计主要包括:将残差模块中的普通卷积方式更改为深度可分离卷积,同时融入通道分离重组,由此减少模型的参数量、计算量,同时减少传输时的通道数,以保证各部分的图像特征均能有效地传输到模型的后端,提高各特征之间的相关性,以保证人体姿态的准确估计;
步骤三,训练LHN模型;
为了避免网络从头开始训练带来的耗时长以及过拟合带来的弊端,利用ImageNet数据集对LHN网络做预训练,然后对此获取的权重以预处理后的RGB视频帧为输入进行迁移学习的训练;
步骤四,设计LRDN模型;
通过设计LRDN模型以实现轻量化地完成光流图特征提取,该模型由三部分组成:浅层特征提取模块、深层特征提取模块以及图像分类模块;
首先,利用1层标准卷积和1层改进的深度可分离卷积提取输入图像的浅层特征;其中,对传统深度可分离卷积操作的改进有:第一,在深度卷积前增加一层1×1卷积的“扩张”层,目的是为了提升通道数,获得更多特征;第二,最后不采用ReLU激活函数,而是直接线性输出,目的是防止ReLU破坏特征;
然后,将浅层特征作为深度特征提取模块的输入,利用LRDB中的局部密集连接、特征复用、下采样操作与残差融合结构获取图像的各项细节特征;对于LRDN模型,深层特征提取模块是其核心部分,而深层特征提取模块主要是由LRDB组成;LRDB通常包含一个密集连接块、一个下采样过渡块以及一个带池化操作的恒等连接;其中,LRDN中的密集块由24层卷积层密集连接而成,且每一层的非线性组合函数为BN+ReLU+1×1Conv+BN+ReLU+3×3Conv的组合;其中,1×1Conv在这里的作用是固定输出通道数,将输出的特征图个数降低为4k,达到降维的目的,从而提升计算效率;当网络中的十几个1×1Conv+3×3Conv的复合卷积相连接时,串联后的特征通道数会增加到上千,如果不增加1×1Conv来降维,那么后续3×3Conv所需的参数量会急剧增加;此外,因LRDB中包含有残差连接,故在密集块中采用了预激活设计,即激活函数在前、卷积层在后的BN-ReLU-Conv的顺序;而对于模型中的最后一个LRDB,通常直接利用1×1Conv对该密集块的输出特征进行压缩、整理,然后在倒数第二个LRDB输出的深层特征与压缩后的特征之间加入残差连接,获取最终的深层特征;
最后,利用全局平均池化聚合特征图,由全连接层、softmax层作为特征分类器,对输入的图像进行分类,并获取分类的概率;
步骤五,训练LRDN模型;
对于LRDN模型的训练,由于光流视频不能直接作为网络的输入,同时也为了提高网络的分类识别准确率,因此以空间LRDN网络前向传播选择的RGB视频帧为基准,抽取每帧RGB视频帧所对应的前4张、后5张以及本身共10张光流图组合成堆叠的光流特征图像输入到网络中,以进行LRDN网络的前向传播运算,迭代训练,以保证LRDN网络的鲁棒性;
步骤六,搭建并联式异构卷积神经网络;
将步骤二中构建的LHN模型与步骤四中设计的LRDN模型以并联的方式进行拼接,进而构建双流异构卷积神经网络,因双流网络均为深度卷积网络,最后将两个网络的softmax概率利用以堆叠的L2标准化的softmax分数作为特征的多类别线性SVM进行融合,最终选择最大概率值所对应的姿态类别为模型当前输入的视频帧序列所属的人体姿态类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110987258.5A CN113743269B (zh) | 2021-08-26 | 2021-08-26 | 一种轻量化识别视频人体姿态的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110987258.5A CN113743269B (zh) | 2021-08-26 | 2021-08-26 | 一种轻量化识别视频人体姿态的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113743269A true CN113743269A (zh) | 2021-12-03 |
CN113743269B CN113743269B (zh) | 2024-03-29 |
Family
ID=78733035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110987258.5A Active CN113743269B (zh) | 2021-08-26 | 2021-08-26 | 一种轻量化识别视频人体姿态的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113743269B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255429A (zh) * | 2021-03-19 | 2021-08-13 | 青岛根尖智能科技有限公司 | 一种视频中人体姿态估计与跟踪方法及系统 |
CN115063723A (zh) * | 2022-06-20 | 2022-09-16 | 无锡慧眼人工智能科技有限公司 | 一种基于人体姿态估计的运动型障碍缺陷识别方法 |
CN116823673A (zh) * | 2023-08-24 | 2023-09-29 | 常熟理工学院 | 基于图像处理的高速电梯轿厢乘客状态视觉感知方法 |
CN117237259A (zh) * | 2023-11-14 | 2023-12-15 | 华侨大学 | 基于多模态融合的压缩视频质量增强方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112365577A (zh) * | 2020-11-09 | 2021-02-12 | 重庆邮电大学 | 一种基于卷积神经网络的机械零件增强现实跟踪注册方法 |
AU2020104006A4 (en) * | 2020-12-10 | 2021-02-18 | Naval Aviation University | Radar target recognition method based on feature pyramid lightweight convolutional neural network |
CN112381045A (zh) * | 2020-11-30 | 2021-02-19 | 国电南瑞科技股份有限公司 | 一种面向物联网移动端设备的轻量级人体姿态识别方法 |
CN112395977A (zh) * | 2020-11-17 | 2021-02-23 | 南京林业大学 | 基于身体轮廓和腿部关节骨架的哺乳动物姿态识别方法 |
CN112528830A (zh) * | 2020-12-07 | 2021-03-19 | 南京航空航天大学 | 一种结合迁移学习的轻量级cnn口罩人脸姿态分类方法 |
CN112801043A (zh) * | 2021-03-11 | 2021-05-14 | 河北工业大学 | 基于深度学习的实时视频人脸关键点检测方法 |
-
2021
- 2021-08-26 CN CN202110987258.5A patent/CN113743269B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112365577A (zh) * | 2020-11-09 | 2021-02-12 | 重庆邮电大学 | 一种基于卷积神经网络的机械零件增强现实跟踪注册方法 |
CN112395977A (zh) * | 2020-11-17 | 2021-02-23 | 南京林业大学 | 基于身体轮廓和腿部关节骨架的哺乳动物姿态识别方法 |
CN112381045A (zh) * | 2020-11-30 | 2021-02-19 | 国电南瑞科技股份有限公司 | 一种面向物联网移动端设备的轻量级人体姿态识别方法 |
CN112528830A (zh) * | 2020-12-07 | 2021-03-19 | 南京航空航天大学 | 一种结合迁移学习的轻量级cnn口罩人脸姿态分类方法 |
AU2020104006A4 (en) * | 2020-12-10 | 2021-02-18 | Naval Aviation University | Radar target recognition method based on feature pyramid lightweight convolutional neural network |
CN112801043A (zh) * | 2021-03-11 | 2021-05-14 | 河北工业大学 | 基于深度学习的实时视频人脸关键点检测方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255429A (zh) * | 2021-03-19 | 2021-08-13 | 青岛根尖智能科技有限公司 | 一种视频中人体姿态估计与跟踪方法及系统 |
CN113255429B (zh) * | 2021-03-19 | 2023-04-07 | 青岛根尖智能科技有限公司 | 一种视频中人体姿态估计与跟踪方法及系统 |
CN115063723A (zh) * | 2022-06-20 | 2022-09-16 | 无锡慧眼人工智能科技有限公司 | 一种基于人体姿态估计的运动型障碍缺陷识别方法 |
CN115063723B (zh) * | 2022-06-20 | 2023-10-24 | 无锡慧眼人工智能科技有限公司 | 一种基于人体姿态估计的运动型障碍缺陷识别方法 |
CN116823673A (zh) * | 2023-08-24 | 2023-09-29 | 常熟理工学院 | 基于图像处理的高速电梯轿厢乘客状态视觉感知方法 |
CN116823673B (zh) * | 2023-08-24 | 2023-11-10 | 常熟理工学院 | 基于图像处理的高速电梯轿厢乘客状态视觉感知方法 |
CN117237259A (zh) * | 2023-11-14 | 2023-12-15 | 华侨大学 | 基于多模态融合的压缩视频质量增强方法及装置 |
CN117237259B (zh) * | 2023-11-14 | 2024-02-27 | 华侨大学 | 基于多模态融合的压缩视频质量增强方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113743269B (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325751B (zh) | 基于注意力卷积神经网络的ct图像分割系统 | |
CN113743269B (zh) | 一种轻量化识别视频人体姿态的方法 | |
CN113673307B (zh) | 一种轻量型的视频动作识别方法 | |
CN113052210B (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
CN111210443A (zh) | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 | |
CN111340814A (zh) | 一种基于多模态自适应卷积的rgb-d图像语义分割方法 | |
CN112348036A (zh) | 基于轻量化残差学习和反卷积级联的自适应目标检测方法 | |
CN114495029B (zh) | 一种基于改进YOLOv4的交通目标检测方法及系统 | |
CN113065402A (zh) | 一种基于变形注意力机制的人脸检测方法 | |
CN110689599A (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
CN112164077B (zh) | 基于自下而上路径增强的细胞实例分割方法 | |
CN111968123A (zh) | 一种半监督视频目标分割方法 | |
CN112651423A (zh) | 一种智能视觉系统 | |
CN115862066A (zh) | 一种改进YOLOv5的轻量化社区场景下行人检测方法 | |
CN112183649A (zh) | 一种用于对金字塔特征图进行预测的算法 | |
CN116469100A (zh) | 一种基于Transformer的双波段图像语义分割方法 | |
CN116580184A (zh) | 一种基于YOLOv7的轻量化模型 | |
CN111242839A (zh) | 一种基于尺度等级的图像缩放裁剪方法 | |
CN115713546A (zh) | 移动终端设备用的轻量化目标跟踪算法 | |
CN113223006B (zh) | 一种基于深度学习的轻量级目标语义分割方法 | |
CN115171074A (zh) | 一种基于多尺度yolo算法的车辆目标识别方法 | |
CN115331261A (zh) | 基于YOLOv6的移动端实时人体检测方法及系统 | |
CN114693951A (zh) | 一种基于全局上下文信息探索的rgb-d显著性目标检测方法 | |
CN113379672B (zh) | 一种基于深度学习的细胞图像分割方法 | |
CN117392392B (zh) | 一种割胶线识别与生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |