CN111401207B - 基于mars深度特征提取与增强的人体动作识别方法 - Google Patents
基于mars深度特征提取与增强的人体动作识别方法 Download PDFInfo
- Publication number
- CN111401207B CN111401207B CN202010166751.6A CN202010166751A CN111401207B CN 111401207 B CN111401207 B CN 111401207B CN 202010166751 A CN202010166751 A CN 202010166751A CN 111401207 B CN111401207 B CN 111401207B
- Authority
- CN
- China
- Prior art keywords
- image
- human body
- mars
- algorithm
- mers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000009471 action Effects 0.000 title claims abstract description 39
- 238000000605 extraction Methods 0.000 title claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 49
- 230000009466 transformation Effects 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 230000004927 fusion Effects 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000011426 transformation method Methods 0.000 claims abstract description 5
- 238000001914 filtration Methods 0.000 claims description 14
- 230000003287 optical effect Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000008602 contraction Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000002146 bilateral effect Effects 0.000 claims description 3
- 230000008014 freezing Effects 0.000 claims description 3
- 238000007710 freezing Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000002093 peripheral effect Effects 0.000 claims description 3
- 230000000644 propagated effect Effects 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims description 2
- 208000025370 Middle East respiratory syndrome Diseases 0.000 claims 7
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 210000002569 neuron Anatomy 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 241000264877 Hippospongia communis Species 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008571 general function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于MARS深度特征提取与增强的人体动作识别方法,包括以下步骤:S1:从空间和时间两个维度构建基于深层神经网络的三维残差变换模型;S2:采用基于特征的损失和标准的交叉熵损失的线性组合来训练该模型;S3:采用去噪融合算法消除视频数据中的噪声;S4:采用图像旋转方法模拟摄像头的移动和旋转,以模拟实际真实场景中的人体动作识别场景;S5:通过马赛克遮挡算法处理人体动作识别真实场景中的遮挡;S6:使用目标伸缩变换方法提升真实场景中人体目标尺寸的多样性,以使模型不断学习新的数据集;S7:利用训练及优化后的三维残差变换模型进行人体动作识别。该方法有利于提高人体动作识别的准确率和鲁棒性。
Description
技术领域
本发明涉及模式识别与计算机视觉领域,特别是一种基于MARS深度特征提取与增强的人体动作识别方法。
背景技术
近几年,计算机视觉和机器学习的飞速发展,视频分析任务已经从推断当前的状态转变为预测未来状态。基于视频的人体动作识别和预测就是这样的任务,其中动作识别是基于完整的动作执行来推断人类动作的当前状态,动作预测基于不完整的动作执行来预测人类动作的未来状态。由于这两项任务在现实世界中爆炸性地出现,例如智能安防视频监视、人机交互、虚拟现实和医疗监护等领域,因此成为热门的研究方向。
但是,基于深度特征提取的人体动作识别存在如下问题:1)在实际场景下,异常动作发生频率很低,数据收集和标注困难,即无论是常规动作还是异常动作都存在多样且复杂的特点,进而导致类别内的多样性较高和在真实场景下,特别在安防领域,基于深度学习的人体动作识别遇到了较大的挑战。2)在深度特征的提取上,传统的人体动作特征提取模型无法精确并且完整的提取特征信息。在复杂场景下,受到遮挡和摄像头角度等情况的影响,传统的特征提取模型能力弱,算法鲁棒性还需要提升。
发明内容
本发明的目的在于提供一种基于MARS深度特征提取与增强的人体动作识别方法,该方法有利于提高人体动作识别的准确率和鲁棒性。
为实现上述目的,本发明采用的技术方案是:一种基于MARS深度特征提取与增强的人体动作识别方法,包括以下步骤:
步骤S1:从空间和时间两个维度构建基于深层神经网络的三维残差变换模型;
步骤S2:采用基于特征的损失和标准的交叉熵损失的线性组合来训练所述三维残差变换模型;
步骤S3:采用基于峰值信噪比的去噪融合算法消除人体动作识别视频数据中的噪声,以提高模型的准确率和鲁棒性;
步骤S4:采用笛卡尔坐标系的图像旋转方法模拟摄像头的移动和旋转,以模拟在实际真实场景中的人体动作识别场景;
步骤S5:通过基于自学习的马赛克遮挡算法处理人体动作识别真实场景中的遮挡;
步骤S6:使用目标伸缩变换方法提升真实场景中人体目标尺寸的多样性,以使模型不断学习新的数据集,得到经过训练及优化后的三维残差变换模型;
步骤S7:利用训练及优化后的三维残差变换模型对待识别的视频数据进行人体动作识别。
进一步地,所述步骤S1具体包括以下步骤:
步骤S11:从RGB动作流和光流两个维度提升深度特征,构成空间和时间维度特征信息集特征,并遵循VGG/ResNets采用高度模块化构建基于深层神经网络的三维残差变换模型;该网络由一堆剩余块组成,该些剩余块具有相同的拓扑结构,且遵循两个规则:第一,如果生成相同大小的空间图,则该些块共享相同的超参数;第二,每次将空间网络下采样2倍时,块的宽度乘以2倍;
步骤S12:基于所述两个规则,构建一个模块,即相应地确定网络中的所有模块,完成空间和时间维度的模型构建。
进一步地,所述步骤S2具体包括以下步骤:
步骤S21:第一个由RGB流输入产生的模拟流特征的训练策略即为动作模拟RGB流,即MERS;采用一种紧靠MERS的最终完全连接层输出的损失来模拟之前流的输出;MERS的结构和输入与具有三维卷积的标准RGB流相似,但其目标是降低这些特征之间的均方的误差损失LMERS:
LMERS=||fcMERS-fcFlow||2
其中,fcMERS表示MERS的特征,fcFlow表示光流的特征;在网络的倒数第二层应用这个损失函数以使最后一层的MERS没有训练;
步骤S22:利用具有交叉熵损失的光流分块对流进行训练以完成对动作进行分类,并冻结其权重;为了使用RGB帧模拟流特征,首先将均方的误差损失反向传播到除最后一层外的所有MERS层,然后分别训练最后一层具有交叉熵损失的MERS;
步骤S23:为了利用网络的外观信息增强这种训练,通过在整个网络中反向传播MSE和交叉熵损失的线性组合来训练网络,即使用以下损失函数LMARS训练增强动作RGB流,即MARS:
进一步地,所述步骤S3具体包括以下步骤:
步骤S31:采用领域平均法进行均值滤波,首先在图像上对目标像素给出一个模板,然后用模板中的全体像素的平均值来代替原图像的像素值,其计算公式如下:
其中,g(u,v)表示经过处理后图像在点(u,v)上的像素值,K表示该模板中包含当前像素在内的像素总个数,h(u,v)表示处理前图像下点(u,v)上的像素值;
步骤S32:采用高斯滤波消除高斯噪声,具体方法为:对整张图像进行加权平均,对于其中每一个像素点的值是从邻域内的其他像素值和其本身像素值通过加权平均计算得到;中值滤波采用一个5×5的模板,逐次将模板中心对应于图像的每个像素上,当前的像素值由模板图像覆盖的像素值提供;双边滤波采用加权平均的方法,用周边像素亮度值的加权平均代表某个像素值的大小;
步骤S33:采用峰值信噪比作为去噪算法评估的标准,其计算公式为:
步骤S34:利用上述几种去噪算法组成一个算法集合,记做T={t1,t2,···,tl},tl表示第l种去噪算法;首先从待去噪的图像数据集中遍历选取一张图像,然后遍历去噪算法集合,之后用基于峰值信噪比的去噪评估标准选出一个对这张图像最好的去噪算法,假设该去噪算法为t1,并记住计算得出的信噪比改善因子的值R;在此基础上,遍历排除掉t1的去噪算法集合,如果遍历的其余去噪算法中得到R的值大于原来的,则更新R,否则不更新,如此循环,直到算法集合遍历完,则完成一张图像的去噪;最后,遍历整个待去噪的图像数据集。
图像经过旋转之后,相对于原图像,旋转之后的图像在长和宽都会发生变化;假设数据是已标注的识别的位置信息,则需要重新计算旋转之后的位置。
进一步地,所述步骤S5中,采用马赛克遮挡算法将一张图像分割成蜂窝状,并且采用正六边形的中心点像素值来填充整个正六变形;把画布分割成长和宽为比例大小的矩阵,采用所有矩形的阵点坐标来进行索引,画布的左上角坐标为(0,0),并把该坐标设为起始点,则得到画布的右下角坐标为(width,height),其中,width表示画布的宽,height表示画布的长;基于小矩形四个点的坐标信息,即可类推出画布中所有点的坐标位置信息;当找到一个矩形框之后,只要判断它属于哪个六边形即可;使用找到的六边形的中心点像素来代替该点像素值;用这样的方法,遍历画布上的每一个点,即完成马赛克的效果;所述马赛克遮挡算法的具体实现方法为:首先获取原始视频的长度和宽度,接着通过该大小和相关比例自适应确定马赛克遮挡框的尺寸和数量;最后利用图像融合算法,将马赛克图像融入到原始图像中;在融合的位置,采用随机法选取法。
进一步地,所述步骤S6中,首先获取原始图像的长度Lo和宽度Wo,然后对Lo和Wo进行操作,操作方式为:长不变,宽伸缩no倍,当no大于1时,则为扩大,反之,为缩小;宽不变,长伸缩mo倍,当mo大于1时,则为扩大,反之,为缩小;长伸缩mo倍,宽伸缩no倍,当mo=no时,则为放大或者缩小;
图经过伸缩变换算法处理之后,会使得要识别的目标被拉伸、收缩、放大或者缩小一定的倍数,其计算公式如下:
其中,s1、s2和s3分别为X轴、Y轴和Z轴的缩放比例。
相较于现有技术,本发明具有以下有益效果:提供了一种基于MARS深度特征提取与增强的人体动作识别方法,该方法解决了传统动作识别模型存在特征提取能力弱和针对安防场景下存在异常动作发生频率低、数据收集和标注困难等问题,可以有效的提高人体动作识别的准确率和鲁棒性,具有很强的实用性和广阔的应用前景。
附图说明
图1是本发明实施例的方法实现流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。
本发明提供了一种基于MARS深度特征提取与增强的人体动作识别方法,如图1所示,包括以下步骤:
步骤S1:从空间和时间两个维度构建基于深层神经网络的三维残差变换模型。具体包括以下步骤:
步骤S11:从RGB动作流和光流两个维度提升深度特征,构成空间和时间维度特征信息集特征,并遵循VGG/ResNets采用高度模块化构建基于深层神经网络的三维残差变换模型;该网络由一堆剩余块组成,该些剩余块具有相同的拓扑结构,且遵循两个规则:第一,如果生成相同大小的空间图,则该些块共享相同的超参数;第二,每次将空间网络下采样2倍时,块的宽度乘以2倍;;第二条规则可确保计算复杂度,让其在浮点运算中,对于所有块而言大致相同。
步骤S12:基于所述两个规则,只需构建一个模块,即可相应地确定网络中的所有模块,完成空间和时间维度的模型构建。因此,这两个规则极大地缩小了设计空间;人工神经网络中最简单的神经元执行内积(加权总和),这是由完全连接的卷积层完成的基本转换;内在网络可以看作是聚合转化的一种形式:
其中,D表示通道总数,参数i表示第i通道,xi表示第i通道的输入向量,wi是第i通道的过滤器权重;该操作(通常包括一些输出非线性)被称为神经元。
考虑使用更通用的函数代替基本变换wixi,该函数本身也可以是网络;神经元网络是沿着新的维度扩展;因此,将汇总的转换表示为:
其中:C表示通道的输入向量,j表示第j通道,表示Tj(y)可以是任意函数,y表示输入向量;类似于简单的神经元,Tj应将y投射到(可选为低维)嵌入中,然后对其进行转换。
步骤S2:采用基于特征的损失和标准的交叉熵损失的线性组合来训练所述三维残差变换模型。体包括以下步骤:
步骤S21:第一个由RGB流输入产生的模拟流特征的训练策略即为动作模拟RGB流,即MERS(Motion Emulating RGB Stream),是通过在特征级别使用一个损失函数来实现的,卷积神经网络的初始层代表低层的局部特征信息,而后面的层代表的是高层的全局特征;对于相关任务来说,这些特征具有高度的区分性;采用一种紧靠MERS的最终完全连接层输出的损失来模拟之前流的输出;MERS的结构和输入与具有三维卷积的标准RGB流相似,但其目标是降低这些特征之间的均方的误差损失LMERS:
LMERS=||fcMERS-fcFlow||2
其中,fcMERS表示MERS的特征,fcFlow表示光流的特征;在网络的倒数第二层应用这个损失函数以使最后一层的MERS没有训练.
步骤S22:利用具有交叉熵损失的光流分块对流进行训练以完成对动作进行分类,并冻结其权重;为了使用RGB帧模拟流特征,首先将均方的误差损失反向传播到除最后一层外的所有MERS层,然后分别训练最后一层具有交叉熵损失的MERS。
步骤S23:为了利用网络的外观信息增强这种训练,通过在整个网络中反向传播MSE和交叉熵损失的线性组合来训练网络,即使用以下损失函数LMARS训练增强动作RGB流,即MARS:
其中,CrossEntropy表示交叉熵的值,SMARS表示类的预测分数,是正确的分类标签,α是调节运动特征影响的标量权重,fcMARS表示MARS的特征,fcFlow表示光流的特征。较小的α值使MARS类似于标准RGB流,较大的α值使MARS更接近模拟流的MERS;使用这种组合损失可以确保模拟特征和流特征之间的差异导致交叉熵的降低,即更高的分类精度。
步骤S3:采用基于峰值信噪比的去噪融合算法消除人体动作识别视频数据中的噪声,以提高模型的准确率和鲁棒性。具体包括以下步骤:
步骤S31:采用领域平均法进行均值滤波,首先在图像上对目标像素给出一个模板,然后用模板中的全体像素的平均值来代替原图像的像素值,其计算公式如下:
其中,g(u,v)表示经过处理后图像在点(u,v)上的像素值,K表示该模板中包含当前像素在内的像素总个数,h(u,v)表示处理前图像下点(u,v)上的像素值。
步骤S32:采用高斯滤波消除高斯噪声,具体方法为:对整张图像进行加权平均,对于其中每一个像素点的值是从邻域内的其他像素值和其本身像素值通过加权平均计算得到;中值滤波采用一个5×5的模板,逐次将模板中心对应于图像的每个像素上,当前的像素值由模板图像覆盖的像素值提供;上述的几种的滤波都属于线性滤波器,而双边滤波是一种非线性滤波,其实现原理是采用加权平均的方法,用周边像素亮度值的加权平均代表某个像素值的大小。
步骤S33:采用峰值信噪比作为去噪算法评估的标准,其计算公式为:
步骤S34:利用上述几种去噪算法组成一个算法集合,记做T={t1,t2,···,tl},tl表示第l种去噪算法;首先从待去噪的图像数据集中遍历选取一张图像,然后遍历去噪算法集合,之后用基于峰值信噪比的去噪评估标准选出一个对这张图像最好的去噪算法,假设该去噪算法为t1,并记住计算得出的信噪比改善因子的值R;在此基础上,遍历排除掉t1的去噪算法集合,如果遍历的其余去噪算法中得到R的值大于原来的,则更新R,否则不更新,如此循环,直到算法集合遍历完,则完成一张图像的去噪;最后,遍历整个待去噪的图像数据集。
步骤S4:采用笛卡尔坐标系的图像旋转方法模拟摄像头的移动和旋转,以模拟在实际真实场景中的人体动作识别场景。
图像旋转是指以图像的某一点为中心进行旋转一定的角度得到一张全新的旋转图像的过程,图像旋转又分为笛卡尔坐标系和极坐标系旋转,因为笛卡尔坐标系在真实场景中应用较广,所以主要采用直角坐标系实现图像的旋转。
图像经过旋转之后,相对于原图像,旋转之后的图像在长和宽都会发生变化;假设数据是已标注的识别的位置信息,则需要重新计算旋转之后的位置。
步骤S5:通过基于自学习的马赛克遮挡算法处理人体动作识别真实场景中的遮挡。
具体地,采用马赛克遮挡算法将一张图像分割成蜂窝状,并且采用正六边形的中心点像素值来填充整个正六变形;把画布分割成长和宽为比例大小的矩阵,采用所有矩形的阵点坐标来进行索引,画布的左上角坐标为(0,0),并把该坐标设为起始点,则得到画布的右下角坐标为(width,height),其中,width表示画布的宽,height表示画布的长;基于小矩形四个点的坐标信息,即可类推出画布中所有点的坐标位置信息;当找到一个矩形框之后,只要判断它属于哪个六边形即可;使用找到的六边形的中心点像素来代替该点像素值;用这样的方法,遍历画布上的每一个点,即完成马赛克的效果;所述马赛克遮挡算法的具体实现方法为:首先获取原始视频的长度和宽度,接着通过该大小和相关比例自适应确定马赛克遮挡框的尺寸和数量;最后利用图像融合算法,将马赛克图像融入到原始图像中;在融合的位置,因为现实场景中遮挡的位置都具有不确定性,所以采用随机法选取法。
步骤S6:使用目标伸缩变换方法提升真实场景中人体目标尺寸的多样性,以使模型不断学习新的数据集,得到经过训练及优化后的三维残差变换模型。
具体地,首先获取原始图像的长度Lo和宽度Wo,然后对Lo和Wo进行操作,操作方式为:长不变,宽伸缩no倍,当no大于1时,则为扩大,反之,为缩小;宽不变,长伸缩mo倍,当mo大于1时,则为扩大,反之,为缩小;长伸缩mo倍,宽伸缩no倍,当mo=no时,则为放大或者缩小;
图经过伸缩变换算法处理之后,会使得要识别的目标被拉伸、收缩、放大或者缩小一定的倍数,其计算公式如下:
其中,s1、s2和s3分别为X轴、Y轴和Z轴的缩放比例。目标伸缩变换方法可以较好的模拟目标的尺寸变化,在安防场景下,是一种有效的增强算法。
步骤S7:利用训练及优化后的三维残差变换模型对待识别的视频数据进行人体动作识别。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (5)
1.一种基于MARS深度特征提取与增强的人体动作识别方法,其特征在于,包括以下步骤:
步骤S1:从空间和时间两个维度构建基于深层神经网络的三维残差变换模型;
步骤S2:采用基于特征的损失和标准的交叉熵损失的线性组合来训练所述三维残差变换模型;
步骤S3:采用基于峰值信噪比的去噪融合算法消除人体动作识别视频数据中的噪声;
步骤S4:采用笛卡尔坐标系的图像旋转方法模拟摄像头的移动和旋转,以模拟在实际真实场景中的人体动作识别场景;
步骤S5:通过基于自学习的马赛克遮挡算法处理人体动作识别真实场景中的遮挡;
步骤S6:使用目标伸缩变换方法提升真实场景中人体目标尺寸的多样性,以使模型不断学习新的数据集,得到经过训练及优化后的三维残差变换模型;
步骤S7:利用训练及优化后的三维残差变换模型对待识别的视频数据进行人体动作识别;
所述步骤S1具体包括以下步骤:
步骤S11:从RGB动作流和光流两个维度提升深度特征,构成空间和时间维度特征信息集特征,并遵循VGG/ResNets采用高度模块化构建基于深层神经网络的三维残差变换模型;该网络由一堆剩余块组成,该些剩余块具有相同的拓扑结构,且遵循两个规则:第一,如果生成相同大小的空间图,则该些块共享相同的超参数;第二,每次将空间网络下采样2倍时,块的宽度乘以2倍;
步骤S12:基于所述两个规则,构建一个模块,即相应地确定网络中的所有模块,完成空间和时间维度的模型构建;
所述步骤S2具体包括以下步骤:
步骤S21:第一个由RGB流输入产生的模拟流特征的训练策略即为动作模拟RGB流,即MERS;采用一种紧靠MERS的最终完全连接层输出的损失来模拟之前流的输出;MERS的结构和输入与具有三维卷积的标准RGB流相似,但其目标是降低这些特征之间的均方的误差损失LMERS:
LMERS=||fcMERS-fcFlow||2
其中,fcMERS表示MERS的特征,fcFlow表示光流的特征;在网络的倒数第二层应用这个损失函数以使最后一层的MERS没有训练;
步骤S22:利用具有交叉熵损失的光流分块对流进行训练以完成对动作进行分类,并冻结其权重;为了使用RGB帧模拟流特征,首先将均方的误差损失反向传播到除最后一层外的所有MERS层,然后分别训练最后一层具有交叉熵损失的MERS;
步骤S23:为了利用网络的外观信息增强这种训练,通过在整个网络中反向传播MSE和交叉熵损失的线性组合来训练网络,即使用以下损失函数LMARS训练增强动作RGB流,即MARS:
2.根据权利要求1所述的基于MARS深度特征提取与增强的人体动作识别方法,其特征在于,所述步骤S3具体包括以下步骤:
步骤S31:采用领域平均法进行均值滤波,首先在图像上对目标像素给出一个模板,然后用模板中的全体像素的平均值来代替原图像的像素值,其计算公式如下:
其中,g(u,v)表示经过处理后图像在点(u,v)上的像素值,K表示该模板中包含当前像素在内的像素总个数,h(u,v)表示处理前图像下点(u,v)上的像素值;
步骤S32:采用高斯滤波消除高斯噪声,具体方法为:对整张图像进行加权平均,对于其中每一个像素点的值是从邻域内的其他像素值和其本身像素值通过加权平均计算得到;中值滤波采用一个5×5的模板,逐次将模板中心对应于图像的每个像素上,当前的像素值由模板图像覆盖的像素值提供;双边滤波采用加权平均的方法,用周边像素亮度值的加权平均代表某个像素值的大小;
步骤S33:采用峰值信噪比作为去噪算法评估的标准,其计算公式为:
步骤S34:利用l种去噪算法组成一个算法集合,记做T={t1,t2,···,tl},tl表示第l种去噪算法;首先从待去噪的图像数据集中遍历选取一张图像,然后遍历去噪算法集合,之后用基于峰值信噪比的去噪评估标准选出一个对这张图像最好的去噪算法,假设该去噪算法为t1,并记住计算得出的信噪比改善因子的值R;在此基础上,遍历排除掉t1的去噪算法集合,如果遍历的其余去噪算法中得到R的值大于原来的,则更新R,否则不更新,如此循环,直到算法集合遍历完,则完成一张图像的去噪;最后,遍历整个待去噪的图像数据集。
4.根据权利要求1所述的基于MARS深度特征提取与增强的人体动作识别方法,其特征在于,所述步骤S5中,采用马赛克遮挡算法将一张图像分割成蜂窝状,并且采用正六边形的中心点像素值来填充整个正六变形;把画布分割成长和宽为比例大小的矩阵,采用所有矩形的阵点坐标来进行索引,画布的左上角坐标为(0,0),并把该坐标设为起始点,则得到画布的右下角坐标为(width,height),其中,width表示画布的宽,height表示画布的长;基于小矩形四个点的坐标信息,类推出画布中所有点的坐标位置信息;当找到一个矩形框之后,只要判断它属于哪个六边形;使用找到的六边形的中心点像素来代替该点像素值;用这样的方法,遍历画布上的每一个点,即完成马赛克的效果;所述马赛克遮挡算法的具体实现方法为:首先获取原始视频的长度和宽度,接着通过该大小和相关比例自适应确定马赛克遮挡框的尺寸和数量;最后利用图像融合算法,将马赛克图像融入到原始图像中;在融合的位置,采用随机法选取法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010166751.6A CN111401207B (zh) | 2020-03-11 | 2020-03-11 | 基于mars深度特征提取与增强的人体动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010166751.6A CN111401207B (zh) | 2020-03-11 | 2020-03-11 | 基于mars深度特征提取与增强的人体动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111401207A CN111401207A (zh) | 2020-07-10 |
CN111401207B true CN111401207B (zh) | 2022-07-08 |
Family
ID=71432298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010166751.6A Active CN111401207B (zh) | 2020-03-11 | 2020-03-11 | 基于mars深度特征提取与增强的人体动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111401207B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112132089A (zh) * | 2020-09-28 | 2020-12-25 | 天津天地伟业智能安全防范科技有限公司 | 一种基于3d卷积和光流的挖掘机行为分析方法 |
CN112419184B (zh) * | 2020-11-19 | 2022-11-04 | 重庆邮电大学 | 一种综合局部信息和全局信息的空间注意力图像去噪方法 |
CN112488483B (zh) * | 2020-11-25 | 2024-03-26 | 上上德盛集团股份有限公司 | 一种基于ai技术的ehs透明管理系统及管理方法 |
CN117392545B (zh) * | 2023-10-26 | 2024-02-09 | 南昌航空大学 | 一种基于深度学习的sar图像目标检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222556A (zh) * | 2019-04-22 | 2019-09-10 | 北方工业大学 | 一种人体动作识别系统及方法 |
CN110232361A (zh) * | 2019-06-18 | 2019-09-13 | 中国科学院合肥物质科学研究院 | 基于三维残差稠密网络的人体行为意图识别方法与系统 |
CN110472531A (zh) * | 2019-07-29 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921098B (zh) * | 2018-07-03 | 2020-08-18 | 百度在线网络技术(北京)有限公司 | 人体运动分析方法、装置、设备及存储介质 |
-
2020
- 2020-03-11 CN CN202010166751.6A patent/CN111401207B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222556A (zh) * | 2019-04-22 | 2019-09-10 | 北方工业大学 | 一种人体动作识别系统及方法 |
CN110232361A (zh) * | 2019-06-18 | 2019-09-13 | 中国科学院合肥物质科学研究院 | 基于三维残差稠密网络的人体行为意图识别方法与系统 |
CN110472531A (zh) * | 2019-07-29 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
3D Human Action Recognition with Skeleton Orientation Vectors and Stacked Residual Bi-LSTM;Xiaoyi Wan et al.;《2017 4th IAPR Asian Conference on Pattern Recognition (ACPR)》;20181217;第571-576页 * |
基于计算机视觉的人体动作识别技术研究;李拟珺;《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》;20160815(第08期);第1-138页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111401207A (zh) | 2020-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111401207B (zh) | 基于mars深度特征提取与增强的人体动作识别方法 | |
WO2022036777A1 (zh) | 基于卷积神经网络的人体动作姿态智能估计方法及装置 | |
CN107066916B (zh) | 基于反卷积神经网络的场景语义分割方法 | |
CN112381004B (zh) | 一种基于骨架的双流自适应图卷积网络行为识别方法 | |
CN111260738A (zh) | 基于相关滤波和自适应特征融合的多尺度目标跟踪方法 | |
CN114596520A (zh) | 一种第一视角视频动作识别方法及装置 | |
CN109558862A (zh) | 基于空间感知的注意力细化框架的人群计数方法及系统 | |
CN108764244B (zh) | 基于卷积神经网络和条件随机场的潜在目标区域检测方法 | |
CN110084201B (zh) | 一种监控场景下基于特定目标跟踪的卷积神经网络的人体动作识别方法 | |
CN113065431B (zh) | 一种基于隐马尔可夫模型和循环神经网络的人体违规行为预测方法 | |
CN114708297A (zh) | 一种视频目标跟踪方法及装置 | |
CN113128424A (zh) | 基于注意力机制的图卷积神经网络动作识别方法 | |
CN114821764A (zh) | 一种基于kcf追踪检测的手势图像识别方法及系统 | |
CN113158905A (zh) | 一种基于注意力机制的行人重识别方法 | |
CN114882493A (zh) | 一种基于图像序列的三维手部姿态估计与识别方法 | |
CN116258757A (zh) | 一种基于多尺度交叉注意力的单目图像深度估计方法 | |
CN112417991A (zh) | 基于沙漏胶囊网络的双注意力人脸对齐方法 | |
CN115147456A (zh) | 一种基于时序自适应卷积与注意力机制的目标跟踪方法 | |
CN113673560B (zh) | 一种基于多流三维自适应图卷积的人体行为识别方法 | |
Wang et al. | Multi-focus image fusion framework based on transformer and feedback mechanism | |
CN114612709A (zh) | 图像金字塔特征指导的多尺度目标检测方法 | |
Yu et al. | MagConv: Mask-guided convolution for image inpainting | |
CN111401209B (zh) | 一种基于深度学习的动作识别方法 | |
CN116993760A (zh) | 一种基于图卷积和注意力机制的手势分割方法、系统、设备及介质 | |
CN112115786A (zh) | 基于注意力U-net的单目视觉里程计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |