CN112686193A

CN112686193A - 基于压缩视频的动作识别方法、装置及计算机设备

Info

Publication number: CN112686193A
Application number: CN202110012575.5A
Authority: CN
Inventors: 颜云辉; 王森; 宋克臣; 张劲风
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2021-04-20
Anticipated expiration: 2041-01-06
Also published as: CN112686193B

Abstract

本申请公开了一种基于压缩视频的动作识别方法、装置及计算机设备，涉及神经网络动作识别技术领域，可以解决在基于深度学习神经网络进行视频中的动作识别时，计算量较大的技术问题。其中方法包括：对样本集进行预处理，确定所述样本集中各个样本压缩视频对应的融合特征，所述融合特征至少包括空间特征、运动特征；利用所述融合特征训练动作识别模型；若判定所述动作识别模型符合预设训练标准，则利用所述动作识别模型对目标压缩视频进行动作识别，获取动作识别结果。本申请适用于对压缩视频的动作识别。

Description

基于压缩视频的动作识别方法、装置及计算机设备

技术领域

本申请涉及神经网络动作识别技术领域，尤其涉及到一种基于压缩视频的动作识别方法、装置及计算机设备。

背景技术

计算机视觉中的动作识别任务主要探究如何感知在一段连续的视频流中某一目标乃至多个目标的动作变化，进而由对连续动作的总结上升为对行为的判断。深度学习方法经过近几年的迅速发展，已经在视觉相关的很多领域取得了很好的效果，基于深度学习的动作识别算法具有识别种类多，准确率高，鲁棒性好等优点，在同样的识别场景下，使用深度学习神经网络进行动作识别可以有效抵抗颜色、纹理、光照等干扰条件。

虽然深度学习神经网络具有诸多优点，但将基于深度学习的动作识别算法部署至移动机器人平台中仍存在不少问题。深度学习方法由于其方法性质使得其对硬件的计算能力具有较高的要求，尤其在处理图像任务时需要大量的GPU图形运算，如何在保证算法速度精度的前提下减小运算量并将算法移植到家用服务机器人平台是仍是一大挑战。

综上，需要设计一个更加紧凑的动作识别模型，使得模型在保证动作识别准确率的基础上，还能在计算性能有限的嵌入式设备上运行。

发明内容

有鉴于此，本申请提供了一种基于压缩视频的动作识别方法、装置及计算机设备，用于解决在基于深度学习神经网络进行视频中的动作识别时，计算量较大的技术问题。

根据本申请的一个方面，提供了一种基于压缩视频的动作识别方法，该方法包括：

对样本集进行预处理，确定所述样本集中各个样本压缩视频对应的融合特征，所述融合特征至少包括空间特征、运动特征；

利用所述融合特征训练动作识别模型；

若判定所述动作识别模型符合预设训练标准，则利用所述动作识别模型对目标压缩视频进行动作识别，获取动作识别结果。

优选地，所述对样本集进行预处理，确定所述样本集中各个样本压缩视频对应的融合特征，具体包括：

对样本集中的各个样本压缩视频进行编解码处理，提取各个所述样本压缩视频中的I帧数据、P帧数据；

根据所述I帧数据提取空间特征；

基于所述P帧数据提取运动特征；

将所述空间特征和所述运动特征进行特征融合，确定所述融合特征。

优选地，所述根据所述I帧数据提取空间特征，具体包括：

按照预设帧数对所述I帧数据进行分组处理；

抽取各个分组中预设位置处的I帧数据，并构建新的有序I帧集合；

基于ResNet-50网络提取所述有序I帧集合中的空间特征；

所述基于所述P帧数据提取运动特征，具体包括：

提取所述P帧数据中的运动矢量；

基于ResNet-18网络确定所述运动矢量对应的运动特征。

优选地，所述将所述空间特征和所述运动相关特征进行特征融合，确定所述融合特征，具体包括：

基于预设权重配比，计算所述空间特征和所述运动特征对应的加权平均值；

将所述加权平均值确定为所述融合特征。

优选地，所述利用所述融合特征训练动作识别模型，具体包括：

将所述融合特征依次输入所述动作识别模型中的全连接层和Softmax层，获取动作类别预测结果；

若判定所述类别预测结果的准确度大于预设阈值，则判定所述动作识别模型符合预设训练标准。

优选地，所述方法还包括：

在利用所述融合特征训练动作识别模型时，对所述动作识别模型中动作识别神经网络的卷积核进行剪枝处理；

所述在利用所述融合特征训练动作识别模型时，对所述动作识别模型中动作识别神经网络的卷积核进行剪枝处理，具体包括：

基于预设剪枝率以及L2范数确定对应权值小于第一预设阈值的第一卷积核；

在利用所述融合特征训练动作识别模型时，将所述第一卷积核置零，并允许置零后的所述第一卷积核参与训练过程的权值更新；

基于反向传播更新卷积核的权值，在模型重新收敛后剪去最后一个训练周期中权值小于第二预设阈值的第二卷积核。

优选地，所述若判定所述动作识别模型符合预设训练标准，则利用所述动作识别模型对目标压缩视频进行动作识别，获取动作识别结果，具体包括：

提取所述目标压缩视频的目标融合特征；

将所述目标融合特征输入符合预设训练标准的动作识别模型中，获取各个预设动作类别对应的评定分值；

将对应所述评定分值最高的预设动作类别确定为所述目标压缩视频的动作识别结果。

根据本申请的另一个方面，提供了一种基于压缩视频的动作识别装置，该装置包括：

第一处理模块，用于对样本集进行预处理，确定所述样本集中各个样本压缩视频对应的融合特征，所述融合特征至少包括空间特征、运动特征；

训练模块，用于利用所述融合特征训练动作识别模型；

识别模块，用于若判定所述动作识别模型符合预设训练标准，则利用所述动作识别模型对目标压缩视频进行动作识别，获取动作识别结果。

优选地，第一处理模块，具体用于：

根据所述I帧数据提取空间特征；

基于所述P帧数据提取运动特征；

优选地，第一处理模块，具体用于：

按照预设帧数对所述I帧数据进行分组处理；

基于ResNet-50网络提取所述有序I帧集合中的空间特征；

提取所述P帧数据中的运动矢量；

基于ResNet-18网络确定所述运动矢量对应的运动特征。

优选地，第一处理模块，具体用于：

将所述加权平均值确定为所述融合特征。

优选地，训练模块，具体用于：

优选地，该装置还包括：第二处理模块；

第二处理模块，用于在利用所述融合特征训练动作识别模型时，对所述动作识别模型中动作识别神经网络的卷积核进行剪枝处理；

所述第二处理模块，具体用于：基于预设剪枝率以及L2范数确定对应权值小于第一预设阈值的第一卷积核；在利用所述融合特征训练动作识别模型时，将所述第一卷积核置零，并允许置零后的所述第一卷积核参与训练过程的权值更新；基于反向传播更新卷积核的权值，在模型重新收敛后剪去最后一个训练周期中权值小于第二预设阈值的第二卷积核。

优选地，识别模块，具体用于：

提取所述目标压缩视频的目标融合特征；

根据本申请的又一个方面，提供了一种非易失性可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述基于压缩视频的动作识别方法。

根据本申请的再一个方面，提供了一种计算机设备，包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述基于压缩视频的动作识别方法。

借由上述技术方案，本申请提供的一种基于压缩视频的动作识别方法、装置及计算机设备，与目前基于深度学习进行视频的动作识别方式相比，本申请可首先确定出样本集中各个样本压缩视频对应的融合特征，以便利用融合特征训练动作识别模型。在对动作识别模型的训练过程中，对动作识别模型中动作识别神经网络的卷积核进行剪枝处理，故可有效减少模型训练过程中的计算量，并且提高模型的训练精度。在训练得到符合预设训练标准的动作识别模型后，可进一步利用动作识别模型对目标压缩视频进行动作识别，获取动作识别结果。通过本申请中的技术方案，可实现对压缩视频的动作识别，使得动作识别模型在保证动作识别准确率的基础上，还能在计算性能有限的嵌入式设备上运行。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本地申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种基于压缩视频的动作识别方法的流程示意图；

图2示出了本申请实施例提供的另一种基于压缩视频的动作识别方法的流程示意图；

图3示出了本申请实施例提供的一种基于压缩视频的动作识别的原理流程示意图；

图4示出了本申请实施例提供的一种基于压缩视频的动作识别装置的结构示意图；

图5示出了本申请实施例提供的另一种基于压缩视频的动作识别装置的结构示意图。

具体实施方式

下文将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合。

针对目前在基于深度学习神经网络进行视频中的动作识别时，计算量较大的技术问题，本申请实施例提供了一种基于压缩视频的动作识别方法，如图1所示，该方法包括：

101、对样本集进行预处理，确定样本集中各个样本压缩视频对应的融合特征，融合特征至少包括空间特征、运动特征。

其中，样本集可对应为现有的公开数据集，如HMDB51和UCF101数据集，在样本集中每个样本压缩视频均标注一个动作类别，进而可为动作识别模型的模型训练提供训练基础。

对于本实施例，在对样本集进行预处理时，具体可包括：对压缩视频的编解码处理，得到样本压缩视频中的I帧数据、P帧数据；基于I帧数据确定空间特征，以及基于P帧数据确定运动特征；将空间特征以及运动特征融合得到融合特征。

对于本申请的执行主体可为用于对压缩视频进行动作识别的控制识别系统，在控制识别系统中可预先基于样本集训练得到符合预设训练标准的动作识别模型，进而控制动作识别模型对目标压缩视频进行动作识别，输出动作识别结果。

102、利用融合特征训练动作识别模型。

对于本实施例，在具体的应用场景中，可将空间特征以及运动特征利用加权平均的方法进行融合，进一步得到融合特征。

103、若判定动作识别模型符合预设训练标准，则利用动作识别模型对目标压缩视频进行动作识别，获取动作识别结果。

其中，预设训练标准为动作识别精度大于预设阈值；动作识别结果为目标压缩视频对应的动作种类划分。在判定动作识别模型符合预设训练标准后，动作识别模型即可投入对未知压缩视频的动作识别，即通过将目标压缩视频输入动作识别模型，动作识别模型则会根据压缩视频的融合特征，确定出目标压缩视频对应所属的动作分类。

通过本实施例中基于压缩视频的动作识别方法，可首先确定出样本集中各个样本压缩视频对应的融合特征，以便利用融合特征训练动作识别模型。在对动作识别模型的训练过程中，对动作识别模型中动作识别神经网络的卷积核进行剪枝处理，故可有效减少模型训练过程中的计算量，并且提高模型训练的准确度。在训练得到符合预设训练标准的动作识别模型后，可进一步利用动作识别模型对目标压缩视频进行动作识别，获取动作识别结果。通过本申请中的技术方案，可实现对压缩视频的动作识别，使得动作识别模型在保证动作识别准确率的基础上，还能在计算性能有限的嵌入式设备上运行。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例中的具体实施过程，提供了另一种基于压缩视频的动作识别方法，如图2所示，该方法包括：

201、对样本集中的各个样本压缩视频进行编解码处理，提取各个样本压缩视频中的I帧数据、P帧数据。

对于本实施例，可使用FFmpeg编解码器将样本集中的样本压缩编码为MPEG-4rawvideo格式，之后再进行解码，即可提取出样本压缩视频中的I帧数据、P帧数据。在具体的应用场景中，提取I帧数据、P帧数据具体实现方法可为：调用av_register_all()函数注册容器与编解码器格式；调用av_open_input_file()函数打开视频文件；调用av_find_stream_info()函数从视频文件中提取所有视频流信息，根据CODEC_TYPE_VIDEO确定视频流种类；根据视频流种类调用avcodec_find_decoder()函数查找对应的解码器；调用avcodec_open()函数打开编解码器；调用avcodec_alloc_frame()函数为解码帧分配内存；调用av_read_frame()函数不停地从码流中提取出帧数据；调用avcodec_decode_video()函数判断帧的类型后对视频帧进行解码，解码出的视频帧类型是I帧时，不提取运动矢量，解码出的视频帧类型为P帧时，提取其运动矢量；解码完成后，调用avcodec_close()函数释放解码器；调用av_close_input_file()函数关闭输入的视频文件。

202、根据I帧数据提取空间特征。

在具体的应用场景中，在提取出样本压缩视频中的I帧数据后，可对I帧数据进行划分，将所有I帧数据按照顺序等分为有序的若干个组，每个组中包含预设帧数，其中，预设帧数可为11帧。在完成分组后，进一步进行抽帧处理，抽取每组中对应预设位置处的I帧数据构建新的有序I帧集合，其中，预设位置可为第1帧。相应的，在根据I帧数据提取空间特征时，实施例步骤202具体可以包括：按照预设帧数对I帧数据进行分组处理；抽取各个分组中预设位置处的I帧数据，并构建新的有序I帧集合；基于ResNet-50网络提取有序I帧集合中的空间特征。对于本实施例，通过进行对I帧数据进行分组处理、抽帧处理，可节省网络输入的运算量，减少模型中的空间占用。

203、基于P帧数据提取运动特征。

在具体的应用场景中，在动作识别过程中，动作矢量的提取是非常重要的，用于建立动作之间的联系。对于本实施例，实施例步骤203具体可以包括：提取P帧数据中的运动矢量；基于ResNet-18网络确定运动矢量对应的运动特征。

204、将空间特征和运动特征进行特征融合，确定融合特征。

对于本实施例，在具体的应用场景中，可利用加权平均的方法将空间场景RGB特征和运动相关的特征融合，相应的，实施例步骤204具体可以包括：基于预设权重配比，计算空间特征和运动特征对应的加权平均值；将加权平均值确定为融合特征。其中，预设权重配比可根据实际应用场景进行设定，空间特征和运动特征对应的预设权重可均为50％。此外，为了侧重于动作识别，还可为运动特征配置较高的预设权重，如将空间特征对应的预设权重设置为40％，将运动特征对应的预设权重设置为60％。

205、利用融合特征训练动作识别模型。

对于本实施例，在将融合特征依次输入动作识别模型中的全连接层和Softmax层后，会得到各个动作类别的类别分数，对应类别分数最高的动作类别即为动作识别模型的预测识别结果，通过将预测识别结果与样本压缩视频对应的标记动作类别进行匹配，即可计算得到预测结果的准确度，进而利用该准确度即可判定动作识别模型的训练进程。相应的，实施例步骤205具体可以包括：将融合特征依次输入动作识别模型中的全连接层和Softmax层，获取动作类别预测结果；若判定类别预测结果的准确度大于预设阈值，则判定动作识别模型符合预设训练标准。

对于本实施例，在进行动作识别模型的训练时，可参见如图3所示的基于压缩视频的动作识别的原理流程示意图，在提取出I帧数据、P帧数据后，可基于ResNet-50网络提取有序I帧集合中的空间特征，基于ResNet-18网络确定运动矢量对应的运动特征，之后将空间特征和运动特征进行特征融合，得到融合特征。进一步将融合后的结果依次送入全连接层和Softmax层输出类别分数，分数最高的动作类别即为识别的动作种类。

相应的，在对动作识别模型进行训练时，可将初始学习率设置为0.1，使用余弦学习率衰减；使用Mixup策略进行数据增强，以线性插值的方式来构建新的训练样本和标签，决定插值比例的常数分别设置为0.8和0.2；将Dropout数值设置为0.5抑制过拟合，并使用批量归一化方法解决训练过程中中间层数据分布不断改变的问题；使用Cross Entropy交叉熵损失函数作为损失函数；使用带动量的SGD作为优化器；将训练和测试时的Batch Size均设置为4；对设计的基于压缩视频的动作识别方法进行训练和测试。

作为一种优选方式，在利用融合特征训练动作识别模型时，需要对动作识别模型中动作识别神经网络的卷积核进行动态剪枝处理，可首先确立剪枝率，使用L2范数作为卷积核重要程度的筛选标准，过滤出权重较小的卷积核；在每个训练周期开始前，先将之前筛选出的权重较小的卷积核置零，但是允许权重置零部分的卷积核参与训练过程的权值更新；使用反向传播更新卷积核的权值，在模型重新收敛后剪去最后一轮中权值较小的卷积核。相应的，实施例步骤具体可以包括：基于预设剪枝率以及L2范数确定对应权值小于第一预设阈值的第一卷积核；在利用融合特征训练动作识别模型时，将第一卷积核置零，并允许置零后的第一卷积核参与训练过程的权值更新；基于反向传播更新卷积核的权值，在模型重新收敛后剪去最后一个训练周期中权值小于第二预设阈值的第二卷积核。其中，预设剪枝率可为0.7，第一预设阈值和第二预设阈值均为大于0且小于1的数值，具体数值的大小可根据实际情况进行设定。通过本申请网络模型的训练过程中的动态剪枝处理，在训练过程中将筛选出的权重较小的卷积核置零，动态更新各个训练周期过程中每个网络节点的权重值，在最后一个训练周期进行权重较小的剪枝处理，可在减少模型计算量的同时，还能保证模型的训练精度，避免直接剪枝处理造成的训练误差。

在本申请中，选择HMDB51和UCF101数据集对设计的动作识别神经网络模型进行训练和测试，其中，剪枝前动作识别算法运算量与准确率对比，如表1所示。剪枝前与剪枝后的模型对比，如表2所示。剪枝前在HMDB51和UCF101数据集上的Top-1准确率分别为58.8％和89.8％，剪枝后的Top-1准确率分别为57.5％和89.2％，前向传播时间由46ms下降至35ms，算法推断时间缩短了23.9％，且算法模型每秒所需浮点运算数目由7.9G降低至4.74G，运算量下降了37.63％。通过本申请中的技术方案，在保证准确率的同时，降低了模型的计算量，实现了对模型的压缩。

表1剪枝前动作识别算法运算量与准确率对比

方法	运算量(GFLOPs)	HMDB51(％)	UCF101(％)
				Two-Stream	3.3	59.4	88.0
C3D	38.5	51.6	82.3
				Res3D	19.3	54.9	85.8
Ours	7.6	58.8	89.8

表2剪枝前和剪枝后对比

206、若判定动作识别模型符合预设训练标准，则利用动作识别模型对目标压缩视频进行动作识别，获取动作识别结果。

对于本实施例，在具体的应用场景中，实施例步骤206具体可以包括：提取目标压缩视频的目标融合特征；将目标融合特征输入符合预设训练标准的动作识别模型中，获取各个预设动作类别对应的评定分值；将对应评定分值最高的预设动作类别确定为目标压缩视频的动作识别结果。

通过上述基于压缩视频的动作识别方法，可首先确定出样本集中各个样本压缩视频对应的融合特征，以便利用融合特征训练动作识别模型。在对动作识别模型的训练过程中，对动作识别模型中动作识别神经网络的卷积核进行剪枝处理，故可有效减少模型训练过程中的计算量，并且提高模型训练的准确度。在训练得到符合预设训练标准的动作识别模型后，可进一步利用动作识别模型对目标压缩视频进行动作识别，获取动作识别结果。通过本申请中的技术方案，可实现对压缩视频的动作识别，使得动作识别模型在保证动作识别准确率的基础上，还能在计算性能有限的嵌入式设备上运行。

进一步的，作为图1和图2所示方法的具体体现，本申请实施例提供了一种基于压缩视频的动作识别装置，如图4所示，该装置包括：第一处理模块31、训练模块32、识别模块33；

第一处理模块31，可用于对样本集进行预处理，确定样本集中各个样本压缩视频对应的融合特征，融合特征至少包括空间特征、运动特征；

训练模块32，可用于利用融合特征训练动作识别模型；

识别模块33，可用于若判定动作识别模型符合预设训练标准，则利用动作识别模型对目标压缩视频进行动作识别，获取动作识别结果。

在具体的应用场景中，第一处理模块31，具体可用于：对样本集中的各个样本压缩视频进行编解码处理，提取各个样本压缩视频中的I帧数据、P帧数据；根据I帧数据提取空间特征；基于P帧数据提取运动特征；将空间特征和运动特征进行特征融合，确定融合特征。

相应的，为了根据I帧数据提取空间特征，第一处理模块31，具体可用于按照预设帧数对I帧数据进行分组处理；抽取各个分组中预设位置处的I帧数据，并构建新的有序I帧集合；基于ResNet-50网络提取有序I帧集合中的空间特征。

在具体的应用场景中，为了基于P帧数据提取运动特征，第一处理模块31，具体可用于提取P帧数据中的运动矢量；基于ResNet-18网络确定运动矢量对应的运动特征。

相应的，为了确定得到融合特征，第一处理模块31，具体可用于基于预设权重配比，计算空间特征和运动特征对应的加权平均值；将加权平均值确定为融合特征。

在具体的应用场景中，为了利用融合特征训练得到动作识别模型，训练模块32，具体可用于：将融合特征依次输入动作识别模型中的全连接层和Softmax层，获取动作类别预测结果；若判定类别预测结果的准确度大于预设阈值，则判定动作识别模型符合预设训练标准。

相应的，为了降低模型的计算量，实现对模型的压缩，如图5所示，该装置还包括：第二处理模块34；

第二处理模块34，可用于在利用融合特征训练动作识别模型时，对动作识别模型中动作识别神经网络的卷积核进行剪枝处理；

相应的，第二处理模块34，具体可用于基于预设剪枝率以及L2范数确定对应权值小于第一预设阈值的第一卷积核；在利用融合特征训练动作识别模型时，将第一卷积核置零，并允许置零后的第一卷积核参与训练过程的权值更新；基于反向传播更新卷积核的权值，在模型重新收敛后剪去最后一个训练周期中权值小于第二预设阈值的第二卷积核。

在具体的应用场景中，识别模块33，具体可用于提取目标压缩视频的目标融合特征；将目标融合特征输入符合预设训练标准的动作识别模型中，获取各个预设动作类别对应的评定分值；将对应评定分值最高的预设动作类别确定为目标压缩视频的动作识别结果。

需要说明的是，本实施例提供的一种基于压缩视频的动作识别装置所涉及各功能单元的其它相应描述，可以参考图1至图2中的对应描述，在此不再赘述。

基于上述如图1和图2所示方法，相应的，本申请实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1和图2所示的基于压缩视频的动作识别方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景的方法。

基于上述如图1、图2所示的方法，以及图4、图5所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，具体可以为个人计算机、服务器、网络设备等，该实体设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1和图2所示的基于压缩视频的动作识别方法。

可选地，该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的计算机设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

非易失性可读存储介质中还可以包括操作系统、网络通信模块。操作系统是无人机的三余度仲裁切换的实体设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性可读存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本申请的技术方案，与目前现有技术相比，本申请可首先确定出样本集中各个样本压缩视频对应的融合特征，以便利用融合特征训练动作识别模型。在对动作识别模型的训练过程中，对动作识别模型中动作识别神经网络的卷积核进行剪枝处理，故可有效减少模型训练过程中的计算量，并且提高模型训练的准确度。在训练得到符合预设训练标准的动作识别模型后，可进一步利用动作识别模型对目标压缩视频进行动作识别，获取动作识别结果。通过本申请中的技术方案，可实现对压缩视频的动作识别，使得动作识别模型在保证动作识别准确率的基础上，还能在计算性能有限的嵌入式设备上运行。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种基于压缩视频的动作识别方法，其特征在于，包括：

利用所述融合特征训练动作识别模型；

2.根据权利要求1所述的方法，其特征在于，所述对样本集进行预处理，确定所述样本集中各个样本压缩视频对应的融合特征，具体包括：

根据所述I帧数据提取空间特征；

基于所述P帧数据提取运动特征；

3.根据权利要求2所述的方法，其特征在于，所述根据所述I帧数据提取空间特征，具体包括：

按照预设帧数对所述I帧数据进行分组处理；

基于ResNet-50网络提取所述有序I帧集合中的空间特征；

所述基于所述P帧数据提取运动特征，具体包括：

提取所述P帧数据中的运动矢量；

基于ResNet-18网络确定所述运动矢量对应的运动特征。

4.根据权利要求2所述的方法，其特征在于，所述将所述空间特征和所述运动相关特征进行特征融合，确定所述融合特征，具体包括：

将所述加权平均值确定为所述融合特征。

5.根据权利要求1所述的方法，其特征在于，所述利用所述融合特征训练动作识别模型，具体包括：

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述若判定所述动作识别模型符合预设训练标准，则利用所述动作识别模型对目标压缩视频进行动作识别，获取动作识别结果，具体包括：

提取所述目标压缩视频的目标融合特征；

8.一种基于压缩视频的动作识别装置，其特征在于，包括：

处理模块，用于对样本集进行预处理，确定所述样本集中各个样本压缩视频对应的融合特征，所述融合特征至少包括空间特征、运动特征；

训练模块，用于利用所述融合特征训练动作识别模型；

9.一种非易失性可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7中任一项所述的基于压缩视频的动作识别方法。

10.一种计算机设备，包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7中任一项所述的基于压缩视频的动作识别方法。