CN111246292B

CN111246292B - 基于片段一致性的压缩视频动作识别方法及装置

Info

Publication number: CN111246292B
Application number: CN202010057459.0A
Authority: CN
Inventors: 张俊三; 冯叶棋; 王晓敏; 程俏俏; 余勇; 朱瑞; 常益浩
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2022-05-24
Anticipated expiration: 2040-01-19
Also published as: CN111246292A

Abstract

本发明实施例公开一种基于片段一致性的压缩视频动作识别方法及装置，能够减少压缩视频动作识别过程中不同阶段行为的差异。该方法包括：S1、对待识别视频进行压缩构建压缩视频，将所述压缩视频划分为k个片段；S2、基于所述压缩视频构建动作一致性模型；S3、对所述动作一致性模型进行训练，得到训练模型；S4、根据所述动作一致性模型和所述训练模型，融合所述k个片段。本发明实施例用于压缩视频动作识别。

Description

基于片段一致性的压缩视频动作识别方法及装置

技术领域

本发明涉及图像处理领域，尤其涉及一种基于片段一致性的压缩视频动作识别方法及装置。

背景技术

视频包含了大量连续帧之间的短暂动作信息(temporal motion information)，对于2D卷积神经网络来说，仅用RGB图像来学习时间运动信息是困难的，3D卷积网络和RNNs是一种有效的获取连续帧时空信息的工具，但收效甚微。目前，获得最新结果的方法通常遵循双流网络，光流能大大提高性能，但成本超过了它的收益。

为了解决上述问题，相关技术利用MPEG-4、H.264等编码的压缩视频中的动作信息来代替消耗很高的光流进行动作识别。但相关技术忽略了如何学习不同片段之间的相关性来捕获长时间的信息(long-range temporal information)。有些动作有很高相似度，例如，跳绳和跳远在早期都表现为屈膝，在大多数情况下，很难区分屈膝属于跳绳或跳远的片段，不利于最终的分类结果。

发明内容

本发明实施例提供一种基于片段一致性的压缩视频动作识别方法及装置，能够减少压缩视频动作识别过程中不同阶段行为的差异。

本发明实施例采用如下技术方案：

一种基于片段一致性的压缩视频动作识别方法，包括：

S1、对待识别视频进行压缩构建压缩视频，将所述压缩视频划分为k个片段；

S2、基于所述压缩视频构建动作一致性模型；

S3、对所述动作一致性模型进行训练，得到训练模型；

S4、根据所述动作一致性模型和所述训练模型，学习所述k个片段中不同片段之间的相关性捕获长时间的信息，融合所述k个片段，对融合所述k个片段后的视频进行动作识别。

可选的，所述S1包括：

根据MPEG-4第2部分编码所述待识别视频，将所述压缩视频分成I帧、P帧和零个或多个B帧；其中，I帧为内部编码帧、P帧为预测帧、B帧为由运动矢量和残差组成的双向帧，所述I帧为常规图像，所述P帧帧编码前一帧到当前帧的变化，所述P帧由动量和残差组成。

可选的，所述压缩视频包含I帧RGB图像、动量和残差三种数据模式，其中，像素块从原始帧到目标帧的移动表示为动量，所述动量在视频压缩过程中分为多个宏块，残差是当前帧与其相关的I帧之间的RGB差，动量表示为M，残差表示为R，I_j是j时刻压缩视频中的I帧，P_j+1是压缩视频中的P帧；

压缩视频表示为序列{I_j,P_j+1P_j+1}，编码视频表示为{I_j，I_j+1}，P帧重构为I_j+1：

I_j+1＝P_j+1+I_j

P_j+1＝M+R

其中，I帧，残差和P帧的大小为3*H*W，m的大小为2*H*W。

可选的，所述S2包括：

对所述K个片段序列进行建模，将动作一致性损失添加到模型中，获取更有效的长期信息；

动作一致性损失L_con定义为：

L_con(t)＝|f(x_t+1)-f(x_t)|

其中t表示模型的第t个片段一致性损失，f(x_t)和f(x_t+1)表示第t段和第t+1段的预测值，L_con(t)表示第t段和第t+1段之间的动作一致性损失。

可选的，所述S3包括：

将交叉熵损失作为动作分类损失，表示为L_cls(t)，总损失函数为L：

式中L_con(t)表示第t段和第t+1段之间的动作一致性损失，L_cls(t)表示第t段的动作分类损失，将所有K个片段视频的一致性损失和分类损失相加得到总损失，λ是一致性损失所占的权重。

可选的，所述S4包括：

根据所述动作一致性模型和所述训练模型，融合所述k个片段，学习不同片段之间的相关性来捕获长时间的信息，通过充分利用不同时间段中动作的一致性来获得更有效的动作信息，融合所述k个片段，对融合后的视频进行动作识别。

一种基于片段一致性的压缩视频动作识别装置，包括：

压缩模块，用于对待识别视频进行压缩构建压缩视频，将所述压缩视频划分为k个片段；

模型构建模块，用于基于所述压缩视频构建动作一致性模型；

训练模块，用于对所述动作一致性模型进行训练，得到训练模型；

融合模块，用于根据所述动作一致性模型和所述训练模型，融合所述k个片段。

可选的，所述压缩模块，用于应用MPEG-4第2部分编码所述待识别视频，将所述待识别视频分成I帧、P帧和零个或多个B帧；其中，I帧为内部编码帧、P帧为预测帧、B帧为双向帧，所述I帧是常规图像，而P帧编码前一帧到当前帧的变化，所述P帧由动量和残差组成；

所述压缩视频包含I帧RGB图像、动量和残差三种数据模式，其中，像素块从原始帧到目标帧的移动表示为动量，所述动量在视频压缩过程中分为多个宏块，残差是当前帧与其相关的I帧之间的RGB差，动量表示为M，残差表示为R，I_j是j时刻压缩视频中的I帧，P_j+1是压缩视频中的P帧；

J_j+1＝P_j+1+I_j

P_j+1＝M+R

其中，I帧，残差和P帧的大小为3*H*W，m的大小为2*H*W。

可选的，所述模型构建模块，用于对所述K个片段序列进行建模，将动作一致性损失添加到模型中，获取更有效的长期信息；

动作一致性损失L_con定义为：

L_con(t)＝|f(x_t+1)-f(x_t)|

可选的，所述训练模块，用于将交叉熵损失作为动作分类损失，表示为L_cls(t)，总损失函数表示为L：

基于上述技术方案的基于片段一致性的压缩视频动作识别方法及装置，对待识别视频进行压缩构建压缩视频，将压缩视频划分为k个片段，基于压缩视频构建动作一致性模型，对动作一致性模型进行训练，得到训练模型，根据动作一致性模型和训练模型，融合k个片段，从而减少压缩视频动作识别过程中不同阶段行为的差异。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1为本发明实施例提供的基于片段一致性的压缩视频动作识别方法的流程图；

图2为本发明实施例提供的压缩视频解码视频模型结构示意图；

图3为本发明实施例提供的不同片段之间动作一致性结构示意图；

图4为本发明实施例提供的不同权重对分类损失和一致性损失的影响示意图；

图5为本发明实施例提供的基于片段一致性的压缩视频动作识别装置的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本发明实施例的基于片段一致性的压缩视频动作识别方法，视频使用MPEG-4第2部分编码作为CoViAR压缩视频动作识别视频编码，用一致性损失保持不同片段内部的动作一致性，通过后期融合将三个独立的CNNs的预测结果结合起来。从而构建内部动作一致性损失，以减少来自不同片段的变化。动作识别的构造捕获了具有较好泛化能力的特征。在具有挑战性的UCF-101和HMDB数据集上的结果表明，与相关的动作识别方法相比，本发明实施例取得了更好的性能。为了有效、准确地进行动作识别，通过对HMDB-51和UCF-101的广泛评价(Extensive evaluations)证实了本发明实施例的有效性。

如图1所示，本发明实施例提供一种基于片段一致性的压缩视频动作识别方法，包括：

S1、对待识别视频进行压缩构建压缩视频，将所述压缩视频划分为k个片段。

S2、基于所述压缩视频构建动作一致性模型。

S3、对所述动作一致性模型进行训练，得到训练模型。

S4、根据所述动作一致性模型和所述训练模型，学习所述k个片段中不同片段之间的相关性捕获长时间的信息(long-range temporal information)(不同片段中相同的信息，比如动作的分类)，融合所述k个片段，对融合所述k个片段后的视频进行动作识别。

本发明实施例视频压缩去除大量冗余的信息，使有趣的信息更加突出，为压缩视频的动量和残差为动作识别提供必要的动作信息。

上述基于片段一致性的压缩视频动作识别方法，对待识别视频进行压缩构建压缩视频，将压缩视频划分为k个片段，基于压缩视频构建动作一致性模型，对动作一致性模型进行训练，得到训练模型，根据动作一致性模型和训练模型，融合k个片段，从而减少压缩视频动作识别过程中不同阶段行为的差异。

在一个实施例中，可选的，所述S1包括：

根据MPEG-4第2部分编码所述待识别视频，将所述待识别视频分成I帧、P帧和零个或多个B帧；其中，I帧为内部编码帧、P帧为预测帧、B帧为双向帧，所述I帧是常规图像，所述P帧帧编码前一帧到当前帧的变化，所述P帧由动量和残差组成。其中，像素块从原始帧到目标帧的移动表示为动量,残差存储块移动补偿后当前帧与其相关的I帧之间的RGB差。

在一个实施例中，可选的，如图2所示的识别示意图，所述压缩视频包含I帧RGB图像、动量和残差三种数据模式，其中，像素块从原始帧到目标帧(前一视频片段的这一帧和后一视频片段的这一帧)的移动表示为动量，所述动量在视频压缩过程中分为多个宏块，残差是当前帧与其相关的I帧之间的RGB差，动量表示为M，残差表示为R，是j时刻压缩视频中的I帧，是压缩视频中的P帧。其中，从某一个动作开始时的帧到该动作结束时的帧为原始帧和目标帧。即原始帧可以为一动作的开始帧，目标帧可以为该动作的结束帧。

I_j+1＝P_j+1+I_j

P_j+1＝M+R

其中，I帧，残差和P帧的大小为3*H*W，m的大小为2*H*W。

在一个实施例中，可选的，所述S2包括：

动作一致性损失L_con定义为：

L_con(t)＝|f(x_t+1)-f(x_t)|

如图3所示。

例如，基于TSN(long-range temporal structure，长范围时间结构)建模，结合稀疏时间采样策略(sparse temporal sampling strategy)和视频级监督(video-levelsupervision)保证使用整段视频时学习得有效和高效，即，将压缩视频分段。

在一个实施例中，可选的，所述S3包括：

式中L_con(t)表示第t段和第t+1段之间的动作一致性损失(视频级动作识别中相同动作在不同片段间的语义概念不一致，对于同一个视频的同一动作，不同的片段应该是一致的)，L_cls(t)表示第t段的动作分类损失(这一动作识别为跳绳还是打球，看识别的对不对)(视频级动作识别方法平均不同片段的分类得分)，将所有K个片段视频的一致性损失和分类损失相加得到总损失，λ是一致性损失所占的权重。

在一个实施例中，可选的，所述S4包括：

根据所述动作一致性模型和所述训练模型，融合所述k个片段。学习不同片段之间的相关性来捕获长时间的信息(long-range temporal information)，通过充分利用不同时间段中动作的一致性来获得更有效的动作信息，融合所述k个片段，对融合后的视频进行动作识别。

本发明实施例，加入一致性损失使得网络能够通过充分利用不同时间段中动作的一致性来获得更有效的动作信息。评价了一致性损失的影响。相比之下，使用单一的分类损失仅在融合阶段根据不同片段的预测结果进行加权融合能获得长期信息。动作一致性损失对于这种方法获取长期动作信息来说更有意义。在训练过程中，通过网络可以学习一个动作在不同时间的不同特征。由于距离较远片段的动作表现差异较大，一致性损失仅用于每两个相邻片段之间。

本发明实施例，UCF-101在压缩视频上使用一致性损失，为证明一致性损失的有效性，表1的实验采用Resnet152，区别为是否添加一致性损失。在所有模式(iframe，动量和残差)下，具有一致性损失的方法都优于没有一致性损失的方法。一致性损失为UCF-101的最终结果贡献了0.64％的明显改进。特别是，它分别为UCF-101上的帧、残差和运动矢量提供1.41％、1.34％和2.99％。值得注意的是，一致性损失对动量的影响比帧和残差更大。iframes描述了空间信息(例如背景)，这些信息在修剪后的视频片段中几乎是不变的。相比之下，动量提供的信息与静止图像提供的信息(例如运动)正交，而静止图像在片段之间有明显的差异。

表1:动作一致性损失对UCF-101 split1的影响。Resnet152

因此，一致性约束对动量有显著影响。实验结果证明了一致性对于剪辑后的视频片段之间动作识别的有效性。同时，评估了不同值(一致性损失权重)对准确率的影响。不同值的效果如图4所示，经过对比分析，最后对iframe取1.0，对残差和动量取0.5。此外，在一致性损失实验中，发现一致性损失也有加速收敛的作用。

本发明实施例采用MPEG-4、H.264等编码的压缩视频中的动作信息来代替消耗很高的光流进行动作识别，去除两个数量级的多余信息，同时从压缩视频中的动量和残差中捕获动作信息。能够有效提升动作识别的准确率，提高收敛速度。

本发明实施例基于片段一致性的压缩视频动作识别方法，对待识别视频进行压缩构建压缩视频，将压缩视频划分为k个片段，基于压缩视频构建动作一致性模型，对动作一致性模型进行训练，得到训练模型，根据动作一致性模型和训练模型，融合k个片段，从而减少压缩视频动作识别过程中不同阶段行为的差异。

如图5所示，本发明实施例提供一种基于片段一致性的压缩视频动作识别装置，包括：

压缩模块51，用于对待识别视频进行压缩构建压缩视频，将所述压缩视频划分为k个片段；

模型构建模块52，用于基于所述压缩视频构建动作一致性模型；

训练模块53，用于对所述动作一致性模型进行训练，得到训练模型；

融合模块54，用于根据所述动作一致性模型和所述训练模型，融合所述k个片段。

在一个实施例中，可选的，所述压缩模块，用于应用MPEG-4第2部分编码所述待识别视频，将所述待识别视频分成I帧、P帧和零个或多个B帧；其中，I帧为内部编码帧、P帧为预测帧、B帧为双向帧，所述I帧是常规图像，所述P帧编码前一帧到当前帧的变化，所述P帧由动量和残差组成；像素块从原始帧到目标帧的移动表示为动量,残差存储块移动补偿后当前帧与其相关的I帧之间的RGB差。

I_j+1＝P_j+1+I_j

P_j+1＝M+R

其中，I帧，残差和P帧的大小为3*H*W，m的大小为2*H*W。

在一个实施例中，可选的，所述模型构建模块，用于自TSN被提出以来，所述压缩视频被分成K个片段，并对所述K个片段序列进行建模，将动作一致性损失添加到模型中，获取更有效的长期信息；

动作一致性损失L_con定义为：

L_con(t)＝|f(x_t+1)-f(x_t)|

在一个实施例中，可选的，所述训练模块，用于将交叉熵损失作为动作分类损失，表示为L_cls(t)，总损失函数表示为L：

本发明实施例的基于片段一致性的压缩视频动作识别装置仅为简要描述，详细描述可以参照上述方法实施例对应部分。

基于上述技术方案的基于片段一致性的压缩视频动作识别装置，对待识别视频进行压缩构建压缩视频，将压缩视频划分为k个片段，基于压缩视频构建动作一致性模型，对动作一致性模型进行训练，得到训练模型，根据动作一致性模型和训练模型，融合k个片段，从而减少压缩视频动作识别过程中不同阶段行为的差异。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本实用新型揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本实用新型的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于片段一致性的压缩视频动作识别方法，其特征在于，包括：

S2、基于所述压缩视频，构建动作一致性模型；

S3、对所述动作一致性模型进行训练，得到训练模型；

S4、根据所述训练模型，分别将待识别视频所述各个模式的k个片段的数据输入至所述训练模型，得到所述各个模式k个片段的模型输出结果，融合所述各个模式中k个片段的识别结果得到所述各个模式的视频级识别结果，最后对所述各个模式的识别结果进行融合，得到最终的识别结果；

根据MPEG-4第2部分编码所述待识别视频，将所述压缩视频分成I帧、P帧和零个或多个B帧；其中，I帧为内部编码帧、P帧为预测帧、B帧为由运动矢量和残差组成的双向帧，所述I帧为常规图像，所述P帧帧编码前一帧到当前帧的变化，所述P帧由动量和残差组成；

压缩视频表示为序列{I_j,P_j+1P_j+2....}，解码视频表示为{Ij,Ij+1,Ij+2…}，P帧重构为I_j+1：

I_j+1＝P_j+1+I_j

P_j+1＝M+R

其中，I帧，残差和P帧的大小为3*H*W，m的大小为2*H*W；所述S2包括：

所述S3包括：

2.一种基于片段一致性的压缩视频动作识别装置，其特征在于，包括：

压缩模块，用于识别视频进行压缩构建压缩视频，将所述压缩视频划分为k个片段；

模型构建模块，用于压缩视频，构建动作一致性模型；

融合模块，用于根据所述训练模型，分别将待识别视频所述各个模式的k个片段的数据输入至所述训练模型，得到所述各个模式k个片段的模型输出结果，融合所述各个模式中k个片段的识别结果得到所述各个模式的视频级识别结果，最后对所述各个模式的识别结果进行融合，得到最终的识别结果；

所述压缩模块，用于应用MPEG-4第2部分编码所述待识别视频，将所述待识别视频分成I帧、P帧和零个或多个B帧；其中，I帧为内部编码帧、P帧为预测帧、B帧为双向帧，所述I帧是常规图像，而P帧编码前一帧到当前帧的变化，所述P帧由动量和残差组成；

压缩视频表示为序列{I_j,P_j+1P_j+2....}，编码视频表示为{Ij,Ij+1,Ij+2…}，P帧重构为I_j+1：

I_j+1＝P_j+1+I_j

P_j+1＝M+R

其中，I帧，残差和P帧的大小为3*H*W，m的大小为2*H*W；

所述模型构建模块，用于对所述K个片段序列进行建模，将动作一致性损失添加到模型中，获取更有效的长期信息；

动作一致性损失L_con定义为：

L_con(t)＝|f(x_t+1)-f(x_t)|

其中t表示模型的第t个片段一致性损失，f(x_t)和f(x_t+1)表示第t段和第t+1段的预测值，L_con(t)表示第t段和第t+1段之间的动作一致性损失；

所述训练模块，用于将交叉熵损失作为动作分类损失，表示为L_cls(t)，总损失函数表示为L：