CN116703857A

CN116703857A - 一种基于时空域感知的视频动作质量评价方法

Info

Publication number: CN116703857A
Application number: CN202310656613.XA
Authority: CN
Inventors: 陈朋; 杨正一; 周鸿超; 党源杰; 张斌
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-09-05

Abstract

一种基于稀疏融合的在线碳语义地图构建方法，所述方法包括以下步骤：1)对输入视频进行时空分片处理，分成视频片段集合p和关键帧片段集合x；2)提取视频片段集合p的多速率运动特征，然后通过快特征与慢特征的插值对齐模块得到时域运动特征；3)提取关键帧片段集合x的多尺度空间特征，然后通过多尺度特征对齐模块得到对齐后的空域特征；4)融合对齐后的时域运动特征与空域特征得到一个具有时空感知特性的视频动作质量特征，然后进入质量回归模块得到视频动作质量评价分数。本发明利用非常稀疏的图片帧来提取空间特征和具有非常低空间分辨率的密集视频帧来提取运动特征，在提高精度的同时降低了计算复杂度，更适合边缘设备的部署应用。

Description

一种基于时空域感知的视频动作质量评价方法

技术领域

本发明涉及视频质量评价领域，尤其涉及基于时空域感知的视频动作质量评价方法。

背景技术

近年来，用户生成内容视频呈爆炸式增长在互联网中。浏览、制作、分享视频已成为大众的生活日常，通过社交媒体应用程序例如YouTube、TikTok、推特等。由于视频中主体的动作十分丰富，面对如此多样的自定义视频，服务提供商需要针对视频质量进行分析与监控，最终为用户提供更好的体验质量。针对于每天数百万的用户生成内容视频，仅依靠人类视觉系统进行及时的质量评估是消耗劳动力且效率低下的，因此，开发可靠的视频动作质量评估模型确保质量的视频服务是十分重要的。

视频动作质量评价是计算机视觉领域的一个重要研究方向，它的目标是利用计算机算法来对视频中的动作进行自动化评价，在视频动作评价领域很多方法已经被提出，其中大多数方法基于机器学习使用标记数据去训练质量预测模型。在早期传统的视频动作质量评估，采用手工制作的功能，利用一组通用的质量感知特征，结合使用流行的图像质量方法通过回归预测质量。因为时空域是视频动作质量评价任务的关键属性，这些方法更多地关注时间和空间特征。最近的研究提出了卷积神经网络模型，可以更好地为视频动作质量评价任务提取时域和空间域信息，从而获得卓越的性能。

上述的很多方法都已经考虑到了时域与空域信息对于视频动作质量评价模型的重要性，但是依然存在以下缺点：

1)随着当今视频呈现出多帧率、多分辨率的趋势，大多数相关研究都没有充分的考虑到多速率时域特征与多尺度空域特征对于视频动作质量评价的影响。

2)大多数工作对时域运动特征和空间语义特征的特征关系利用不足，训练过程忽略时空特征交叉关系，出现特征不匹配、语义混乱等问题。

发明内容

本发明要克服现有技术的上述缺点，提供一种基于时空域感知的视频动作质量评价方法。

一种基于时空域感知的视频动作质量评价方法，包括以下步骤：

1)对输入视频进行时空分片处理，分成视频片段集合p和关键帧片段集合x；

2)提取视频片段集合p的多速率运动特征，然后通过快特征与慢特征的插值对齐模块得到时域运动特征；

3)提取关键帧片段集合x的多尺度空间特征，然后通过多尺度特征对齐模块得到对齐后的空域特征；

4)融合对齐后的时域运动特征与空域特征得到一个具有时空感知特性的视频动作质量特征，然后进入质量回归模块得到视频动作质量评价分数。

进一步，所述步骤1)中，对输入视频进行时空分片处理，分成视频片段集合p和关键帧片段集合x。输入视频V被分割成N_k个包含在向量中的连续片段。每个视频片段p_i包括N_f帧：p_i＝{f_i，j}。在每个视频片段中选择一帧关键帧f_i，1来提取空间特征，使用p_i中的所有帧提取运动特征。

进一步，所述步骤2)中，提取视频片段集合p_i的多速率运动特征，然后通过快特征与慢特征的插值对齐模块得到时域运动特征。本发明方法使用预训练的慢-快动作识别模型SLOW-FAST来获取每个视频片段的动作特征。SLOW-FAST模型分别通过Slow和Fast分支提取慢速率特征和块速率特征信息，使得动作识别网络的特征表示能够有效反映视频中主体的运动信息。

因此，给定一个视频片段p_i(i∈{1，2，3，...，N_c})，使用动作识别网络分别得到慢速率和快速率特征和/>通过连接这些特征，得到慢速率特征集和快速率特征集：

随后，将注意力机制应用于不同运动速率X_slow，X_fast的输入特征，通过学习注意力权重和执行多个运动特征的加权求和，得到多种速率自适应地对齐运动特征F^s，F^t：

W_att＝Softmax(ReLu(Conv1(X_slow)+Conv2(X_fast))) (2)

其中Conv1(·)和Conv2(·)是两个具有单一内核大小的二维卷积核，ReLu(·)和Softmax(·)是激活函数，W_att是注意力权重。为了获得在时间维度上具有相同大小和采样率的数据，我们使用多速率插值方法进行插值和对齐。对于每个时间戳t，我们对处理后的特征F^s，F^t进行插值和对齐，以获得该时间戳的对齐特征：

其中是SLOW-FAST网络在视频帧t处提取的特征，s和f分别代表慢路径和快路径，r_i是路径第i帧的时间采样率，/>表示第i帧中最接近t的时间戳。v_i(t)是通过线性或最近邻插值得到的插值系数如下：

最后，将慢速率路径和快速率路径对齐的特征按照一定的比例α进行融合，得到最终的视频运动特征表示：

更进一步，所述步骤3)中，提取关键帧片段集合的多尺度空间特征，然后通过多尺度特征对齐模块得到对齐后的空域特征。本发明方法使用预训练的残差神经网络模型ResNet提取空间特征，获得了对单帧空间分辨率具有鲁棒泛化能力的特征表示。不同大小和深度的空间域卷积可以捕获不同类型的语义信息。之前的研究已经证明，与高级特征相比，低级特征的特点是分辨率更高、位置更广、信息更详细，但语义含量较低、噪音水平较高。相比之下，高级特征以低分辨率和较差的细节意识提供强大的语义信息，他们优先考虑内容感知信息并反映视频中的全局失真。考虑输入帧p_i和阶段特征X_s，我们定义X_s作为卷积神经网络模型CNN在阶段s(s∈1，2，3，4)的多尺度输出：

X_s＝CNN_s(X_s-1) (7)

为了有效对齐呈现不同语义和尺度的特征，本发明方法提出使用多尺度通道注意模块。该模块使用通过改变空间池大小获得的多个尺度的通道注意力来对齐不同尺度的特征。为了提升计算效率，我们选择逐点卷积来实现局部上下文聚合，它只利用每个空间位置的逐点通道交互。给定的多尺度特征X＝{X₁，X₂，X₃，X₄}，多尺度通道注意模块的输出定义如下：

其中L(X)和G(X)分别表示多尺度通道注意模块使用的局部和全局信道上下文，表示广播加法，/>表示逐元素乘法，σ是一个sigmoid( )激活函数。注意权重L(X)和G(X)定义如下：

其中W⁽¹⁾、W⁽²⁾、W⁽³⁾和W⁽⁴⁾是四个可学习权重的卷积层，δ表示ReLU激活函数，表示为批量归一化，/>表示全局平均池化：

更进一步，所述步骤4)中，融合对齐后的时域运动特征与空域特征得到一个具有时空感知特性的视频动作质量特征，然后进入质量回归模块得到视频动作质量评价分数。使用本发明方法上述步骤特征提取以及特征对齐模型获得了时空感知特征表示，随后使用多层感知器将这些特征映射到质量回归模型以计算相应的质量分数：

Q_final＝MLP(Concat(F_motion，X′)) (12)

其中Q_final表示预测分数，通过结合时域运动和空域信息，质量回归模型的最终质量回归层的输入包括表征人类对视频内容感知的两个主要信息流。

在训练阶段，本发明方法使用两个损失函数来优化所提出视频动作质量评价模型的性能，即平均绝对误差损失(MAE)和RANK损失定义如下：

其中i和j是批次中标识视频的索引，N是批次中的视频数量，定义如下：

随后，L_RANK计算如下：

最后求和得到损失函数：

L＝L_MAE+λ·L_RANK (17)

其中λ是平衡MAE和RANK损失的超参数。

本发明提供了一种基于时空域感知的视频动作质量评价方法，该方法执行组合的多速率运动特征和多尺度空间特征对齐。通过将基于拉格朗日的多速率插值模块和多尺度注意力融合模块的对齐机制集成到本发明方法的网络架构中，本发明方法可以有效地处理多帧率、多分辨路的多属性视频数据，而不会出现信息丢失或冲突问题。此外，本发明方法中添加基于注意力的特征对齐模块可以关联时间序列和空间信息，从而增强对主体对象周围的低质量区域并最终提供卓越的结果。所提出的模型在各种基准数据集上进行了评估，与现有方法相比显示出优越的性能，证明了我们组合方法的有效性。

本发明的优点是：本发明方法为视频动作质量评价中的多属性特征对齐开发了一个基于时空感知对齐网络，以解决时空域特征在融合过程中的信息偏差问题。本发明方法实现了一种有效的基于注意力的特征对齐机制，这种机制可以关联空间和时间序列信息，特别强调主体对象周围的低质量区域。本发明方法相比同类方法利用非常稀疏的图片帧来提取空间特征和具有非常低空间分辨率的密集视频帧来提取运动特征，从而具有更低计算复杂度。通过对比实验，本发明方法在精度高于同类方法的同时，其参数计算量下降60.7％，计算速度提升至6.929秒，更适合边缘设备的部署以及实际应用。

附图说明

图1是本发明的流程图。

图2是本发明中视频动作评价网络的工作流程图。

图3是本发明中对于运动状态主体的注意力特征图。

具体实施方式

下面结合附图说明本发明的具体实施过程。

发明流程图如图1所示。

1)对输入视频进行时空分片处理，分成视频片段集合p和关键帧片段集合x。输入视频V被分割成Nk个包含在向量中的连续片段。每个视频片段p_i包括N_f帧：p_i＝{f_i，j}。在每个视频片段中选择一帧关键帧f_i，1来提取空间特征，使用p_i中的所有帧提取运动特征。

2)提取视频片段集合p_i的多速率运动特征，然后通过快特征与慢特征的插值对齐模块得到时域运动特征。本发明方法使用预训练的慢-快动作识别模型SLOW-FAST来获取每个视频片段的动作特征。SLOW-FAST模型分别通过Slow和Fast分支提取慢速率特征和块速率特征信息，使得动作识别网络的特征表示能够有效反映视频中主体的运动信息。

W_att＝Softmax(ReLu(Conv1(X_slow)+Conv2(X_fast))) (2)

其中是SLOW-FAST网络在视频帧t处提取的特征，s和f分别代表慢路径和快路径，r_i是路径第i帧的时间采样率，/>表示第i帧中最接近t的时间戳。υ_i(t)是通过线性或最近邻插值得到的插值系数如下：

3)提取关键帧片段集合的多尺度空间特征，然后通过多尺度特征对齐模块得到对齐后的空域特征。本发明方法使用预训练的残差神经网络模型ResNet提取空间特征，获得了对单帧空间分辨率具有鲁棒泛化能力的特征表示。不同大小和深度的空间域卷积可以捕获不同类型的语义信息。之前的研究已经证明，与高级特征相比，低级特征的特点是分辨率更高、位置更广、信息更详细，但语义含量较低、噪音水平较高。相比之下，高级特征以低分辨率和较差的细节意识提供强大的语义信息，他们优先考虑内容感知信息并反映视频中的全局失真。考虑输入帧p_i和阶段特征X_s，我们定义X_s作为卷积神经网络模型CNN在阶段s(s∈1，2，3，4)的多尺度输出：

X_s＝CNN_s(X_s-1) (7)

其中L(X)和G(X)分别表示多尺度通道注意模块使用的局部和全局信道上下文，表示广播加法，/>表示逐元素乘法，σ是一个sigmoid()激活函数。注意权重L(X)和G(X)定义如下：

4)融合对齐后的时域运动特征与空域特征得到一个具有时空感知特性的视频动作质量特征，然后进入质量回归模块得到视频动作质量评价分数。使用本发明方法上述步骤特征提取以及特征对齐模型获得了时空感知特征表示，随后使用多层感知器将这些特征映射到质量回归模型以计算相应的质量分数：

Q_final＝MLP(Concat(F_motion，X′)) (12)

在训练阶段，本发明方法使用两个损失函数来优化所提出模型的性能，即平均绝对误差损失(MAE)和RANK损失定义如下：

随后，L_RANK计算如下：

最后求和得到损失函数：

L＝L_MAE+λ·L_RANK (17)

其中λ是平衡MAE和RANK损失的超参数。

本申请技术方案最终在四个开源数据集上的测试效果如表1所示：

表1在单一训练设置下，在数据集CVD2014、KoNViD-1k、LIVE-VQC和YouTube-UGC中测试的SRCC和PLCC中值。每个指标中表现最好的模型以粗体突出显示。

本发明方法使用两个常用指标来测试模型的性能：斯皮尔曼相关系数(SRCC)用于评估实验结果的单调性，皮尔逊线性相关系数(PLCC)用于评估实验结果的预测准确性。图3展示了本申请发明方法对于运动状态主体的注意力特征图，通过表1和图3可以看出本申请发明方法的效果优于其他现有方法，包括VSFA(参考文献Li,D.,Jiang,T.,Jiang,M.:Quality assessment of in-the-wild videos.In:Proceedings of the 27th ACMInternational Conference on Multimedia.pp.2351–235,2019)、VIDEVAL(参考文献Tu,Z.,Wang,Y.,Birkbeck,N.,Adsumilli,B.,Bovik,A.C.:Ugc-vqa:Benchmarking blindvideo quality assessment for user generated content.IEEE Transactions onImage Processing 30,4449–4464,2021)、GSTVQA(参考文献Chen,B.,Zhu,L.,Li,G.,Lu,F.,Fan,H.,Wang,S.:Learning generalized spatialtemporal deep featurerepresentation for no-reference video quality assessment.IEEE Transactions onCircuits and Systems for Video Technology 32(4),1903–1916,2021)、BVQA(参考文献Li,B.,Zhang,W.,Tian,M.,Zhai,G.,Wang,X.:Blindly assess quality of in-thewildvideos via quality-aware pre-training and motion perception.IEEE Transactionson Circuits and Systems for Video Technology 32(9),5944–5958,2022)。

Claims

1.一种基于时空域感知的视频动作质量评价方法，包括以下步骤：

2.如权利要求1所述的一种基于时空域感知的视频动作质量评价方法，其特征在于：步骤1)具体包括：对输入视频进行时空分片处理，分成视频片段集合p和关键帧片段集合x。输入视频V被分割成N_k个包含在向量中的连续片段。每个视频片段p_i包括N_f帧：p_i＝{f_i，j}。在每个视频片段中选择一帧关键帧f_i，1来提取空间特征，使用p_i中的所有帧提取运动特征。

3.如权利要求1所述的一种基于时空域感知的视频动作质量评价方法，其特征在于：所述步骤2)具体包括：提取视频片段集合p_i的多速率运动特征，然后通过快特征与慢特征的插值对齐模块得到时域运动特征；使用预训练的慢-快动作识别模型SLOW-FAST获取每个视频片段的动作特征；SLOW-FAST模型分别通过Slow和Fast分支提取慢速率特征和块速率特征信息，使得动作识别网络的特征表示能够有效反映视频中主体的运动信息；

W_att＝Softmax(ReLu(Conv1(X_slow)+Conv2(X_fast))) (2)

其中Conv1(·)和Conv2(·)是两个具有单一内核大小的二维卷积核，ReLu(·)和Softmax(·)是激活函数，W_att是注意力权重；为了获得在时间维度上具有相同大小和采样率的数据，使用多速率插值方法进行插值和对齐；对于每个时间戳t，对处理后的特征F^s，F^t进行插值和对齐，以获得该时间戳的对齐特征：

其中是SLOW-FAST网络在视频帧t处提取的特征，s和f分别代表慢路径和快路径，r_i是路径第i帧的时间采样率，/>表示第i帧中最接近t的时间戳；v_i(t)是通过线性或最近邻插值得到的插值系数如下：

4.如权利要求1所述的一种基于时空域感知的视频动作质量评价方法，其特征在于：所述步骤3)具体包括：提取关键帧片段集合的多尺度空间特征，然后通过多尺度特征对齐模块得到对齐后的空域特征；使用预训练的残差神经网络模型ResNet提取空间特征，获得了对单帧空间分辨率具有鲁棒泛化能力的特征表示；不同大小和深度的空间域卷积可以捕获不同类型的语义信息，考虑输入帧p_i和阶段特征X_s，定义X_s作为卷积神经网络模型CNN在阶段s(s∈1，2，3，4)的多尺度输出：

X_s＝CNN_s(X_s-1) (7)

多尺度通道注意模块使用通过改变空间池大小获得的多个尺度的通道注意力来对齐不同尺度的特征；为了提升计算效率，选择逐点卷积来实现局部上下文聚合，它只利用每个空间位置的逐点通道交互；给定的多尺度特征X＝{X₁，X₂，X₃，X₄}，多尺度通道注意模块的输出定义如下：

其中L(X)和G(X)分别表示多尺度通道注意模块使用的局部和全局信道上下文，表示广播加法，/>表示逐元素乘法，σ是一个sigmoid()激活函数；注意权重L(X)和G(X)定义如下：

5.如权利要求1所述的一种基于时空域感知的视频动作质量评价方法，其特征在于：步骤4)具体包括：融合对齐后的时域运动特征与空域特征得到一个具有时空感知特性的视频动作质量特征，然后进入质量回归模块得到视频动作质量评价分数；使用特征提取以及特征对齐模型获得时空感知特征表示，随后使用多层感知器将这些特征映射到质量回归模型以计算相应的质量分数：

Q_final＝MLP(Concat(F_motion，X′)) (12)

其中Q_final表示预测分数，通过结合时域运动和空域信息，质量回归模型的最终质量回归层的输入包括表征人类对视频内容感知的两个主要信息流；

在训练阶段，使用两个损失函数来优化所提出模型的性能，即平均绝对误差损失MAE和RANK损失定义如下：

随后，L_RANK计算如下：

最后求和得到损失函数：

L＝L_MAE+λ·L_RANK (17)

其中λ是平衡MAE和RANK损失的超参数。