CN116703857A - 一种基于时空域感知的视频动作质量评价方法 - Google Patents
一种基于时空域感知的视频动作质量评价方法 Download PDFInfo
- Publication number
- CN116703857A CN116703857A CN202310656613.XA CN202310656613A CN116703857A CN 116703857 A CN116703857 A CN 116703857A CN 202310656613 A CN202310656613 A CN 202310656613A CN 116703857 A CN116703857 A CN 116703857A
- Authority
- CN
- China
- Prior art keywords
- video
- motion
- features
- slow
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 title claims description 52
- 230000009471 action Effects 0.000 title claims description 19
- 239000012634 fragment Substances 0.000 claims abstract description 18
- 230000008447 perception Effects 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 7
- 239000000284 extract Substances 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 230000002123 temporal effect Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000007792 addition Methods 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 108091006146 Channels Proteins 0.000 claims 6
- 230000004927 fusion Effects 0.000 abstract description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 abstract 1
- 229910052799 carbon Inorganic materials 0.000 abstract 1
- 238000010276 construction Methods 0.000 abstract 1
- 238000001303 quality assessment method Methods 0.000 description 9
- 238000011160 research Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000013100 final test Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
一种基于稀疏融合的在线碳语义地图构建方法,所述方法包括以下步骤:1)对输入视频进行时空分片处理,分成视频片段集合p和关键帧片段集合x;2)提取视频片段集合p的多速率运动特征,然后通过快特征与慢特征的插值对齐模块得到时域运动特征;3)提取关键帧片段集合x的多尺度空间特征,然后通过多尺度特征对齐模块得到对齐后的空域特征;4)融合对齐后的时域运动特征与空域特征得到一个具有时空感知特性的视频动作质量特征,然后进入质量回归模块得到视频动作质量评价分数。本发明利用非常稀疏的图片帧来提取空间特征和具有非常低空间分辨率的密集视频帧来提取运动特征,在提高精度的同时降低了计算复杂度,更适合边缘设备的部署应用。
Description
技术领域
本发明涉及视频质量评价领域,尤其涉及基于时空域感知的视频动作质量评价方法。
背景技术
近年来,用户生成内容视频呈爆炸式增长在互联网中。浏览、制作、分享视频已成为大众的生活日常,通过社交媒体应用程序例如YouTube、TikTok、推特等。由于视频中主体的动作十分丰富,面对如此多样的自定义视频,服务提供商需要针对视频质量进行分析与监控,最终为用户提供更好的体验质量。针对于每天数百万的用户生成内容视频,仅依靠人类视觉系统进行及时的质量评估是消耗劳动力且效率低下的,因此,开发可靠的视频动作质量评估模型确保质量的视频服务是十分重要的。
视频动作质量评价是计算机视觉领域的一个重要研究方向,它的目标是利用计算机算法来对视频中的动作进行自动化评价,在视频动作评价领域很多方法已经被提出,其中大多数方法基于机器学习使用标记数据去训练质量预测模型。在早期传统的视频动作质量评估,采用手工制作的功能,利用一组通用的质量感知特征,结合使用流行的图像质量方法通过回归预测质量。因为时空域是视频动作质量评价任务的关键属性,这些方法更多地关注时间和空间特征。最近的研究提出了卷积神经网络模型,可以更好地为视频动作质量评价任务提取时域和空间域信息,从而获得卓越的性能。
上述的很多方法都已经考虑到了时域与空域信息对于视频动作质量评价模型的重要性,但是依然存在以下缺点:
1)随着当今视频呈现出多帧率、多分辨率的趋势,大多数相关研究都没有充分的考虑到多速率时域特征与多尺度空域特征对于视频动作质量评价的影响。
2)大多数工作对时域运动特征和空间语义特征的特征关系利用不足,训练过程忽略时空特征交叉关系,出现特征不匹配、语义混乱等问题。
发明内容
本发明要克服现有技术的上述缺点,提供一种基于时空域感知的视频动作质量评价方法。
一种基于时空域感知的视频动作质量评价方法,包括以下步骤:
1)对输入视频进行时空分片处理,分成视频片段集合p和关键帧片段集合x;
2)提取视频片段集合p的多速率运动特征,然后通过快特征与慢特征的插值对齐模块得到时域运动特征;
3)提取关键帧片段集合x的多尺度空间特征,然后通过多尺度特征对齐模块得到对齐后的空域特征;
4)融合对齐后的时域运动特征与空域特征得到一个具有时空感知特性的视频动作质量特征,然后进入质量回归模块得到视频动作质量评价分数。
进一步,所述步骤1)中,对输入视频进行时空分片处理,分成视频片段集合p和关键帧片段集合x。输入视频V被分割成Nk个包含在向量中的连续片段。每个视频片段pi包括Nf帧:pi={fi,j}。在每个视频片段中选择一帧关键帧fi,1来提取空间特征,使用pi中的所有帧提取运动特征。
进一步,所述步骤2)中,提取视频片段集合pi的多速率运动特征,然后通过快特征与慢特征的插值对齐模块得到时域运动特征。本发明方法使用预训练的慢-快动作识别模型SLOW-FAST来获取每个视频片段的动作特征。SLOW-FAST模型分别通过Slow和Fast分支提取慢速率特征和块速率特征信息,使得动作识别网络的特征表示能够有效反映视频中主体的运动信息。
因此,给定一个视频片段pi(i∈{1,2,3,...,Nc}),使用动作识别网络分别得到慢速率和快速率特征和/>通过连接这些特征,得到慢速率特征集和快速率特征集:
随后,将注意力机制应用于不同运动速率Xslow,Xfast的输入特征,通过学习注意力权重和执行多个运动特征的加权求和,得到多种速率自适应地对齐运动特征Fs,Ft:
Watt=Softmax(ReLu(Conv1(Xslow)+Conv2(Xfast))) (2)
其中Conv1(·)和Conv2(·)是两个具有单一内核大小的二维卷积核,ReLu(·)和Softmax(·)是激活函数,Watt是注意力权重。为了获得在时间维度上具有相同大小和采样率的数据,我们使用多速率插值方法进行插值和对齐。对于每个时间戳t,我们对处理后的特征Fs,Ft进行插值和对齐,以获得该时间戳的对齐特征:
其中是SLOW-FAST网络在视频帧t处提取的特征,s和f分别代表慢路径和快路径,ri是路径第i帧的时间采样率,/>表示第i帧中最接近t的时间戳。vi(t)是通过线性或最近邻插值得到的插值系数如下:
最后,将慢速率路径和快速率路径对齐的特征按照一定的比例α进行融合,得到最终的视频运动特征表示:
更进一步,所述步骤3)中,提取关键帧片段集合的多尺度空间特征,然后通过多尺度特征对齐模块得到对齐后的空域特征。本发明方法使用预训练的残差神经网络模型ResNet提取空间特征,获得了对单帧空间分辨率具有鲁棒泛化能力的特征表示。不同大小和深度的空间域卷积可以捕获不同类型的语义信息。之前的研究已经证明,与高级特征相比,低级特征的特点是分辨率更高、位置更广、信息更详细,但语义含量较低、噪音水平较高。相比之下,高级特征以低分辨率和较差的细节意识提供强大的语义信息,他们优先考虑内容感知信息并反映视频中的全局失真。考虑输入帧pi和阶段特征Xs,我们定义Xs作为卷积神经网络模型CNN在阶段s(s∈1,2,3,4)的多尺度输出:
Xs=CNNs(Xs-1) (7)
为了有效对齐呈现不同语义和尺度的特征,本发明方法提出使用多尺度通道注意模块。该模块使用通过改变空间池大小获得的多个尺度的通道注意力来对齐不同尺度的特征。为了提升计算效率,我们选择逐点卷积来实现局部上下文聚合,它只利用每个空间位置的逐点通道交互。给定的多尺度特征X={X1,X2,X3,X4},多尺度通道注意模块的输出定义如下:
其中L(X)和G(X)分别表示多尺度通道注意模块使用的局部和全局信道上下文,表示广播加法,/>表示逐元素乘法,σ是一个sigmoid( )激活函数。注意权重L(X)和G(X)定义如下:
其中W(1)、W(2)、W(3)和W(4)是四个可学习权重的卷积层,δ表示ReLU激活函数,表示为批量归一化,/>表示全局平均池化:
更进一步,所述步骤4)中,融合对齐后的时域运动特征与空域特征得到一个具有时空感知特性的视频动作质量特征,然后进入质量回归模块得到视频动作质量评价分数。使用本发明方法上述步骤特征提取以及特征对齐模型获得了时空感知特征表示,随后使用多层感知器将这些特征映射到质量回归模型以计算相应的质量分数:
Qfinal=MLP(Concat(Fmotion,X′)) (12)
其中Qfinal表示预测分数,通过结合时域运动和空域信息,质量回归模型的最终质量回归层的输入包括表征人类对视频内容感知的两个主要信息流。
在训练阶段,本发明方法使用两个损失函数来优化所提出视频动作质量评价模型的性能,即平均绝对误差损失(MAE)和RANK损失定义如下:
其中i和j是批次中标识视频的索引,N是批次中的视频数量,定义如下:
随后,LRANK计算如下:
最后求和得到损失函数:
L=LMAE+λ·LRANK (17)
其中λ是平衡MAE和RANK损失的超参数。
本发明提供了一种基于时空域感知的视频动作质量评价方法,该方法执行组合的多速率运动特征和多尺度空间特征对齐。通过将基于拉格朗日的多速率插值模块和多尺度注意力融合模块的对齐机制集成到本发明方法的网络架构中,本发明方法可以有效地处理多帧率、多分辨路的多属性视频数据,而不会出现信息丢失或冲突问题。此外,本发明方法中添加基于注意力的特征对齐模块可以关联时间序列和空间信息,从而增强对主体对象周围的低质量区域并最终提供卓越的结果。所提出的模型在各种基准数据集上进行了评估,与现有方法相比显示出优越的性能,证明了我们组合方法的有效性。
本发明的优点是:本发明方法为视频动作质量评价中的多属性特征对齐开发了一个基于时空感知对齐网络,以解决时空域特征在融合过程中的信息偏差问题。本发明方法实现了一种有效的基于注意力的特征对齐机制,这种机制可以关联空间和时间序列信息,特别强调主体对象周围的低质量区域。本发明方法相比同类方法利用非常稀疏的图片帧来提取空间特征和具有非常低空间分辨率的密集视频帧来提取运动特征,从而具有更低计算复杂度。通过对比实验,本发明方法在精度高于同类方法的同时,其参数计算量下降60.7%,计算速度提升至6.929秒,更适合边缘设备的部署以及实际应用。
附图说明
图1是本发明的流程图。
图2是本发明中视频动作评价网络的工作流程图。
图3是本发明中对于运动状态主体的注意力特征图。
具体实施方式
下面结合附图说明本发明的具体实施过程。
发明流程图如图1所示。
一种基于时空域感知的视频动作质量评价方法,包括以下步骤:
1)对输入视频进行时空分片处理,分成视频片段集合p和关键帧片段集合x。输入视频V被分割成Nk个包含在向量中的连续片段。每个视频片段pi包括Nf帧:pi={fi,j}。在每个视频片段中选择一帧关键帧fi,1来提取空间特征,使用pi中的所有帧提取运动特征。
2)提取视频片段集合pi的多速率运动特征,然后通过快特征与慢特征的插值对齐模块得到时域运动特征。本发明方法使用预训练的慢-快动作识别模型SLOW-FAST来获取每个视频片段的动作特征。SLOW-FAST模型分别通过Slow和Fast分支提取慢速率特征和块速率特征信息,使得动作识别网络的特征表示能够有效反映视频中主体的运动信息。
因此,给定一个视频片段pi(i∈{1,2,3,...,Nc}),使用动作识别网络分别得到慢速率和快速率特征和/>通过连接这些特征,得到慢速率特征集和快速率特征集:
随后,将注意力机制应用于不同运动速率Xslow,Xfast的输入特征,通过学习注意力权重和执行多个运动特征的加权求和,得到多种速率自适应地对齐运动特征Fs,Ft:
Watt=Softmax(ReLu(Conv1(Xslow)+Conv2(Xfast))) (2)
其中Conv1(·)和Conv2(·)是两个具有单一内核大小的二维卷积核,ReLu(·)和Softmax(·)是激活函数,Watt是注意力权重。为了获得在时间维度上具有相同大小和采样率的数据,我们使用多速率插值方法进行插值和对齐。对于每个时间戳t,我们对处理后的特征Fs,Ft进行插值和对齐,以获得该时间戳的对齐特征:
其中是SLOW-FAST网络在视频帧t处提取的特征,s和f分别代表慢路径和快路径,ri是路径第i帧的时间采样率,/>表示第i帧中最接近t的时间戳。υi(t)是通过线性或最近邻插值得到的插值系数如下:
最后,将慢速率路径和快速率路径对齐的特征按照一定的比例α进行融合,得到最终的视频运动特征表示:
3)提取关键帧片段集合的多尺度空间特征,然后通过多尺度特征对齐模块得到对齐后的空域特征。本发明方法使用预训练的残差神经网络模型ResNet提取空间特征,获得了对单帧空间分辨率具有鲁棒泛化能力的特征表示。不同大小和深度的空间域卷积可以捕获不同类型的语义信息。之前的研究已经证明,与高级特征相比,低级特征的特点是分辨率更高、位置更广、信息更详细,但语义含量较低、噪音水平较高。相比之下,高级特征以低分辨率和较差的细节意识提供强大的语义信息,他们优先考虑内容感知信息并反映视频中的全局失真。考虑输入帧pi和阶段特征Xs,我们定义Xs作为卷积神经网络模型CNN在阶段s(s∈1,2,3,4)的多尺度输出:
Xs=CNNs(Xs-1) (7)
为了有效对齐呈现不同语义和尺度的特征,本发明方法提出使用多尺度通道注意模块。该模块使用通过改变空间池大小获得的多个尺度的通道注意力来对齐不同尺度的特征。为了提升计算效率,我们选择逐点卷积来实现局部上下文聚合,它只利用每个空间位置的逐点通道交互。给定的多尺度特征X={X1,X2,X3,X4},多尺度通道注意模块的输出定义如下:
其中L(X)和G(X)分别表示多尺度通道注意模块使用的局部和全局信道上下文,表示广播加法,/>表示逐元素乘法,σ是一个sigmoid()激活函数。注意权重L(X)和G(X)定义如下:
其中W(1)、W(2)、W(3)和W(4)是四个可学习权重的卷积层,δ表示ReLU激活函数,表示为批量归一化,/>表示全局平均池化:
4)融合对齐后的时域运动特征与空域特征得到一个具有时空感知特性的视频动作质量特征,然后进入质量回归模块得到视频动作质量评价分数。使用本发明方法上述步骤特征提取以及特征对齐模型获得了时空感知特征表示,随后使用多层感知器将这些特征映射到质量回归模型以计算相应的质量分数:
Qfinal=MLP(Concat(Fmotion,X′)) (12)
其中Qfinal表示预测分数,通过结合时域运动和空域信息,质量回归模型的最终质量回归层的输入包括表征人类对视频内容感知的两个主要信息流。
在训练阶段,本发明方法使用两个损失函数来优化所提出模型的性能,即平均绝对误差损失(MAE)和RANK损失定义如下:
其中i和j是批次中标识视频的索引,N是批次中的视频数量,定义如下:
随后,LRANK计算如下:
最后求和得到损失函数:
L=LMAE+λ·LRANK (17)
其中λ是平衡MAE和RANK损失的超参数。
本申请技术方案最终在四个开源数据集上的测试效果如表1所示:
表1在单一训练设置下,在数据集CVD2014、KoNViD-1k、LIVE-VQC和YouTube-UGC中测试的SRCC和PLCC中值。每个指标中表现最好的模型以粗体突出显示。
本发明方法使用两个常用指标来测试模型的性能:斯皮尔曼相关系数(SRCC)用于评估实验结果的单调性,皮尔逊线性相关系数(PLCC)用于评估实验结果的预测准确性。图3展示了本申请发明方法对于运动状态主体的注意力特征图,通过表1和图3可以看出本申请发明方法的效果优于其他现有方法,包括VSFA(参考文献Li,D.,Jiang,T.,Jiang,M.:Quality assessment of in-the-wild videos.In:Proceedings of the 27th ACMInternational Conference on Multimedia.pp.2351–235,2019)、VIDEVAL(参考文献Tu,Z.,Wang,Y.,Birkbeck,N.,Adsumilli,B.,Bovik,A.C.:Ugc-vqa:Benchmarking blindvideo quality assessment for user generated content.IEEE Transactions onImage Processing 30,4449–4464,2021)、GSTVQA(参考文献Chen,B.,Zhu,L.,Li,G.,Lu,F.,Fan,H.,Wang,S.:Learning generalized spatialtemporal deep featurerepresentation for no-reference video quality assessment.IEEE Transactions onCircuits and Systems for Video Technology 32(4),1903–1916,2021)、BVQA(参考文献Li,B.,Zhang,W.,Tian,M.,Zhai,G.,Wang,X.:Blindly assess quality of in-thewildvideos via quality-aware pre-training and motion perception.IEEE Transactionson Circuits and Systems for Video Technology 32(9),5944–5958,2022)。
Claims (5)
1.一种基于时空域感知的视频动作质量评价方法,包括以下步骤:
1)对输入视频进行时空分片处理,分成视频片段集合p和关键帧片段集合x;
2)提取视频片段集合p的多速率运动特征,然后通过快特征与慢特征的插值对齐模块得到时域运动特征;
3)提取关键帧片段集合x的多尺度空间特征,然后通过多尺度特征对齐模块得到对齐后的空域特征;
4)融合对齐后的时域运动特征与空域特征得到一个具有时空感知特性的视频动作质量特征,然后进入质量回归模块得到视频动作质量评价分数。
2.如权利要求1所述的一种基于时空域感知的视频动作质量评价方法,其特征在于:步骤1)具体包括:对输入视频进行时空分片处理,分成视频片段集合p和关键帧片段集合x。输入视频V被分割成Nk个包含在向量中的连续片段。每个视频片段pi包括Nf帧:pi={fi,j}。在每个视频片段中选择一帧关键帧fi,1来提取空间特征,使用pi中的所有帧提取运动特征。
3.如权利要求1所述的一种基于时空域感知的视频动作质量评价方法,其特征在于:所述步骤2)具体包括:提取视频片段集合pi的多速率运动特征,然后通过快特征与慢特征的插值对齐模块得到时域运动特征;使用预训练的慢-快动作识别模型SLOW-FAST获取每个视频片段的动作特征;SLOW-FAST模型分别通过Slow和Fast分支提取慢速率特征和块速率特征信息,使得动作识别网络的特征表示能够有效反映视频中主体的运动信息;
因此,给定一个视频片段pi(i∈{1,2,3,...,Nc}),使用动作识别网络分别得到慢速率和快速率特征和/>通过连接这些特征,得到慢速率特征集和快速率特征集:
随后,将注意力机制应用于不同运动速率Xslow,Xfast的输入特征,通过学习注意力权重和执行多个运动特征的加权求和,得到多种速率自适应地对齐运动特征Fs,Ft:
Watt=Softmax(ReLu(Conv1(Xslow)+Conv2(Xfast))) (2)
其中Conv1(·)和Conv2(·)是两个具有单一内核大小的二维卷积核,ReLu(·)和Softmax(·)是激活函数,Watt是注意力权重;为了获得在时间维度上具有相同大小和采样率的数据,使用多速率插值方法进行插值和对齐;对于每个时间戳t,对处理后的特征Fs,Ft进行插值和对齐,以获得该时间戳的对齐特征:
其中是SLOW-FAST网络在视频帧t处提取的特征,s和f分别代表慢路径和快路径,ri是路径第i帧的时间采样率,/>表示第i帧中最接近t的时间戳;vi(t)是通过线性或最近邻插值得到的插值系数如下:
最后,将慢速率路径和快速率路径对齐的特征按照一定的比例α进行融合,得到最终的视频运动特征表示:
4.如权利要求1所述的一种基于时空域感知的视频动作质量评价方法,其特征在于:所述步骤3)具体包括:提取关键帧片段集合的多尺度空间特征,然后通过多尺度特征对齐模块得到对齐后的空域特征;使用预训练的残差神经网络模型ResNet提取空间特征,获得了对单帧空间分辨率具有鲁棒泛化能力的特征表示;不同大小和深度的空间域卷积可以捕获不同类型的语义信息,考虑输入帧pi和阶段特征Xs,定义Xs作为卷积神经网络模型CNN在阶段s(s∈1,2,3,4)的多尺度输出:
Xs=CNNs(Xs-1) (7)
多尺度通道注意模块使用通过改变空间池大小获得的多个尺度的通道注意力来对齐不同尺度的特征;为了提升计算效率,选择逐点卷积来实现局部上下文聚合,它只利用每个空间位置的逐点通道交互;给定的多尺度特征X={X1,X2,X3,X4},多尺度通道注意模块的输出定义如下:
其中L(X)和G(X)分别表示多尺度通道注意模块使用的局部和全局信道上下文,表示广播加法,/>表示逐元素乘法,σ是一个sigmoid()激活函数;注意权重L(X)和G(X)定义如下:
其中W(1)、W(2)、W(3)和W(4)是四个可学习权重的卷积层,δ表示ReLU激活函数,表示为批量归一化,/>表示全局平均池化:
5.如权利要求1所述的一种基于时空域感知的视频动作质量评价方法,其特征在于:步骤4)具体包括:融合对齐后的时域运动特征与空域特征得到一个具有时空感知特性的视频动作质量特征,然后进入质量回归模块得到视频动作质量评价分数;使用特征提取以及特征对齐模型获得时空感知特征表示,随后使用多层感知器将这些特征映射到质量回归模型以计算相应的质量分数:
Qfinal=MLP(Concat(Fmotion,X′)) (12)
其中Qfinal表示预测分数,通过结合时域运动和空域信息,质量回归模型的最终质量回归层的输入包括表征人类对视频内容感知的两个主要信息流;
在训练阶段,使用两个损失函数来优化所提出模型的性能,即平均绝对误差损失MAE和RANK损失定义如下:
其中i和j是批次中标识视频的索引,N是批次中的视频数量,定义如下:
随后,LRANK计算如下:
最后求和得到损失函数:
L=LMAE+λ·LRANK (17)
其中λ是平衡MAE和RANK损失的超参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310656613.XA CN116703857A (zh) | 2023-06-05 | 2023-06-05 | 一种基于时空域感知的视频动作质量评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310656613.XA CN116703857A (zh) | 2023-06-05 | 2023-06-05 | 一种基于时空域感知的视频动作质量评价方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116703857A true CN116703857A (zh) | 2023-09-05 |
Family
ID=87828657
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310656613.XA Pending CN116703857A (zh) | 2023-06-05 | 2023-06-05 | 一种基于时空域感知的视频动作质量评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116703857A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117495854A (zh) * | 2023-12-28 | 2024-02-02 | 淘宝(中国)软件有限公司 | 视频数据处理方法、设备及存储介质 |
CN117524337A (zh) * | 2023-10-30 | 2024-02-06 | 江南大学 | 基于双流慢-非平稳快特征提取的co2含量预测方法 |
-
2023
- 2023-06-05 CN CN202310656613.XA patent/CN116703857A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117524337A (zh) * | 2023-10-30 | 2024-02-06 | 江南大学 | 基于双流慢-非平稳快特征提取的co2含量预测方法 |
CN117524337B (zh) * | 2023-10-30 | 2024-05-07 | 江南大学 | 基于双流慢-非平稳快特征提取的co2含量预测方法 |
CN117495854A (zh) * | 2023-12-28 | 2024-02-02 | 淘宝(中国)软件有限公司 | 视频数据处理方法、设备及存储介质 |
CN117495854B (zh) * | 2023-12-28 | 2024-05-03 | 淘宝(中国)软件有限公司 | 视频数据处理方法、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fajtl et al. | Summarizing videos with attention | |
CN113936339B (zh) | 基于双通道交叉注意力机制的打架识别方法和装置 | |
Ge et al. | An attention mechanism based convolutional LSTM network for video action recognition | |
CN106250915B (zh) | 一种融合深度特征和语义邻域的自动图像标注方法 | |
Wu et al. | Self-supervised sparse representation for video anomaly detection | |
CN116703857A (zh) | 一种基于时空域感知的视频动作质量评价方法 | |
CN110751649B (zh) | 视频质量评估方法、装置、电子设备及存储介质 | |
CN112954312A (zh) | 一种融合时空特征的无参考视频质量评估方法 | |
CN110321805B (zh) | 一种基于时序关系推理的动态表情识别方法 | |
CN111723238A (zh) | 视频多事件的裁剪及文本描述方法及其装置、设备和介质 | |
CN114282047A (zh) | 小样本动作识别模型训练方法、装置、电子设备及存储介质 | |
Ming et al. | 3D-TDC: A 3D temporal dilation convolution framework for video action recognition | |
Shen et al. | An end-to-end no-reference video quality assessment method with hierarchical spatiotemporal feature representation | |
CN114048351A (zh) | 一种基于时空关系增强的跨模态文本-视频检索方法 | |
CN111723667A (zh) | 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置 | |
CN115641533A (zh) | 目标对象情绪识别方法、装置和计算机设备 | |
Chang et al. | Human vision attention mechanism-inspired temporal-spatial feature pyramid for video saliency detection | |
Zhang et al. | A recursive attention-enhanced bidirectional feature pyramid network for small object detection | |
CN113850182A (zh) | 基于DAMR_3DNet的动作识别方法 | |
Wang et al. | Fine-grained multi-modal self-supervised learning | |
Zhang et al. | Video quality assessment with dense features and ranking pooling | |
CN110826397A (zh) | 一种基于高阶低秩多模态注意力机制的视频描述方法 | |
CN113221951B (zh) | 一种基于时域注意力池化网络的动图分类方法及装置 | |
Yang et al. | Student Classroom Behavior Detection Based on YOLOv7+ BRA and Multi-model Fusion | |
Jiang et al. | Image/video aesthetic quality management based on fusing 3D CNN and shallow features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |