CN113255789A

CN113255789A - 基于对抗网络和多被试脑电信号的视频质量评价方法

Info

Publication number: CN113255789A
Application number: CN202110603651.XA
Authority: CN
Inventors: 何立火; 徐海鹏; 蔡虹霞; 孙羽晟; 柯俊杰; 廖乙霖; 钟斌; 陈欣雷; 高新波; 路文
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-08-13
Anticipated expiration: 2041-05-31
Also published as: CN113255789B

Abstract

本发明提出了一种基于对抗网络和多被试脑电信号的视频质量评价方法，实现步骤为：(1)获取训练样本集、测试样本集和标注样本集；(2)构建多被试对抗网络模型；(3)对多被试对抗网络模型进行迭代训练；(4)获取视频质量评价结果。本发明构建的多被试对抗网络模型中，通过被试域判别器与特征提取器构成的对抗网络，提取了源被试脑电数据与目标被试脑电数据的不变特征，解决了脑电信号视频质量评价模型只适用于单一数据源的问题，提高了视频质量评价精度。

Description

基于对抗网络和多被试脑电信号的视频质量评价方法

技术领域

本发明属于视频处理技术领域，涉及一种视频质量评价方法，更进一步涉及一种基于对抗网络和多被试脑电信号的视频质量评价方法。

背景技术

近年来，基于脑电信号的视频质量评价方法受到越来越多的关注。相关研究表明，脑电信号与视频质量存在特定的联系，通过分析脑电信号可以得到与视频质量相关的特定成分。目前，用于视频质量评价的脑电技术通过头表电极直接获取脑电信号以反映神经电位活动，是一种既简单又安全可靠的方法。该方法既克服了客观方法无法充分反映主观感知质量的缺点，又克服了主观方法耗时长、成本高的缺点，对获取真实的视频感知质量具有重要的理论意义和实用价值。

例如，申请公布号为CN111510710A，名称为“基于脑电信号和时空失真的视频质量评价方法”的专利申请，公开了一种基于脑电信号和时空失真的视频质量评价方法。该方法实现步骤为：(1)生成模拟水面波动视频；(2)生成时空失真视频；(3)采集连续脑电信号和主观评价；(4)计算主观评价检测率；(5)对脑电信号进行分段；(6)对分段后的脑电信号进行分类；(7)计算脑电信号分类准确率；(8)评价时空失真视频质量。该方法虽然具有视频质量评价结果与人类主观评价更加一致，评价结果更加准确的优点，但是其存在的不足之处是，数据利用效率较低，无法有效的利用多被试的脑电信号特征，导致最终视频质量评价结果受到数据量不足的影响。

授权公告号为CN106412571B，名称为“一种基于梯度相似性标准差的视频质量评价法”的专利申请，公开了一种基于梯度相似性标准差的视频质量评价方法。该方法实现步骤为：(1)通过参考视频当前帧与前两帧的帧差以及失真视频当前帧与前两帧的帧差来计算视频帧差的梯度相似度矩阵，并以此来模拟视觉系统的时域变化；(2)计算参考帧与失真帧的梯度相似度矩阵来获取当前帧的空域失真程度；(3)根据当前帧的时域失真程度及空域失真程度计算视频序列的质量。该方法虽然具有对于视频的时域失真和空域失真均能够较好的评价性能的优点。但是其存在的不足之处是，视频质量评价过程与人脱离，所构建的失真程度算法不能代表人类接收并感知视频的过程，评价的结果不能很好的符合主观评价结果。

发明内容

本发明的目的是针对上述现有技术的不足，提出了一种基于对抗网络和多被试脑电信号的视频质量评价方法。用于解决现有视频质量评价方法中不能很好的符合主观评价结果，主观数据利用效率较低的问题。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)获取训练样本集、测试样本集和标注样本集：

(1a)以K-1个失真等级对一段时长为c的视频V_f进行失真处理，并将V_f作为未失真视频与失真处理得到的K-1个失真视频进行组合，得到混合视频集合V＝{V₁,V₂...V_k...V_K}，其中，1＜K＜10，0<c<5s，V_k表示第k个视频；

(1b)采集M个被试人员观看每个视频V_k的脑电信号，得到脑电信号集合X＝{X₁,X₂...,X_m...,X_M}，其中，5＜M＜30，X_m表示所采集的第m个被试人员观看视频V的脑电信号向量,

表示所采集的第m个被试人员观看视频V_k的脑电信号；

(1c)将从脑电信号集合X中随机选取的一个脑电信号向量作为目标被试脑电数据E，将剩余的M-1个脑电信号向量作为源被试脑电数据F，对脑电信号集合X中的每个脑电信号进行标注，得到标注样本集

其中，

表示脑电信号集合X中第q个脑电信号及其标签，

表示

来自于目标被试脑电数据E，

表示

来自于源被试脑电数据F；

(1d)将半数以上目标被试脑电数据E中每个失真等级所对应的脑电信号以及源被试脑电数据F中每个失真等级所对应的脑电信号作为训练数据集，将其余目标被试脑电数据E中每个失真等级所对应的脑电信号作为测试数据集；

(1e)对训练数据集和测试数据集中的每个脑电信号进行标注，并将训练数据集中的每个脑电信号及其标签组合成训练样本集

将测试数据集中的每个脑电信号及其标签组合成测试样本集

其中，

表示训练样本集中第n个脑电信号及其标签，

表示未失真，

表示失真，

表示测试样本集中第o个脑电信号及其标签，

表示未失真，

表示失真；

(2)构建基于多被试对抗网络的视频质量评价模型G：

(2a)构建包括多被试对抗网络和失真分类器G_y的视频质量评价模型G，其中，多被试对抗网络包括公共特征提取器G_f以及与其级联的被试域判别器G_d，公共特征提取器G_f包括时域卷积层、空域卷积层、多个分离卷积层、多个BN层和多个池化层，被试域判别器G_d包括多个全连接层，失真分类器G_y包括多个全连接层；

(2b)定义被试域判别器G_d、失真分类器G_y和公共特征提取器G_f的损失函数

和

其中，L表示损失函数NLL Loss，θ_f、θ_y、θ_d分别表示公共特征提取器G_f、失真分类器G_y、被试域判别器G_d的权重和偏差参数，d_i表示二值变量，d_i＝0表示

来自目标被试脑电数据E，d_i＝1表示

来自源被试脑电数据F；

(3)对视频质量评价模型G进行迭代训练：

(3a)初始化迭代次数为t，最大迭代次数为T，T≥200，当前视频质量评价模型为G^t，并令t＝1,G^t＝G；

(3b)固定被试域判别器G_d，将训练样本集中的每个训练样本

作为视频质量评价模型G的输入，公共特征提取器G_f对

进行时空特征提取，失真分类器G_y对G_f所提取的时空特征

进行局部信息整合，得到

的失真预测结果

(3c)采用损失函数

并通过

计算G^t的损失值L^t，再采用反向传播方法并通过L^t计算G_f和G_y的卷积核参数ω^t、各全连接层结点之间的连接参数θ^t的梯度，然后采用梯度下降算法通过G_f和G_y的卷积核参数ω^t、各全连接层结点之间的连接参数θ^t的梯度对G_f和G_y的参数ω^t、θ^t进行更新，得到更新后的G^t1；

(3d)固定公共特征提取器G_f和失真分类器G_y，将训练样本集中的每个训练样本

作为视频质量评价模型G^t1的输入，公共特征提取器G_f对

进行时空特征提取，被试域判别器G_d对G_f所提取的时空特征

进行局部信息整合，得到

的判别结果

表示

来自目标被试脑电数据E，

表示

来自源被试脑电数据F；

(3e)采用损失函数

并通过

计算G^t1的损失值L^t1，再采用反向传播方法并通过L^t1计算G_d各全连接层结点之间的连接参数θ^t1的梯度，然后采用梯度下降算法通过G_d的各全连接层结点之间的连接参数θ^t1的梯度对G_d的参数θ^t1进行更新，得到更新后的G^t2；

(3f)判断t＝T是否成立，若是，得到训练好的视频质量评价模型G^*，否则，令t＝t+1，并执行步骤(3b)；

(4)获取视频质量评价结果：

将测试样本集中的每个测试样本

作为训练好的视频质量评价模型G^*的输入进行失真预测，得到

的预测结果

表示

为未失真，

表示

为未失真。

本发明与现有技术相比较，具有以下优点：

第一，本发明在对视频质量评价模型进行训练以及获取视频质量评价结果的过程中，在多被试对抗网络的作用下，公共特征提取器提取了源被试脑电数据与目标被试脑电数据的不变特征，避免了以往脑电信号视频质量评价模型只适用于单一数据源的缺点，提高了脑电信号的利用效率，缓解了视频评价结果受到数据量不足的影响，提升了视频质量评价精度。

第二，由于在本发明构建的视频质量评价模型中对多个被试的脑电信息进行了公共特征提取，避免了以往视频质量评价模型无法真实反映人类主观感受的问题，评价的结果能更好地符合主观评价结果。

附图说明

图1是本发明的实现流程图。

图2是本发明实施例所构建的多被试对抗网络模型的结构示意图。

具体实施方式

下面结合附图和具体实施例，对本发明作进一步的描述。

参照附图1，本发明包括如下步骤。

步骤1)获取训练样本集、测试样本集和标注样本集：

(1a)以K-1个失真等级对一段时长为c的视频V_f进行失真处理，并将V_f作为未失真视频与失真处理得到的K-1个失真视频进行组合，得到混合视频集合V＝{V₁,V₂...V_k...V_K}，其中，1＜K＜10，0<c<5s，V_k表示第k个视频，本实施例中，K＝5，c＝4；

表示所采集的第m个被试人员观看视频V_k的脑电信号，本实施例中，M＝9，具体操作流程为：混合视频集合V包含4个失真视频，一个未失真视频，每位被试观看每个视频60次，因此，每位被试共有300个脑电样本，其中60个脑电样本对应视频未失真，240个脑电样本对应视频失真。每位被试每次观看对应一段固定时长为1s的脑电信号，采用电极为64通道数，采样频率为1000Hz，则每个脑电样本包含1000个采样点；

(1c)基于深度学习对包含视频质量信息的脑电数据进行分类，在利用多被试脑电样本训练模型时，通常会遭遇负迁移的影响，即相比于单被试所训练的模型来讲，数据的增加并不会提升模型的性能，反而会导致分类性能下降。因此，构建目标被试脑电数据和源被试脑电数据，利用对抗训练最小化两个被试域特征分布之间的差异。

因此，将从脑电信号集合X中随机选取的一个脑电信号向量作为目标被试脑电数据E，将剩余的M-1个脑电信号向量作为源被试脑电数据F，对脑电信号集合X中的每个脑电信号进行标注，得到标注样本集

其中，

表示脑电信号集合X中第q个脑电信号及其标签，

表示

来自于目标被试脑电数据E，

表示

来自于源被试脑电数据F；

将测试数据集中的每个脑电信号及其标签组合成测试样本集

其中，

表示训练样本集中第n个脑电信号及其标签，

表示未失真，

表示失真，

表示测试样本集中第o个脑电信号及其标签，

表示未失真，

表示失真。

步骤2)构建基于多被试对抗网络的视频质量评价模型G：

(2a)构建包括多被试对抗网络和失真分类器G_y的视频质量评价模型G，其中，多被试对抗网络包括公共特征提取器G_f以及与其级联的被试域判别器G_d，G的输入为C×T的脑电样本，其中，C代表采集脑电时所用的电极数量，T表示固定长度的脑电样本所包含的采样点数。本实施例是本所构建的多被试对抗网络模型的结构如图2，其中：共特征提取器G_f包括的时域卷积层的个数为1，用于提取脑电信号在时间维度上的特征，时域卷积核尺寸为1×64，卷积核个数为8，步长为1，同时采用零填充来保持输入输出的特征尺度不发生变化。空域卷积层的个数为1，用于提取脑电信号在空间维度上的特征(空间上64个通道代表64个电极，与质量感知相关的大脑皮层活跃区域对应)，卷积核尺寸为C×1，卷积核个数为16，采用Depthwise卷积操作，每2个卷积核分组作用于一个特征图以减少参数量。分离卷积层的个数为3，该结构与常规卷积操作类似，可用于提取特征，但参数量与运算成本相对较低。卷积层后采用线性整流单元(ReLU)作为激活函数。BN层的个数为5，池化层的个数为4。该公共特征提取器G_f的具体结构为：第一时域卷积层→第一BN层→第一空域卷积层→第二BN层→第一池化层→第一分离卷积层→第三BN层→第二池化层→第二分离卷积层→第四BN层→第三池化层→第三分离卷积层→第五BN层→第四池化层；

被试域判别器G_d包括3个全连接层；

失真分类器G_y包括1个全连接层；

(2b)即使对于不同的被试，由视频失真所引起的与视频质量相关的脑电成分是稳定的，因此，可以通过公共特征提取器，将多个被试数据映射至同一特征表示空间。按照常理来讲，可以在源被试脑电数据上通过一般的机器学习方法训练得到分类模型。然而，由于源被试脑电数据与目标试脑电数据的分布差异，所得分类模型无法直接移植到目标被试域。因此，需要学习源被试脑电数据与目标试脑电数据之间的不变特征。这对于特征提取器来讲相当于背负了两重任务。一方面，要求特征提取器所学得的特征具有关于视频质量的判别信息，有助于训练失真分类器，使之对样本对应的失真状态尽可能正确地预测；另一方面，该特征需足以迷惑被试域判别器使之不能正确分类。如此，特征提取器与被试域判别器之间便构成了一个对抗网络框架。公共特征提取器要解决的问题在于学习一个公共的特征表示空间，使得源被试脑电数据F所学得的分类模型也适用于目标被试脑电数据E的特征，即学习两者之间的域不变特征。被试域判别器的目的在于区分脑电样本来自于源被试脑电数据或目标试脑电数据。

(2c)定义被试域判别器G_d、失真分类器G_y和公共特征提取器G_f的损失函数

和

来自目标被试脑电数据E，d_i＝1表示

来自源被试脑电数据F；

步骤3)对多被试对抗网络模型G进行迭代训练：

迭代训练过程在Pytorch平台上实现，通过NVIDIA TITAN XP GPU训练。模型G训练过程采用了ADAM优化器，将正则化系数设为5e-4以抑制过拟合，初始学习率设为2×10e-3，每迭代50次后学习率下降为上一阶段的1/10，共迭代200次。

(3a)由于所采用的脑电样本存在数据分布不均衡的问题，因此在实际实施时将(2c)中失真分类器G_y的损失函数

修改如下：

(3b)初始化迭代次数为t，最大迭代次数为T，T≥200，当前多被试对抗网络模型为G^t，并令t＝1,G^t＝G；

(3c)固定被试域判别器G_d，将训练样本集中的每个训练样本

作为多被试对抗网络模型G的输入，公共特征提取器G_f对

进行时空特征提取，失真分类器G_y对G_f所提取的时空特征

进行局部信息整合，得到

的失真预测结果

(3d)采用损失函数

并通过

(3e)固定公共特征提取器G_f和失真分类器G_y，将训练样本集中的每个训练样本

作为多被试对抗网络模型G^t1的输入，公共特征提取器G_f对

进行时空特征提取，被试域判别器G_d对G_f所提取的时空特征

进行局部信息整合，得到

的判别结果

表示

来自目标被试脑电数据E，

表示

来自源被试脑电数据F；

(3f)采用损失函数

并通过

(3g)判断t＝T是否成立，若是，得到训练好的多被试对抗网络模型G^*，否则，令t＝t+1，并执行步骤(3c)；

步骤4)获取视频质量评价结果：

将测试样本集中的每个测试样本

作为训练好的多被试对抗网络模型G^*的输入进行失真预测，得到

的预测结果

表示

为未失真，

表示

为未失真，最终视频质量评价精度如表一所示：

表一

S1	S2	S3	S4	S5	S6	S7	S8	S9	Avg
										0.843	0.721	0.916	0.756	0.841	0.797	0.865	0.882	0.932	0.839

其中，Avg表示9个受试者的平均视频质量评价精度。

Claims

1.一种基于对抗网络和多被试脑电信号的视频质量评价方法，其特征在于，包括如下步骤：

(1)获取训练样本集、测试样本集和标注样本集：

表示所采集的第m个被试人员观看视频V_k的脑电信号；

其中，

表示脑电信号集合X中第q个脑电信号及其标签，

表示

来自于目标被试脑电数据E，

表示

来自于源被试脑电数据F；

将测试数据集中的每个脑电信号及其标签组合成测试样本集

其中，

表示训练样本集中第n个脑电信号及其标签，

表示未失真，

表示失真，

表示测试样本集中第o个脑电信号及其标签，

表示未失真，

表示失真；

(2)构建基于多被试对抗网络的视频质量评价模型G：

和

来自目标被试脑电数据E，d_i＝1表示

来自源被试脑电数据F；

(3)对视频质量评价模型G进行迭代训练：

(3b)固定被试域判别器G_d，将训练样本集中的每个训练样本

作为视频质量评价模型G的输入，公共特征提取器G_f对

进行时空特征提取，失真分类器G_y对G_f所提取的时空特征

进行局部信息整合，得到

的失真预测结果

(3c)采用损失函数

并通过

作为视频质量评价模型G^t1的输入，公共特征提取器G_f对

进行时空特征提取，被试域判别器G_d对G_f所提取的时空特征

进行局部信息整合，得到

的判别结果

表示

来自目标被试脑电数据E，

表示

来自源被试脑电数据F；

(3e)采用损失函数

并通过

(4)获取视频质量评价结果：

将测试样本集中的每个测试样本

的预测结果

表示

为未失真，

表示

为未失真。

2.根据权利要求1所述的基于对抗网络和多被试脑电信号的视频质量评价方法，其特征在于，步骤(1a)所述的以K-1个失真等级对一段时长为c的视频V_f进行失真处理，实现步骤为：

(1a1)从t时刻起，对帧率为d的视频V_f进行分帧，得到分帧后的图像集T＝{T₁,T₂...T_l...T_L}，其中，T_l表示第l幅图像，0＜t＜c，L＝(t-c)×d；

(1a2)以每个失真等级b对图像集中的每幅图像进行失真处理，得到失真图像集

则K-1个失真等级对应的失真图像集为T_C＝{T₁,T₂...T_b...T_K-1}；

(1a3)将每个失真图像集T_b与从T_b对应的t时刻前未处理的视频进行组合，得到K-1个失真视频。

3.根据权利要求1所述的基于对抗网络和多被试脑电信号的视频质量评价方法，其特征在于，步骤(2)所述的构建视频质量评价模型G，其中：

公共特征提取器G_f包括的分离卷积层的个数为3，BN层的个数为5，池化层的个数为4，该公共特征提取器G_f的具体结构为：第一时域卷积层→第一BN层→第一空域卷积层→第二BN层→第一池化层→第一分离卷积层→第三BN层→第二池化层→第二分离卷积层→第四BN层→第三池化层→第三分离卷积层→第五BN层→第四池化层；

被试域判别器G_d包括3个全连接层；

失真分类器G_y包括1个全连接层。

4.根据权利要求1所述的基于对抗网络和多被试脑电信号的视频质量评价方法，其特征在于，步骤(3c)所述的采用梯度下降算法通过G_f和G_y的卷积核参数ω^t、各全连接层结点之间的连接参数θ^t的梯度对G_f和G_y的参数ω^t、θ^t进行更新，更新公式为：

其中η表示学习步长，0.01≤η≤0.02，ω^t+1和θ^t+1分别表示ω^t和θ^t更新后的结果，

表示偏导计算。