CN113255786B

CN113255786B - 基于脑电信号和目标显著特性的视频质量评价方法

Info

Publication number: CN113255786B
Application number: CN202110601075.5A
Authority: CN
Inventors: 何立火; 孙羽晟; 蔡虹霞; 徐海鹏; 陈欣雷; 钟斌; 高帆; 高新波; 路文
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2024-02-09
Anticipated expiration: 2041-05-31
Also published as: CN113255786A

Abstract

本发明提出了一种基于脑电信号和目标显著特性的视频质量评价方法，实现步骤为：采集受试者的眼动数据；计算所有受试者观看每个视频时的目标区域注视信息；获取显著目标视频和非显著目标视频，并对其进行失真处理；采集每位受试者重复观看显著目标失真视频和非显著目标失真视频的脑电信号；获取每位受试者的单次脑电信号片段；获取训练样本集和测试样本集；对支持向量机分类器进行迭代训练；获取显著目标失真视频和非显著目标失真视频的质量评价结果。本发明在视频质量评价过程中，通过对显著目标视频和非显著目标视频所诱发的脑电信号进行分类，解决了现有技术中未考虑视频的目标显著特性对失真感知影响的问题，提高了视频质量评价的准确性。

Description

基于脑电信号和目标显著特性的视频质量评价方法

技术领域

本发明属于视频处理技术领域，涉及一种视频质量评价方法，具体涉及一种基于脑电信号和目标显著特性的视频质量评价方法，可用于评价视频质量及对心理生理学行为进行研究。

背景技术

视频作为视觉信息的重要来源，因其丰富性和多样性，为人类的生活增添了一份多姿多彩。随着现代科学技术的不断发展以及人们生活水平的不断提高，视频的产出量日益激增。因此，在对视频的采集、处理、压缩、传输等过程中，会在不同程度上产生各种类型的失真造成视频质量下降的问题，这会对视频中视觉信息的分析、理解和应用带来了一定的困难，也影响着人们对于视频的观看体验和视频中视觉信息的感知。因此，为了获得满意的视频质量，对于视频质量评价方法的研究逐渐成为一个广泛而基本的问题。

视频质量评价方法分为主观视频质量评价方法和客观视频质量评价方法。主观视频质量评价方法通过人眼直接观看，对视频的质量进行主观打分，其评价结果因观察者的主观感受而存在差异，且具有耗时较长，成本较高等缺点。客观视频质量评价方法根据其评价过程是否参考原视频分为全参考视频质量评价方法、部分参考视频质量评价方法以及无参考视频质量评价方法。全参考视频质量评价方法参考原视频，通过对比原视频和待测失真视频的差异进行视频质量评价，部分参考视频质量评价方法只提取原视频的部分信息作为参考，通过比较提取到的原视频的部分信息与待测失真视频之间的差异进行视频质量评价，无参考视频质量评价方法不需要利用原视频的参考信息，通过提取待测失真视频中的失真特征，构建与该失真特征相对应的数学模型进行视频质量评价。客观视频质量评价方法依靠算法或数学模型进行评价，虽然具有评价效率高，评价时长短，成本低廉等优点，然而仍然存在一些争议，即由于人眼感知的复杂性，通过数学模型得到的视频质量分数是否能代表真实情况下人观看视频所得到的感知质量。因此，基于脑电信号的视频质量评价方法因运而生，通过采集受试者观看视频时的脑电信号对视频质量进行评价，相比于客观方法能够直接反应观察者的真实感受，同时也克服了主观方法耗时长、成本高等缺点。

西安电子科技大学在其申请的专利文献“基于脑电信号和时空失真的视频质量评价方法”(专利申请号：CN202010341014.5，授权公告号：CN111510710B)中公开了一种基于脑电信号和时空失真的视频质量评价方法，该方法首先生成时空失真的模拟水面波动视频，然后采集受试者观看时空失真的模拟水面波动视频的脑电信号和主观评价，并计算受试者主观评价的检测率，接着，对脑电信号进行分段并对分段后的脑电信号进行分类，计算脑电信号的分类准确率，最后通过主观评价的检测率和脑电信号的分类准确率的映射曲线评价时空失真视频的质量，但是其存在的缺陷在于，该发明仅考虑了失真视频的时空特性，没有考虑视频中的目标显著特性对视频失真感知的影响，导致该方法的评价结果不够准确。

发明内容

本发明的目的在于克服上述现有技术存在的缺陷，提出一种基于脑电信号和目标显著特性的视频质量评价方法，用于解决现有技术中存在的未考虑视频中的目标显著特性对视频失真的影响而导致的评价结果不够准确的技术问题。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)采集受试者的眼动数据：

从L个不同的自然纪录片中截取包含θ个目标类别，且时长为d帧率为B的N个单一目标视频V＝{V₁,V₂,…,V_n,…,V_N}，并通过眼动仪采集M位受试者观看每个视频V_n时的眼动数据，得到眼动数据集合W＝{W₁,W₂,…,W_n,…,W_N}，其中，L≥4，θ≥8，0＜d＜6s，25帧/s≤B≤30帧/s，N≥20，V_n表示第n个视频，M≥5，W_n表示M位受试者观看视频V_n时的眼动数据集，表示第m位受试者观看视频V_n时的眼动数据；

(2)计算所有受试者观看每个视频时的目标区域注视信息：

统计每个受试者的眼动数据中的人眼注视每个视频V_n中目标所覆盖的区域内的注视点的个数/>得到视频V对应的目标区域注视信息集合I＝{I₁,I₂,…,I_n,…,I_N}，并计算M位受试者观看视频V_n时的目标区域注视信息的均值/>得到M位受试者观看视频V时的目标区域注视信息均值集合/>其中，I_n表示W_n对应的目标区域注视信息集合，/>表示/>对应的目标区域注视信息；

(3)获取显著目标视频和非显著目标视频，并对其进行失真处理：

选取目标区域注视信息均值集合I中数值最大的均值对应的视频V_sal作为显著目标视频，同时选取I中数值最小的均值对应的视频V_nsal作为非显著目标视频，并以K个视频失真等级q＝{q₁,q₂,…,q_k,…,q_K}对t时刻以后的V_sal和V_nsal分别进行失真处理，得到V_sal对应的失真视频集合以及V_nsal对应的失真视频集合其中，1s≤t≤3s，/>表示第k个视频失真等级q_k对应的显著目标失真视频，/>表示视频失真等级为q_k对应的非显著目标失真视频，4≤K≤6，0≤q_k≤100；

(4)采集每位受试者重复观看显著目标失真视频和非显著目标失真视频的脑电信号：

通过脑电信号采集器，并以α为采样频率，以β为采样通道数，采集R位受试者重复S次观看每个显著目标失真视频时的脑电信号，以及R位受试者重复S次观看每个非显著目标失真视频/>时的脑电信号，得到R位受试者重复S次观看/>时的脑电信号集合以及观看/>时的脑电信号集合/>其中，α≥1000Hz，16≤β≤64，R≥10，S≥50，/>和/>分别表示R位受试者重复S次观看每个显著目标失真视频/>和每个非显著目标失真视频/>时的脑电信号集合，表示/>所对应的第r位受试者的脑电信号集合，/>表示/>所对应的第r位受试者的脑电信号集合，/> 表示/>所对应的第s次观看的单次脑电信号，/>表示/>所对应的第s次观看的单次脑电信号；

(5)获取每位受试者的单次脑电信号片段：

采用截止频率下限和上限分别为f₁和f₂的带通滤波器，对第r位受试者一次观看每个显著目标失真视频时的单次脑电信号/>以及一次观看每个非显著目标失真视频/>时的单次脑电信号/>进行带通滤波，得到带通滤波后的单次脑电信号/>和并截取/>和/>在t时刻以后时长为τ的单次脑电信号片段/>和/>其中，0.25Hz≤f₁≤0.35Hz，7Hz≤f₂≤30Hz，800ms≤τ≤1000ms；

(6)获取训练样本集Z_train和测试样本集Z_test：

(6a)以σ为采样点数，分别对每一个单次脑电信号片段和/>中的每一个通道进行重采样，得到/>对应的特征矩阵/>和/>对应的特征矩阵/>并采用PCA算法对/>和/>分别进行降维，得到/>对应的降维后的特征矩阵/>和/>对应的降维后的特征矩阵/>其中，/>10≤η≤15；

(6b)对每个降维后的特征矩阵和/>进行标注，得到标注样本集，并将其中u％的标注样本作为训练样本集Z_train，将剩余的标注样本作为测试样本集Z_test，其中，70≤u≤80；

(7)对支持向量机分类器O进行迭代训练：

(7a)初始化迭代次数为，最大迭代次数为Φ，Φ≥50，当前支持向量机分类器O为/>并令/>

(7b)将训练样本集Z_train作为的输入，并采用SMO训练算法对/>进行训练，得到第/>次迭代训练后的支持向量机分类器/>

(7c)判断是否成立，若是，得到训练好的支持向量机分类器O^*，否则，令并执行步骤(7b)；

(8)获取显著目标失真视频和非显著目标失真视频的质量评价结果：

将测试样本集Z_test作为训练好的支持向量机分类器O^*的输入进行分类，得到Z_test中每一个测试样本的分类结果，并统计显著目标视频V_sal和非显著目标视频V_nsal所分别对应的测试样本集中的每个测试样本被正确分类的总个数T_sal-true和T_nsal-true，以及被错误分类的总个数T_sal-false和T_nsal-false，然后分别计算显著目标视频V_sal和非显著目标视频V_nsal所对应的脑电信号分类准确率T_sal和T_nsal；

本发明与现有技术相比，具有以下优点：

本发明所获取的训练样本集和测试样本集包含有受试者观看显著目标视频和非显著目标视频时的脑电信号，在对支持向量机分类器进行训练以及获取视频质量评价的过程中，分别对显著目标视频和非显著目标视频所诱发的脑电信号进行分类，充分考虑了人眼视觉特性，克服了现有技术中仅考虑失真视频的时空特性，没有考虑失真视频中的目标显著特性对受试者的脑电信号产生的影响，从而导致评价结果不完善不准确的问题，使得本发明在视频质量评价中具有评价结果更为准确的优点。

附图说明

图1是本发明的实现流程图；

图2是本发明的显著目标失真视频以及非显著目标失真视频所对应的脑电信号峰值与失真等级的拟合曲线图。

具体实施方式

以下结合附图和具体实施例，对本发明作进一步详细描述。

参照图1，本发明包括如下步骤：

步骤1)采集受试者的眼动数据：

从L个不同的自然纪录片中截取包含θ个目标类别，且时长为d帧率为B的N个单一目标视频V＝{V₁,V₂,…,V_n,…,V_N}，并通过眼动仪采集M位受试者观看每个视频V_n时的眼动数据，得到眼动数据集合W＝{W₁,W₂,…,W_n,…,W_N}，其中，L≥4，θ≥8，0＜d＜6s，25帧/s≤B≤30帧/s，N≥20，V_n表示第n个视频，M≥5，W_n表示M位受试者观看视频V_n时的眼动数据集，表示第m位受试者观看视频V_n时的眼动数据；本实例中，采用德国SMI公司的RED桌面型眼动仪，L＝10，θ＝18，d＝5s，B＝25帧/s，N＝50，M＝15。本实例中视频截取原则为：(1)要求所截取的每一个视频中仅有一个目标；(2)要求所截取的视频中的目标在运动过程中无遮挡情况，并具有一定的清晰度和细节；(3)要求所截取的视频中的背景不是纯色背景，至少具备简单纹理和细节；(4)要求考虑受试者在观看视频的过程中不因视频内容而产生任何不适，比如目标的快速运动导致的晕眩感等；(5)要求所截取的视频的亮度不能过亮或者过暗导致受试者观看视频时眼睛感到不适；(6)要求所截取的视频中的目标类别为自然生活中常见的目标类别，不应包含新奇目标导致受试者在观看视频过程中出现情绪波动。

本发明中采集受试者观看视频时的眼动数据的原因是：人眼对影像的认知是非线性和非均匀的，所以，当人眼接受外界视觉刺激时，并不能感知视频中的所有变化。当人眼的视觉注意力集中于某个目标区域时，视觉系统将分配大部分的视觉资源用于目标区域的认知与加工，从而忽略视频中其他方面的变化，例如视频质量的变化。由于视频中的目标的类别的多样性，不同类别的目标引起人眼的关注程度是不一样的，与此同时，即使对于同一类别的目标，又因为其目标个体之间的差异性，以及其在视频中运动形式的复杂性和多样性，还有该目标与其所在的背景存在着不同的结构性、色彩等差异，以及不同视频的拍摄方式和拍摄角度的差异性等，导致人眼对于同一目标类别的关注程度也是不一样的。由于人眼对外界视觉刺激的关注在其生理层面对应着人眼眼球的运动，因此本发明通过眼动仪采集受试者观看视频时的眼动数据分析视频的目标显著性。

步骤2)计算所有受试者观看每个视频时的目标区域注视信息：

统计每个受试者的眼动数据中的人眼注视每个视频V_n中目标所覆盖的区域内的注视点的个数/>得到视频V对应的目标区域注视信息集合I＝{I₁,I₂,…,I_n,…,I_N}，并计算M位受试者观看视频V_n时的目标区域注视信息的均值/>得到M位受试者观看视频V时的目标区域注视信息均值集合/>其中，I_n表示W_n对应的目标区域注视信息集合，/>表示/>对应的目标区域注视信息。

其中，统计每个受试者的眼动数据中的人眼注视每个视频V_n中目标所覆盖的区域内的注视点的个数/>的步骤为：

步骤2a)：对每个时长为d的视频V_n进行分帧，得到Ω幅图像并将每幅图像/>均等分割成ξ个图像块，得到图像块集合/>其中Ω＝d×B，ξ≥64，/>表示视频V_n分帧后的第ω幅图像，/>表示图像/>中的第ε个图像块。

步骤2b)：统计每幅图像中的目标可以被完全覆盖的最少的图像块/>的个数λ，并计算每个受试者的眼动数据/>中的人眼注视每个图像/>中的这λ个图像块内的注视点个数之和/>得到A_n所对应的注视点个数集合/>然后计算A_n所对应的注视点个数集合/>内所有注视点之和，得到每个受试者的眼动数据/>中的人眼注视每个视频V_n中目标所覆盖的区域内的注视点的个数/>本实例中，Ω＝125，ξ＝64。

由于视频中的目标在视频中有着不同的运动形式，直接统计每个视频中的目标所在区域的注视点个数会导致统计结果不准确，故本发明先对视频进行分帧，统计每一帧图像中目标所在区域的注视点个数。由于不同目标有着不同的形状和结构，精确统计每个目标的形状结构内的注视点个数，虽然统计结果较为精确，但是只能针对单个视频帧中的目标逐一统计，无法设计出统一的方法将其实现，当视频数量很大的时候，不易施行，具有费时费力的缺点。所以本发明将每一个视频帧图像均等分割成许多的图像块，统计每个帧图像中的目标可以被完全覆盖的最少的图像块，然后再计算图像块中的注视点的个数。在统计图像块中的注视点的个数的过程中，对于在图像块内的注视点，算作一个注视点，对于在图像块边界上的注视点，算作半个注视点。

步骤3)获取显著目标视频和非显著目标视频，并对其进行失真处理：

选取目标区域注视信息均值集合I中数值最大的均值对应的视频V_sal作为显著目标视频，同时选取I中数值最小的均值对应的视频V_nsal作为非显著目标视频，并以K个视频失真等级q＝{q₁,q₂,…,q_k,…,q_K}对t时刻以后的V_sal和V_nsal分别进行失真处理，得到V_sal对应的失真视频集合以及V_nsal对应的失真视频集合其中，1s≤t≤3s，/>表示第k个视频失真等级q_k对应的显著目标失真视频，/>表示视频失真等级为q_k对应的非显著目标失真视频，4≤K≤6，0≤q_k≤100。

其中，对t时刻以后的V_sal和V_nsal分别进行失真处理的实现步骤为：

步骤3a)：以t时刻为分割点，将显著目标视频V_sal分割成时长为t的显著目标视频段和时长为d-t的显著目标视频段/>同时将非显著目标视频V_nsal分割成时长为t的非显著目标视频段/>和时长为d-t的非显著目标视频段/>

步骤3b)：对时长为d-t的显著目标视频段和非显著目标视频段/>分别进行分帧处理，得到/>对应的图像集合/>和/>对应的图像集合其中J＝(d-t)×B，/>表示/>分帧后的第j个图像，/>表示/>分帧后的第j个图像。

步骤3c)：以失真等级q_k对图像集合G_sal中的每个图像和G_nsal中的每个图像/>进行压缩，得到G_sal对应的失真图像集合/>和G_nsal对应的失真图像集合/>其中/>表示/>的压缩图像，/>表示/>的压缩图像。

步骤3d)：将图像集合G_sal′中的所有图像合成为失真视频段并对/>与/>进行拼接，得到V_sal对应的失真视频集合/>同时将图像集合G_nsal′中的所有图像合成为失真视频段/>并对/>与/>进行拼接，得到V_nsal对应的失真视频集合/>

本实例中，K＝4，q＝{19,28,33,38}，t＝2s，J＝75。

本实例中，选取每个视频所对应的目标区域注视信息均值作为视频中目标显著特性的表征，在人眼观看视频的过程中，当视频中的目标引起受试者的关注程度越高时，在该视频中的目标所覆盖的区域内注视点的个数越多，则说明该视频具有较高的目标显著特性，反之，则说明该视频的目标显著特性较低。计算所有受试者的目标区域注视信息的均值是为了降低个体因个人习惯等主观因素的影响。

本实例中，利用MATLAB的VideoWriter函数中的Quality参数对视频分帧后的图像进行压缩，然后对压缩后的图像再进行合成，从而得到失真视频。VideoWriter函数中的Quality参数的取值范围从0到100，对应着从0到100这101个视频失真等级，Quality参数的取值范围从0到100表示失真程度越来越小，代表着从0到100这101个视频失真等级所对应的失真程度也越来越小。视频失真等级设置的原则是：所设置的视频失真等级应大致均匀分布在人眼感知阈值域内。所谓人眼感知阈值所对应的视频失真等级就是指受试者恰可察觉到视频失真时所对应的视频失真等级，所谓人眼感知阈值域在人眼感知阈值下限到人眼感知阈值上限之间，人眼感知阈值下限所对应的视频失真等级是指当受试者能明显察觉到视频失真时所对应的视频失真等级，人眼感知阈值上限所对应的视频失真等级是指当受试者几乎无法察觉到视频失真时所对应的视频失真等级。

步骤4)采集每位受试者重复观看显著目标失真视频和非显著目标失真视频的脑电信号：

通过脑电信号采集器，并以α为采样频率，以β为采样通道数，采集R位受试者重复S次观看每个显著目标失真视频时的脑电信号，以及R位受试者重复S次观看每个非显著目标失真视频/>时的脑电信号，得到R位受试者重复S次观看/>时的脑电信号集合以及观看/>时的脑电信号集合/>其中，α≥1000Hz，16≤β≤64，R≥10，S≥50，/>和/>分别表示R位受试者重复S次观看每个显著目标失真视频/>和每个非显著目标失真视频/>时的脑电信号集合，表示/>所对应的第r位受试者的脑电信号集合，/>表示/>所对应的第r位受试者的脑电信号集合，/> 表示/>所对应的第s次观看的单次脑电信号，/>表示/>所对应的第s次观看的单次脑电信号；本实例中，使用NeuroScan64位脑电采集设备作为脑电信号采集器，α＝1000Hz，β＝64，R＝20，S＝50。

步骤5)获取每位受试者的单次脑电信号片段：

采用截止频率下限和上限分别为f₁和f₂的带通滤波器，对第r位受试者一次观看每个显著目标失真视频时的单次脑电信号/>以及一次观看每个非显著目标失真视频/>时的单次脑电信号/>进行带通滤波，得到带通滤波后的单次脑电信号/>和/>并截取/>和/>在t时刻以后时长为τ的单次脑电信号片段/>和/>其中，0.25Hz≤f₁≤0.35Hz，7Hz≤f₂≤30Hz，800ms≤τ≤1000ms；本实例中，f₁＝0.25Hz，f₂＝7Hz，τ＝1000ms，所采用的滤波器是FIR带通滤波器。f₁和f₁的范围设置是根据脑电信号中是事件相关电位的频率分布范围设置的，用于滤除脑电信号中30Hz以上的眼电、心电等与显著目标视频和非显著目标视频失真无关的脑电成分，提取出与显著目标视频和非显著目标视频失真相关的脑电成分，即事件相关电位。

步骤6)获取训练样本集Z_train和测试样本集Z_test：

步骤6a)以σ为采样点数，分别对每一个单次脑电信号片段和/>中的每一个通道进行重采样，得到/>对应的特征矩阵/>和/>对应的特征矩阵并采用PCA算法对/>和/>分别进行降维，得到/>对应的降维后的特征矩阵/>和/>对应的降维后的特征矩阵/>其中，

步骤6b)对每个降维后的特征矩阵和/>进行标注，得到标注样本集，并将其中u％的标注样本作为训练样本集Z_train，将剩余的标注样本作为测试样本集Z_test，其中，70≤u≤80。

本实例中，σ＝250，η＝10，u＝80。由于脑电信号具有高维度的特征，所以对脑电信号降维可以减少数据量，去除冗余信息和噪音信息以提高脑电数据处理速度。

步骤7)对支持向量机分类器O进行迭代训练：

步骤7a)初始化迭代次数为最大迭代次数为Φ，Φ≥50，当前支持向量机分类器O为/>并令/>

步骤7b)将训练样本集Z_train作为的输入，并采用SMO训练算法对/>进行训练，得到第/>次迭代训练后的支持向量机分类器/>

步骤7c)判断是否成立，若是，得到训练好的支持向量机分类器O^*，否则，令并执行步骤7b)。

本实例中，C＝2，Φ＝50。

步骤8)获取显著目标失真视频和非显著目标失真视频的质量评价结果：

将测试样本集Z_test作为训练好的支持向量机分类器O^*的输入进行分类，得到Z_test中每一个测试样本的分类结果，并统计显著目标视频V_sal和非显著目标视频V_nsal所分别对应的测试样本集中的每个测试样本被正确分类的总个数T_sal-true和T_nsal-true，以及被错误分类的总个数T_sal-false和T_nsal-false，然后分别计算显著目标视频V_sal和非显著目标视频V_nsal所对应的脑电信号分类准确率T_sal和T_nsal。

其中，计算显著目标视频V_sal和非显著目标视频V_nsal所对应的脑电信号分类准确率T_sal和T_nsal的计算公式为：

为了得到显著目标视频V_sal所对应的脑电信号随着失真等级的变化过程，以及非显著目标视频V_nsal所对应的脑电信号随着失真等级的变化过程，本实例以失真等级q为自变量，以每个显著目标失真视频所对应的脑电信号峰值均值/>以及每个非显著目标失真视频/>所对应的脑电信号峰值均值/>为因变量，分别对/>与q进行拟合，得到/>与q映射曲线/>以及/>与q映射曲线/>其拟合步骤如下：

第一步：提取每个单次脑电信号片段和/>的峰值，得到峰值集合和/>并计算/>的均值和/>的均值，得到R位受试者观看S次显著目标失真视频/>对应的脑电信号峰值均值/>和非显著目标失真视频/>对应的脑电信号峰值均值/>其中，表示/>所对应的峰值，/>表示/>所对应的峰值。

第二步：以q为自变量，以每个显著目标失真视频所对应的脑电信号峰值均值以及每个非显著目标失真视频/>所对应的脑电信号峰值均值/>为因变量，分别对/> 与q进行拟合，采用Smoothing Spline拟合公式，得到/>与q映射曲线以及/>与q映射曲线/>

通过对比显著目标视频V_sal和非显著目标视频V_nsal所对应的脑电信号分类准确率T_sal和T_nsal，可以定量的对比分析视频中的目标显著特性对其所诱发的视频质量感知脑电信号的差异。通过和/>可以定量的得出显著目标视频V_sal和非显著目标视频V_nsal分别诱发的视频质量感知脑电信号随着视频失真等级的变化规律，并且，也可以定性的对比分析视频中的目标显著特性对视频质量感知脑电信号的差异。

通过上述对比分析，综合得出视频中的目标显著特性对视频质量感知脑电信号的影响，从而在人眼视觉感知特性维度完善视频质量评价结果，提高视频质量评价结果的准确性。

下面结合仿真实验对本发明的实现过程作进一步的描述：

1.仿真实验条件：

仿真实验的硬件测试平台是：CPU为Intel(R)Core(TM)i7-8700，主频为3.2GHz，内存16GB，GPU为NVIDIA GeForce GT 710。

仿真实验的软件平台是：Windows7操作系统、专业脑电采集与分析软件Curry7、专业眼动实验设计软件Experiment Center、专业眼动数据记录软件iView X、专业眼动数据分析软件BeGaze、心理学实验操作平台E-Prime 2.0、数学软件MATLAB R2019a。

2.仿真内容以及结果分析：

本发明的仿真实验中采集15位受试者观看每个视频时的眼动数据的仿真流程是：首先从视频网站上下载10部清晰度较高的自然纪录片，依照本发明中的视频采集原则从中截取出50个单一目标的视频作为眼动实验视频，这些视频中包含18个目标类别，其分辨率均为1024×768，时长均为5s，帧率均为25帧/s。其中，10部自然纪录片分别为《Our Planet2019》、《Oceans:Our Blue Planet 2018》、《Seven Worlds One Planet》、《Earth FromSpace 2019》、《The Himalayas》、《The Planets 2019》、《The Life of Earth》、《Africa》、《The Biggest Little Farm》、《The Biggest Little Farm》。所采集的视频目标类别包括：马、小鸟、蛙、北极熊、狮子、海鸥、豹、蝴蝶、狼、燕、船、大象、飞机、蜜蜂、车、狗、企鹅、山。然后采集受试者的眼动数据。在采集每位受试者的眼动数据前，每位受试者实验前对眼动仪进行校准，然后以黑屏视频与上述50个单一目标的视频穿插的方式随机呈现给受试者，其中的黑屏视频是指黑色屏幕中间有一个白色“+”号的视频，用于分隔每个实验视频，使其互不干扰，该黑屏视频持续时间为1s，分辨率为1024×768，帧率均为25帧/s。在受试者进行眼动实验的过程中，要求实验环境安静无噪声干扰，实验室内光线充足且保持不变，要求受试者保持注意力集中，双目平视，坐姿端正。对于每位受试者来说，该眼动仿真实验持续时间约5分钟。实验结束完毕后，将每位受试者的眼动数据导出，由于眼动仪的采样率为250hz，故每4毫秒记录一次受试者的眼球运动，即每4毫秒记录一次受试者的注视点，统计每个受试者的眼动数据中人眼注视每个视频中目标所覆盖的区域内的注视点的个数，得到所有视频所对应的目标区域注视信息集合，统计并计算所有受试者观看所有视频时的目标区域注视信息均值集合，从中选取最大的均值所对应的视频为显著目标视频，从中选取最小的均值所对应的视频为非显著目标视频，本仿真实验中，“海中的小船”视频的目标区域注视信息均值最大，为849.2，“运动的车”视频的目标区域注视信息均值最小，为459.6，故选取《The Planets 2019》中截取的“海中的小船”视频作为显著目标视频，选取《The BiggestLittle Farm》中截取的“运动的车”视频作为非显著目标视频。

本发明的仿真实验中采集20位受试者重复观看显著目标失真视频和非显著目标失真视频的脑电信号的实验流程是：首先，选取显著目标视频和非显著目标视频失真等级为19，28，33，38。接着针对上述选取的4个失真等级，生成相应的4个显著目标失真视频和4个非显著目标失真视频。然后采集受试者的脑电信号。采集脑电信号的实验流程由四个电脑屏幕界面组成。第一个界面为介绍界面，界面中介绍了本发明仿真实验要求。第二个界面为黑屏界面，该界面为在黑色背景中间插入一个白色“+”号，用于分隔每个实验视频，使其互不干扰。第三个界面为视频播放界面，播放一次显著目标失真视频或非显著目标失真视频。第三个界面播放完毕后，返回第二个界面，准备下一次失真视频的播放。每个显著目标失真视频或非显著目标失真视频重复播放50次，播放顺序随机。第五个界面为结束界面，当所有显著目标失真视频或非显著目标失真视频均播放完毕后，进入结束界面。

本发明的仿真实验中对采集到的脑电信号进行分类的流程是：首先，将采集到的脑电信号进行转参考、基线校正、滤波、分段，提取出单次脑电信号片段。接着对分段后的单次脑电信号片段以250为重采样点数进行重采样，然后对重采样后的脑电信号进行PCA降维，将脑电信号转化为64通道，每个通道10个采样点组成的特征矩阵，将其输入到核函数为高斯核函数的支持向量机分类器中，利用SMO训练算法训练支持向量机模型，对脑电信号进行分类，并计算分类准确率，得到显著目标视频所对应的脑电信号的分类准确率为：57.5％，非显著目标视频所对应的脑电信号的分类准确率为：65％。根据显著目标视频和非显著目标视频所对应的脑电信号的分类准确率的差异，对比得出，视频中的目标显著特性对视频失真感知有影响，且视频中的目标越显著，观察者对于视频失真的感知越难以察觉。

本发明的仿真实验中为了得到显著目标视频所对应的脑电信号随着失真等级的变化过程，以及非显著目标视频所对应的脑电信号随着失真等级的变化过程，其仿真流程为：首先，对于显著目标视频和非显著目标视频的每一失真等级下的单次脑电信号片段，提取其波峰峰值，并计算显著目标视频和非显著目标视频的每一个失真等级下的所有受试者的单次脑电信号片段的波峰峰值的平均值。利用MATLAB中的Curve Fitting Tool组件，采取Smoothing Spline拟合公式，以失真等级为自变量，以显著目标视频中所有受试者的单次脑电信号片段的波峰的平均值为因变量拟合出映射曲线，拟合参数为：0.494；同时，以失真等级为自变量，以非显著目标视频中所有受试者的单次脑电信号片段的波峰的平均值为因变量拟合出映射曲线，拟合参数为：0.264。

图2即为显著目标失真视频以及非显著目标失真视频所对应的脑电信号峰值与失真等级的拟合曲线图。参照图2可知，人在观看视频的过程中，视频中的目标的显著性对失真感知存在影响，且其影响大小与视频失真程度有关。当视频失真程度较大时，无论是显著目标视频还是非显著目标视频，其所诱发的脑电信号的峰值均较大且接近，这说明失真均易被感知，此时视频中的目标显著特性对失真感知的影响较小；而当视频失真程度较小时，两者所诱发的脑电信号的峰值均较小，但是其诱发的脑电信号的差值逐渐变大，这说明由于被试过度关注视频中的显著目标而忽略了视频的失真，导致显著目标视频的失真更不易被感知，并说明了视频中的目标显著特性对视频失真感知影响较大。通过上述定性与定量的对比分析，综合得出视频中的目标显著特性对视频质量感知脑电信号有影响，且其影响程度随失真程度而变化。

Claims

1.一种基于脑电信号和目标显著特性的视频质量评价方法，其特征在于，包括如下步骤：

(1)采集受试者的眼动数据：

(2)计算所有受试者观看每个视频时的目标区域注视信息：

统计每个受试者的眼动数据中的人眼注视每个视频V_n中目标所覆盖的区域内的注视点的个数/>得到视频V对应的目标区域注视信息集合I＝{I₁,I₂,…,I_n,…,I_N}，并计算M位受试者观看视频V_n时的目标区域注视信息的均值/>得到M位受试者观看视频V时的目标区域注视信息均值集合/>其中，I_n表示W_n对应的目标区域注视信息集合，/> 表示/>对应的目标区域注视信息；

通过脑电信号采集器，并以α为采样频率，以β为采样通道数，采集R位受试者重复S次观看每个显著目标失真视频时的脑电信号，以及R位受试者重复S次观看每个非显著目标失真视频/>时的脑电信号，得到R位受试者重复S次观看/>时的脑电信号集合以及观看/>时的脑电信号集合/>其中，α≥1000Hz，16≤β≤64，R≥10，S≥50，/>和/>分别表示R位受试者重复S次观看每个显著目标失真视频/>和每个非显著目标失真视频/>时的脑电信号集合，表示/>所对应的第r位受试者的脑电信号集合，/>表示/>所对应的第r位受试者的脑电信号集合，表示/>所对应的第s次观看的单次脑电信号，/>表示/>所对应的第s次观看的单次脑电信号；

(5)获取每位受试者的单次脑电信号片段：

采用截止频率下限和上限分别为f₁和f₂的带通滤波器，对第r位受试者一次观看每个显著目标失真视频时的单次脑电信号/>以及一次观看每个非显著目标失真视频/>时的单次脑电信号/>进行带通滤波，得到带通滤波后的单次脑电信号/>和/>并截取/>和/>在t时刻以后时长为τ的单次脑电信号片段/>和/>其中，0.25Hz≤f₁≤0.35Hz，7Hz≤f₂≤30Hz，800ms≤τ≤1000ms；

(6)获取训练样本集Z_train和测试样本集Z_test：

(7)对支持向量机分类器O进行迭代训练：

(7a)初始化迭代次数为最大迭代次数为Φ，Φ≥50，当前支持向量机分类器O为/>并令/>

(7c)判断是否成立，若是，得到训练好的支持向量机分类器O^*，否则，令/>并执行步骤(7b)；

将测试样本集Z_test作为训练好的支持向量机分类器O^*的输入进行分类，得到Z_test中每一个测试样本的分类结果，并统计显著目标视频V_sal和非显著目标视频V_nsal所分别对应的测试样本集中的每个测试样本被正确分类的总个数T_sal-true和T_nsal-true，以及被错误分类的总个数T_sal-false和T_nsal-false，然后分别计算显著目标视频V_sal和非显著目标视频V_nsal所对应的脑电信号分类准确率T_sal和T_nsal，其中脑电信号分类准确率T_sal和T_nsal，计算公式为：

2.根据权利要求1中所述的基于脑电信号和目标显著特性的视频质量评价方法，其特征在于，步骤(2)中所述的统计每个受试者的眼动数据中的人眼注视每个视频V_n中目标所覆盖的区域内的注视点的个数/>实现步骤为：

(2a)对每个时长为d的视频V_n进行分帧，得到Ω幅图像并将每幅图像/>均等分割成ξ个图像块，得到图像块集合/>其中Ω＝d×B，ξ≥64，/>表示视频V_n分帧后的第ω幅图像，/>表示图像/>中的第ε个图像块；

(2b)统计每幅图像中的目标可以被完全覆盖的最少的图像块/>的个数λ，并计算每个受试者的眼动数据/>中的人眼注视每个图像/>中的这λ个图像块内的注视点个数之和/>得到A_n所对应的注视点个数集合/>然后计算A_n所对应的注视点个数集合/>内所有注视点之和，得到每个受试者的眼动数据/>中的人眼注视每个视频V_n中目标所覆盖的区域内的注视点的个数/>

3.根据权利要求1中所述的基于脑电信号和目标显著特性的视频质量评价方法，其特征在于，步骤(3)中所述的对t时刻以后的V_sal和V_nsal分别进行失真处理，实现步骤为：

(3a)以t时刻为分割点，将显著目标视频V_sal分割成时长为t的显著目标视频段和时长为d-t的显著目标视频段/>同时将非显著目标视频V_nsal分割成时长为t的非显著目标视频段/>和时长为d-t的非显著目标视频段/>

(3b)对时长为d-t的显著目标视频段和非显著目标视频段/>分别进行分帧处理，得到/>对应的图像集合/>和/>对应的图像集合其中J＝(d-t)×B，/>表示/>分帧后的第j个图像，/>表示/>分帧后的第j个图像；

(3c)以失真等级q_k对图像集合G_sal中的每个图像和G_nsal中的每个图像/>进行压缩，得到G_sal对应的失真图像集合/>和G_nsal对应的失真图像集合/>其中/>表示/>的压缩图像，/>表示/>的压缩图像；

(3d)将图像集合G_sal′中的所有图像合成为失真视频段并对/>与/>进行拼接，得到V_sal对应的失真视频集合/>同时将图像集合G_nsal′中的所有图像合成为失真视频段/>并对/>与/>进行拼接，得到V_nsal对应的失真视频集合

4.根据权利要求1中所述的基于脑电信号和目标显著特性的视频质量评价方法，其特征在于，步骤(7a)中所述的支持向量机分类器O，其核函数为高斯核函数，惩罚因子为C，2≤C≤10。