CN111401637A

CN111401637A - 融合用户行为和表情数据的用户体验质量预测方法

Info

Publication number: CN111401637A
Application number: CN202010183921.1A
Authority: CN
Inventors: 荣辉桂; 火生旭; 奚子为; 熊云晖; 张斌
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2020-07-10
Anticipated expiration: 2040-03-16
Also published as: CN111401637B

Abstract

本发明公开了一种融合用户行为和表情数据的用户体验质量预测方法，属于无线网络视频体验质量研究技术领域，包括以下步骤：S10、基于CNN和GRU构建QOE预测模型；S20、使用样本数据对QOE预测模型进行训练，得到用户体验质量QOE预测数据；样本数据分为一维数值型数据和用户面部表情数据两类；S30、将用户体验数据输入训练完成的QOE预测模型，得到用户体验质量QOE预测数据。本发明针对已有无线网络视频体验质量QoE进行预测，明确了更全面的视频体验质量的影响参数和视频体验质量指标，其中影响参数分为视频信息、QoS数据、用户行为和用户面部表情四类，较为全面地影响和反映用户体验质量，实现输出QoE评分、用户参与度、拖动进度条次数和暂停次数，体现用户的QoE。

Description

融合用户行为和表情数据的用户体验质量预测方法

技术领域

本发明属于无线网络视频体验质量研究技术领域，具体涉及一种融合用户行为和表情多媒体数据的用户体验质量预测方法。

背景技术

随着无线网络通信技术的快速发展，移动端在线视频服务已经成为了移动互联网的主流应用，并占据大部分的无线通信流量。与此同时，用户对无线网络下在线视频业务的体验需求逐步发生改变，单一的主观评分以及传统的视频体验质量(Quality ofExperience QoE)建模方案难以充分反映用户的实际体验质量。

因此，急需一种能够融合主观指标和客观指标的用户体验质量预测方法。

发明内容

本发明目的在于提供一种能够融合主观指标和客观指标的用户体验质量预测方法。本发明的内容如下：

融合用户行为和表情多媒体数据的用户体验质量预测方法，包括以下步骤：

S10、基于CNN和GRU构建QOE预测模型；

S20、对样本数据进行预处理，将预处理后的数据输入所述QOE预测模型进行训练，得到用户体验质量QOE预测数据；所述样本数据包括一维数值型数据和用户面部表情数据；所述一维数值型数据包括视频总时长、帧宽度、帧高度、帧率、视频类型、视频播放进度、拖动进度条次数、拖动进度条总时长、暂定次数、暂定总时长、缓冲次数、缓冲总时长、和当前观看时长；所述用户面部表情数据为图片数据，以三维数组的形式作为所述QOE预测模型输入；所述QOE预测数据包括QoE评分、用户参与度、拖动进度条次数和暂停次数四个指标；

S30、将用户体验数据输入训练完成的QOE预测模型，得到用户体验质量QOE预测数据；所述用户体验数据与所述样本数据包括范围一致。

进一步地，所述QOE预测模型架构如图1所示。

进一步地，对所述一维数值型数据进行预处理步骤如下：

所述一维数值型数据中的视频分类初始为文本数据；对所有视频分类进行分类编码，分类编码步骤如下：

S21、定义所有视频分类的列表为video_type_list，根据QoE采集系统服务器端存储的视频分类，则有video_type_list＝{新知，社会，世界，体育，生活，科技，娱乐，财富，汽车，美食，音乐，拍客}；其中，每个视频的分类对应于该列表的索引，并完成对所有数据得数值化转换；根据所述分类编码定义输入QoE预测模型的所述一维数值型数据,对所述一维数值型数据进行归一化处理，具体步骤如下：

S22、定义所述一维数值型数据为X_train，则有

X_train＝{T_video，X_{frame_watch}，X_{frame_hight}，X_{frame_fps}，X_{video_type}，T_played，X_buffer，T_buffer，X_drag，T_drag，X_pause，T_pause，T_{current_watch}}；

其中，T_video，X_{frame_watch}，X_{frame_hight}，X_{frame_fps}，X_{video_type}，T_played，X_buffer，T_buffer，X_drag，T_drag，X_pause，T_pause，T_{current_watch}分别所述样本数据中视频总时长、帧宽度、帧高度、帧率、视频类型、视频播放进度、缓冲次数、缓冲总时长、拖动进度条次数、拖动进度条时长、暂停次数、暂定时长和当前观看时长组成的集合向量；所述X_train为一个拥有13个向量的矩阵，所述X_train对中每个元素取最大值，定义为X_{train_max}，对所述X_train每个元素取最小值，定义为X_{train_min}；则归一化的公式为：

式中，X_out表示归一化之后的输出数据，X表示样本数据中的一维数值型数据，等式右侧分子部分表示X与X_{train_min}的差值，分母部分表示X_{train_max}与X_{train_max}的差值。

进一步地，对所述用户面部表情数据进行预处理步骤如下：

所述用户面部表情数据以图片形式存储，采用python的cv2模块将每张图片转换为三维数组，设定每条面部表情样本数据的大小，适当缩放用户面部表情图片大小以降低机器训练模型的压力；通过cv2模块的resize方法将所述用户面部表情图片转换的三维数组缩放至指定的维度；在所述用户面部表情图片缩放之后，对其进行局部均值处理，用于去除噪声污染并对图像边缘像素予以保留，使图像的特征之间可以更加平滑过渡；所述局部均值处理的实现过程为

其中，设置α为4，β为-4，γ为128，式中表示对缩放后的所述用户面部表情图片进行高斯滤波后得到的图像，x_{img_out}为经过均布均值后的面部表情图片；在进行以上处理后，对所述用户面部表情图片进行适当的数据增强处理，主要包括左右随机移动等操作方式；对每张面部表情图片，在通过cv2模块加载转换为三维数组后，将所有的像素值除以255。

进一步地，步骤S20中所述QOE预测模型对输入的所述用户面部表情数据中图片特征进行提取，提取步骤如下：将所述用户面部表情数据中的每张用户面部表情图片通过CNN对其进行特征抽取，抽取过程如图2所示；其中，每张用户面部表情图片需要经过5个卷积块处理，最后加入Flatten层进行压平；Convblock1到Convblock 5中卷积操作的核个数分别为32、64、128、256、512；在第一次卷积操作中，其核大小设置为宽和高均等于7，之后四个卷积操作的核大小设置为宽和高均等于3，步长统一设置为2，并使用ReLU为激活函数；对于最大池化层，均指定核的宽高为2，步长为2；将预处理后的所述用户面部表情图片通过Flatten压平将所述用户面部表情图片特征图的维度转换为一维。

进一步地，所述QOE预测模型中输入的所述一维数值型数据和所述用户面部表情三维数据的输入数据通过所述QOE预测模型中各自网络结构分支进行特征提取和特征学习过程，再对两个网络分支进行特征合并，合并之后与全连接层FC layer相连接，并运用多任务学习完成对四个QoE指标的预测；所述全连接层FC layer激活函数为线性激活函数，每个全连接层的输出对应于各自任务的预测结果；所述线性激活函数为

其中，函数f₂代表了从输入视频信息、QoS数据、用户行为和用户面部表情的样本数据通过多层网络结构到多任务QoE预测的非线性映射过程；x_i表示视频信息、QoS数据和用户行为构成的一维样本数据；imgi表示用户面部表情数据；

是拖动进度条次数、暂停次数、用户参与度和主观QoE评分组成的集合；

包括四个向量，分别为

和

其中

为拖动进度条次数任务的线性预测结果，

为暂停次数任务的线性预测结果，

为用户参与度任务的线性预测结果，

为主观QoE评分任务的线性预测结果。

本发明有益效果：

本发明针对已有无线网络视频体验质量QoE进行预测，明确了更全面的视频体验质量的影响参数和视频体验质量指标，其中影响参数分为视频信息、QoS数据、用户行为和用户面部表情四类参数，用户体验质量的指标分为主观指标和客观指标，并作出如下指定：视频信息包括视频种类、视频总时长、帧宽度、帧高度、帧率和视频播放进度；QoS数据包括缓冲次数和缓冲总时长，用户行为主要包括拖动进度条的次数、拖动进度条时长、暂停次数、暂定时长和当前观看时长；用户面部表情是在用户在视频会话过程中的面部表情。这些指标的融合能较为全面地影响和反映用户体验质量，因此，融合这些不同类型的多媒体数据来预测用户体验质量具有较好的现实意义。本发明专利得到国家自然科学基金(项目编号61672221)的支持。

附图说明

图1融合用户行为和面部表情的QoE预测模型架构示意图

图2单张面部表情图片特征抽取过程示意图

图3自适应权重调整算法示意图

图4 QoE预测模型训练过程

具体实施方式

实施例1

融合用户行为和表情数据的用户体验质量预测方法，包括以下步骤：

S10、基于CNN和GRU构建QOE预测模型；QOE预测模型架构如图1所示。

S20、使用样本数据对QOE预测模型进行训练，得到用户体验质量QOE预测数据；样本数据包括一维数值型数据和用户面部表情数据；一维数值型数据包括视频总时长、帧宽度、帧高度、帧率、视频类型、视频播放进度、拖动进度条次数、拖动进度条总时长、暂定次数、暂定总时长、缓冲次数、缓冲总时长、和当前观看时长；所述用户面部表情数据为图片数据，以三维数组的形式作为模型输入；QOE预测数据包括QoE评分、用户参与度、拖动进度条次数和暂停次数四个指标。

一维数值型数据中的视频分类初始为文本数据；对所有视频分类进行分类编码，分类编码步骤如下：

S21、定义所有视频分类的列表为video_type_list，根据QoE采集系统服务器端存储的视频分类，则有video_type_list＝{新知，社会，世界，体育，生活，科技，娱乐，财富，汽车，美食，音乐，拍客}；其中，每个视频的分类对应于该列表的索引，并完成对所有数据得数值化转换。

对一维数值型数据进行归一化处理，具体步骤如下：

S22、定义所述一维数值型数据为X_train，则有：X_train＝{T_video，X_{frame_watch}，X_{frame_hight}，X_{frame_fps}，X_{video_type}，T_played，X_buffer，T_buffer，X_drag，T_drag，X_pause，T_pause，T_{current_watch}}；

用户面部表情数据以图片形式存储，采用python的cv2模块将每张图片转换为三维数组，设定每条面部表情样本数据的大小，适当缩放用户面部表情图片大小以降低机器训练模型的压力；通过cv2模块的resize方法将所述用户面部表情图片转换的三维数组缩放至指定的维度；在所述用户面部表情图片缩放之后，对其进行局部均值处理，用于去除噪声污染并对图像边缘像素予以保留，使图像的特征之间可以更加平滑过渡；所述局部均值处理的实现过程为

x_{img_out}＝x_img×α+x_{img_gaussian}×β+γ

对于标签数据，其中包含了QoE预测模型训练、验证和测试需要的数值数据，故对标签数据同样采用归一化处理。定义训练集中的样本数据为Y_train，则有Y_train＝{Y_{video_score}，Y_{actual_watch}，Y_drag，Y_pause}，其中Y_{video_score}、Y_{actual_watch}、Y_drag、Y_pause分别为训练集中主观QoE评分、用户参与度、拖动进度条次数和暂停次数组成的集合向量，可知Y_train是一个有用4个向量的矩阵。对Y_train中每个元素取最大值，可定义为Y_(train_max)，对Y_train中每个元素取最小值，可定义为Y_(train_min)。则进行归一化的过程如公式(3.5)所示，其中Y_out表示归一化之后的数据输出，Y表示训练集、验证集或者测试集中的标签数据，等式右侧分子部分表示Y与Y_(train_min)的差值，分母部分表示Y_(train_max)与Y_(train_min)的差值，本公式可以用于训练集、验证集和测试集标签数据的归一化处理。

本实施例中将无线网络视频QoE采集提供收集的样本数据集划分为3部分，分别为训练集、验证集和测试集。训练集占总数据集的百分之六十，验证集和测试集各占百分之二十。因为每个视频会话对应多个样本数据和一个标签数据，本文以视频会话id的数量为训练集、验证集和测试集划分的标准，在将数据集中视频会话id随机打乱后按照比例划分训练集、验证集和测试集，避免部分数据分布过于集中的情况。

步骤S20中QOE预测模型对输入的用户面部表情数据中图片特征进行抽取，抽取步骤如下：

将用户面部表情数据中的每张用户面部表情图片通过CNN对其进行特征抽取，抽取过程如图2所示；其中，每张用户面部表情图片需要经过5个卷积块处理，最后加入Flatten层进行压平；Convblock1到Convblock 5中卷积操作的核个数分别为32、64、128、256、512；在第一次卷积操作中，其核大小设置为宽和高均等于7，之后四个卷积操作的核大小设置为宽和高均等于3，步长统一设置为2，并使用ReLU为激活函数；对于最大池化层，均指定核的宽高为2，步长为2；将预处理后的所述用户面部表情图片通过Flatten压平将所述用户面部表情图片特征图的维度转换为一维。

QOE预测模型中输入的一维数值型数据和用户面部表情三维数据的输入数据通过QOE预测模型中各自网络结构分支进行特征提取和特征学习过程，再对两个网络分支进行特征合并，合并之后与全连接层FC layer相连接，并运用多任务学习完成对四个QoE指标的预测；全连接层FC layer激活函数为线性激活函数，每个全连接层的输出对应于各自任务的预测结果；所述线性激活函数为

包括四个向量，分别为

和

其中

为拖动进度条次数任务的线性预测结果，

为暂停次数任务的线性预测结果，

为用户参与度任务的线性预测结果，

为主观QoE评分任务的线性预测结果。

各个任务的预测结果和损失函数的定义，可以获取四个任务的输出，拖动进度条任务的输出定义如公式：

暂定次数任务的输出定义如公式：

用户参与度任务的输出定义如公式：

主观QoE评分任务的输出定义如公式：

注：以上公式中MSE表示均方误差函数。

本实施例中，采用权重自适应的调整方式，定义模型的总损失函数如公式：

根据各个任务的自适应权重调整算法，如图3所示，算法是输入初始的σ₁,σ₂,σ₃,σ₄取值，输出为模型训练完成后更新σ₁,σ₂,σ₃,σ₄的值，四个系数分别控制四个任务在整个模型中的重要性，算法1的第一行表示将σ₁,σ₂,σ₃,σ₄加入深度学习网络模型的权重矩阵中，让σ₁,σ₂,σ₃,σ₄在模型训练的过程中可以自动调整；第二行表示模型在训练过程中每次迭代执行3-5行的过程；第三到第五行是整个算法的业务过程，每次迭代开始后，首先从权重矩阵中获取σ₁,σ₂,σ₃,σ₄的值，然后根据上式计算当前的损失函数，其中log(σ₁σ₂σ₃σ₄)作为正则化项存在，它与每个任务的权重系数成反比，有效抑制了某个任务权重系数过大或者过小的情况，在计算当前的损失值后，通过反向传播算法可以计算出优化后的权重矩阵，σ₁,σ₂,σ₃,σ₄在可训练的权重矩阵中，所以会被一同优化调整；第六行表示在max_iterations次迭代后结束for循环；第七行表示训练结束，整个模型不再对参数进行优化，并返回四个任务权重的值。

本实施例的QOE预测模型过程：

在本实施例中，基于视频信息、QoS数据和用户行为的QoE预测模型以及基于视频信息、QoS数据、用户行为和用户面部表情的QoE预测模型，两个模型针对本发明的QoE预测内容均使用了多任务学习的方法，训练过程中两个模型的损失函数定义，采用的优化器为带有动量值的批次梯度下降法，并配合学习率随着训练轮次的增加不断减小。本实施例中设置初始学习率为0.001，在20个轮次、30个轮次之后分别降低学习率为之前轮次的十分之一，总共训练40个轮次，并通过早停法防止模型过拟合，在连续10轮验证集上的损失值不再下降之后，则模型停止训练，每次训练的过程中喂入8条样本数据作为模型的输入，并在每轮训练结束之后评估模型在训练集和验证集上的效果。

图4展示了QOE模型训练的过程，其中图4(a)为拖动次数任务的实验过程，图4(b)为暂停次数任务的实验过程，图4(c)为用户参与度任务的实验过程，图4(d)为主观QoE评分任务的实验过程。其中图示中纵坐标轴表示训练过程中的损失值大小，横坐标表示训练的轮次，两条折线分别代表该任务在训练集上的损失值和验证集上的损失值。

注：在本实发明中用户体验质量(Quality of Experience,QOE)简称为QOE。

以上所述，仅是本发明较佳实施例而已，并非对本发明的技术范围作任何限制，故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰，均仍属于本发明技术方案的范围的。

Claims

1.融合用户行为和表情数据的用户体验质量预测方法，其特征在于，包括以下步骤：

S10、基于CNN和GRU构建QOE预测模型；

2.根据权利要求1所述的用户体验质量预测方法，其特征在于，所述QOE预测模型架构如图1所示。

3.根据权利要求2所述的用户体验质量预测方法，其特征在于，对所述一维数值型数据进行预处理步骤如下：

S22、定义所述一维数值型数据为X_train，则有

4.根据权利要求2所述的用户体验质量预测方法，其特征在于，对所述用户面部表情数据进行预处理步骤如下：

x_{img_ott}＝x_img×α+x_{img_gaussian}×β十γ

5.根据权利要求4所述的用户体验质量预测方法，其特征在于，步骤S20中所述QOE预测模型对输入的所述用户面部表情数据中图片特征进行提取，提取步骤如下：将所述用户面部表情数据中的每张用户面部表情图片通过CNN对其进行特征抽取，抽取过程如图2所示；其中，每张用户面部表情图片需要经过5个卷积块处理，最后加入Flatten层进行压平；Convblock1到Convblock 5中卷积操作的核个数分别为32、64、128、256、512；在第一次卷积操作中，其核大小设置为宽和高均等于7，之后四个卷积操作的核大小设置为宽和高均等于3，步长统一设置为2，并使用ReLU为激活函数；对于最大池化层，均指定核的宽高为2，步长为2；将预处理后的所述用户面部表情图片通过Flatten压平将所述用户面部表情图片特征图的维度转换为一维。

6.根据权利要求5所述的用户体验质量预测方法，其特征在于，所述QOE预测模型中输入的所述一维数值型数据和所述用户面部表情三维数据的输入数据通过所述QOE预测模型中各自网络结构分支进行特征提取和特征学习过程，再对两个网络分支进行特征合并，合并之后与全连接层FClayer相连接，并运用多任务学习完成对四个QoE指标的预测；所述全连接层FC layer激活函数为线性激活函数，每个全连接层的输出对应于各自任务的预测结果；所述线性激活函数为

包括四个向量，分别为

和

其中

为拖动进度条次数任务的线性预测结果，

为暂停次数任务的线性预测结果，

为用户参与度任务的线性预测结果，

为主观QoE评分任务的线性预测结果。