CN111401637A - 融合用户行为和表情数据的用户体验质量预测方法 - Google Patents

融合用户行为和表情数据的用户体验质量预测方法 Download PDF

Info

Publication number
CN111401637A
CN111401637A CN202010183921.1A CN202010183921A CN111401637A CN 111401637 A CN111401637 A CN 111401637A CN 202010183921 A CN202010183921 A CN 202010183921A CN 111401637 A CN111401637 A CN 111401637A
Authority
CN
China
Prior art keywords
data
user
video
qoe
facial expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010183921.1A
Other languages
English (en)
Other versions
CN111401637B (zh
Inventor
荣辉桂
火生旭
奚子为
熊云晖
张斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202010183921.1A priority Critical patent/CN111401637B/zh
Publication of CN111401637A publication Critical patent/CN111401637A/zh
Application granted granted Critical
Publication of CN111401637B publication Critical patent/CN111401637B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Software Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Educational Administration (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Computer Interaction (AREA)

Abstract

本发明公开了一种融合用户行为和表情数据的用户体验质量预测方法,属于无线网络视频体验质量研究技术领域,包括以下步骤:S10、基于CNN和GRU构建QOE预测模型;S20、使用样本数据对QOE预测模型进行训练,得到用户体验质量QOE预测数据;样本数据分为一维数值型数据和用户面部表情数据两类;S30、将用户体验数据输入训练完成的QOE预测模型,得到用户体验质量QOE预测数据。本发明针对已有无线网络视频体验质量QoE进行预测,明确了更全面的视频体验质量的影响参数和视频体验质量指标,其中影响参数分为视频信息、QoS数据、用户行为和用户面部表情四类,较为全面地影响和反映用户体验质量,实现输出QoE评分、用户参与度、拖动进度条次数和暂停次数,体现用户的QoE。

Description

融合用户行为和表情数据的用户体验质量预测方法
技术领域
本发明属于无线网络视频体验质量研究技术领域,具体涉及一种融合用户行为和表情多媒体数据的用户体验质量预测方法。
背景技术
随着无线网络通信技术的快速发展,移动端在线视频服务已经成为了移动互联网的主流应用,并占据大部分的无线通信流量。与此同时,用户对无线网络下在线视频业务的体验需求逐步发生改变,单一的主观评分以及传统的视频体验质量(Quality ofExperience QoE)建模方案难以充分反映用户的实际体验质量。
因此,急需一种能够融合主观指标和客观指标的用户体验质量预测方法。
发明内容
本发明目的在于提供一种能够融合主观指标和客观指标的用户体验质量预测方法。本发明的内容如下:
融合用户行为和表情多媒体数据的用户体验质量预测方法,包括以下步骤:
S10、基于CNN和GRU构建QOE预测模型;
S20、对样本数据进行预处理,将预处理后的数据输入所述QOE预测模型进行训练,得到用户体验质量QOE预测数据;所述样本数据包括一维数值型数据和用户面部表情数据;所述一维数值型数据包括视频总时长、帧宽度、帧高度、帧率、视频类型、视频播放进度、拖动进度条次数、拖动进度条总时长、暂定次数、暂定总时长、缓冲次数、缓冲总时长、和当前观看时长;所述用户面部表情数据为图片数据,以三维数组的形式作为所述QOE预测模型输入;所述QOE预测数据包括QoE评分、用户参与度、拖动进度条次数和暂停次数四个指标;
S30、将用户体验数据输入训练完成的QOE预测模型,得到用户体验质量QOE预测数据;所述用户体验数据与所述样本数据包括范围一致。
进一步地,所述QOE预测模型架构如图1所示。
进一步地,对所述一维数值型数据进行预处理步骤如下:
所述一维数值型数据中的视频分类初始为文本数据;对所有视频分类进行分类编码,分类编码步骤如下:
S21、定义所有视频分类的列表为video_type_list,根据QoE采集系统服务器端存储的视频分类,则有video_type_list={新知,社会,世界,体育,生活,科技,娱乐,财富,汽车,美食,音乐,拍客};其中,每个视频的分类对应于该列表的索引,并完成对所有数据得数值化转换;根据所述分类编码定义输入QoE预测模型的所述一维数值型数据,对所述一维数值型数据进行归一化处理,具体步骤如下:
S22、定义所述一维数值型数据为Xtrain,则有
Xtrain={Tvideo,Xframe_watch,Xframe_hight,Xframe_fps,Xvideo_type,Tplayed,Xbuffer,Tbuffer,Xdrag,Tdrag,Xpause,Tpause,Tcurrent_watch};
其中,Tvideo,Xframe_watch,Xframe_hight,Xframe_fps,Xvideo_type,Tplayed,Xbuffer,Tbuffer,Xdrag,Tdrag,Xpause,Tpause,Tcurrent_watch分别所述样本数据中视频总时长、帧宽度、帧高度、帧率、视频类型、视频播放进度、缓冲次数、缓冲总时长、拖动进度条次数、拖动进度条时长、暂停次数、暂定时长和当前观看时长组成的集合向量;所述Xtrain为一个拥有13个向量的矩阵,所述Xtrain对中每个元素取最大值,定义为Xtrain_max,对所述Xtrain每个元素取最小值,定义为Xtrain_min;则归一化的公式为:
Figure BDA0002413497910000021
式中,Xout表示归一化之后的输出数据,X表示样本数据中的一维数值型数据,等式右侧分子部分表示X与Xtrain_min的差值,分母部分表示Xtrain_max与Xtrain_max的差值。
进一步地,对所述用户面部表情数据进行预处理步骤如下:
所述用户面部表情数据以图片形式存储,采用python的cv2模块将每张图片转换为三维数组,设定每条面部表情样本数据的大小,适当缩放用户面部表情图片大小以降低机器训练模型的压力;通过cv2模块的resize方法将所述用户面部表情图片转换的三维数组缩放至指定的维度;在所述用户面部表情图片缩放之后,对其进行局部均值处理,用于去除噪声污染并对图像边缘像素予以保留,使图像的特征之间可以更加平滑过渡;所述局部均值处理的实现过程为
Figure BDA0002413497910000031
其中,设置α为4,β为-4,γ为128,式中表示对缩放后的所述用户面部表情图片进行高斯滤波后得到的图像,ximg_out为经过均布均值后的面部表情图片;在进行以上处理后,对所述用户面部表情图片进行适当的数据增强处理,主要包括左右随机移动等操作方式;对每张面部表情图片,在通过cv2模块加载转换为三维数组后,将所有的像素值除以255。
进一步地,步骤S20中所述QOE预测模型对输入的所述用户面部表情数据中图片特征进行提取,提取步骤如下:将所述用户面部表情数据中的每张用户面部表情图片通过CNN对其进行特征抽取,抽取过程如图2所示;其中,每张用户面部表情图片需要经过5个卷积块处理,最后加入Flatten层进行压平;Convblock1到Convblock 5中卷积操作的核个数分别为32、64、128、256、512;在第一次卷积操作中,其核大小设置为宽和高均等于7,之后四个卷积操作的核大小设置为宽和高均等于3,步长统一设置为2,并使用ReLU为激活函数;对于最大池化层,均指定核的宽高为2,步长为2;将预处理后的所述用户面部表情图片通过Flatten压平将所述用户面部表情图片特征图的维度转换为一维。
进一步地,所述QOE预测模型中输入的所述一维数值型数据和所述用户面部表情三维数据的输入数据通过所述QOE预测模型中各自网络结构分支进行特征提取和特征学习过程,再对两个网络分支进行特征合并,合并之后与全连接层FC layer相连接,并运用多任务学习完成对四个QoE指标的预测;所述全连接层FC layer激活函数为线性激活函数,每个全连接层的输出对应于各自任务的预测结果;所述线性激活函数为
Figure BDA0002413497910000041
其中,函数f2代表了从输入视频信息、QoS数据、用户行为和用户面部表情的样本数据通过多层网络结构到多任务QoE预测的非线性映射过程;xi表示视频信息、QoS数据和用户行为构成的一维样本数据;imgi表示用户面部表情数据;
Figure BDA0002413497910000042
是拖动进度条次数、暂停次数、用户参与度和主观QoE评分组成的集合;
Figure BDA0002413497910000043
包括四个向量,分别为
Figure BDA0002413497910000044
Figure BDA0002413497910000049
其中
Figure BDA0002413497910000045
为拖动进度条次数任务的线性预测结果,
Figure BDA0002413497910000046
为暂停次数任务的线性预测结果,
Figure BDA0002413497910000047
为用户参与度任务的线性预测结果,
Figure BDA0002413497910000048
为主观QoE评分任务的线性预测结果。
本发明有益效果:
本发明针对已有无线网络视频体验质量QoE进行预测,明确了更全面的视频体验质量的影响参数和视频体验质量指标,其中影响参数分为视频信息、QoS数据、用户行为和用户面部表情四类参数,用户体验质量的指标分为主观指标和客观指标,并作出如下指定:视频信息包括视频种类、视频总时长、帧宽度、帧高度、帧率和视频播放进度;QoS数据包括缓冲次数和缓冲总时长,用户行为主要包括拖动进度条的次数、拖动进度条时长、暂停次数、暂定时长和当前观看时长;用户面部表情是在用户在视频会话过程中的面部表情。这些指标的融合能较为全面地影响和反映用户体验质量,因此,融合这些不同类型的多媒体数据来预测用户体验质量具有较好的现实意义。本发明专利得到国家自然科学基金(项目编号61672221)的支持。
附图说明
图1融合用户行为和面部表情的QoE预测模型架构示意图
图2单张面部表情图片特征抽取过程示意图
图3自适应权重调整算法示意图
图4 QoE预测模型训练过程
具体实施方式
实施例1
融合用户行为和表情数据的用户体验质量预测方法,包括以下步骤:
S10、基于CNN和GRU构建QOE预测模型;QOE预测模型架构如图1所示。
S20、使用样本数据对QOE预测模型进行训练,得到用户体验质量QOE预测数据;样本数据包括一维数值型数据和用户面部表情数据;一维数值型数据包括视频总时长、帧宽度、帧高度、帧率、视频类型、视频播放进度、拖动进度条次数、拖动进度条总时长、暂定次数、暂定总时长、缓冲次数、缓冲总时长、和当前观看时长;所述用户面部表情数据为图片数据,以三维数组的形式作为模型输入;QOE预测数据包括QoE评分、用户参与度、拖动进度条次数和暂停次数四个指标。
一维数值型数据中的视频分类初始为文本数据;对所有视频分类进行分类编码,分类编码步骤如下:
S21、定义所有视频分类的列表为video_type_list,根据QoE采集系统服务器端存储的视频分类,则有video_type_list={新知,社会,世界,体育,生活,科技,娱乐,财富,汽车,美食,音乐,拍客};其中,每个视频的分类对应于该列表的索引,并完成对所有数据得数值化转换。
对一维数值型数据进行归一化处理,具体步骤如下:
S22、定义所述一维数值型数据为Xtrain,则有:Xtrain={Tvideo,Xframe_watch,Xframe_hight,Xframe_fps,Xvideo_type,Tplayed,Xbuffer,Tbuffer,Xdrag,Tdrag,Xpause,Tpause,Tcurrent_watch};
其中,Tvideo,Xframe_watch,Xframe_hight,Xframe_fps,Xvideo_type,Tplayed,Xbuffer,Tbuffer,Xdrag,Tdrag,Xpause,Tpause,Tcurrent_watch分别所述样本数据中视频总时长、帧宽度、帧高度、帧率、视频类型、视频播放进度、缓冲次数、缓冲总时长、拖动进度条次数、拖动进度条时长、暂停次数、暂定时长和当前观看时长组成的集合向量;所述Xtrain为一个拥有13个向量的矩阵,所述Xtrain对中每个元素取最大值,定义为Xtrain_max,对所述Xtrain每个元素取最小值,定义为Xtrain_min;则归一化的公式为:
Figure BDA0002413497910000061
式中,Xout表示归一化之后的输出数据,X表示样本数据中的一维数值型数据,等式右侧分子部分表示X与Xtrain_min的差值,分母部分表示Xtrain_max与Xtrain_max的差值。
用户面部表情数据以图片形式存储,采用python的cv2模块将每张图片转换为三维数组,设定每条面部表情样本数据的大小,适当缩放用户面部表情图片大小以降低机器训练模型的压力;通过cv2模块的resize方法将所述用户面部表情图片转换的三维数组缩放至指定的维度;在所述用户面部表情图片缩放之后,对其进行局部均值处理,用于去除噪声污染并对图像边缘像素予以保留,使图像的特征之间可以更加平滑过渡;所述局部均值处理的实现过程为
ximg_out=ximg×α+ximg_gaussian×β+γ
其中,设置α为4,β为-4,γ为128,式中表示对缩放后的所述用户面部表情图片进行高斯滤波后得到的图像,ximg_out为经过均布均值后的面部表情图片;在进行以上处理后,对所述用户面部表情图片进行适当的数据增强处理,主要包括左右随机移动等操作方式;对每张面部表情图片,在通过cv2模块加载转换为三维数组后,将所有的像素值除以255。
对于标签数据,其中包含了QoE预测模型训练、验证和测试需要的数值数据,故对标签数据同样采用归一化处理。定义训练集中的样本数据为Ytrain,则有Ytrain={Yvideo_score,Yactual_watch,Ydrag,Ypause},其中Yvideo_score、Yactual_watch、Ydrag、Ypause分别为训练集中主观QoE评分、用户参与度、拖动进度条次数和暂停次数组成的集合向量,可知Ytrain是一个有用4个向量的矩阵。对Ytrain中每个元素取最大值,可定义为Y_(train_max),对Y_train中每个元素取最小值,可定义为Y_(train_min)。则进行归一化的过程如公式(3.5)所示,其中Y_out表示归一化之后的数据输出,Y表示训练集、验证集或者测试集中的标签数据,等式右侧分子部分表示Y与Y_(train_min)的差值,分母部分表示Y_(train_max)与Y_(train_min)的差值,本公式可以用于训练集、验证集和测试集标签数据的归一化处理。
Figure BDA0002413497910000071
本实施例中将无线网络视频QoE采集提供收集的样本数据集划分为3部分,分别为训练集、验证集和测试集。训练集占总数据集的百分之六十,验证集和测试集各占百分之二十。因为每个视频会话对应多个样本数据和一个标签数据,本文以视频会话id的数量为训练集、验证集和测试集划分的标准,在将数据集中视频会话id随机打乱后按照比例划分训练集、验证集和测试集,避免部分数据分布过于集中的情况。
步骤S20中QOE预测模型对输入的用户面部表情数据中图片特征进行抽取,抽取步骤如下:
将用户面部表情数据中的每张用户面部表情图片通过CNN对其进行特征抽取,抽取过程如图2所示;其中,每张用户面部表情图片需要经过5个卷积块处理,最后加入Flatten层进行压平;Convblock1到Convblock 5中卷积操作的核个数分别为32、64、128、256、512;在第一次卷积操作中,其核大小设置为宽和高均等于7,之后四个卷积操作的核大小设置为宽和高均等于3,步长统一设置为2,并使用ReLU为激活函数;对于最大池化层,均指定核的宽高为2,步长为2;将预处理后的所述用户面部表情图片通过Flatten压平将所述用户面部表情图片特征图的维度转换为一维。
QOE预测模型中输入的一维数值型数据和用户面部表情三维数据的输入数据通过QOE预测模型中各自网络结构分支进行特征提取和特征学习过程,再对两个网络分支进行特征合并,合并之后与全连接层FC layer相连接,并运用多任务学习完成对四个QoE指标的预测;全连接层FC layer激活函数为线性激活函数,每个全连接层的输出对应于各自任务的预测结果;所述线性激活函数为
Figure BDA0002413497910000081
其中,函数f2代表了从输入视频信息、QoS数据、用户行为和用户面部表情的样本数据通过多层网络结构到多任务QoE预测的非线性映射过程;xi表示视频信息、QoS数据和用户行为构成的一维样本数据;imgi表示用户面部表情数据;
Figure BDA0002413497910000082
是拖动进度条次数、暂停次数、用户参与度和主观QoE评分组成的集合;
Figure BDA0002413497910000083
包括四个向量,分别为
Figure BDA0002413497910000084
Figure BDA00024134979100000810
其中
Figure BDA0002413497910000085
为拖动进度条次数任务的线性预测结果,
Figure BDA0002413497910000086
为暂停次数任务的线性预测结果,
Figure BDA0002413497910000087
为用户参与度任务的线性预测结果,
Figure BDA0002413497910000088
为主观QoE评分任务的线性预测结果。
各个任务的预测结果和损失函数的定义,可以获取四个任务的输出,拖动进度条任务的输出定义如公式:
Figure BDA0002413497910000089
暂定次数任务的输出定义如公式:
Figure BDA0002413497910000091
用户参与度任务的输出定义如公式:
Figure BDA0002413497910000092
主观QoE评分任务的输出定义如公式:
Figure BDA0002413497910000093
注:以上公式中MSE表示均方误差函数。
本实施例中,采用权重自适应的调整方式,定义模型的总损失函数如公式:
Figure BDA0002413497910000094
根据各个任务的自适应权重调整算法,如图3所示,算法是输入初始的σ1234取值,输出为模型训练完成后更新σ1234的值,四个系数分别控制四个任务在整个模型中的重要性,算法1的第一行表示将σ1234加入深度学习网络模型的权重矩阵中,让σ1234在模型训练的过程中可以自动调整;第二行表示模型在训练过程中每次迭代执行3-5行的过程;第三到第五行是整个算法的业务过程,每次迭代开始后,首先从权重矩阵中获取σ1234的值,然后根据上式计算当前的损失函数,其中log(σ1σ2σ3σ4)作为正则化项存在,它与每个任务的权重系数成反比,有效抑制了某个任务权重系数过大或者过小的情况,在计算当前的损失值后,通过反向传播算法可以计算出优化后的权重矩阵,σ1234在可训练的权重矩阵中,所以会被一同优化调整;第六行表示在max_iterations次迭代后结束for循环;第七行表示训练结束,整个模型不再对参数进行优化,并返回四个任务权重的值。
S30、将用户体验数据输入训练完成的QOE预测模型,得到用户体验质量QOE预测数据;所述用户体验数据与所述样本数据包括范围一致。
本实施例的QOE预测模型过程:
在本实施例中,基于视频信息、QoS数据和用户行为的QoE预测模型以及基于视频信息、QoS数据、用户行为和用户面部表情的QoE预测模型,两个模型针对本发明的QoE预测内容均使用了多任务学习的方法,训练过程中两个模型的损失函数定义,采用的优化器为带有动量值的批次梯度下降法,并配合学习率随着训练轮次的增加不断减小。本实施例中设置初始学习率为0.001,在20个轮次、30个轮次之后分别降低学习率为之前轮次的十分之一,总共训练40个轮次,并通过早停法防止模型过拟合,在连续10轮验证集上的损失值不再下降之后,则模型停止训练,每次训练的过程中喂入8条样本数据作为模型的输入,并在每轮训练结束之后评估模型在训练集和验证集上的效果。
图4展示了QOE模型训练的过程,其中图4(a)为拖动次数任务的实验过程,图4(b)为暂停次数任务的实验过程,图4(c)为用户参与度任务的实验过程,图4(d)为主观QoE评分任务的实验过程。其中图示中纵坐标轴表示训练过程中的损失值大小,横坐标表示训练的轮次,两条折线分别代表该任务在训练集上的损失值和验证集上的损失值。
注:在本实发明中用户体验质量(Quality of Experience,QOE)简称为QOE。
以上所述,仅是本发明较佳实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围的。

Claims (6)

1.融合用户行为和表情数据的用户体验质量预测方法,其特征在于,包括以下步骤:
S10、基于CNN和GRU构建QOE预测模型;
S20、对样本数据进行预处理,将预处理后的数据输入所述QOE预测模型进行训练,得到用户体验质量QOE预测数据;所述样本数据包括一维数值型数据和用户面部表情数据;所述一维数值型数据包括视频总时长、帧宽度、帧高度、帧率、视频类型、视频播放进度、拖动进度条次数、拖动进度条总时长、暂定次数、暂定总时长、缓冲次数、缓冲总时长、和当前观看时长;所述用户面部表情数据为图片数据,以三维数组的形式作为所述QOE预测模型输入;所述QOE预测数据包括QoE评分、用户参与度、拖动进度条次数和暂停次数四个指标;
S30、将用户体验数据输入训练完成的QOE预测模型,得到用户体验质量QOE预测数据;所述用户体验数据与所述样本数据包括范围一致。
2.根据权利要求1所述的用户体验质量预测方法,其特征在于,所述QOE预测模型架构如图1所示。
3.根据权利要求2所述的用户体验质量预测方法,其特征在于,对所述一维数值型数据进行预处理步骤如下:
所述一维数值型数据中的视频分类初始为文本数据;对所有视频分类进行分类编码,分类编码步骤如下:
S21、定义所有视频分类的列表为video_type_list,根据QoE采集系统服务器端存储的视频分类,则有video_type_list={新知,社会,世界,体育,生活,科技,娱乐,财富,汽车,美食,音乐,拍客};其中,每个视频的分类对应于该列表的索引,并完成对所有数据得数值化转换;根据所述分类编码定义输入QoE预测模型的所述一维数值型数据,对所述一维数值型数据进行归一化处理,具体步骤如下:
S22、定义所述一维数值型数据为Xtrain,则有
Xtrain={Tvideo,Xframe_watch,Xframe_hight,Xframe_fps,Xvideo_type,Tplayed,Xbuffer,Tbuffer,Xdrag,Tdrag,Xpause,Tpause,Tcurrent_watch};
其中,Tvideo,Xframe_watch,Xframe_hight,Xframe_fps,Xvideo_type,Tplayed,Xbuffer,Tbuffer,Xdrag,Tdrag,Xpause,Tpause,Tcurrent_watch分别所述样本数据中视频总时长、帧宽度、帧高度、帧率、视频类型、视频播放进度、缓冲次数、缓冲总时长、拖动进度条次数、拖动进度条时长、暂停次数、暂定时长和当前观看时长组成的集合向量;所述Xtrain为一个拥有13个向量的矩阵,所述Xtrain对中每个元素取最大值,定义为Xtrain_max,对所述Xtrain每个元素取最小值,定义为Xtrain_min;则归一化的公式为:
Figure FDA0002413497900000021
式中,Xout表示归一化之后的输出数据,X表示样本数据中的一维数值型数据,等式右侧分子部分表示X与Xtrain_min的差值,分母部分表示Xtrain_max与Xtrain_max的差值。
4.根据权利要求2所述的用户体验质量预测方法,其特征在于,对所述用户面部表情数据进行预处理步骤如下:
所述用户面部表情数据以图片形式存储,采用python的cv2模块将每张图片转换为三维数组,设定每条面部表情样本数据的大小,适当缩放用户面部表情图片大小以降低机器训练模型的压力;通过cv2模块的resize方法将所述用户面部表情图片转换的三维数组缩放至指定的维度;在所述用户面部表情图片缩放之后,对其进行局部均值处理,用于去除噪声污染并对图像边缘像素予以保留,使图像的特征之间可以更加平滑过渡;所述局部均值处理的实现过程为
ximg_ott=ximg×α+ximg_gaussian×β十γ
其中,设置α为4,β为-4,γ为128,式中表示对缩放后的所述用户面部表情图片进行高斯滤波后得到的图像,ximg_out为经过均布均值后的面部表情图片;在进行以上处理后,对所述用户面部表情图片进行适当的数据增强处理,主要包括左右随机移动等操作方式;对每张面部表情图片,在通过cv2模块加载转换为三维数组后,将所有的像素值除以255。
5.根据权利要求4所述的用户体验质量预测方法,其特征在于,步骤S20中所述QOE预测模型对输入的所述用户面部表情数据中图片特征进行提取,提取步骤如下:将所述用户面部表情数据中的每张用户面部表情图片通过CNN对其进行特征抽取,抽取过程如图2所示;其中,每张用户面部表情图片需要经过5个卷积块处理,最后加入Flatten层进行压平;Convblock1到Convblock 5中卷积操作的核个数分别为32、64、128、256、512;在第一次卷积操作中,其核大小设置为宽和高均等于7,之后四个卷积操作的核大小设置为宽和高均等于3,步长统一设置为2,并使用ReLU为激活函数;对于最大池化层,均指定核的宽高为2,步长为2;将预处理后的所述用户面部表情图片通过Flatten压平将所述用户面部表情图片特征图的维度转换为一维。
6.根据权利要求5所述的用户体验质量预测方法,其特征在于,所述QOE预测模型中输入的所述一维数值型数据和所述用户面部表情三维数据的输入数据通过所述QOE预测模型中各自网络结构分支进行特征提取和特征学习过程,再对两个网络分支进行特征合并,合并之后与全连接层FClayer相连接,并运用多任务学习完成对四个QoE指标的预测;所述全连接层FC layer激活函数为线性激活函数,每个全连接层的输出对应于各自任务的预测结果;所述线性激活函数为
Figure FDA0002413497900000031
其中,函数f2代表了从输入视频信息、QoS数据、用户行为和用户面部表情的样本数据通过多层网络结构到多任务QoE预测的非线性映射过程;xi表示视频信息、QoS数据和用户行为构成的一维样本数据;imgi表示用户面部表情数据;
Figure FDA0002413497900000041
是拖动进度条次数、暂停次数、用户参与度和主观QoE评分组成的集合;
Figure FDA0002413497900000042
包括四个向量,分别为
Figure FDA0002413497900000043
Figure FDA0002413497900000044
其中
Figure FDA0002413497900000045
为拖动进度条次数任务的线性预测结果,
Figure FDA0002413497900000046
为暂停次数任务的线性预测结果,
Figure FDA0002413497900000047
为用户参与度任务的线性预测结果,
Figure FDA0002413497900000048
为主观QoE评分任务的线性预测结果。
CN202010183921.1A 2020-03-16 2020-03-16 融合用户行为和表情数据的用户体验质量预测方法 Active CN111401637B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010183921.1A CN111401637B (zh) 2020-03-16 2020-03-16 融合用户行为和表情数据的用户体验质量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010183921.1A CN111401637B (zh) 2020-03-16 2020-03-16 融合用户行为和表情数据的用户体验质量预测方法

Publications (2)

Publication Number Publication Date
CN111401637A true CN111401637A (zh) 2020-07-10
CN111401637B CN111401637B (zh) 2023-06-16

Family

ID=71435229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010183921.1A Active CN111401637B (zh) 2020-03-16 2020-03-16 融合用户行为和表情数据的用户体验质量预测方法

Country Status (1)

Country Link
CN (1) CN111401637B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023045886A1 (zh) * 2021-09-26 2023-03-30 中兴通讯股份有限公司 模型训练方法,视频用户体验预测方法,装置及电子设备
CN116074586A (zh) * 2022-12-13 2023-05-05 北京中电飞华通信有限公司 视频体验质量的预测方法、装置、电子设备及存储介质
CN117649153A (zh) * 2024-01-29 2024-03-05 南京典格通信科技有限公司 基于信息集成的移动通信网络用户体验质量预测方法

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130057705A1 (en) * 2011-09-02 2013-03-07 Verizon Patent And Licensing Inc. Video quality scoring
US20130148525A1 (en) * 2010-05-14 2013-06-13 Telefonica, S.A. Method for calculating perception of the user experience of the quality of monitored integrated telecommunications operator services
US20140280890A1 (en) * 2013-03-15 2014-09-18 Yahoo! Inc. Method and system for measuring user engagement using scroll dwell time
US9009083B1 (en) * 2012-02-15 2015-04-14 Google Inc. Mechanism for automatic quantification of multimedia production quality
US20150341812A1 (en) * 2003-08-29 2015-11-26 Ineoquest Technologies, Inc. Video quality monitoring
US20170085617A1 (en) * 2015-09-23 2017-03-23 Board Of Regents, The University Of Texas System Predicting a viewer's quality of experience
US20170093648A1 (en) * 2015-09-28 2017-03-30 Wi-Lan Labs, Inc. System and method for assessing streaming video quality of experience in the presence of end-to-end encryption
CN106919903A (zh) * 2017-01-19 2017-07-04 中国科学院软件研究所 一种鲁棒的基于深度学习的连续情绪跟踪方法
CN107018408A (zh) * 2017-01-19 2017-08-04 湖南大学 移动端http视频流的体验质量评估方法
CN107087161A (zh) * 2017-04-28 2017-08-22 南京邮电大学 视频业务中基于多层神经网络的用户体验质量的预测方法
US20180365574A1 (en) * 2017-06-20 2018-12-20 Beijing Baidu Netcom Science And Technology Co., L Td. Method and apparatus for recognizing a low-quality article based on artificial intelligence, device and medium
US20190037270A1 (en) * 2017-07-31 2019-01-31 Zhilabs S.L. Determination of qoe in encrypted video streams using supervised learning
CN110188637A (zh) * 2019-05-17 2019-08-30 西安电子科技大学 一种基于深度学习的行为识别技术方法
CN110267102A (zh) * 2018-03-12 2019-09-20 腾讯科技(深圳)有限公司 视频数据的处理方法及装置、介质及电子设备
CN110363159A (zh) * 2019-07-17 2019-10-22 腾讯科技(深圳)有限公司 图像识别方法、装置、电子设备及计算机可读存储介质
CN110807420A (zh) * 2019-10-31 2020-02-18 天津大学 一种融合特征提取和深度学习的人脸表情识别方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150341812A1 (en) * 2003-08-29 2015-11-26 Ineoquest Technologies, Inc. Video quality monitoring
US20130148525A1 (en) * 2010-05-14 2013-06-13 Telefonica, S.A. Method for calculating perception of the user experience of the quality of monitored integrated telecommunications operator services
US20130057705A1 (en) * 2011-09-02 2013-03-07 Verizon Patent And Licensing Inc. Video quality scoring
US9009083B1 (en) * 2012-02-15 2015-04-14 Google Inc. Mechanism for automatic quantification of multimedia production quality
US20140280890A1 (en) * 2013-03-15 2014-09-18 Yahoo! Inc. Method and system for measuring user engagement using scroll dwell time
US20170085617A1 (en) * 2015-09-23 2017-03-23 Board Of Regents, The University Of Texas System Predicting a viewer's quality of experience
US20170093648A1 (en) * 2015-09-28 2017-03-30 Wi-Lan Labs, Inc. System and method for assessing streaming video quality of experience in the presence of end-to-end encryption
CN107018408A (zh) * 2017-01-19 2017-08-04 湖南大学 移动端http视频流的体验质量评估方法
CN106919903A (zh) * 2017-01-19 2017-07-04 中国科学院软件研究所 一种鲁棒的基于深度学习的连续情绪跟踪方法
CN107087161A (zh) * 2017-04-28 2017-08-22 南京邮电大学 视频业务中基于多层神经网络的用户体验质量的预测方法
US20180365574A1 (en) * 2017-06-20 2018-12-20 Beijing Baidu Netcom Science And Technology Co., L Td. Method and apparatus for recognizing a low-quality article based on artificial intelligence, device and medium
US20190037270A1 (en) * 2017-07-31 2019-01-31 Zhilabs S.L. Determination of qoe in encrypted video streams using supervised learning
CN110267102A (zh) * 2018-03-12 2019-09-20 腾讯科技(深圳)有限公司 视频数据的处理方法及装置、介质及电子设备
CN110188637A (zh) * 2019-05-17 2019-08-30 西安电子科技大学 一种基于深度学习的行为识别技术方法
CN110363159A (zh) * 2019-07-17 2019-10-22 腾讯科技(深圳)有限公司 图像识别方法、装置、电子设备及计算机可读存储介质
CN110807420A (zh) * 2019-10-31 2020-02-18 天津大学 一种融合特征提取和深度学习的人脸表情识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈悦骁: "真实实验环境下的视频业务QOE评估", pages 28 - 32 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023045886A1 (zh) * 2021-09-26 2023-03-30 中兴通讯股份有限公司 模型训练方法,视频用户体验预测方法,装置及电子设备
CN116074586A (zh) * 2022-12-13 2023-05-05 北京中电飞华通信有限公司 视频体验质量的预测方法、装置、电子设备及存储介质
CN117649153A (zh) * 2024-01-29 2024-03-05 南京典格通信科技有限公司 基于信息集成的移动通信网络用户体验质量预测方法
CN117649153B (zh) * 2024-01-29 2024-04-16 南京典格通信科技有限公司 基于信息集成的移动通信网络用户体验质量预测方法

Also Published As

Publication number Publication date
CN111401637B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
CN111401637A (zh) 融合用户行为和表情数据的用户体验质量预测方法
Wu et al. Godiva: Generating open-domain videos from natural descriptions
Lin et al. KADID-10k: A large-scale artificially distorted IQA database
CN109145784B (zh) 用于处理视频的方法和装置
US11514694B2 (en) Teaching GAN (generative adversarial networks) to generate per-pixel annotation
CN111582397B (zh) 一种基于注意力机制的cnn-rnn图像情感分析方法
Singh et al. Deep learning and machine learning based facial emotion detection using CNN
JP2023549579A (ja) ビデオ行動認識のための時間ボトルネック・アテンション・アーキテクチャ
CN110349230A (zh) 一种基于深度自编码器的点云几何压缩的方法
Cao et al. Attention-guided neural networks for full-reference and no-reference audio-visual quality assessment
CN110222173B (zh) 基于神经网络的短文本情感分类方法及装置
CN110766063A (zh) 基于压缩激励和紧密连接卷积神经网络的图像分类方法
CN113554599B (zh) 一种基于人类视觉效应的视频质量评价方法
CN110532925B (zh) 基于时空图卷积网络的驾驶员疲劳检测方法
AU2019101138A4 (en) Voice interaction system for race games
CN113994341A (zh) 面部行为分析
CN112836602B (zh) 基于时空特征融合的行为识别方法、装置、设备及介质
CN111144296B (zh) 基于改进cnn模型的视网膜眼底图片分类方法
US20220101144A1 (en) Training a latent-variable generative model with a noise contrastive prior
Zhang et al. Ranksrgan: Super resolution generative adversarial networks with learning to rank
CN116097278A (zh) 使用视频帧嵌入来训练视频数据生成神经网络
CN115905619A (zh) 对视频的用户体验质量进行评价的方案
CN115731597A (zh) 一种人脸口罩掩膜图像自动分割与修复管理平台及方法
CN114820303A (zh) 低清图像重建超分辨率人脸图像的方法、系统及存储介质
CN112989967A (zh) 一种基于音视频信息融合的人员身份识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant