CN115905619A - 对视频的用户体验质量进行评价的方案 - Google Patents

对视频的用户体验质量进行评价的方案 Download PDF

Info

Publication number
CN115905619A
CN115905619A CN202211226416.6A CN202211226416A CN115905619A CN 115905619 A CN115905619 A CN 115905619A CN 202211226416 A CN202211226416 A CN 202211226416A CN 115905619 A CN115905619 A CN 115905619A
Authority
CN
China
Prior art keywords
video
neural network
features
qos
evaluation results
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211226416.6A
Other languages
English (en)
Inventor
王启源
黄巍
崔航
陆诚诚
孙茹茹
王真
张伟丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Bilibili Technology Co Ltd
Original Assignee
Shanghai Bilibili Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Bilibili Technology Co Ltd filed Critical Shanghai Bilibili Technology Co Ltd
Priority to CN202211226416.6A priority Critical patent/CN115905619A/zh
Publication of CN115905619A publication Critical patent/CN115905619A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本公开提供了一种对视频的用户体验质量进行评价的方法、装置、计算机程序产品、非暂时性计算机可读存储介质及计算机系统。该对视频的用户体验质量进行评价的方法包括:获取视频的内容特征和服务质量(Quality of Service,QoS)特征,其中,所述QoS特征包括视频卡顿特征、视频分辨率特征、视频编码方式特征中的至少一个,所述视频卡顿特征包括首帧卡顿时间、卡顿次数、卡顿位置、卡顿时长、平均卡顿时长、平均卡顿位置、最后一次卡顿位置、总卡顿占比、最长单次卡顿占比中的至少一项;以及利用第一机器学习模型,将所述内容特征和所述QoS特征映射为所述视频的QoE评价结果。根据本公开提供的各个实施例,可以有效地预测用户体验质量。

Description

对视频的用户体验质量进行评价的方案
技术领域
本公开总体上涉及人工智能技术领域,更具体地涉及一种对视频的用户体验质量进行评价的方法、装置、计算机程序产品、非暂时性计算机可读存储介质及计算机系统。
背景技术
本部分旨在介绍本领域的一些方面,其可以与下面描述的和/或要求保护的本公开的各个方面相关。相信本部分有助于提供背景信息以便于更好地理解本公开的各个方面。因此,应该理解的是这些介绍应该从这个角度来理解,而不是作为对现有技术的承认。
随着流媒体技术、网络通信技术及用户移动设备的快速发展与迭代,以视频为媒介的内容成了普遍接受和喜欢的内容消费形式,视频业务也呈现爆发式增长趋势。随着视频需求量的增长,如何有效地评价用户对视频服务的认可程度(即用户体验质量(Qualityof Experience,QoE))是视频服务提供商面临的问题。
发明内容
本公开的目的在于提供一种对视频的用户体验质量进行评价的方法、装置、计算机程序产品、非暂时性计算机可读存储介质及计算机系统,以有效地预测用户体验质量。
根据本公开的第一方面,提供了一种对视频的用户体验质量(Quality ofExperience,QoE)进行评价的方法,包括:获取视频的内容特征和服务质量(Quality ofService,QoS)特征,其中,所述QoS特征包括视频卡顿特征、视频分辨率特征、视频编码方式特征中的至少一个,所述视频卡顿特征包括首帧卡顿时间、卡顿次数、卡顿位置、卡顿时长、平均卡顿时长、平均卡顿位置、最后一次卡顿位置、总卡顿占比、最长单次卡顿占比中的至少一项;以及利用第一机器学习模型,将所述内容特征和所述QoS特征映射为所述视频的QoE评价结果。
根据本公开的第二方面,提供了一种对视频的用户体验质量(Quality ofExperience,QoE)进行评价的方法,包括:利用第一神经网络模型,获取所述视频的多个片段的视频质量(Video Quality,VQ)评价结果,其中,所述多个VQ评价结果为时间序列数据;获取所述视频的所述多个片段的服务质量(Quality of Service,QoS)特征,其中,所述多个QoS特征为时间序列数据,所述QoS特征包括视频卡顿特征、视频分辨率特征、视频编码方式特征中的至少一个,所述视频卡顿特征包括是否处于卡顿、已发生卡顿次数、已发生卡顿总时间、距上次卡顿时间中的至少一项;以及利用第二神经网络模型,将所述多个VQ评价结果和所述多个QoS特征映射为所述视频的QoE评价结果。
根据本公开的第三方面,提供了一种对视频的用户体验质量(Quality ofExperience,QoE)进行评价的装置,包括:获取模块,其配置为获取视频的内容特征和服务质量(Quality of Service,QoS)特征,其中,所述QoS特征包括视频卡顿特征、视频分辨率特征、视频编码方式特征中的至少一个,所述视频卡顿特征包括首帧卡顿时间、卡顿次数、卡顿位置、卡顿时长、平均卡顿时长、平均卡顿位置、最后一次卡顿位置、总卡顿占比、最长单次卡顿占比中的至少一项;以及映射模块,其配置为利用第一机器学习模型,将所述内容特征和所述QoS特征映射为所述视频的QoE评价结果。
根据本公开的第四方面,提供了一种对视频的用户体验质量(Quality ofExperience,QoE)进行评价的装置,包括:第一获取模块,其配置为利用第一神经网络模型,获取所述视频的多个片段的视频质量(Video Quality,VQ)评价结果,其中,所述多个VQ评价结果为时间序列数据;第二获取模块,其配置为获取所述视频的所述多个片段的服务质量(Quality of Service,QoS)特征,其中,所述多个QoS特征为时间序列数据,所述QoS特征包括视频卡顿特征、视频分辨率特征、视频编码方式特征中的至少一个,所述视频卡顿特征包括是否处于卡顿、已发生卡顿次数、已发生卡顿总时间、距上次卡顿时间中的至少一项;以及映射模块,其配置为利用第二神经网络模型,将所述多个VQ评价结果和所述多个QoS特征映射为所述视频的QoE评价结果。
根据本公开的第五方面,提供了一种计算机程序产品,包括程序代码指令,当所述程序产品由计算机执行时,所述程序代码指令使所述计算机执行根据本公开的第一方面所述的方法。
根据本公开的第六方面,提供了一种计算机程序产品,包括程序代码指令,当所述程序产品由计算机执行时,所述程序代码指令使所述计算机执行根据本公开的第二方面所述的方法。
根据本公开的第七方面,提供了一种存储有计算机指令的非暂时性计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据本公开的第一方面所述的方法。
根据本公开的第八方面,提供了一种存储有计算机指令的非暂时性计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据本公开的第二方面所述的方法。
根据本公开的第九方面,提供了一种计算机系统,包括:处理器,与所述处理器进行电子通信的存储器;以及指令,所述指令存储在所述存储器中并且可由所述处理器执行以使所述计算机系统执行根据本公开的第一方面所述的方法。
根据本公开的第十方面,提供了一种计算机系统,包括:处理器,与所述处理器进行电子通信的存储器;以及指令,所述指令存储在所述存储器中并且可由所述处理器执行以使所述计算机系统执行根据本公开的第二方面所述的方法。
根据本公开提供的各个实施例,可以有效地预测用户体验质量。
应当理解,本部分所描述的内容并不旨在标识所要求保护的发明内容的关键或必要特征,也不旨在单独地用于确定所要求保护的发明内容的范围。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的该实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
图1示出了示例人工神经网络。
图2示出了用于学习视频片段的特征的示例神经网络架构。
图3A示出了示例3D卷积层。
图3B示出了示例混合2D和1D卷积块。
图4示出了根据本公开的视频QA模型的一个示例的架构图。
图5示出了可以应用由移动终端执行的方法的示例环境的框图。
图6示出了根据本公开实施例的由移动终端执行的方法的示例流程示意图。
图7示出了根据本公开实施例的由移动终端执行的方法的示例流程示意图。
图8示出了根据本公开实施例的对视频的用户体验质量进行评价的方法的一个示例的流程示意图。
图9示出了根据本公开实施例的对视频的用户体验质量进行评价的方法的一个示例的流程示意图。
图10示出了根据本公开的第二神经网络模型1000的一个示例的架构图。
图11示出了根据本公开的第二神经网络模型1000中的回归模块1100的一个示例的架构图。
图12示出了根据本公开实施例的对视频的用户体验质量(Quality ofExperience,QoE)进行评价的装置的示例性框图。
图13示出了根据本公开实施例的对视频的用户体验质量(Quality ofExperience,QoE)进行评价的装置的示例性框图。
图14示出了可以用来实施本公开的实施例的示例计算机系统的示意性框图。
具体实现方式
下文将参考附图更全面地描述本公开。然而,本公开可以以多种替代形式来体现,并且不应被解释为限于本文描述的实施例。因此,尽管本公开易于进行各种修改和替代形式,但是其具体实施例在附图中以示例的方式示出,并将在本文详细描述。然而,应当理解,这种方式并不旨在将本公开限制于所公开的特定形式,相反,本公开覆盖了落入由权利要求所限定的本公开的精神和范围内的所有修改方案、等同方案和替代方案。
应当理解,尽管本文可以用术语第一、第二等描述各种元素,但是这些元素不应该被这些术语所限制。这些术语仅用于区分一个元素和另一个元素。例如,第一元素可以被称为第二元素,并且类似地,第二元素可以被称为第一元素,而不脱离本公开的教导。
本文结合框图和/或流程图描述了一些示例,其中每个框表示包括用于实现指定逻辑功能的一个或多个可执行指令的电路元件、模分块或代码的部分。还应该注意的是,在其他实现方式中,框中所述的功能可以不按所述的顺序发生。例如,根据所涉及的功能,连续示出的两个框实际上可以实质上同时执行,或者这些框有时可以以相反的顺序执行。
本文提到的“根据...示例”或“在..示例中”意味着结合示例描述的特定特征、结构或特性可以被包括在本公开的至少一个实现方式中。本文中不同地方出现的短语“根据...示例”或“在...示例中”不一定都指同一示例,也不一定是与其他示例相互排斥的单独或替代示例。
神经网络是受大脑神经元结构及神经传到原理启发建立的数学计算模型,基于这类模型实现智能计算的方式称为脑启发计算。例如,神经网络包括多种形式的网络结构,例如,反向传播(Back Propagation,BP)神经网络、卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆网络(LSTM)等,例如,卷积神经网络还可以细分为全卷积网络、深度卷积网络、U型网络(U-Net)等。
图1示出了示例人工神经网络(“ANN”)100。在该实施例中,ANN可以指包括一个或多个节点的计算模型。示例ANN 100可以包括输入层110、隐藏层120、130、160和输出层150。ANN 100的每一层可以包括一个或多个节点,例如节点105或节点115。在该实施例中,ANN的每个节点可以连接到ANN的另一个节点。作为示例而非限制,输入层110的每个节点可以连接到隐藏层120的一个或多个节点。在该实施例中,一个或多个节点可以是偏置节点(例如,与前一层中的任何节点不连接并且不接收来自前一层中的任何节点的输入的层中的节点)。在该实施例中,每层中的每个节点可以连接到前一层或后一层的一个或多个节点。尽管图1描绘了具有特定层数、特定节点数和节点间特定连接的特定ANN,但是本公开也包括具有任何合适层数、任何合适节点数和节点间任何合适连接的任何合适ANN。作为示例而非限制,尽管图1描绘了输入层110的每个节点和隐藏层120的每个节点之间的连接,但是输入层110的一个或多个节点可以不连接到隐藏层120的一个或多个节点。
在该实施例中,ANN可以是前馈ANN(例如,没有循环或回路的ANN,其中节点之间的传播沿一个方向上流动,从输入层开始并前进到后续层)。作为示例而非限制,隐藏层120的每个节点的输入可以包括输入层110的一个或多个节点的输出。作为另一个示例而非限制,输出层150的每个节点的输入可以包括隐藏层160的一个或多个节点的输出。在该实施例中,ANN可以是深度神经网络(例如,包括至少两个隐藏层的神经网络)。在该实施例中,ANN可以是深度残差网络。深度残差网络可以是包括被组织成残差块的隐藏层的前馈ANN。第一残差块之后的每个残差块的输入可以是前一残差块的输出和前一残差块的输入的函数。作为示例而非限制,残差块N的输入可以是F(x)+x,其中F(x)可以是残差块N-1的输出,x可以是残差块N-1的输入。尽管本公开描述了特定的ANN,但是本公开也包括任何合适的ANN。
在该实施例中,激活函数可以对应于ANN的每个节点。节点的激活函数可以定义节点对于给定的输入的输出。在该实施例中,对节点的输入可以包括输入集合。作为示例而非限制,激活函数可以是恒等函数、二值阶跃函数、逻辑函数或任何其他合适的函数。作为另一个示例而非限制,节点K的激活函数可以是sigmoid函数:
Figure BDA0003879927500000061
、双曲正切函数:
Figure BDA0003879927500000062
、Rectifier激活函数:
Fk(sk)=max(0,sk)
,或者任何其他合适的函数Fk(sk),其中sk可以是节点k的有效输入。在该实施例中,对激活函数的输入可以进行加权。每个节点可以基于加权输入使用相应的激活函数来生成输出。在该实施例中,节点之间的每个连接可以与权重相关联。作为示例而非限制,节点105和节点115之间的连接125可以具有0.4的加权系数,即节点105的输出乘以0.4被用作节点115的输入。作为另一示例而非限制,节点k的输出yk可以是yk=Fk(sk),其中Fk可以是对应于节点k的激活函数,sk=∑(wjkxj)可以是节点k的有效输入,xj可以是连接到节点k的节点j的输出,wjk可以是节点j和节点k之间的加权系数。尽管本公开描述了节点的特定输入和输出,但是本公开也包括节点的任何合适的输入和输出。此外,尽管本公开可以描述节点之间的特定连接和权重,但是本公开也包括节点之间的任何合适的连接和权重。
在该实施例中,可以使用训练数据来训练ANN。作为示例而非限制,训练数据可以包括对ANN 100的输入和预期输出。作为另一个示例而非限制,训练数据可以包括向量,每个向量代表训练对象和针对每个训练对象的预期标签。在该实施例中,训练ANN可以包括通过优化目标函数来修改与ANN的节点之间的连接相关联的权重。作为示例而非限制,可以使用训练方法(例如,共轭梯度法、梯度下降法、随机梯度下降法)来反向传播代表每个向量之间的距离的平方和误差(例如,使用最小化平方和误差的损失函数)。在该实施例中,可以使用忽略(Dropout)技术来训练ANN。作为示例而非限制,在训练时可以暂时省略一个或多个节点(例如,不接收输入并且不生成输出)。对于每个训练对象,ANN的一个或多个节点可能有被省略的概率。针对特定训练对象省略的节点可以不同于针对其他训练对象省略的节点(例如,可以在逐个对象的基础上暂时地省略节点)。尽管本公开描述了以特定方式训练ANN,但是本公开也包括以任何合适的方式训练ANN。
视频在采集、压缩、传输和存储等过程中会发生各种各样的畸变,任何失真都可能导致视觉感知质量的下降。视频的质量失真通常使用(Quality Assessment,QA)算法来建模。目前基于机器学习的UGC视频QA算法主要存在以下两点不足:首先,大多采用特征工程来提取视频帧的质量感知特征,缺乏一种端到端学习(End-to-End Learning)的方式来学习视频质量和视频帧原始像素之间的关系;其次,使用视频原始的分辨率或者调整后的固定分辨率来评价视频质量,没有考虑到视频多尺度的特性,难以有效评价不同分辨率的UGC视频的感知质量。所以亟需一种更加有效的视频QA模型,用于自动地评估UGC视频的感知质量,检测出质量差的UGC视频,从而提升用户QoE。
图2示出了用于学习视频片段的特征的示例神经网络架构200。输入视频片段202可以包括特定分辨率的多个帧。神经网络架构200可用于对输入视频片段202做出预测。网络架构200是深度三维(3-dimensional,3D)卷积网络的一个示例。网络架构200可以包括多个层204-214。每个层可以接收至少一个输入,并且可以基于该输入生成至少一个输出。一个层的输出可以作为输入提供给后续层。网络架构200可以包括卷积层204-210、平均池化层212和全连接层214。每个卷积层204-210可以将一个或多个卷积核与一个或多个输入进行卷积,以生成一个或多个输出。
每个卷积层可以执行一维(1-dimensional,1D)卷积、二维(2-dimensional,2D)卷积或三维卷积。一维卷积可以理解为卷积核在输入的一个维度上进行移动。2D卷积可以理解为卷积核在输入的两个维度上进行移动。3D卷积可以理解为卷积核在输入的三个维度上进行移动。
网络架构200可以具有8×212×212的输入尺寸。举例来说,输入视频片段202可具有8帧,且每一帧的分辨率为212×212像素。因此,该示例视频片段的尺寸是8×212×212像素。在网络架构200中,卷积是3×d×d,其中d是卷积核的一个维度的元素数量。
卷积层204可以接收视频片段202作为输入,并用卷积核对该输入进行卷积,以生成尺寸为8×56×56的输出。卷积层204将其输出提供给卷积层2061,该层是卷积层206中的第一层。卷积层206包括卷积层2061、卷积层2062、卷积层2063和卷积层2064,其中每个卷积层可以使用个数为64的卷积核进行3×3×3卷积。在卷积过程中,网络架构200可以学习到卷积核的值。
卷积层206的输出尺寸为8×56×56(已经将8×212×212的输入尺寸缩减)。卷积层2064将其输出提供给卷积层2081,该层是卷积层208中的第一层。卷积层208包括卷积层2081、卷积层2082、卷积层2083和卷积层2084,其中每个卷积层可以使用个数为128的卷积核进行3×3×3卷积,以生成尺寸为4×28×28的输出(已经将8×212×212的输入尺寸进一步缩减)。相对于之前的卷积层206,卷积层208中卷积核个数加倍,但其输出尺寸减半,使得组合后的尺寸在卷积层206和卷积层208之间基本不变。之后的卷积层(例如卷积层210)继续这种将输出尺寸减半并将卷积核个数加倍的模式。
平均池化层212可以接收卷积层210的输出作为输入,并执行下采样或其他操作以减小输入尺寸。作为示例,平均池化层212可以执行全局平均池化。全连接层214可以接收平均池化层212的输出作为输入,并且基于对全连接层214的输入来生成视频片段202的最终预测。最终预测可以表示为大小为1×1×1的输出。
图3A示出了示例3D卷积层302。图3B示出了示例混合2D和1D卷积块304,其与3D卷积层302具有相同的输入通道和输出通道。混合卷积块304在本文也被称为“(2+1)D”块。在一些示例中,可能不需要3D卷积,因为3D卷积可以由2D卷积和随后的1D卷积来近似,从而将空域和时域建模分解成单独的步骤。如图3A和3B所示,可以通过用“(2+1)D”块304替换具有n个输入通道和m个输出通道的t×d×d 3D卷积层302来构建“(2+1)D”神经网络架构。“(2+1)D”块304包括1×d×d 2D卷积层306和具有i个内部通道连接的t×1×1 1D卷积层308,t的值可以是2、3、4等。
图4示出了根据本公开的视频QA模型400的一个示例的架构图。下面参考图4进行说明。
视频QA模型400的输入为视频(例如UGC视频)。视频QA模型400可以对输入视频执行帧提取操作。作为示例而非限制,视频QA模型400可以将输入视频分为多个视频片段,每个视频片段抽取一帧以提取空域特征,并且采用每个视频片段的所有帧以提取时域特征。在图4中,输入视频被分成了视频片段1、视频片段2、…、视频片段n(共n个视频片段)。针对视频片段1、视频片段2、…、视频片段n,分别抽取一帧,即得到视频帧1、视频帧2、…、视频帧n。作为示例而非限制,可以通过随机的方式从视频片段中抽取一帧。作为另一示例而非限制,可以以特定模式从视频片段中抽取一帧,例如抽取视频片段的第一帧。作为示例而非限制,可以将输入视频的部分帧序列分成多个视频片段,例如将输入视频的前N帧分为视频片段1、视频片段2。
视频QA模型400可以包括3D卷积神经网络。3D卷积神经网络可以用于分别提取视频片段1、视频片段2、…、视频片段n的时域特征。这里的3D卷积神经网络可以采用本文所描述的3D卷积神经网络架构或“(2+1)D”神经网络架构的至少一部分。视频QA模型400可以包括2D卷积神经网络。2D卷积神经网络可以用于分别提取视频帧1、视频帧2、…、视频帧n的空域特征。这里的2D卷积神经网络可以采用本文所描述的2D卷积神经网络架构的至少一部分。
视频QA模型400可以包括回归模块。回归模块将空域特征和时域特征回归成视频片段的质量评价结果。例如,回归模块可以将视频帧1的空域特征和视频片段1的时域特征回归成视频片段1的质量评价结果1,将视频帧2的空域特征和视频片段2的时域特征回归成视频片段2的质量评价结果2,以此类推。这里的回归模块可以采用本文所描述的ANN(又称多层感知机(MLP,Multilayer Perceptron))架构的至少一部分。
视频QA模型400可以包括池化模块。池化模块可以将多个视频片段的质量评价结果池化为整体质量评价结果。这里池化模块可以采用本文所描述的池化层的至少一部分。池化模块所采用的池化方法可以是平均池化,也可以是最大值池化,本公开对此不做限制。
在创建完视频QA模型400的架构后,可以基于UGC视频的质量评价数据集(包括UGC视频以及UGC视频的标签)对模型进行训练。本文已经结合图1对模型的训练进行了说明,这里不再赘述。需要说明的是,这里对2D卷积神经网络和3D卷积神经网络采用的均为端到端学习的方式进行训练。
作为示例而非限制,视频QA模型400中的3D卷积神经网络可以为采用已知的动作识别数据集预训练的三维卷积神经网络。例如,可以为预训练的R(2+1)D行为识别模型、X3D行为识别模型等。通过采用预训练的三维卷积神经网络可以提升数据处理速度,提高业务效率。
作为示例而非限制,用于对视频QA模型400进行训练的质量评价数据集可以是通过本公开的由移动终端执行的方法收集来的数据集。
下面对本公开的由移动终端执行的方法进行说明。
图5示出了可以应用由移动终端执行的方法的示例环境的框图。示例环境500包括网络502,例如无线PAN(WPAN)(例如,蓝牙WPAN)、WI-FI网络、WI-MAX网络、蜂窝电话网络(例如,全球移动通信系统(GSM)网络)、或其他合适的无线网络或这些网络中的组合。网络502连接视频分发系统510和移动终端506。
移动终端506是指通过无线网络技术接入互联网的终端设备,其能够通过网络502请求和/或接收资源(例如,视频)。示例移动终端506包括移动通信设备(例如,智能电话)、可穿戴设备、平板设备、智能电器等。移动终端506包括呈现可视化信息(例如,图像和/或视频)的显示器。
移动终端506包括用户应用526,例如网络浏览器或原生(native)应用,以便于经由网络502发送和接收数据。用户应用526能够播放视频524并使用户与视频524进行交互。例如,用户应用526能够采集用户对视频524的评价数据(例如体验质量数据)。
视频分发系统510负责视频分配、测试任务(下文即将详细描述)分发等。视频分发系统510可以选择要播放的视频内容并为该视频内容配置播放策略。视频分发系统510可以将选定的视频内容以及配置的播放策略提供给移动终端506以进行播放。移动终端506利用用户应用526可以将选定的视频内容以配置的播放策略进行播放。
视频分发系统510可以在分布式计算系统(例如服务器集群)中实现,该分布式计算系统包括例如多个服务器或多个计算设备,这些服务器或计算设备互连以选择要播放的视频内容以及为视频内容配置播放策略。视频分发系统510也可以在集中式计算系统(例如单个服务器)中实现。
数百万或更多的可用视频内容可以在数据库512中被索引。每个视频内容索引可以引用相应的视频内容和/或可以包括为相应视频内容的分发设置条件的分发参数(例如,选择标准)。视频分发系统510可以在数据库512中选择要播放的视频内容。
图6示出了根据本公开实施例的由移动终端执行的方法的示例流程示意图。图6的过程可以由图5的移动终端506来执行。
在602处,接收服务端发送的视频以及为所述视频配置的播放策略。作为示例而非限制,服务端可以包括图5中的视频分发系统510。作为示例而非限制,播放策略可以是视频编解码策略。作为示例而非限制,视频编解码策略可以包括固定码率系数(Constant RateFactor,CRF)。CRF是一种码率控制模式,可以控制视频编码器的输出质量。CRF值设置越低,输出视频的质量(码率)也就越高,反之亦同。作为示例而非限制,可以使用FFmpeg工具来设置CRF。作为示例而非限制,视频编解码策略可以包括视频编码量化参数(QuantizationParameter,QP)。QP反映了图像空间细节压缩情况,QP值越小,量化越精细,图像质量越高,反之亦同。
作为示例而非限制,播放策略可以包括卡顿、第一帧耗时、画面撕裂、画面延迟等。这里的卡顿可以包括卡顿的次数和/或卡顿的位置。卡顿是指视频播放过程中出现画面滞帧。这里的第一帧耗时是指在第一次点击视频播放后,用户肉眼看到画面之前所等待的时间。这里的画面撕裂可以包括画面撕裂的次数和/或画面撕裂的位置。画面撕裂是指显示器把两个或更多的帧显示在同一画面上。画面延迟是指显示器显示连续两帧之间的时间间隔,画面延迟与显示器的刷新率有关。显示器的刷新率越高,在一秒内屏幕上可以显示的帧数也越多,画面延迟也越低。
作为示例而非限制,播放策略还可以包括视频分辨率。视频分辨率是指一个视频图像在单位尺寸包含的像素点数目,像素点越多就越清晰,反之则清晰度越低。作为示例而非限制,视频分辨率可以包括360p、720p、1080p、4K、HDR等。
为了测试不同的视频播放策略对QoE的影响,可以在视频分发系统510中创建测试项目。示例性地,为了测试不同的视频分辨率对QoE的影响,可以分别创建以下三个测试项目:
视频标题 视频ID 视频分辨率
#视频1 45244425 4K超清
#视频1 45244425 720p高清
#视频1 45244425 360p流畅
视频分发系统510可以向移动终端506下发三个视频,这三个视频所配置的视频分辨率分别为“4K超清”、“720p高清”、“360p流畅”。通过这种方式,可以完成不同的视频分辨率对QoE的影响的测试任务。
在604处,基于所述播放策略播放所述视频。移动终端506可以根据配置的播放策略进行视频播放。
在606处,接收用户对所述视频的评价结果。作为示例而非限制,评价结果可以是用户对视频质量或性能的主观评价。例如,评价结果可以为用户对视频清晰度的主观评价。再例如,评价结果可以为用户对视频画质的主观评价。通过收集用户的评价结果,可以采集到QoE数据以供机器学习模型训练使用。
根据本公开实施例提供的由移动终端执行的方法,可以快速、准确地采集用户评价数据以供机器学习模型训练使用。
作为示例而非限制,606处的评价结果可以为QoE打分数据。作为示例而非限制,打分数据的范围为0-5分且0.5分为一档。例如,0-2分对应的QoE为体验较差,2.5-3.5分对应的QoE为体验一般,4-5分对应的QoE为体验较好。
图7示出了根据本公开实施例的由移动终端执行的方法的示例流程示意图。图7的过程可以由图5的移动终端506来执行。在702处,接收服务端发送的视频以及为所述视频配置的播放策略。702处与602处基本相同,这里不再赘述。在704处,基于所述播放策略播放所述视频。704处与604处基本相同,这里不再赘述。在706处,接收用户对所述视频的评价结果。706处与606处基本相同,这里不再赘述。
在708处,向服务端发送所述视频的评价结果以使所述服务端执行:判断所述评价结果的有效性;以及根据所述视频的有效评价结果,确定所述视频的QoE标签。视频分发系统510可以为同一视频配置多个播放方案。例如,针对#视频1,在视频分发系统510上可以创建以下三个测试项目:
视频标题 视频ID 视频分辨率
#视频1 45244425 4K超清
#视频1 45244425 760p高清
#视频1 45244425 360p流畅
因此针对同一视频,视频分发系统510可以回收多个评价结果。为了剔除无效的评价结果(例如不是基于用户真实的主观感受的QoE数据),可以检测视频的评价结果是否为异常值。作为示例而非限制,可以通过预定的概率分布模型检测出每个视频的异常评价结果和/或具有较多异常评价结果的用户。在得到每个视频的所有有效评价结果后,可以通过预设的算法确定视频的最终评价结果。作为示例而非限制,可以通过对每个视频的有效打分数据取平均,得到每个视频的平均QoE得分,作为该视频的标签以供机器学习模型训练使用。
图8示出了根据本公开实施例的对视频的用户体验质量进行评价的方法的一个示例的流程示意图。如图8所示,在802处,获取视频的内容特征和QoS特征,其中,所述QoS特征包括视频卡顿特征、视频分辨率特征、视频编码方式特征中的至少一个。视频(例如流媒体视频)的用户QoE主要受到QoS和视频内容两个方面的影响,QoS主要指网络传输层面上的性能,如丢包、初始加载、卡顿事件和码率切换等,视频内容则主要指视频本身的特征,涉及视频感知质量、视频时空复杂度和内容新颖程度等。作为示例而非限制,视频的内容特征可以包括视频感知质量(又称视频质量)评价结果。作为示例而非限制,视频质量评价结果可以是由预训练的视频QA模型预测的质量评价结果。作为示例而非限制,视频质量评价结果可以是由本公开的视频QA模型400预测的质量评价结果。作为示例而非限制,视频的内容特征可以包括空间复杂度(Spatial perceptual Information,SI)特征和时间复杂度(Temporal perceptual Information,TI)特征。SI表征一帧图像的空间细节量,空间上越复杂的场景,SI值越高。TI表征视频序列的时间变化量,运动程度越高的序列会有更高的TI值。SI的计算方法可以是对第n个视频帧进行Sobel滤波,然后对滤波后图像计算标准差,之后从所有的视频帧中选择SI的最大值。TI计算方法可以是计算第n个视频帧与第n-1个视频帧的帧差,然后对帧差图像计算标准差,之后从所有的视频帧中选择TI的最大值。
作为示例而非限制,QoS特征可以包括视频卡顿特征。作为示例而非限制,可以对视频序列的所有卡顿位置及时长进行特征提取。作为示例而非限制,视频卡顿特征包括以下中的至少一项:首帧卡顿时间、卡顿次数、卡顿位置、卡顿时长、平均卡顿时长、平均卡顿位置、最后一次卡顿位置、总卡顿占比、最长单次卡顿占比。这里的总卡顿占比是指总卡顿时长在视频总时长中的占比。这里的最长单次卡顿占比是指卡顿时长最长的卡顿在所有卡顿中的占比。据此,本实施例挖掘了更多潜在的QoS特征。作为示例而非限制,可以采用特征工程提取视频卡顿特征。特征工程,是指用一系列工程化的方式从原始数据中筛选出需要的数据特征,以提升模型的训练效果。作为示例而非限制,可以采用脚本的方式提取视频卡顿特征。脚本(script)是使用一种特定的描述性语言,依据一定的格式编写的可执行文件,又称作宏或批处理文件,通过执行脚本可以获取视频序列的卡顿位置和时长。例如,通过执行脚本可以获取用户日志、分析并计算视频卡顿特征。
作为示例而非限制,QoS特征还可以包括视频分辨率特征。作为示例而非限制,QoS特征还可以包括视频编码方式特征。视频编码方式可以包括例如CRF、QP等。视频分辨率特征和视频编码方式特征均可以通过特征工程的方式或脚本的方式获取。
在804处,利用第一机器学习模型,将所述内容特征和所述QoS特征映射为所述视频的QoE评价结果。这里的第一机器学习模型可以是训练好的任意ANN。作为示例而非限制,第一机器学习模型的训练过程可以为:将视频的内容特征和QoS特征作为ANN的输入,将根据本公开的由移动终端执行的方法收集到的该视频的QoE得分作为ANN的预期输出,训练ANN。ANN的训练方法本文已经结合图1进行了描述,这里不再赘述。
本公开中的第一机器学习模型至少具有以下优势之一:
(1):QoS特征不仅包括基于卡顿事件提取的视频卡顿特征,还包括视频分辨率特征和/或视频编码方式特征等更多特征,QoS特征较为全面、完善。
(2):用于计算视频质量评价结果的视频QA模型采用的是本公开中的视频QA模型400,其预测的结果与人的主观感知高度一致,因此视频内容特征更加准确。
根据本公开实施例的对视频的用户体验质量进行评价的方法,可以有效地预测用户体验质量。
作为示例而非限制,第一机器学习模型可以为支持向量回归(Support VectorRegression,SVR)模型。支持向量机(Support Vector Machine,SVM)是具有相关学习算法的监督学习模型,用于分析用于分类和回归的数据。SVR是一种监督学习算法,用于预测离散值。SVR使用与SVM相同的原理,其基本思想是找到最佳拟合线。
图9示出了根据本公开实施例的对视频的用户体验质量进行评价的方法的一个示例的流程示意图。如图9所示,在902处,利用第一神经网络模型,获取所述视频的多个片段的VQ评价结果,其中,所述多个VQ评价结果为时间序列数据。作为示例而非限制,第一神经网络模型可以是本公开中的视频QA模型400。具体而言,可以利用图4中虚线框内的视频QA模型架构,获取视频的多个片段的VQ评价结果。例如,视频片段1和视频帧1(视频帧1可以是视频片段1的首帧)的VQ评价结果为质量评价结果1,视频片段2和视频帧2(视频帧2可以是视频片段2的首帧)的VQ评价结果为质量评价结果2,以此类推;因此针对视频的n个视频片段可以得到n个质量评价结果。时间序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。在该示例中,根据视频序列的先后顺序可以将多个VQ评价结果组成时间序列。具体而言,例如在图4中所示,视频帧1、视频帧2、…、视频帧n分别为视频在时刻1、时刻2、…、时刻n的一帧图像,因此质量评价结果1、质量评价结果2、…、质量评价结果n即为时间序列数据。
在904处,获取所述视频的所述多个片段的服务质量(Quality of Service,QoS)特征,其中,所述多个QoS特征为时间序列数据。作为示例而非限制,可以采用脚本的方式提取视频片段的QoS特征。例如,通过执行脚本可以获取用户日志、分析并计算视频片段的QoS特征。在该示例中,根据视频序列的先后顺序可以将多个视频片段的QoS特征组成时间序列。具体而言,例如在图4中所示,视频帧1、视频帧2、…、视频帧n分别为视频在时刻1、时刻2、…、时刻n的一帧图像,因此视频帧1(例如其为视频片段1的第一帧)和视频片段1的QoS特征、视频帧2(例如其为视频片段2的第一帧)和视频片段2的QoS特征、…、视频帧n(例如其为视频片段n的第一帧)和视频片段n的QoS特征即为时间序列数据。
作为示例而非限制,视频片段的QoS特征包括视频卡顿特征、视频分辨率特征、视频编码方式特征中的至少一个。关于视频分辨率特征、视频编码方式特征可以参见上文的相关描述,这里不再赘述。作为示例而非限制,所述视频卡顿特征包括以下至少一项:是否处于卡顿、已发生卡顿次数、已发生卡顿总时间、距上次卡顿时间。这里的“是否处于卡顿”可以指视频片段中的一帧(例如图4中的视频帧1、视频帧2、…、视频帧n)是否处于卡顿。这里的“已发生卡顿次数”可以指视频片段中已发生卡顿的总次数。这里的“已发生卡顿总时间”是指视频片段(例如图4中的视频片段1、视频片段2、…、视频片段n)中已发生卡顿的总时长。据此,本实施例挖掘了更多潜在的QoS特征。
在906处,利用第二神经网络模型,将所述多个VQ评价结果和所述多个QoS特征映射为所述视频的QoE评价结果。这里的第二神经网络模型可以是训练好的任意具有记忆功能的ANN。作为示例而非限制,第二神经网络模型的训练过程可以为:将视频的多个片段的VQ评价结果和QoS特征作为具有记忆功能的ANN的输入,该多个VQ评价结果和该多个QoS特征为时间序列数据,将根据本公开的由移动终端执行的方法收集到的该视频的QoE得分作为具有记忆功能的ANN的预期输出,训练ANN。ANN的训练方法本文已经结合图1进行了描述,这里不再赘述。作为示例而非限制,第二神经网络模型为循环神经网络(RNN)回归模型。
本公开中的第二神经网络模型至少具有以下优势之一:
(1):QoS特征不仅包括基于卡顿事件提取的视频卡顿特征,还包括视频分辨率特征和/或视频编码方式特征等更多特征,QoS特征较为全面、完善。
(2):用于计算视频质量评价结果的视频QA模型采用的是本公开中的视频QA模型400,其预测的结果与人的主观感知高度一致,因此VQ评价结果更加准确。
(3):第二神经网络模型具有记忆功能,因此模型可以更加有效地提取与时间相关的QoS特征。
根据本公开实施例的对视频的用户体验质量进行评价的方法,可以有效地预测用户体验质量。
图10示出了根据本公开的第二神经网络模型1000的一个示例的架构图。下面参考图10进行说明。
第二神经网络模型1000的输入为时刻1、时刻2、…、时刻T的VQ评价结果和QoS特征。VQ评价结果可以由本公开中的视频QA模型400来确定。时刻1的VQ评价结果和QoS特征可以作为RNN在时刻1的输入;时刻2的VQ评价结果和QoS特征以及RNN在时刻1的输出可以作为RNN在时刻2的输入;…,时刻T的VQ评价结果和QoS特征以及RNN在时刻T-1的输出可以作为RNN在时刻T的输入。RNN在时刻1的输出特征记为“RNN特征时刻1”,RNN在时刻2的输出特征记为“RNN特征时刻2”,…,RNN在时刻T的输出特征记为“RNN特征时刻T”。之后,可以将时刻1、时刻2、…、时刻T的RNN特征输入池化层进行池化操作。作为示例而非限制,池化层可以进行平均池化操作。同时,可以将时刻1、时刻2、…、时刻T的3D CNN特征输入池化层进行池化操作。作为示例而非限制,池化层可以进行平均池化操作。然后,可以将池化后的3D CNN特征和池化后的RNN特征进行特征融合,输入至回归模块。回归模块将融合后的3D CNN特征和RNN特征回归成最终的QoE分数。这里的回归模块可以采用本文所描述的ANN(又称多层感知机(MLP,Multilayer Perceptron))架构的至少一部分。
图11示出了根据本公开的第二神经网络模型1000中的回归模块1100的一个示例的架构图。下面参考图11进行说明。
池化后的3D CNN特征可以输入至全连接层以实现降维。之后,将降维后的3D CNN特征与池化后的RNN特征进行特征融合。最后,将融合后的特征输入至全连接层以进一步实现降维并输出最终的QoE分数。
本公开中的第二神经网络模型1000至少还具有以下优势:
通过将反映视频内容语义信息或者运动信息的3D CNN特征进行特征融合,可以使用户QoE模型结合视频高层次的语义特征,从而更加有效地预测用户体验质量。
作为示例而非限制,第二神经网络模型1000中的RNN为门控循环单元(GateRecurrent Unit,GRU)。
图12示出了根据本公开实施例的对视频的用户体验质量(Quality ofExperience,QoE)进行评价的装置的示例性框图。如图12所示,该对视频的用户体验质量进行评价的装置,包括:获取模块1201,其配置为获取视频的内容特征和服务质量(Qualityof Service,QoS)特征,其中,所述QoS特征包括视频卡顿特征、视频分辨率特征、视频编码方式特征中的至少一个,所述视频卡顿特征包括首帧卡顿时间、卡顿次数、卡顿位置、卡顿时长、平均卡顿时长、平均卡顿位置、最后一次卡顿位置、总卡顿占比、最长单次卡顿占比中的至少一项;以及映射模块1202,其配置为利用第一机器学习模型,将所述内容特征和所述QoS特征映射为所述视频的QoE评价结果。
根据本公开实施例的对视频的用户体验质量进行评价的装置,可以有效地预测用户体验质量。
应当理解,图12中所示的对视频的用户体验质量进行评价的装置1200的各个模块可以与参考图8描述的方法800中的各个步骤相对应。由此,上面针对方法800描述的操作、特征和优点同样适用于视频质量的评价装置1200及其所包括的模块。为了简洁起见,某些操作、特征和优点在此不再赘述。
在一些实施例中,对视频的用户体验质量进行评价的装置1200还包括:训练模块,其配置为基于视频的内容特征和QoS特征以及所述视频的QoE评价结果,训练所述第一机器学习模型。
在一些实施例中,所述训练模型包括:访问模块,其配置为访问用于所述第一机器学习模型的训练样本集中的训练样本,其中,所述用于所述第一机器学习模型的训练样本包括视频的内容特征和QoS特征以及所述视频的目标QoE评价结果;应用模块,其配置为利用所述第一机器学习模型,生成所述视频的QoE评价结果;以及更新模块,其配置为基于所述目标QoE评价结果和所述QoE评价结果之间的比较,更新所述第一机器学习模型。
在一些实施例中,所述第一机器学习模型为支持向量回归(Support VectorRegression,SVR)模型。
在一些实施例中,所述QoE评价结果为QoE分数。
在一些实施例中,所述视频的内容特征包括视频质量(Video Quality,VQ)评价结果。
在一些实施例中,所述视频的内容特征还包括空间复杂度(Spatial perceptualInformation,SI)特征和时间复杂度(Temporal perceptual Information,TI)特征。
在一些实施例中,所述获取模块1201包括:调整模块,其配置为调整所述视频的分辨率,得到多个输入视频;第一生成模块,其配置为利用第二机器学习模型,分别生成所述输入视频的VQ评价结果;以及第二生成模块,其配置为基于多个所述VQ评价结果,生成所述视频的VQ评价结果。
在一些实施例中,所述第二机器学习模型包括视频帧提取模块,所述视频帧提取模块用于提取所述输入视频的片段以及提取所述输入视频的片段中的帧。
在一些实施例中,所述第二机器学习模型包括特征提取模块,所述特征提取模块包括用于提取所述输入视频的片段中的帧的空域特征的第一卷积神经网络,所述特征提取模块包括用于提取所述输入视频的片段的时域特征的第二卷积神经网络,其中,所述第一卷积神经网络采用端到端的方式进行训练。
在一些实施例中,所述机器学习模型包括回归模块,所述回归模块包括用于将所述视频帧提取模块提取的视频帧的特征回归成VQ评价结果的人工神经网络。
在一些实施例中,所述机器学习模型包括池化模块,所述池化模块包括用于将多个所述VQ评价结果池化为所述输入视频的VQ评价结果的池化层。
在一些实施例中,所述第一卷积神经网络为二维卷积神经网络,所述第二卷积神经网络为三维卷积神经网络。
在一些实施例中,所述第二卷积神经网络为采用已知的动作识别数据集预训练的三维卷积神经网络。
在一些实施例中,所述第二生成模块进一步配置为:对多个所述VQ评价结果进行加权平均,得到所述视频的VQ评价结果。
在一些实施例中,所述VQ评价结果为VQ分数。
图13示出了根据本公开实施例的对视频的用户体验质量(Quality ofExperience,QoE)进行评价的装置的示例性框图。如图13所示,该对视频的用户体验质量进行评价的装置,包括:第一获取模块1301,其配置为利用第一神经网络模型,获取所述视频的多个片段的视频质量(Video Quality,VQ)评价结果,其中,所述多个VQ评价结果为时间序列数据,所述QoS特征包括视频卡顿特征、视频分辨率特征、视频编码方式特征中的至少一个,所述视频卡顿特征包括是否处于卡顿、已发生卡顿次数、已发生卡顿总时间、距上次卡顿时间中的至少一项;第二获取模块1302,其配置为获取所述视频的所述多个片段的服务质量(Quality of Service,QoS)特征,其中,所述多个QoS特征为时间序列数据;以及映射模块1303,其配置为利用第二神经网络模型,将所述多个VQ评价结果和所述多个QoS特征映射为所述视频的QoE评价结果。
根据本公开实施例的对视频的用户体验质量进行评价的装置,可以有效地预测用户体验质量。
应当理解,图13中所示的对视频的用户体验质量进行评价的装置1300的各个模块可以与参考图9描述的方法900中的各个步骤相对应。由此,上面针对方法900描述的操作、特征和优点同样适用于视频质量的评价装置1300及其所包括的模块。为了简洁起见,某些操作、特征和优点在此不再赘述。
在一些实施例中,所述第一神经网络模型包括用于提取所述视频的片段中的帧的空域特征的第一卷积神经网络,所述第一神经网络模型包括用于提取所述视频的片段的时域特征的第二卷积神经网络,其中,所述第一卷积神经网络采用端到端的方式进行训练。
在一些实施例中,所述第一神经网络模型还包括用于将所述片段中的帧的空域特征和所述片段的时域特征回归成所述片段的VQ评价结果的人工神经网络。
在一些实施例中,所述第二神经网络模型为循环神经网络(RNN)回归模型。
在一些实施例中,所述RNN回归模型包括特征提取模块,所述特征提取模块包括用于提取每个所述片段的所述VQ评价结果和所述QoS特征的特征的RNN。
在一些实施例中,所述RNN回归模型包括特征融合模块,所述特征融合模块包括用于将所述片段的时域特征和所述特征提取模块所提取的特征进行融合的神经网络结构。
在一些实施例中,所述RNN回归模型包括第一池化模块,所述第一池化模块包括用于将所述多个片段的时域特征进行池化的池化层。
在一些实施例中,所述RNN回归模块包括第二池化模块,所述第二池化模块包括用于将所述特征提取模块提取的特征进行池化的池化层。
在一些实施例中,所述RNN回归模块包括回归模块,所述回归模块包括用于将所述特征融合模块输出的特征回归成所述视频的QoE评价结果的人工神经网络。
在一些实施例中,所述特征提取模块中的RNN为门控循环单元(Gate RecurrentUnit,GRU)。
在一些实施例中,所述第一卷积神经网络为二维卷积神经网络,所述第二卷积神经网络为三维卷积神经网络。
在一些实施例中,所述第二卷积神经网络为采用已知的动作识别数据集预训练的三维卷积神经网络。
在一些实施例中,对视频的用户体验质量进行评价的装置1300还包括:训练模块,其配置为基于视频的多个片段的VQ评价结果和QoS特征以及所述视频的QoE评价结果,训练所述第二神经网络模型,其中,所述多个VQ评价结果和所述多个QoS特征为时间序列数据。
在一些实施例中,所述训练模块包括:访问模块,其配置为访问用于所述第二神经网络模型的训练样本集中的训练样本,其中,所述用于所述第二神经网络模型的训练样本包括视频的多个片段的VQ评价结果和QoS特征以及所述视频的目标QoE评价结果,其中,所述多个VQ评价结果和所述多个QoS特征为时间序列数据;应用模块,其配置为利用所述第二神经网络模型,生成所述视频的QoE评价结果;以及更新模块,其配置为基于所述目标QoE评价结果和所述QoE评价结果之间的比较,更新所述第二神经网络模型。
在一些实施例中,所述VQ评价结果为VQ分数。
在一些实施例中,所述QoE评价结果为QoE分数。
图14示出了示例计算机系统1400。在特定实施例中,一个或多个计算机系统1400执行本文描述或示出的一个或多个方法的一个或多个步骤。在特定实施例中,一个或多个计算机系统1400提供本文描述或示出的功能。在特定实施例中,在一个或多个计算机系统1400上运行的软件执行本文描述或示出的一个或多个方法的一个或多个步骤,或者提供本文描述或示出的功能。特定实施例包括一个或多个计算机系统1400中的一个或多个部分。本文中在适当的情况下,“计算机系统”可以包括计算设备,反之亦然。此外,在适当的情况下,“计算机系统”可以包括一个或多个计算机系统。
本公开包括任何合适数量的计算机系统1400。本公开包括采用任何合适的物理形式的计算机系统1400。作为示例而非限制,计算机系统1400可以是嵌入式计算机系统、片上系统(SOC)、单板计算机系统(SBC)(例如,计算机模块(Computer-On-Module,COM)或系统模块(System-On-Module,SOM))、台式计算机系统、膝上型或笔记本计算机系统、交互式信息亭、主机、计算机系统网、移动电话、个人数字助理(PDA)、服务器、平板计算机系统或这些中的组合。在适当的情况下,计算机系统1400可以包括一个或多个计算机系统1400;可以为集中式的或分布式的;可以横跨多个位置;可以横跨多台机器;可以横跨多个数据中心;或者可以驻留在云中,其可以包括一个或多个网络中的一个或多个云组件。在适当的情况下,一个或多个计算机系统1400可以执行本文描述或示出的一个或多个方法的一个或多个步骤,而没有实质的空间或时间限制。作为示例而非限制,一个或多个计算机系统1400可以实时或以批处理模式执行本文描述或示出的一个或多个方法的一个或多个步骤。在适当的情况下,一个或多个计算机系统1400可以在不同的时间或不同的位置执行本文描述或示出的一个或多个方法的一个或多个步骤。
在特定实施例中,计算机系统1400包括处理器1402、内存1404、硬盘1406、输入/输出(I/O)接口1408、通信接口1410和总线1412。尽管本公开描述并示出的特定计算机系统具有特定数量的特定组件,且这些组件以特定的方式布置,但是本公开也包括具有任何适当数量的任何适当组件的任何适当计算机系统,且这些组件可以以任何适当的方式布置。
在特定实施例中,处理器1402包括用于执行指令(例如构成计算机程序的指令)的硬件。作为示例而非限制,为了执行指令,处理器1402可以从内部寄存器、内部缓存、内存1404或硬盘1406中检索(或获取)指令;解码并执行该指令;然后将一个或多个结果写入内部寄存器、内部缓存、内存1404或硬盘1406。在特定实施例中,处理器1402可以包括用于数据、指令或地址的一个或多个内部缓存。本公开包括处理器1402在适当的情况下包括任何适当数量的任何适当的内部缓存。作为示例而非限制,处理器1402可以包括一个或多个指令缓存以及一个或多个数据缓存。指令缓存中的指令可以是内存1404或硬盘1406中的指令的副本,并且指令缓存可以加速处理器1402对这些指令的检索。数据缓存中的数据可以是内存1404或硬盘1406中的数据的副本,用以由在处理器1402处执行的指令操作;可以是在处理器1402处执行的先前指令的结果,用以由在处理器1402处执行的后续指令访问或写入内存1404或硬盘1406;或可以是其他合适的数据。数据缓存可以加速处理器1402的读或写操作。在特定实施例中,处理器1402可以包括用于数据、指令或地址的一个或多个内部寄存器。本公开包括处理器1402在适当的情况下包括任何适当数量的任何适当的内部寄存器。在适当的情况下,处理器1402可以包括一个或多个算术逻辑单元(Arithmetic LogicUnit,ALU);是多核处理器;或者包括一个或多个处理器1402。尽管本公开描述并示出了特定的处理器,但是本公开也包括任何合适的处理器。
在特定实施例中,内存1404包括主内存,用于存储由处理器1402执行的指令或由处理器1402操作的数据。作为示例而非限制,计算机系统1400可以将指令从硬盘1406或另一个源(例如,另一个计算机系统1400)加载到内存1404。处理器1402然后可以将指令从内存1404加载到内部寄存器或内部缓存。为了执行指令,处理器1402可以从内部寄存器或内部缓存中检索指令并解码。在指令执行期间或之后,处理器1402可以将一个或多个结果(可以是中间或最终结果)写入内部寄存器或内部缓存。处理器1402然后可以将这些结果中的一个或多个写入内存1404。在特定实施例中,处理器1402仅执行一个或多个内部寄存器或内部缓存或内存1404(与硬盘1406或其他源相反)中的指令,并且仅对一个或多个内部寄存器或内部缓存或内存1404(与硬盘1406或其他源相反)中的数据进行操作。一个或多个内存总线(每个内存总线可以包括地址总线和数据总线)可以将处理器1402耦合到内存1404。如下所述,总线1412可以包括一个或多个内存总线。在特定实施例中,一个或多个内存管理单元(Memory Management Unit,MMU)驻留在处理器1402和内存1404之间,并方便处理器1402所请求的对内存1404的访问。在特定实施例中,内存1404包括随机存取存储器(RandomAccess Memory,RAM)。在适当的情况下,该RAM可以是易失性存储器。在适当的情况下,该RAM可以是动态RAM(DRAM)或静态RAM(SRAM)。此外,在适当的情况下,该RAM可以是单端口或多端口RAM。本公开包括任何合适的RAM。在适当的情况下,内存1404可以包括一个或多个内存1404。尽管本公开描述并示出了特定的内存,但是本公开也包括任何合适的内存。
在特定实施例中,硬盘1406包括用于数据或指令的大容量硬盘。作为示例而非限制,硬盘1406可以包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或这些中组合。在适当的情况下,硬盘1406可以包括可移动或不可移动(或固定)介质。在适当的情况下,硬盘1406可以在计算机系统1400的内部或外部。在特定实施例中,硬盘1406是非易失性固态存储器。在特定实施例中,硬盘1406包括只读存储器(Read-Only Memory,ROM)。在适当的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电改写ROM(EAROM)、闪存或这些中的组合。本公开包括采用任何合适的物理形式的大容量硬盘1406。在适当的情况下,硬盘1406可以包括一个或多个硬盘控制单元,以便于处理器1402和硬盘1406之间的通信。在适当的情况下,硬盘1406可以包括一个或多个硬盘1406。尽管本公开描述并示出了特定的硬盘,但是本公开也包括任何合适的硬盘。
在特定实施例中,I/O接口1408包括为计算机系统1400和一个或多个I/O设备之间的通信提供一个或多个接口的硬件、软件或两者。在适当的情况下,计算机系统1400可以包括一个或多个I/O设备。这些I/O设备中的一个或多个可以实现人和计算机系统1400之间的通信。作为示例而非限制,I/O设备可以包括键盘、键盘板、麦克风、监视器、鼠标、打印机、扫描器、扬声器、静态照相机、触笔、图形输入板、触摸屏、轨迹球、摄像机、其他合适的I/O设备或者这些设备中的组合。本公开包括任何合适的I/O设备和用于它们的任何合适的I/O接口1408。在适当的情况下,I/O接口1408可以包括一个或多个设备或软件驱动,使得处理器1402能够驱动这些I/O设备中的一个或多个。在适当的情况下,I/O接口1408可以包括一个或多个I/O接口1408。尽管本公开描述并示出了特定的I/O接口,但是本公开也包括任何合适的I/O接口。
在特定实施例中,通信接口1410包括为计算机系统1400和一个或多个其他计算机系统1400或一个或多个网络之间的通信(例如,基于分组的通信)提供一个或多个接口的硬件、软件或两者。作为示例而非限制,通信接口1410可以包括用于与以太网或其他有线网络进行通信的网络接口控制器(Network Interface Controller,NIC)或网络适配器,或者用于与诸如WI-FI网络的无线网络进行通信的无线NIC(WNIC)或无线适配器。本公开包括任何合适的网络及其任何合适的通信接口1410。作为示例而非限制,计算机系统1400可以与自组织网络、个人区域网(PAN)、局域网(LAN)、广域网(WAN)、城域网(MAN)或者互联网的一个或多个部分或者这些中的组合进行通信。一个或多个这些网络的一个或多个部分可以是有线的或无线的。作为示例,计算机系统1400可以与无线PAN(WPAN)(例如,蓝牙WPAN)、WI-FI网络、WI-MAX网络、蜂窝电话网络(例如,全球移动通信系统(GSM)网络)、或其他合适的无线网络或这些网络中的组合进行通信。在适当的情况下,计算机系统1400可以包括用于任何这些网络的任何合适的通信接口1410。在适当的情况下,通信接口1410可以包括一个或多个通信接口1410。尽管本公开描述并示出了特定的通信接口,但是本公开也包括任何合适的通信接口。
在特定实施例中,总线1412包括将计算机系统1400的组件彼此耦合的硬件、软件或两者。作为示例而非限制,总线1412可以包括加速图形接口(Accelerate GraphicalPort,AGP)或其他图形总线、扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线、前端总线(Front Side BUS,FSB)、超传输(HT)互连、工业标准体系结构(Industry Standard Architecture,ISA)总线、INFINIBAND互连、低引脚数(LowPin Count,LPC)总线、内存总线、微通道体系结构(Micro Channel Architecture,MCA)总线、外围组件互连(Peripheral Component Interconnect,PCI)总线、PCI-Express(PCIe)总线、串行高级技术附加装置(Serial Advanced Technology Attachment,SATA)、视频电子标准协会局域(Video Electronics Standards Association Local,VLB)总线或其他合适的总线或这些总线中的组合。在适当的情况下,总线1412可以包括一个或多个总线1412。尽管本公开描述并示出了特定的总线,但是本公开也包括任何合适的总线或互连。
在本文中,一个或多个计算机可读非暂时性存储介质可以包括一个或多个基于半导体的或其他集成电路(IC)(例如,现场可编程门阵列(FPGA)或专用IC(ASIC))、硬盘驱动器(HDD)、混合硬盘驱动器(HHD)、光盘、光盘驱动器(ODD)、磁光盘、磁光盘驱动器、软盘、软盘驱动器(FDD)、磁带、固态驱动器(SSD)、RAM驱动器、任何其他合适的计算机可读非暂时性存储介质。计算机可读非暂时性存储介质可以是易失性的、非易失性的或者易失性和非易失性的组合。

Claims (40)

1.一种对视频的用户体验质量(Quality of Experience,QoE)进行评价的方法,包括:
获取视频的内容特征和服务质量(Quality of Service,QoS)特征,其中,所述QoS特征包括视频卡顿特征、视频分辨率特征、视频编码方式特征中的至少一个,所述视频卡顿特征包括首帧卡顿时间、卡顿次数、卡顿位置、卡顿时长、平均卡顿时长、平均卡顿位置、最后一次卡顿位置、总卡顿占比、最长单次卡顿占比中的至少一项;以及
利用第一机器学习模型,将所述内容特征和所述QoS特征映射为所述视频的QoE评价结果。
2.根据权利要求1所述的方法,还包括:
基于视频的内容特征和QoS特征以及所述视频的QoE评价结果,训练所述第一机器学习模型。
3.根据权利要求2所述的方法,其中,所述训练所述第一机器学习模型包括:
访问用于所述第一机器学习模型的训练样本集中的训练样本,其中,所述用于所述第一机器学习模型的训练样本包括视频的内容特征和QoS特征以及所述视频的目标QoE评价结果;
利用所述第一机器学习模型,生成所述视频的QoE评价结果;以及
基于所述目标QoE评价结果和所述QoE评价结果之间的比较,更新所述第一机器学习模型。
4.根据权利要求1所述的方法,其中,所述第一机器学习模型为支持向量回归(SupportVector Regression,SVR)模型。
5.根据权利要求1所述的方法,其中,所述QoE评价结果为QoE分数。
6.根据权利要求1所述的方法,其中,所述视频的内容特征包括视频质量(VideoQuality,VQ)评价结果。
7.根据权利要求6所述的方法,其中,所述视频的内容特征还包括空间复杂度(Spatialperceptual Information,SI)特征和时间复杂度(Temporal perceptual Information,TI)特征。
8.根据权利要求6所述的方法,其中,所述获取VQ评价结果包括:
调整所述视频的分辨率,得到多个输入视频;
利用第二机器学习模型,分别生成所述输入视频的VQ评价结果;以及
基于多个所述VQ评价结果,生成所述视频的VQ评价结果。
9.根据权利要求8所述的方法,其中,所述第二机器学习模型包括视频帧提取模块,所述视频帧提取模块用于提取所述输入视频的片段以及提取所述输入视频的片段中的帧。
10.根据权利要求9所述的方法,其中,所述第二机器学习模型包括特征提取模块,所述特征提取模块包括用于提取所述输入视频的片段中的帧的空域特征的第一卷积神经网络,所述特征提取模块包括用于提取所述输入视频的片段的时域特征的第二卷积神经网络,其中,所述第一卷积神经网络采用端到端的方式进行训练。
11.根据权利要求9所述的方法,其中,所述机器学习模型包括回归模块,所述回归模块包括用于将所述视频帧提取模块提取的视频帧的特征回归成VQ评价结果的人工神经网络。
12.根据权利要求11所述的方法,其中,所述机器学习模型包括池化模块,所述池化模块包括用于将多个所述VQ评价结果池化为所述输入视频的VQ评价结果的池化层。
13.根据权利要求10所述的方法,其中,所述第一卷积神经网络为二维卷积神经网络,所述第二卷积神经网络为三维卷积神经网络。
14.根据权利要求13所述的方法,其中,所述第二卷积神经网络为采用已知的动作识别数据集预训练的三维卷积神经网络。
15.根据权利要求8所述的方法,其中,所述基于多个所述VQ评价结果,生成所述视频的VQ评价结果包括:
对多个所述VQ评价结果进行加权平均,得到所述视频的VQ评价结果。
16.根据权利要求8-15任一项所述的方法,其中,所述VQ评价结果为VQ分数。
17.一种对视频的用户体验质量(Quality of Experience,QoE)进行评价的方法,包括:
利用第一神经网络模型,获取所述视频的多个片段的视频质量(Video Quality,VQ)评价结果,其中,所述多个VQ评价结果为时间序列数据;
获取所述视频的所述多个片段的服务质量(Quality of Service,QoS)特征,其中,所述多个QoS特征为时间序列数据,所述QoS特征包括视频卡顿特征、视频分辨率特征、视频编码方式特征中的至少一个,所述视频卡顿特征包括是否处于卡顿、已发生卡顿次数、已发生卡顿总时间、距上次卡顿时间中的至少一项;以及
利用第二神经网络模型,将所述多个VQ评价结果和所述多个QoS特征映射为所述视频的QoE评价结果。
18.根据权利要求17所述的方法,其中,所述第一神经网络模型包括用于提取所述视频的片段中的帧的空域特征的第一卷积神经网络,所述第一神经网络模型包括用于提取所述视频的片段的时域特征的第二卷积神经网络,其中,所述第一卷积神经网络采用端到端的方式进行训练。
19.根据权利要求18所述的方法,所述第一神经网络模型还包括用于将所述片段中的帧的空域特征和所述片段的时域特征回归成所述片段的VQ评价结果的人工神经网络。
20.根据权利要求17所述的方法,其中,所述第二神经网络模型为循环神经网络(RNN)回归模型。
21.根据权利要求20所述的方法,其中,所述RNN回归模型包括特征提取模块,所述特征提取模块包括用于提取每个所述片段的所述VQ评价结果和所述QoS特征的RNN。
22.根据权利要求21所述的方法,其中,所述RNN回归模型包括特征融合模块,所述特征融合模块包括用于将所述片段的时域特征和所述特征提取模块所提取的特征进行融合的神经网络结构。
23.根据权利要求21所述的方法,其中,所述RNN回归模型包括第一池化模块,所述第一池化模块包括用于将所述多个片段的时域特征进行池化的池化层。
24.根据权利要求21或25所述的方法,其中,所述RNN回归模块包括第二池化模块,所述第二池化模块包括用于将所述特征提取模块提取的特征进行池化的池化层。
25.根据权利要求22所述的方法,其中,所述RNN回归模块包括回归模块,所述回归模块包括用于将所述特征融合模块输出的特征回归成所述视频的QoE评价结果的人工神经网络。
26.根据权利要求21所述的方法,其中,所述特征提取模块中的RNN为门控循环单元(Gate Recurrent Unit,GRU)。
27.根据权利要求18所述的方法,其中,所述第一卷积神经网络为二维卷积神经网络,所述第二卷积神经网络为三维卷积神经网络。
28.根据权利要求27所述的方法,其中,所述第二卷积神经网络为采用已知的动作识别数据集预训练的三维卷积神经网络。
29.根据权利要求17所述的方法,还包括:
基于视频的多个片段的VQ评价结果和QoS特征以及所述视频的QoE评价结果,训练所述第二神经网络模型,其中,所述多个VQ评价结果和所述多个QoS特征为时间序列数据。
30.根据权利要求29所述的方法,其中,所述训练所述第二神经网络模型包括:
访问用于所述第二神经网络模型的训练样本集中的训练样本,其中,所述用于所述第二神经网络模型的训练样本包括视频的多个片段的VQ评价结果和QoS特征以及所述视频的目标QoE评价结果,其中,所述多个VQ评价结果和所述多个QoS特征为时间序列数据;
利用所述第二神经网络模型,生成所述视频的QoE评价结果;以及
基于所述目标QoE评价结果和所述QoE评价结果之间的比较,更新所述第二神经网络模型。
31.根据权利要求17-30任一项所述的方法,其中,所述VQ评价结果为VQ分数。
32.根据权利要求17-30任一项所述的方法,其中,所述QoE评价结果为QoE分数。
33.一种对视频的用户体验质量(Quality of Experience,QoE)进行评价的装置,包括:
获取模块,其配置为获取视频的内容特征和服务质量(Quality of Service,QoS)特征,其中,所述QoS特征包括视频卡顿特征、视频分辨率特征、视频编码方式特征中的至少一个,所述视频卡顿特征包括首帧卡顿时间、卡顿次数、卡顿位置、卡顿时长、平均卡顿时长、平均卡顿位置、最后一次卡顿位置、总卡顿占比、最长单次卡顿占比中的至少一项;以及
映射模块,其配置为利用第一机器学习模型,将所述内容特征和所述QoS特征映射为所述视频的QoE评价结果。
34.一种对视频的用户体验质量(Quality of Experience,QoE)进行评价的装置,包括:
第一获取模块,其配置为利用第一神经网络模型,获取所述视频的多个片段的视频质量(Video Quality,VQ)评价结果,其中,所述多个VQ评价结果为时间序列数据,所述QoS特征包括视频卡顿特征、视频分辨率特征、视频编码方式特征中的至少一个,所述视频卡顿特征包括是否处于卡顿、已发生卡顿次数、已发生卡顿总时间、距上次卡顿时间中的至少一项;
第二获取模块,其配置为获取所述视频的所述多个片段的服务质量(Quality ofService,QoS)特征,其中,所述多个QoS特征为时间序列数据;以及
映射模块,其配置为利用第二神经网络模型,将所述多个VQ评价结果和所述多个QoS特征映射为所述视频的QoE评价结果。
35.一种计算机程序产品,包括程序代码指令,当所述程序产品由计算机执行时,所述程序代码指令使所述计算机执行权利要求1至16中的至少一项所述的方法。
36.一种计算机程序产品,包括程序代码指令,当所述程序产品由计算机执行时,所述程序代码指令使所述计算机执行权利要求17至32中的至少一项所述的方法。
37.一种存储有计算机指令的非暂时性计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至16中的至少一项所述的方法。
38.一种存储有计算机指令的非暂时性计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求17至32中的至少一项所述的方法。
39.一种计算机系统,包括:
处理器,
与所述处理器进行电子通信的存储器;以及
指令,所述指令存储在所述存储器中并且可由所述处理器执行以使所述计算机系统执行根据权利要求1至16中的至少一项所述的方法。
40.一种计算机系统,包括:
处理器,
与所述处理器进行电子通信的存储器;以及
指令,所述指令存储在所述存储器中并且可由所述处理器执行以使所述计算机系统执行根据权利要求17至32中的至少一项所述的方法。
CN202211226416.6A 2022-10-09 2022-10-09 对视频的用户体验质量进行评价的方案 Pending CN115905619A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211226416.6A CN115905619A (zh) 2022-10-09 2022-10-09 对视频的用户体验质量进行评价的方案

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211226416.6A CN115905619A (zh) 2022-10-09 2022-10-09 对视频的用户体验质量进行评价的方案

Publications (1)

Publication Number Publication Date
CN115905619A true CN115905619A (zh) 2023-04-04

Family

ID=86471627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211226416.6A Pending CN115905619A (zh) 2022-10-09 2022-10-09 对视频的用户体验质量进行评价的方案

Country Status (1)

Country Link
CN (1) CN115905619A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116743609A (zh) * 2023-08-14 2023-09-12 清华大学 一种基于语义通信的视频流媒体的QoE评估方法及装置
CN117241071A (zh) * 2023-11-15 2023-12-15 北京浩瀚深度信息技术股份有限公司 一种基于机器学习算法感知视频卡顿质差的方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116743609A (zh) * 2023-08-14 2023-09-12 清华大学 一种基于语义通信的视频流媒体的QoE评估方法及装置
CN116743609B (zh) * 2023-08-14 2023-10-17 清华大学 一种基于语义通信的视频流媒体的QoE评估方法及装置
CN117241071A (zh) * 2023-11-15 2023-12-15 北京浩瀚深度信息技术股份有限公司 一种基于机器学习算法感知视频卡顿质差的方法
CN117241071B (zh) * 2023-11-15 2024-02-06 北京浩瀚深度信息技术股份有限公司 一种基于机器学习算法感知视频卡顿质差的方法

Similar Documents

Publication Publication Date Title
CN110175580B (zh) 一种基于时序因果卷积网络的视频行为识别方法
CN109891897B (zh) 用于分析媒体内容的方法
CN109379550B (zh) 基于卷积神经网络的视频帧率上变换方法及系统
US20200104640A1 (en) Committed information rate variational autoencoders
CN115905619A (zh) 对视频的用户体验质量进行评价的方案
CN111143612B (zh) 视频审核模型训练方法、视频审核方法及相关装置
US11875558B2 (en) Methods and apparatus to generate temporal representations for action recognition systems
US11514694B2 (en) Teaching GAN (generative adversarial networks) to generate per-pixel annotation
CN113159073B (zh) 知识蒸馏方法及装置、存储介质、终端
CN114008663A (zh) 实时视频超分辨率
CN110751649B (zh) 视频质量评估方法、装置、电子设备及存储介质
US11062210B2 (en) Method and apparatus for training a neural network used for denoising
KR102523149B1 (ko) 부트스트래핑을 통한 지각 품질 모델 불확실성의 정량화
Pang et al. Towards low latency multi-viewpoint 360 interactive video: A multimodal deep reinforcement learning approach
CN111869220A (zh) 电子装置及其控制方法
KR102093577B1 (ko) 학습네트워크를 이용한 예측 영상 생성 방법 및 예측 영상 생성 장치
US11967150B2 (en) Parallel video processing systems
WO2022053523A1 (en) Training video data generation neural networks using video frame embeddings
CN113962965A (zh) 图像质量评价方法、装置、设备以及存储介质
CN116703857A (zh) 一种基于时空域感知的视频动作质量评价方法
Zou et al. STA3D: Spatiotemporally attentive 3D network for video saliency prediction
CN111177460A (zh) 提取关键帧的方法及装置
CN112966754B (zh) 样本筛选方法、样本筛选装置及终端设备
CN111726621B (zh) 一种视频转换方法及装置
US20220327663A1 (en) Video Super-Resolution using Deep Neural Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination