CN110958467B - 视频质量预测方法和装置及电子设备 - Google Patents

视频质量预测方法和装置及电子设备 Download PDF

Info

Publication number
CN110958467B
CN110958467B CN201911149140.4A CN201911149140A CN110958467B CN 110958467 B CN110958467 B CN 110958467B CN 201911149140 A CN201911149140 A CN 201911149140A CN 110958467 B CN110958467 B CN 110958467B
Authority
CN
China
Prior art keywords
video
classification
prediction
distortion
feature data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911149140.4A
Other languages
English (en)
Other versions
CN110958467A (zh
Inventor
李马丁
王斌
钱立辉
章佳杰
郑云飞
于冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Tsinghua University
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Beijing Dajia Internet Information Technology Co Ltd filed Critical Tsinghua University
Priority to CN201911149140.4A priority Critical patent/CN110958467B/zh
Publication of CN110958467A publication Critical patent/CN110958467A/zh
Application granted granted Critical
Publication of CN110958467B publication Critical patent/CN110958467B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本公开提供一种视频质量预测方法和装置及电子设备,包括:从视频流采集包括多个视频块的视频包,根据视频流标签确定视频包的失真分类标签或非失真分类标签;根据对视频包的标注结果确定视频包的评分值;将视频包的多个视频块作为训练数据输入分类预测模型,利用分类预测模型进行分类预测和评分值预测,以输出该视频包的失真分类标签、非失真分类标签和评分值为目标进行分类预测模型的参数调整;利用参数调整结束后得到的质量预测模型,对从待质量预测的视频流中采集的视频包进行分类预测和分数预测。本公开可以解决现有的视频质量评价方法不区分均匀失真和非均匀失真的问题,对于非均匀失真的视频质量评价结果更准确。

Description

视频质量预测方法和装置及电子设备
技术领域
本公开涉及视频质量预测技术领域,特别涉及一种视频质量预测方法和装置及电子设备。
背景技术
如今,视频在人类日常生活中变得越来越重要,各类视频需要一定的清晰度同时也要考虑带宽成本,因此视频压缩技术应用越来越广泛,视频压缩技术分为有损和无损压缩技术。
一方面,有损压缩技术不可避免地降低了视频质量;另一方面,网络传输错误,也会导致视频数据的某些部分出现数据错误。由于上述两方面的原因导致在视频传输场景下出现失真视频。
从海量的传输视频中检测出失真的视频,人工方式费时费力。视频质量专家组(Video Quality Experts Group,VQEG)提出了自动监测视频质量的算法,自动检测视频质量的算法如视频质量评价(Video Quality Assessment,VQA)算法逐渐得到应用。
现有的VQA方法可以分为三大类:全参考(Fully reference,FR)、半参考(ReducedReference,RR)和无参考(No Reference,NR)质量评价算法。在FR质量评价算法中,将原始视频作为参考视频进行对比;在NR质量评价算法,参考视频不可用,直接通过当前视频预测视频质量;RR质量评价算法则介于这两者之间。
FR和RR质量评价算法,由于需要借助参考视频因此对额外占用带宽或参考视频可能无法查找的原因,不适用于目前的海量视频数据的质量评价。而NR质量评价算法由于不需要任何关于参考视频的信息,被应用越来越广泛。
采用NR质量评价算法进行失真预测时,利用机器学习方法训练质量评价模型,在模型训练过程中,将带失真标签的视频和非视频标签的视频作为训练样本,对质量评价模型进行训练。
失真分为均匀失真类型和非均匀失真类型,均匀失真类型的视频各处的失真程度是几乎一致的,而非均匀失真的视频在不同帧、不同位置的失真程度各不相同,甚至存在清晰的部分。如图1所示为均匀失真图像与参考图像的对比图,图2中a和b为非均匀失真图像与参考图像的对比图,其中仅在图中标注的部分存在失真,其他区域为非失真区域。
但是目前的机器学习的方法都存在共同的问题,即训练过程中通常不区分均匀和非均匀的失真。在模型训练的过程中,会将采集的视频图像帧划分成视频块并打上对应的标签,目前的方式为简单的把整个视频图像帧的标签赋值给了每一个切割出的视频块。而对于非均匀失真类型的视频图像帧来说,每一个视频块和整个视频图像帧的标签并不等价,失真程度较少的失真视频图像帧往往包含一些清晰的视频块。这样就会导致训练数据产生歧义:来自失真视频的清晰块和来自清晰视频的清晰块共享了“清晰”的标签,这对于机器学习来说是致命的,会导致训练不稳定、不易收敛、预测性能降低等影响。
因此上述方式建立的质量评价模型在均匀失真的视频图像帧预测上表现良好,但是在非均匀失真的视频图像帧预测上效果比较差。
发明内容
本公开提供了一种视频质量预测方法和装置及电子设备,用以解决质量评价模型不区分均匀失真视频和费均匀失真视频,在均匀失真的视频图像帧预测上表现良好,但是在非均匀失真的视频图像帧预测上效果比较差的问题。
根据本公开实施例的第一方面,提供一种视频质量预测方法,该方法包括:
从视频流采集包括多个视频块的视频包,根据视频流标签确定所述视频包的失真分类标签或非失真分类标签;
根据对所述视频包的标注结果确定所述视频包的评分值;
将所述视频包的多个视频块作为训练数据输入分类预测模型,利用所述分类预测模型进行分类预测和评分值预测,以输出该视频包的失真分类标签、非失真分类标签和评分值为目标进行分类预测模型的参数调整;
利用参数调整结束后得到的质量预测模型,对从待质量预测的视频流中采集的视频包进行分类预测和分数预测。
可选地,利用所述分类预测模型进行分类预测和评分值预测,包括:
通过所述分类预测模型中的特征提取网络部分对各视频块进行特征数据提取;
通过所述分类预测模型中的评分网络部分,根据提取的特征数据进行分类预测和评分值预测。
可选地,以输出该视频包的失真分类标签、非失真分类标签和评分值为目标进行分类预测模型的参数调整,包括:
以输出该视频包的失真分类标签、非失真分类标签和评分值为目标,根据计算特征提取网络部分误差的第一损失函数,和计算评分网络部分误差的第二损失函数得到总的模型误差;
根据总的模型误差对特征提取网络部分和评分网络部分同时进行参数调整。
可选地,确定计算特征提取网络部分误差的第一损失函数,包括:
通过特征提取网络部分的网络分支获得视频包中的多个视频块及对应的参考视频块之间的参考均方差MSE,根据所述多个视频块的参考MSE确定第一损失函数的计算结果。
可选地,根据所述多个视频块的参考MSE确定第一损失函数的计算结果,包括:
根据所述多个视频块的参考MSE,确定所述多个视频块属于对应的不同失真程度标签的参考概率,所述不同失真程度标签包括至少3个失真程度;
通过归一化指数函数,根据特征提取网络部分提取的特征数据确定各视频块属于各失真程度标签的预测概率;
根据所述参考概率和预测概率确定各失真程度标签对应的真实概率,根据所述真实概率和预测概率计算预测交叉熵,得到第一损失函数的计算结果。
可选地,确定计算评分网络部分误差的第二损失函数,包括:
根据分类预测模型的分类预测的分类概率和分类标签,确定每个分类对应的真实概率;
根据所述每个分类对应的真实概率,及分类预测的分类概率计算预测交叉熵,并根据分类预测模型的评分值预测结果和评分值计算分数误差;
根据预测交叉熵和分数误差,得到第二损失函数的计算结果。
可选地,根据所述第一损失函数和第二损失函数得到总的模型误差,包括:
Loss=λ1*L12*L23*L2_loss
其中,Loss为总的模型误差,λ1,λ2和λ3为设置的损失权重,L1为所述第一损失函数的计算结果,L2为所述第二损失函数的计算结果,L2_loss为设置的正则项。
可选地,通过所述分类预测模型中的特征提取网络部分对各视频块进行特征数据提取,包括:
通过所述分类预测模型中的特征提取网络部分,对各视频块进行特征数据提取,得到视频包中的每个视频块对应的特征数据;
将得到的每个视频块对应的特征数据进行池化操作,得到该视频包的特征数据。
可选地,将得到的每个视频块对应的特征数据进行池化操作,得到该视频包的特征数据,包括:
从得到的每个视频块对应的不同位置的特征数据中,分别在不同位置提取最大的特征数据,得到该视频包的特征数据。
可选地,通过所述分类预测模型中的特征提取网络部分对各视频块进行特征数据提取,包括:
若所述视频包中的多个视频块为二维数据,通过所述分类预测模型中的特征提取网络部分,对各视频块进行空域的特征数据提取;或者
若所述视频包中的多个视频块为三维数据,通过所述分类预测模型中的特征提取网络部分,对各视频块进行空域的特征数据提取,及对各视频块进行时域的特征数据提取。
可选地,通过所述分类预测模型中的特征提取网络部分对各视频块进行特征数据提取,包括:
通过所述分类预测模型中的移动视觉应用(MobileNet V2)架构对各视频块进行特征数据提取。
根据本公开实施例的第二方面,提供一种视频质量预测装置,包括:
分类标签确定单元,被配置为执行从视频流采集包括多个视频块的视频包,根据视频流标签确定所述视频包的失真分类标签或非失真分类标签;
评分值确定单元,被配置为执行根据对所述视频包的标注结果确定所述视频包的评分值;
模型训练单元,被配置为执行将所述视频包的多个视频块作为训练数据输入分类预测模型,利用所述分类预测模型进行分类预测和评分值预测,以输出该视频包的失真分类标签、非失真分类标签和评分值为目标进行分类预测模型的参数调整;
预测单元,被配置为执行利用参数调整结束后得到的质量预测模型,对从待质量预测的视频流中采集的视频包进行分类预测和分数预测。
可选地,所述模型训练单元被配置为执行利用所述分类预测模型进行分类预测和评分值预测,具体用于:
通过所述分类预测模型中的特征提取网络部分对各视频块进行特征数据提取;
通过所述分类预测模型中的评分网络部分,根据提取的特征数据进行分类预测和评分值预测。
可选地,所述模型训练单元被配置为执行以输出该视频包的失真分类标签、非失真分类标签和评分值为目标进行分类预测模型的参数调整,具体用于:
以输出该视频包的分类标签和评分值为目标,根据计算特征提取网络部分误差的第一损失函数,和计算评分网络部分误差的第二损失函数得到总的模型误差;
根据总的模型误差对特征提取网络部分和评分网络部分同时进行参数调整。
可选地,所述模型训练单元被配置为确定计算特征提取网络部分误差的第一损失函数,具体用于:
通过特征提取网络部分的网络分支获得视频包中的多个视频块及对应的参考视频块之间的参考均方差MSE,根据所述多个视频块的参考MSE确定第一损失函数的计算结果。
可选地,所述模型训练单元被配置为根据所述多个视频块的参考MSE确定第一损失函数的计算结果,具体用于:
根据所述多个视频块的参考MSE,确定所述多个视频块属于对应的不同失真程度标签的参考概率,所述不同失真程度标签包括至少3个失真程度;
通过归一化指数函数,根据特征提取网络部分提取的特征数据确定各视频块属于各失真程度标签的预测概率;
根据所述参考概率和预测概率确定各失真程度标签对应的真实概率,根据所述真实概率和预测概率计算预测交叉熵,得到第一损失函数的计算结果。
可选地,所述模型训练单元被配置为确定计算评分网络部分误差的第二损失函数,具体用于:
根据分类预测模型的分类预测的分类概率和分类标签,确定每个分类对应的真实概率;
根据所述每个分类对应的真实概率,及分类预测的分类概率计算预测交叉熵,并根据分类预测模型的评分值预测结果和评分值计算分数误差;
根据预测交叉熵和分数误差,得到第二损失函数的计算结果。
可选地,所述模型训练单元被配置为根据所述第一损失函数和第二损失函数得到总的模型误差,包括:
Loss=λ1*L12*L23*L2_loss
其中,Loss为总的模型误差,λ1,λ2和λ3为设置的损失权重,L1为所述第一损失函数的计算结果,L2为所述第二损失函数的计算结果,L2_loss为设置的正则项。
可选地,所述模型训练单元被配置为通过所述分类预测模型中的特征提取网络部分对各视频块进行特征数据提取,具体用于:
通过所述分类预测模型中的特征提取网络部分,对各视频块进行特征数据提取,得到视频包中的每个视频块对应的特征数据;
将得到的每个视频块对应的特征数据进行池化操作,得到该视频包的特征数据。
可选地,所述模型训练单元被配置为将得到的每个视频块对应的特征数据进行池化操作,得到该视频包的特征数据,具体用于:
从得到的每个视频块对应的不同位置的特征数据中,分别在不同位置提取最大的特征数据,得到该视频包的特征数据。
可选地,所述模型训练单元被配置为通过所述分类预测模型中的特征提取网络部分对各视频块进行特征数据提取,具体用于:
若所述视频包中的多个视频块为二维数据,通过所述分类预测模型中的特征提取网络部分,对各视频块进行空域的特征数据提取;或者
若所述视频包中的多个视频块为三维数据,通过所述分类预测模型中的特征提取网络部分,对各视频块进行空域的特征数据提取,及对各视频块进行时域的特征数据提取。
可选地,所述模型训练单元被配置为通过所述分类预测模型中的特征提取网络部分对各视频块进行特征数据提取,具体用于:
通过所述分类预测模型中的移动视觉应用(MobileNet V2)架构对各视频块进行特征数据提取。
根据本公开实施例的第三方面,提供一种视频质量预测的电子设备,包括:存储单元、处理单元;
其中,所述存储单元用于存储程序;
所述处理单元被配置为执行所述存储单元中的程序,以实现上述第一方面提供的所述的一种视频质量预测方法。
根据本公开实施例的第四方面,提供一种芯片,所述芯片与用户设备中的存储单元耦合,使得所述芯片在运行时调用所述存储单元中存储的程序指令,实现本公开实施例上述各个方面以及各个方面涉及的任一可能设计的方法。
根据本公开实施例的第五方面,提供一种计算机可读存储介质,该计算机存储介质存储有程序指令,当其在计算机上运行时,使得计算机执行本公开实施例上述各个方面以及各个方面涉及的任一可能设计的方法。
根据本公开实施例的第六方面,提供一种计算机程序产品,当所述计算机程序产品在电子设备上运行时,使得所述电子设备执行实现本公开实施例上述各个方面以及各个方面涉及的任一可能设计的方法。
利用本公开提供的一种视频质量预测方法和装置及电子设备,具有以下有益效果:
本公开提供的一种视频质量预测方法和装置及电子设备,可以通过从视频流采集包括多个视频块的视频包,通过将视频包的各视频块输入分类预测模型,训练所述分类预测模型并对相关参数进行调整,以输出该视频包的失真分类标签、非失真分类标签和评分值为目标进行质量预测模型,解决在现有的基于机器学习的视频评价算法中,由于视频非均匀性的失真引起的质量评价不够准确,得到更准确的质量预测结果。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例中提供的一种均匀失真图像与参考图像的对比示意图;
图2为本公开实施例中提供的一种非均匀失真图像与参考图像的对比示意图;
图3为本公开实施例中提供的一种人工标注视频标签示意图;
图4为本公开实施例中提供的一种视频质量预测方法示意图;
图5为本公开实施例中提供的一种分类预测模型架构示意图;
图6为本公开实施例中提供的一种有监督训练模型示意图;
图7为本公开实施例提供的质量预测模型对LIVE视频数据集的预测DMOS和真实DMOS数据对比示意图;
图8为本公开实施例提供的质量预测模型对CSIQ视频数据集的预测DMOS和真实DMOS数据对比示意图;
图9为本公开实施例中提供的一种非均匀失真分类预测模型装置示意图;
图10为本公开实施例中提供的一种非均匀失真分类预测模型的电子设备示意图。
具体实施方式
为了使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开作进一步地详细描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
为了方便理解,下面对本公开实施例中涉及的名词进行解释:
1)视频质量评价(Video Quality Assessment,VQA):是对一个视频的质量情况的度量,通常具有相对较强的主观性。
2)图形处理器(Graphics Processing Unit,GPU):本来用于将计算机系统所需要的显示信息进行转换驱动,由于其高效的并行计算性能,目前常用于机器学习任务中。
3)平均主观得分差(Differential Mean Opinion Score,DMOS):即人主观的对清晰(无失真)和有失真目标评价得分之间的差异。
4)视频块(Video Block,VB):指一个视频被分割出的块形式的数据张量,包含长、宽、时间步长、色彩通道四个维度。
5)多实例学习(Multiple Instance Learning,MIL):是一种半监督学习算法。其基本概念为:假设训练数据集中的每个数据是一个包(Bag),每个包都是一个实例(instance)的集合,每个包都有一个训练标记,而包中的实例是没有标记的;如果包中至少存在一个正标记的示例,则包被赋予正标记;而对于一个有负标记的包,其中所有的示例均为负标记。
6)均方误差(Mean Squared Error,MSE):用于表示失真的视频块和清晰的视频块之间的差距。
7)长短期记忆网络(Long Short-Term Memory,LSTM):由于独特的设计结构,LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件,本方案中用于提取时域特征。
8)线性相关系数(Linear Correlation Coefficient,LCC):衡量两组数值之间的相关性程度的一个统计值。
9)等级次序相关系数(Rank Order Correlation Coefficient,ROCC):衡量两组数值之间的相关性程度的一个统计值。
本公开实施例描述的应用场景是为了更加清楚的说明本公开实施例的技术方案,并不构成对于本公开实施例提供的技术方案的限定,本领域普通技术人员可知,随着新应用场景的出现,本公开实施例提供的技术方案对于类似的技术问题,同样适用。其中,在本公开的描述中,除非另有说明,“多个”的含义是两个或两个以上。
对于非均匀性失真的视频流,其失真程度在其时域、空域上各不相同。由于通过人工方式为视频流标注标签存在困难性且成本巨大,在一般的失真视频数据集中,往往只有对于整个视频流的标签,一般为DMOS分数或者“清晰/失真”的二分类标签。
基于机器学习的方案通常都需要把视频流先分割为若干同样大小的视频块,这些块的尺寸并没有要求。若一个视频流的标签标记为清晰,或者该视频流为参考视频,则该视频流中包含的任意一个视频块标签都为清晰;但由于非均匀失真的视频流,其中包含的视频块失真程度各不相同,甚至包含清晰的视频块,因此若对失真视频流中的任意一个视频块都标记为失真,则这个标签是不可靠的。
如图3所示,在人工标注二分类标签为失真的(或者是DMOS分数低的)视频流中,可能也包含了清晰的视频块。但是,在人工标记为清晰的视频流中,或者是直接用来训练分类模型使用的参考视频中,则可以认为该视频流所切割的所有视频块都是清晰的。因此,每个视频流中各视频块的标签是未知的,直接使用神经网络提取视频块的特征与整个视频流的标签对应,在训练过程中会出现训练数据集歧义问题,导致神经网络模型性能下降甚至无法收敛的情况。
实施例1
鉴于上述基于机器学习方法的缺陷,本公开在充分利用机器学习的优势的同时,修正视频流非均匀性失真引起的训练数据歧义问题,从而使得基于机器学习的质量评价模型可以达到更佳的性能,利用得到的质量评价模型进行视频质量预测的结果更准确。
将整个视频流的标签直接赋值给每一个分割出的视频块会导致训练数据集歧义的问题,鉴于此,本公开通过将一个视频流中多个视频块组成一个视频包的方式,且当视频包中的视频块的数量足够多时,视频包的标签越来越趋向于整个视频流的标签,因此本公开实施例中直接将视频流的标签赋值给该视频包,通过将视频包的多个视频块作为训练数据输入分类预测模型,通过实验统计得出,当通过失真视频得到的视频包中数据块的数量超过8个时,该视频包中至少会包含一个失真的视频块。
本公开在进行分类预测模型训练时,引入了多实例学习的方法,首先将一个视频块作为一个实例(instance,I),一个视频流中多个实例组成一个包(bag,B),每一个实例的标签未知,将视频流的标签赋值为包的标签,应用到本公开实施例中,一个视频流中多个视频块组成一个视频包,每一个视频块的标签未知,根据视频流的标签确定视频包的标签。
基于此,本公开提出一种视频质量预测方法,如图4所示,包括:
步骤S401,从视频流采集包括多个视频块的视频包,根据视频流标签确定所述视频包的失真分类标签或非失真分类标签;
所述视频块是基于视频流的不同时刻及不同位置随机采集的,即从一个视频流采集的多个视频块,该多个视频块可以是图像帧不同位置的视频块,可能属于同一视频图像帧,也可能属于不同时刻图像帧,随机采取多个视频块的方式能够保证数据的均匀性,以使得包括多个视频块的视频包的标签能够准确对应于视频流的标签。
视频包的标签分为失真分类标签和非失真分类标签,其中,视频包的分类标签为视频包中多个视频块所在视频流的分类标签,视频流的分类标签为二分类标签,通过人工对比实际视频流和参考视频流判断是否失真并标注,包括失真和非失真两类,通过对比实际视频流和参考视频流判断失真的程度。
步骤S402,根据对所述视频包的标注结果确定所述视频包的评分值;
根据视频包中多个视频块所在的视频流对视频包进行标注,其标注结果即为视频包的评分值,视频包的评分值通过视频包中多个视频块所在视频流的平均主观得分差DMOS确定,可选地,视频包的评分值为具体的0~100之间的打分。
步骤S403,将所述视频包的多个视频块作为训练数据输入分类预测模型,利用所述分类预测模型进行分类预测和评分值预测,以输出该视频包的失真分类标签、非失真分类标签和评分值为目标进行分类预测模型的参数调整;
其中,通过所述分类预测模型中的特征提取网络部分对各视频块进行特征数据提取,通过所述分类预测模型中的评分网络部分,根据提取的特征数据进行分类预测和评分值预测。
分类预测模型的架构如图5所示,包括两个部分,分别为特征提取网络部分501和评分网络部分502,通过分类预测模型的特征提取网络部分提取各视频块的特征数据,得到视频包中每个视频块对应的特征数据。
本公开可以但不限于通过MobileNet V2卷积网络来提取每个视频块的特征数据,作为一种可选地实施方式,还可以通过VGG、ResNet等方式来提取各视频块的特征数据,若采用VGG、ResNet等方式,作为一种可选地实施例方式,本实施例中需要将最后的Softmax层的特征数据输出修改为多个视频块对应的不同失真程度标签,所述不同失真程度标签包括至少3个失真程度,可选地,可以为轻度失真、中度失真和重度失真。
作为一种可选地实施方式,本实施例通过所述分类预测模型中的特征提取网络部分,对各视频块进行特征数据提取,得到视频包中的每个视频块对应的特征数据;将得到的每个视频块对应的特征数据进行池化操作,得到该视频包的特征数据。其中,特征提取网络部分对各视频块经特征提取后得到各视频块对应的特征图,池化操作得到各视频块对应的特征图映射的摘要统计,可以减少多个视频块特征数据的冗余性,例如去掉失真的视频包中清晰块的特征数据,进一步提高分类预测模型的性能,且同一个视频包中,各视频块的排列顺序不影响经过池化操作后的数据包的特征数据。
本实施例采用的池化操作可以但不限于Mean Pooling或者Adaptive Pooling或者Max Pooling池化操作。作为一种可选地实施方式,本实施例采用最大化池化MaxPooling操作,从得到的每个视频块对应的不同位置的特征数据中,分别在不同位置提取最大的特征数据,得到该视频包的特征数据。
本实施例通过是取每个视频块对应的特征图的同位置最大值,取得较好的池化效果,当然,其他的如Mean Pooling计算各个视频块特征间的均值,Adaptive Pooling动态学习每一个视频块对视频包影响的权重,也同样可以应用到本发明实施例对各视频块的特征数据进行处理得到视频包的数据特征。
所述评分网络部分根据视频包的特征数据得到该视频包的分类标签和评分值。
在进行分类预测模型训练时,将视频包的多个视频块及对应的参考视频块作为训练数据集输入到分类预测模型中,经过特征提取网络部分得到各视频块的特征数据,进而通过池化操作得到视频包的数据特征,根据得到的视频包的特征数据,通过评分网络部分得到视频包的分类预测和评分值预测,若通过分类预测模型得到的视频包的分类预测与确定视频包分类标签的视频流的分类标签一致,且训练得到的视频包的评分值与人工标注的视频流的平均主观得分差DMOS的差值在一定的误差范围内,则确定满足训练结束要求,结束分类预测模型的训练,否则根据总的模型误差对特征提取网络部分和评分网络部分同时进行参数调整并重新执行上述训练过程。
在上述训练过程,以输出该视频包的失真分类标签、非失真分类标签和评分值为目标,根据计算特征提取网络部分误差的第一损失函数,和计算评分网络部分误差的第二损失函数得到总的模型误差;根据总的模型误差对特征提取网络部分和评分网络部分同时进行参数调整。
步骤S404,利用参数调整结束后得到的质量预测模型,对从待质量预测的视频流中采集的视频包进行分类预测和分数预测。
进行参数调整结束后得到的质量预测模型,可以对需要进行质量预测的视频流中随机采取多个视频块组成一个视频包,将多个视频块输入到质量预测模型,得到对应的视频包的分类标签和评分值,从而得到需要进行质量预测的视频流的失真程度。
本公开提出的一种视频质量预测方法,通过从视频流采集包括多个视频块的视频包,将视频流的分类标签赋值给视频包,并根据视频流的平均主观得分差DMOS得到视频包的评分值,通过将视频包的各视频块输入分类预测模型,训练所述分类预测模型并对相关参数进行调整,以输出该视频包的失真分类标签、非失真分类标签和评分值为目标进行质量预测模型,解决在现有的基于机器学习的视频评价算法中,由于视频非均匀性的失真引起的训练数据歧义问题,同时,利用end-to-end的思想,使得得到的质量预测模型能够更好的学习到视频块的特征与人类对视频质量感知之间的联系。
本发明实施例通过总的模型误差对特征提取网络部分和评分网络部分同时进行参数调整,实现多任务学习,具体的分类预测模型的详细训练过程如下:
1、获取训练数据集
分类预测模型的训练数据集包括视频包的多个数据块及对应的参考视频,本公开对视频块的尺寸没有特殊的限制,若所述视频包中的多个视频块为二维数据,通过所述分类预测模型中的特征提取网络部分,对各视频块进行空域的特征数据提取,其中,二维数据即二维视频块,作为一种可选地实施方式,二维视频块采用了128*128的视频块,即128像素的数据矩阵;
若所述视频包中的多个视频块为三维数据,通过所述分类预测模型中的特征提取网络部分,对各视频块进行空域的特征数据提取,及对各视频块进行时域的特征数据提取,其中,三维数据即三维视频块,作为一种可选地实施方式,三维的数据块采用了128*128*5的视频块,5表示连续5帧的数据。对于三维的视频块,本公开在MobileNet V2提取的连续相邻帧的特征数据后加入一个2层的LSTM网络,用于提取视频图像帧的时域特征。
可选地,本公开实施例中,一个视频包包含了16个视频块。
目前针对失真视频质量预测的公开数据集中,常用数据集是LIVE视频数据库和CSIQ视频数据库。LIVE视频数据库共包含160个视频流,其中,10个是原始的参考视频流,每个原始参考视频流对应有15个失真视频流。这些不同程度的失真视频流包含了一系列失真类型,包括无线网络传输失真、IP传输失真、H.264压缩失真、MPEG-2压缩失真等4种失真类型。CSIQ视频数据库则一共包含228个视频。其中包含12个完全不同的参考视频,以及每个视频对应18个不同程度的失真视频,包含H.264/AVC compression、H.264video withpacket loss rate、MJPEG compression、Wavelet compression(snow codec)、Whitenoise、HEVC compression六种不同的失真类型。这些失真类型可以分为两大类:压缩失真和传输丢包失真。其中,LIVE数据库的无线网络传输失真、IP传输失真和CSIQ的H.264videowith packet loss rate失真类型是传输失真,属于非均匀失真。本公开采用上述视频库数据集作为分类预测模型的训练数据集。
2、根据总的模型误差对特征提取网络部分和评分网络部分同时进行参数调整
由于获取人工标签的数据集比较困难,通常训练数据集相对较小。如果分类训练模型是直接随机初始化参与训练,则在相对较深的分类预测模型中,往往无法收敛,或者得不到较好的结果。本公开使用预训练参数来使得MobileNet V2能够更好的提取视频块的特征。并在训练中,调低卷积层的学习率(为正常学习率的0.08),使得分类预测模型更侧重于学习对已经得到的视频块和视频包的特征数据与标签的抽象映射关系,而不是对视频帧图像的浅层图形特征。训练分类预测模型时使用Adam优化器。
上述根据所述第一损失函数和第二损失函数得到总的模型误差,包括:
Loss=λ1*L12*L23*L2_loss
其中,Loss为总的模型误差,λ1,λ2和λ3为设置的损失权重,L1为所述第一损失函数的计算结果,L2为所述第二损失函数的计算结果,L2_loss为设置的正则项,用于防止网络过拟合,提高网络一定的泛化能力。
λ1是一个随迭代次数衰减的权重参数,如下述公式所示,是在训练刚开始时,提高视频块的特征数据提取能力,但随着训练的进行,对视频快的特征提取训练逐渐收敛,则不需要再继续训练,则可以逐渐降低其训练权重,使得分类训练模型更侧重于对于视频包的特征数据训练。λ2和λ3分别表示不同损失的权重,本公开实施例中取λ2=1.5,λ3=0.0001。
Figure BDA0002283044100000171
在模型参数调整的过程,以上述loss计算的总的模型误差满足要求确定训练结束,在具体对模型参数调整时,通过特征提取网络部分的网络分支获得视频包中的多个视频块及对应的参考视频块之间的参考均方差MSE,根据所述多个视频块的参考MSE确定第一损失函数的计算结果。
本实施例中特征提取网络部分还包括用于获得参考MSE的网络分支,通过特征提取网络部分的网络分支获得视频包中的多个视频块及对应的参考视频块之间的参考均方差MSE。
分类训练模型的训练数据集包括失真视频的多个视频块及参考视频中对应的多个视频块,具体通过失真视频中所述视频块对应的参考视频中的视频块做对比,取之间的像素值之差的平方和均值得到多个视频块及对应的参考视频块之间的参考均方差MSE,如图6所示。MSE存在一定的误差,取对应的视频块之间的MSE作为近似失真程度,其结果本身的预测能力是受限的。因此,本公开并不会将这个结果直接作用在整个视频流的预测结果上,而仅是辅助特征提取网络对于视频块的时空域特征数据提取,从而利用其能对视频块初步分类的能力,有监督地指导神经网络提取特征。
通过多个视频块的参考MSE,可以确定所述多个视频块属于对应的不同失真程度标签的参考概率;通过网络中的归一化指数函数,根据特征提取网络部分提取的特征数据确定视频块属于各失真程度标签的预测概率,如果失真程度标签包括三类,这里分别得到轻度失真/中度失真/重度失真对应的参考概率和预测概率,通过MSE计算参考概率的方式可以根据相应的规则进行计算,例如根据各MSE的大小范围将其映射为轻度失真/中度失真/重度失真中的一个。
根据所述参考概率和预测概率确定各失真程度标签对应的真实概率,根据所述真实概率和预测概率计算预测交叉熵,得到第一损失函数的计算结果。
通过第一损失函数的计算结果调整特征提取网络部分的模型参数,同时调整的同时还相应依据总的模型误差确定调整的方向。
本实施例中特征提取网络部分使用的第一损失函数的表达式为:
Figure BDA0002283044100000181
其含义为视频块失真程度类别的预测交叉熵,一共有T=3个类别,即轻度失真/中度失真/重度失真,Li为第i类的归一化指数函数softmax层的输出的值,yi为第i类的真实概率。
失真视频块来源于非均匀失真的视频流,失真视频块的标签是未知的,因此未知标签的视频块不能通过第一损失函数对特征提取网络部分进行参数调整。但是通过失真视频块对应的参考视频块,可以通过计算参考MSE大致判断多个视频块属于对应的不同失真程度标签的参考概率。
可选地,根据各MSE的大小范围将其映射为轻度失真/中度失真/重度失真中的一个,视频块的失真程度标签包括设定的与第一MSE取值范围对应的轻度失真,与设定的第二MSE取值范围对应的中度失真,与设定的第三MSE取值范围对应的重度失真。
视频块与对应的参考视频块之间的参考MSE越大,该视频块失真程度越高,当MSE为零时,该视频块为清晰的视频块。
在具体对模型参数进行调整时,通过第二损失函数对评分网络部分的参数调整过程中,根据分类预测模型的分类预测的分类概率和分类标签,确定每个分类对应的真实概率;分类预测的分类包括失真或非失真,本实施例中网络的最后一层通过归一化指数函数将分类预测进行归一化得到分别为失真和非失真的概率;
根据所述每个分类对应的真实概率,及分类预测的分类概率计算预测交叉熵,并根据分类预测模型的评分值预测结果和评分值计算分数误差;根据预测交叉熵和分数误差,得到第二损失函数的计算结果。
本实施例中计算评分网络部的误差的第二损失函数的表达式为:
Figure BDA0002283044100000191
其分为两项,前一项为视频包的分类标签类别的预测交叉熵,分为失真和非失真两类。Li为第i类的归一化指示函数softmax层的输出的值,yi为第i类的真实概率,后一项为视频包的DMOS的值预测误差项。λ为一个正的常数(取2),用来控制两项的相对权重影响。
在分类预测模型的训练过程中,采用多任务学习的方法,将特征提取网络部分提取各视频块得到特征数据,并计算对应参考MSE的过程,和根据视频包的特征数据得到该视频包分类预测和评分值预测的过程,联合一起进行训练,这两个过程相关,联合训练可以提高这两个过程模块的有效性和泛化能力,并且降低分类预测模型的过度拟合程度,同时使得分类预测模型的训练过程是端到端(end-to-end)。
现有存在几种指标来衡量视频质量评价算法的优劣,包括线性相关系数(LCC)、等级次序相关系数(ROCC)和均方误差(MSE)等统计指标。本公开选取目前较为常用的LCC和ROCC作为定量衡量本公开提出的分类预测模型性能的统计指标,并与所提到的有缺陷的目前已有的VQA视频质量评价算法进行比较。假设对若干视频流人主观评分的数据序列为X,视频质量评估得分为Y,LCC的计算公式如下:
Figure BDA0002283044100000192
ROCC的计算公式如下:
Figure BDA0002283044100000193
采用本公开提出的一种视频质量预测模型,分别从全参考评价和无参考评价两个方面对上述LIVE视频数据库和CSIQ视频数据库两个数据库进行视频质量预测,并分别采用线性相关系数(LCC)和等级次序相关系数(ROCC)两个统计指标衡量本公开提出的一种视频质量预测模型的性能。
如表2所示,是在这两个数据库上的LCC统计量,表3是在这两个数据库上的ROCC的统计量。其中,LIVE:D1表示无线网络传输失真类型,LIVE:D2表示IP传输失真类型。
表2
Figure BDA0002283044100000201
表3
Figure BDA0002283044100000202
Figure BDA0002283044100000211
可以看到,在CSIQ的视频数据集采用本公开的质量预测模型,得到的LCC指标和ROCC指标均显著的超过了无参考视频检测算法,也超过了一些使用传统算法的全参考视频算法。对于LIVE的视频数据集采用本公开的质量预测模型,从ROCC指标得出本公开的结果优于目前的算法。从LCC指标得出对于无参考的视频质量评价,本公开得到有竞争性的结果。并且本公开的分类预测模型相对于现有的预测模型更具有稳定性。
如图7所示为本公开提出的质量预测模型对LIVE视频数据集的预测DMOS和真实DMOS数据对比的图,短线形状为真实DMOS数据结果,加号形状为预测DMOS数据结果,其中横坐标为真实DMOS数据结果,纵坐标为预测DMOS数据结果。
如图8所示为本公开提出的质量预测模型对CSIQ视频数据集的预测DMOS和真实DMOS数据对比的图,短线形状为真实DMOS数据结果,×号形状为预测DMOS数据结果短线形状为真实数据结果,其中横坐标为真实DMOS数据结果,纵坐标为预测DMOS数据结果。
实施例2
以上对本公开中一种视频质量预测方法进行说明,以下对执行上述视频质量预测装置进行说明。
请参阅图9本公开实施例提供的一种视频质量预测装置,包括:
分类标签确定单元901,被配置为执行从视频流采集包括多个视频块的视频包,根据视频流标签确定所述视频包的失真分类标签或非失真分类标签;
评分值确定单元902,被配置为执行根据对所述视频包的标注结果确定所述视频包的评分值;
模型训练单元903,被配置为执行将所述视频包的多个视频块作为训练数据输入分类预测模型,利用所述分类预测模型进行分类预测和评分值预测,以输出该视频包的失真分类标签、非失真分类标签和评分值为目标进行分类预测模型的参数调整;
预测单元904,被配置为执行利用参数调整结束后得到的质量预测模型,对从待质量预测的视频流中采集的视频包进行分类预测和分数预测。
可选地,所述模型训练单元被配置为执行利用所述分类预测模型进行分类预测和评分值预测,具体用于:
通过所述分类预测模型中的特征提取网络部分对各视频块进行特征数据提取;
通过所述分类预测模型中的评分网络部分,根据提取的特征数据进行分类预测和评分值预测。
可选地,所述模型训练单元被配置为执行以输出该视频包的失真分类标签、非失真分类标签和评分值为目标进行分类预测模型的参数调整,具体用于:
以输出该视频包的分类标签和评分值为目标,根据计算特征提取网络部分误差的第一损失函数,和计算评分网络部分误差的第二损失函数得到总的模型误差;
根据总的模型误差对特征提取网络部分和评分网络部分同时进行参数调整。
可选地,所述模型训练单元被配置为确定计算特征提取网络部分误差的第一损失函数,具体用于:
通过特征提取网络部分的网络分支获得视频包中的多个视频块及对应的参考视频块之间的参考均方差MSE,根据所述多个视频块的参考MSE确定第一损失函数的计算结果。
可选地,所述模型训练单元被配置为根据所述多个视频块的参考MSE确定第一损失函数的计算结果,具体用于:
根据所述多个视频块的参考MSE,确定所述多个视频块属于对应的不同失真程度标签的参考概率,所述不同失真程度标签包括至少3个失真程度;
通过归一化指数函数,根据特征提取网络部分提取的特征数据确定各视频块属于各失真程度标签的预测概率;
根据所述参考概率和预测概率确定各失真程度标签对应的真实概率,根据所述真实概率和预测概率计算预测交叉熵,得到第一损失函数的计算结果。
可选地,所述模型训练单元被配置为确定计算评分网络部分误差的第二损失函数,具体用于:
根据分类预测模型的分类预测的分类概率和分类标签,确定每个分类对应的真实概率;
根据所述每个分类对应的真实概率,及分类预测的分类概率计算预测交叉熵,并根据分类预测模型的评分值预测结果和评分值计算分数误差;
根据预测交叉熵和分数误差,得到第二损失函数的计算结果。
可选地,所述模型训练单元被配置为根据所述第一损失函数和第二损失函数得到总的模型误差,包括:
Loss=λ1*L12*L23*L2_loss
其中,Loss为总的模型误差,λ1,λ2和λ3为设置的损失权重,L1为所述第一损失函数的计算结果,L2为所述第二损失函数的计算结果,L2_loss为设置的正则项。
可选地,所述模型训练单元被配置为通过所述分类预测模型中的特征提取网络部分对各视频块进行特征数据提取,具体用于:
通过所述分类预测模型中的特征提取网络部分,对各视频块进行特征数据提取,得到视频包中的每个视频块对应的特征数据;
将得到的每个视频块对应的特征数据进行池化操作,得到该视频包的特征数据。
可选地,所述模型训练单元被配置为将得到的每个视频块对应的特征数据进行池化操作,得到该视频包的特征数据,具体用于:
从得到的每个视频块对应的不同位置的特征数据中,分别在不同位置提取最大的特征数据,得到该视频包的特征数据。
可选地,所述模型训练单元被配置为通过所述分类预测模型中的特征提取网络部分对各视频块进行特征数据提取,具体用于:
若所述视频包中的多个视频块为二维数据,通过所述分类预测模型中的特征提取网络部分,对各视频块进行空域的特征数据提取;或者
若所述视频包中的多个视频块为三维数据,通过所述分类预测模型中的特征提取网络部分,对各视频块进行空域的特征数据提取,及对各视频块进行时域的特征数据提取。
可选地,所述模型训练单元被配置为通过所述分类预测模型中的特征提取网络部分对各视频块进行特征数据提取,具体用于:
通过所述分类预测模型中的移动视觉应用(MobileNet V2)架构对各视频块进行特征数据提取。
上面从模块化功能实体的角度对本公开实施例中的一种视频质量预测装置进行了描述,下面从硬件处理的角度对本公开实施例中的一种视频质量预测的电子设备进行描述。
请参阅图10,本公开实施例中一种电子设备,包括:
至少一个处理单元1001和至少一个存储单元1002,以及总线系统1009;
其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行下列过程:
从视频流采集包括多个视频块的视频包,根据视频流标签确定所述视频包的失真分类标签或非失真分类标签;
根据对所述视频包的标注结果确定所述视频包的评分值;
将所述视频包的多个视频块作为训练数据输入分类预测模型,利用所述分类预测模型进行分类预测和评分值预测,以输出该视频包的失真分类标签、非失真分类标签和评分值为目标进行分类预测模型的参数调整;
利用参数调整结束后得到的质量预测模型,对从待质量预测的视频流中采集的视频包进行分类预测和分数预测。
图10是本公开实施例提供的电子设备示意图,该设备1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理单元(英文全称:central processingunits,英文简称:CPU)1001(例如,一个或一个以上处理单元)和存储单元1002,一个或一个以上存储应用程序1004或数据1005的存储介质1003(例如一个或一个以上海量存储设备)。其中,存储单元1002和存储介质1003可以是短暂存储或持久存储。存储在存储介质1003的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对信息处理装置中的一系列指令操作。更进一步地,处理单元1001可以设置为与存储介质1003通信,在设备1000上执行存储介质1003中的一系列指令操作。
设备1000还可以包括一个或一个以上有线或无线网络接口1007,一个或一个以上输入输出接口1008,和/或,一个或一个以上操作系统1006,例如Windows Server,Mac OSX,Unix,Linux,FreeBSD等。
可选地,所述处理单元被配置为执行以输出该视频包的分类标签和评分值为目标进行分类预测模型的参数调整,包括:
以输出该视频包的分类标签和评分值为目标,根据计算特征提取网络部分误差的第一损失函数,和计算评分网络部分误差的第二损失函数得到总的模型误差;
根据总的模型误差对特征提取网络部分和评分网络部分同时进行参数调整。
可选地,所述处理单元被配置为执行以输出该视频包的失真分类标签、非失真分类标签和评分值为目标进行分类预测模型的参数调整,包括:
以输出该视频包的失真分类标签、非失真分类标签和评分值为目标,根据计算特征提取网络部分误差的第一损失函数,和计算评分网络部分误差的第二损失函数得到总的模型误差;
根据总的模型误差对特征提取网络部分和评分网络部分同时进行参数调整。
可选地,所述处理单元被配置为执行确定计算特征提取网络部分误差的第一损失函数,包括:
通过特征提取网络部分的网络分支获得视频包中的多个视频块及对应的参考视频块之间的参考均方差MSE,根据所述多个视频块的参考MSE确定第一损失函数的计算结果。
可选地,所述处理单元被配置为执行根据所述多个视频块的参考MSE确定第一损失函数的计算结果,包括:
根据所述多个视频块的参考MSE,确定所述多个视频块属于对应的不同失真程度标签的参考概率,所述不同失真程度标签包括至少3个失真程度;
通过归一化指数函数,根据特征提取网络部分提取的特征数据确定各视频块属于各失真程度标签的预测概率;
根据所述参考概率和预测概率确定各失真程度标签对应的真实概率,根据所述真实概率和预测概率计算预测交叉熵,得到第一损失函数的计算结果。
可选地,所述处理单元被配置为执行确定计算评分网络部分误差的第二损失函数,包括:
根据分类预测模型的分类预测的分类概率和分类标签,确定每个分类对应的真实概率;
根据所述每个分类对应的真实概率,及分类预测的分类概率计算预测交叉熵,并根据分类预测模型的评分值预测结果和评分值计算分数误差;
根据预测交叉熵和分数误差,得到第二损失函数的计算结果。
可选地,所述处理单元被配置为执行根据所述第一损失函数和第二损失函数得到总的模型误差,包括:
Loss=λ1*L12*L23*L2_loss
其中,Loss为总的模型误差,λ1,λ2和λ3为设置的损失权重,L1为所述第一损失函数的计算结果,L2为所述第二损失函数的计算结果,L2_loss为设置的正则项。
可选地,所述处理单元被配置为执行通过所述分类预测模型中的特征提取网络部分对各视频块进行特征数据提取,包括:
通过所述分类预测模型中的特征提取网络部分,对各视频块进行特征数据提取,得到视频包中的每个视频块对应的特征数据;
将得到的每个视频块对应的特征数据进行池化操作,得到该视频包的特征数据。
可选地,所述处理单元被配置为执行将得到的每个视频块对应的特征数据进行池化操作,得到该视频包的特征数据,包括:
从得到的每个视频块对应的不同位置的特征数据中,分别在不同位置提取最大的特征数据,得到该视频包的特征数据。
可选地,所述处理单元被配置为执行通过所述分类预测模型中的特征提取网络部分对各视频块进行特征数据提取,包括:
若所述视频包中的多个视频块为二维数据,通过所述分类预测模型中的特征提取网络部分,对各视频块进行空域的特征数据提取;或者
若所述视频包中的多个视频块为三维数据,通过所述分类预测模型中的特征提取网络部分,对各视频块进行空域的特征数据提取,及对各视频块进行时域的特征数据提取。
可选地,所述处理单元被配置为执行通过所述分类预测模型中的特征提取网络部分对各视频块进行特征数据提取,包括:
通过所述分类预测模型中的移动视觉应用(MobileNet V2)架构对各视频块进行特征数据提取。
本公开实施例还提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述实施例提供的一种视频质量预测的方法。
本公开实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序包括程序指令,当所述程序指令被电子设备执行时,使所述电子设备执行上述实施例提供的一种视频质量预测的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本公开所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本公开实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
以上对本公开所提供的技术方案进行了详细介绍,本公开中应用了具体个例对本公开的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本公开的方法及其核心思想;同时,对于本领域的一般技术人员,依据本公开的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本公开的限制。

Claims (20)

1.一种视频质量预测方法,其特征在于,包括:
从视频流采集包括多个视频块的视频包,根据视频流标签确定所述视频包的失真分类标签或非失真分类标签;
根据对所述视频包的标注结果确定所述视频包的评分值;
将所述视频包的多个视频块作为训练数据输入分类预测模型,利用所述分类预测模型进行分类预测和评分值预测,以输出该视频包的失真分类标签、非失真分类标签和评分值为目标进行分类预测模型的参数调整,其中,通过所述分类预测模型中的特征提取网络部分对各视频块进行特征数据提取;通过所述分类预测模型中的评分网络部分,根据提取的特征数据进行分类预测和评分值预测;通过所述分类预测模型中的特征提取网络部分,对各视频块进行特征数据提取,得到视频包中的每个视频块对应的特征数据;将得到的每个视频块对应的特征数据进行池化操作,得到该视频包的特征数据,所述评分网络部分根据视频包的特征数据得到该视频包的分类标签和评分值;
利用参数调整结束后得到的质量预测模型,对从待质量预测的视频流中采集的视频包进行分类预测和分数预测。
2.根据权利要求1所述的方法,其特征在于,以输出该视频包的失真分类标签、非失真分类标签和评分值为目标进行分类预测模型的参数调整,包括:
以输出该视频包的失真分类标签、非失真分类标签和评分值为目标,根据计算特征提取网络部分误差的第一损失函数,和计算评分网络部分误差的第二损失函数得到总的模型误差;
根据总的模型误差对特征提取网络部分和评分网络部分同时进行参数调整。
3.根据权利要求2所述的方法,其特征在于,确定计算特征提取网络部分误差的第一损失函数,包括:
通过特征提取网络部分的网络分支获得视频包中的多个视频块及对应的参考视频块之间的参考均方差MSE,根据所述多个视频块的参考MSE确定第一损失函数的计算结果。
4.根据权利要求3所述的方法,其特征在于,根据所述多个视频块的参考MSE确定第一损失函数的计算结果,包括:
根据所述多个视频块的参考MSE,确定所述多个视频块属于对应的不同失真程度标签的参考概率,所述不同失真程度标签包括至少3个失真程度;
通过归一化指数函数,根据特征提取网络部分提取的特征数据确定各视频块属于各失真程度标签的预测概率;
根据所述参考概率和预测概率确定各失真程度标签对应的真实概率,根据所述真实概率和预测概率计算预测交叉熵,得到第一损失函数的计算结果。
5.根据权利要求2所述的方法,其特征在于,确定计算评分网络部分误差的第二损失函数,包括:
根据分类预测模型的分类预测的分类概率和分类标签,确定每个分类对应的真实概率;
根据所述每个分类对应的真实概率,及分类预测的分类概率计算预测交叉熵,并根据分类预测模型的评分值预测结果和评分值计算分数误差;
根据预测交叉熵和分数误差,得到第二损失函数的计算结果。
6.根据权利要求2所述的方法,其特征在于,根据所述第一损失函数和第二损失函数得到总的模型误差,包括:
Loss=λ1*L12*L23*L2_loss
其中,Loss为总的模型误差,λ1,λ2和λ3为设置的损失权重,L1为所述第一损失函数的计算结果,L2为所述第二损失函数的计算结果,L2_loss为设置的正则项。
7.根据权利要求1所述的方法,其特征在于,将得到的每个视频块对应的特征数据进行池化操作,得到该视频包的特征数据,包括:
从得到的每个视频块对应的不同位置的特征数据中,分别在不同位置提取最大的特征数据,得到该视频包的特征数据。
8.根据权利要求1所述的方法,其特征在于,通过所述分类预测模型中的特征提取网络部分对各视频块进行特征数据提取,包括:
若所述视频包中的多个视频块为二维数据,通过所述分类预测模型中的特征提取网络部分,对各视频块进行空域的特征数据提取;或者
若所述视频包中的多个视频块为三维数据,通过所述分类预测模型中的特征提取网络部分,对各视频块进行空域的特征数据提取,及对各视频块进行时域的特征数据提取。
9.根据权利要求1所述的方法,其特征在于,通过所述分类预测模型中的特征提取网络部分对各视频块进行特征数据提取,包括:
通过所述分类预测模型中的移动视觉应用MobileNet V2架构对各视频块进行特征数据提取。
10.一种视频质量预测装置,其特征在于,该装置包括:
分类标签确定单元,被配置为执行从视频流采集包括多个视频块的视频包,根据视频流标签确定所述视频包的失真分类标签或非失真分类标签;
评分值确定单元,被配置为执行根据对所述视频包的标注结果确定所述视频包的评分值;
模型训练单元,被配置为执行将所述视频包的多个视频块作为训练数据输入分类预测模型,利用所述分类预测模型进行分类预测和评分值预测,以输出该视频包的失真分类标签、非失真分类标签和评分值为目标进行分类预测模型的参数调整,其中,通过所述分类预测模型中的特征提取网络部分对各视频块进行特征数据提取;通过所述分类预测模型中的评分网络部分,根据提取的特征数据进行分类预测和评分值预测;通过所述分类预测模型中的特征提取网络部分,对各视频块进行特征数据提取,得到视频包中的每个视频块对应的特征数据;将得到的每个视频块对应的特征数据进行池化操作,得到该视频包的特征数据,所述评分网络部分根据视频包的特征数据得到该视频包的分类标签和评分值;
预测单元,被配置为执行利用参数调整结束后得到的质量预测模型,对从待质量预测的视频流中采集的视频包进行分类预测和分数预测。
11.根据权利要求10所述的装置,其特征在于,所述模型训练单元被配置为执行以输出该视频包的失真分类标签、非失真分类标签和评分值为目标进行分类预测模型的参数调整,具体用于:
以输出该视频包的分类标签和评分值为目标,根据计算特征提取网络部分误差的第一损失函数,和计算评分网络部分误差的第二损失函数得到总的模型误差;
根据总的模型误差对特征提取网络部分和评分网络部分同时进行参数调整。
12.根据权利要求11所述的装置,其特征在于,所述模型训练单元被配置为确定计算特征提取网络部分误差的第一损失函数,具体用于:
通过特征提取网络部分的网络分支获得视频包中的多个视频块及对应的参考视频块之间的参考均方差MSE,根据所述多个视频块的参考MSE确定第一损失函数的计算结果。
13.根据权利要求12所述的装置,其特征在于,所述模型训练单元被配置为根据所述多个视频块的参考MSE确定第一损失函数的计算结果,具体用于:
根据所述多个视频块的参考MSE,确定所述多个视频块属于对应的不同失真程度标签的参考概率,所述不同失真程度标签包括至少3个失真程度;
通过归一化指数函数,根据特征提取网络部分提取的特征数据确定各视频块属于各失真程度标签的预测概率;
根据所述参考概率和预测概率确定各失真程度标签对应的真实概率,根据所述真实概率和预测概率计算预测交叉熵,得到第一损失函数的计算结果。
14.根据权利要求11所述的装置,其特征在于,所述模型训练单元被配置为确定计算评分网络部分误差的第二损失函数,具体用于:
根据分类预测模型的分类预测的分类概率和分类标签,确定每个分类对应的真实概率;
根据所述每个分类对应的真实概率,及分类预测的分类概率计算预测交叉熵,并根据分类预测模型的评分值预测结果和评分值计算分数误差;
根据预测交叉熵和分数误差,得到第二损失函数的计算结果。
15.根据权利要求11所述的装置,其特征在于,所述模型训练单元被配置为根据所述第一损失函数和第二损失函数得到总的模型误差,包括:
Loss=λ1*L12*L23*L2_loss
其中,Loss为总的模型误差,λ1,λ2和λ3为设置的损失权重,L1为所述第一损失函数的计算结果,L2为所述第二损失函数的计算结果,L2_loss为设置的正则项。
16.根据权利要求10所述的装置,其特征在于,所述模型训练单元被配置为将得到的每个视频块对应的特征数据进行池化操作,得到该视频包的特征数据,具体用于:
从得到的每个视频块对应的不同位置的特征数据中,分别在不同位置提取最大的特征数据,得到该视频包的特征数据。
17.根据权利要求10所述的装置,其特征在于,所述模型训练单元被配置为通过所述分类预测模型中的特征提取网络部分对各视频块进行特征数据提取,具体用于:
若所述视频包中的多个视频块为二维数据,通过所述分类预测模型中的特征提取网络部分,对各视频块进行空域的特征数据提取;或者
若所述视频包中的多个视频块为三维数据,通过所述分类预测模型中的特征提取网络部分,对各视频块进行空域的特征数据提取,及对各视频块进行时域的特征数据提取。
18.根据权利要求10所述的装置,其特征在于,所述模型训练单元被配置为通过所述分类预测模型中的特征提取网络部分对各视频块进行特征数据提取,具体用于:
通过所述分类预测模型中的移动视觉应用MobileNet V2架构对各视频块进行特征数据提取。
19.一种电子设备,其特征在于,包括:存储单元、处理单元;
其中,所述存储单元用于存储程序;
所述处理单元被配置为执行所述存储单元中的程序,以实现如权利要求1至9中任一项所述的视频质量预测方法。
20.一种计算机可读存储介质,其特征在于,包括计算机程序指令,当其在计算机上运行时,使得计算机执行如权利要求1至9中任一项所述的视频质量预测方法。
CN201911149140.4A 2019-11-21 2019-11-21 视频质量预测方法和装置及电子设备 Active CN110958467B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911149140.4A CN110958467B (zh) 2019-11-21 2019-11-21 视频质量预测方法和装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911149140.4A CN110958467B (zh) 2019-11-21 2019-11-21 视频质量预测方法和装置及电子设备

Publications (2)

Publication Number Publication Date
CN110958467A CN110958467A (zh) 2020-04-03
CN110958467B true CN110958467B (zh) 2020-12-29

Family

ID=69977996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911149140.4A Active CN110958467B (zh) 2019-11-21 2019-11-21 视频质量预测方法和装置及电子设备

Country Status (1)

Country Link
CN (1) CN110958467B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11948090B2 (en) * 2020-03-06 2024-04-02 Tencent America LLC Method and apparatus for video coding
CN112634268B (zh) * 2021-01-11 2024-01-05 北京霍因科技有限公司 一种视频质量评价方法、装置及电子设备
CN113784115B (zh) * 2021-09-08 2023-04-11 咪咕文化科技有限公司 多媒体质量评估方法、装置、设备及存储介质
CN115775218A (zh) * 2021-09-09 2023-03-10 中兴通讯股份有限公司 模型训练方法、视频质量评估方法、装置、设备及介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9536139B2 (en) * 2013-03-15 2017-01-03 Mitek Systems, Inc. Systems and methods for assessing standards for mobile image quality
CN107959848B (zh) * 2017-12-08 2019-12-03 天津大学 基于三维卷积神经网络的通用型无参考视频质量评价算法
US10726206B2 (en) * 2018-01-30 2020-07-28 Disney Enterprises, Inc. Visual reference resolution using attention memory for visual dialog
CN109871444A (zh) * 2019-01-16 2019-06-11 北京邮电大学 一种文本分类方法及系统
CN109862350B (zh) * 2019-02-27 2020-09-22 江南大学 基于时空域特征提取的无参考视频质量评价方法
CN110138594B (zh) * 2019-04-11 2022-04-19 瑞芯微电子股份有限公司 基于深度学习的视频质量评价方法和服务器

Also Published As

Publication number Publication date
CN110958467A (zh) 2020-04-03

Similar Documents

Publication Publication Date Title
CN110958467B (zh) 视频质量预测方法和装置及电子设备
CN114584849B (zh) 视频质量评估方法、装置、电子设备及计算机存储介质
CN115294409B (zh) 一种用于安防监控的视频处理方法、系统及介质
CN111163338B (zh) 视频清晰度评估模型训练方法、视频推荐方法及相关装置
CN110853033A (zh) 基于帧间相似度的视频检测方法和装置
CN111369548B (zh) 一种基于生成对抗网络的无参考视频质量评价方法及装置
CN113327234B (zh) 基于空时显著性分类和融合的视频重定向质量评价方法
CN111079539A (zh) 一种基于异常追踪的视频异常行为检测方法
CN111383244A (zh) 一种目标检测跟踪方法
US20210044791A1 (en) Video quality determination system and method
Kim et al. Deep blind image quality assessment by employing FR-IQA
Liu et al. Source-free unsupervised domain adaptation for blind image quality assessment
TWI729587B (zh) 物件定位系統及方法
CN117333776A (zh) VOCs气体泄漏检测方法、装置及存储介质
CN113743378B (zh) 一种基于视频的火情监测方法和装置
CN113298779B (zh) 基于逆向重建网格的视频重定向质量客观评价方法
Lv et al. Blind dehazed image quality assessment: a deep CNN-based approach
CN111723735B (zh) 一种基于卷积神经网络的伪高码率hevc视频检测方法
CN116095291B (zh) 一种用于媒体流图像传输的图像预处理方法
CN114445342A (zh) 一种雾霾程度评估方法、装置、电子设备及存储介质
CN116524387A (zh) 一种基于深度学习网络的超高清视频压缩损伤等级评估方法
CN114581769A (zh) 一种基于无监督聚类的在建房屋识别方法
CN111145219B (zh) 一种基于Codebook原理的高效视频移动目标检测方法
Xiang et al. Quality-distinguishing and patch-comparing no-reference image quality assessment
CN112991448B (zh) 一种基于颜色直方图的回环检测方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant