CN113038129A - 一种用于机器学习的数据样本获取的方法及设备 - Google Patents

一种用于机器学习的数据样本获取的方法及设备 Download PDF

Info

Publication number
CN113038129A
CN113038129A CN202110271575.7A CN202110271575A CN113038129A CN 113038129 A CN113038129 A CN 113038129A CN 202110271575 A CN202110271575 A CN 202110271575A CN 113038129 A CN113038129 A CN 113038129A
Authority
CN
China
Prior art keywords
video
visual quality
videos
quality level
compressed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110271575.7A
Other languages
English (en)
Inventor
李冰
张梦婷
朱淳于
杨涵悦
杨震威
沈礼权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shilong Software Co ltd
Original Assignee
Shanghai Shilong Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Shilong Software Co ltd filed Critical Shanghai Shilong Software Co ltd
Priority to CN202110271575.7A priority Critical patent/CN113038129A/zh
Publication of CN113038129A publication Critical patent/CN113038129A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请通过一种用于机器学习的数据样本获取的方法与设备,首先获取视频及视频的视频特征,接着获得该视频基于不同压缩码率进行编码压缩后得到的若干压缩视频,再确定所述若干压缩视频中每个压缩视频的视频质量得分,然后基于预设视觉质量等级划分及所述若干压缩视频的视频质量得分,确定同一视觉质量等级下的最小视频质量得分,最后将所述同一视觉质量等级下最小视频质量得分对应的压缩码率确定为该视频的视频特征在该视觉质量等级下的标注,并将该视频的视频特征及所述标注确定为该视觉质量等级下的数据样本。通过该方法预测满足一定视觉质量下的最佳编码参数,以获得在人眼察觉不到视频质量差异下的最小传输码率,降低了传输带宽要求。

Description

一种用于机器学习的数据样本获取的方法及设备
技术领域
本申请涉及计算机视频处理技术领域,尤其涉及一种用于机器学习的数据样本获取的技术。
背景技术
随着互联网及移动互联网的发展,基于视频的各种应用已经成为人们日常生活中不可或缺的一部分。随着全民参与的视频制作以及对高分辨率、高帧率视频需求的不断增多,视频数据量获得大幅度提升,同时也加重了存储和传输带宽的压力,对视频编码和视频传输带来了需求和挑战。
当前以机器学习、深度学习为代表的人工智能技术在各领域的应用都取得了不错的成果,将人工智能技术引入到视频编码领域,也已经成为行业中乐于尝试的方法。
根据已有的实验表明,人眼在观看视频的时候,对于客观质量评价相近的两幅视频图像,并不能敏锐地到发觉到两者的质量差异,只有当两幅视频图像的客观质量评价相差达到一定的范围时,才能察觉。
现有应用人工智能技术对视频编码的尝试都将重心侧重于视频编码的客观技术指标的提升,如采用适应带宽的高质量编码方式,基于压缩噪声估计模型调整编码前的视频预处理参数,基于深度学习对视频编码参数预测等。并没有考虑人眼视觉特性对观看的视频图像的影响。
发明内容
本申请的目的是提供一种用于机器学习的数据样本获取的方法与设备,用以解决现有技术中对视频编码参数的预测未考虑人眼视觉特性的技术问题。
根据本申请的一个方面,提供了一种用于机器学习的数据样本获取的方法,其中,所述方法包括:
获取视频及所述视频的视频特征;
获得所述视频基于不同压缩码率进行编码压缩后得到的若干压缩视频;
确定所述若干压缩视频中每个压缩视频的视频质量得分,其中,每个视频质量得分对应一个压缩码率;
基于预设视觉质量等级划分以及所述若干压缩视频的视频质量得分,确定同一视觉质量等级下的最小视频质量得分;
将所述同一视觉质量等级下最小视频质量得分对应的压缩码率确定为所述视频的视频特征在该视觉质量等级下的标注,并将所述视频的视频特征及所述标注确定为所述同一视觉质量等级下的数据样本。
可选地,其中,所述视频的视频特征包括:
所述视频的空域纹理特征及时域特征。
可选地,其中,所述获得所述视频基于不同压缩码率进行编码压缩后得到的若干压缩视频包括:
基于预设固定码率系数范围及步进参数,确定若干压缩码率;
基于每个压缩码率对所述视频进行编码压缩,以获得若干压缩视频。
可选地,其中,所述确定所述若干压缩视频中每个压缩视频的视频质量得分包括:
基于预设参数的主客观质量评价工具,将所述若干压缩视频中每个基于不同压缩码率的压缩视频对照编码压缩前的视频,进行视频质量评价,以确定每个压缩视频的视频质量得分。
可选地,其中,所述基于预设视觉质量等级划分包括:
参照人眼视觉特性确定不同视觉质量等级的质量得分临界点;
基于所述不同视觉质量等级的质量得分临界点确定所述预设视觉质量等级划分。
可选地,其中,所述视频是YUV格式;
其中,所述视频的视频特征还包括:
所述视频的空域色度特征。
可选地,其中,所述视频的视频特征还包括:
所述视频的空域对比度特征。
可选地,其中,所述获取所述视频的视频特征包括:
获取所述视频的首个图像组的视频特征,其中,所述视频的每帧视频图像包含相同的场景。
可选地,所述方法还包括:
获取原始视频,并基于所述原始视频的每帧视频图像的场景,将所述原始视频分割成若干个所述视频。
可选地,所述一种用于机器学习的数据样本获取的方法还包括:
获取若干所述同一视觉质量等级下的数据样本,组成与所述同一视觉质量等级对应的数据集,其中,所述数据集中每个数据样本的视频特征对应的视频是相同的分辨率;
基于所述数据集,训练随机森林回归器,以获得回归预测模型,其中所述随机森林回归器的超参数初值是默认值;
基于预设调整参数,调整所述回归预测模型的超参数,并基于所述数据集进行测试,以获取不同超参数组合对应的回归预测模型的预测准确率,并将预测准确率最高的一组超参数对应的回归预测模型确定为所述同一视觉质量等级下的编码参数预测模型。
可选地,所述一种用于机器学习的数据样本获取的方法还包括:
获取待编码视频的视频特征;
将所述待编码视频的视频特征输入所述同一视觉质量等级下的编码参数预测模型,以预测所述待编码视频在所述同一视觉质量等级下的最小压缩码率。
可选地,所述一种用于机器学习的数据样本获取的方法还包括:
基于所述最小压缩码率设置编码器的编码参数;
基于已设置编码参数的编码器,对所述待编码视频进行编码压缩,以获得所述待编码视频在所述同一视觉质量等级下的压缩视频。
根据本申请的另一方面,还提供了一种用于机器学习的数据样本获取的设备,其中,所述设备包括:
第一装置,用于获取获取视频及所述视频的视频特征;
第二装置,用于获得所述视频基于不同压缩码率进行编码压缩后得到的若干压缩视频;
第三装置,用于确定所述若干压缩视频中每个压缩视频的视频质量得分,其中,每个视频质量得分对应一个压缩码率;
第四装置,用于基于预设视觉质量等级划分以及所述若干压缩视频的视频质量得分,确定同一视觉质量等级下的最小视频质量得分;
第五装置,用于将所述同一视觉质量等级下最小视频质量得分对应的压缩码率确定为所述视频的视频特征在该视觉质量等级下的标注,并将所述视频的视频特征及所述标注确定为该视觉质量等级下的数据样本。
可选地,所述一种用于机器学习的数据样本获取的设备还包括:
第六装置,用于获取若干同一视觉质量等级下的数据样本,组成与所述同一视觉质量等级对应的数据集,其中,所述数据集中每个数据样本的视频特征对应的视频是相同的分辨率;
第七装置,用于基于所述数据集,训练随机森林回归器,以获得回归预测模型,其中所述随机森林回归器的超参数初值是默认值;
第八装置,用于基于预设调整参数,调整所述回归预测模型的超参数,并基于所述数据集进行测试,以获取不同超参数组合对应的回归预测模型的预测准确率,并将预测准确率最高的一组超参数对应的回归预测模型确定为所述同一视觉质量等级下的编码参数预测模型。
可选地,所述一种用于机器学习的数据样本获取的设备还包括:
第九装置,用于获取待编码视频的视频特征;
第十装置,用于将所述待编码视频的视频特征输入所述同一视觉质量等级下的编码参数预测模型,以预测所述待编码视频在所述同一视觉质量等级下的最小压缩码率。
与现有技术相比,本申请通过一种用于机器学习的数据样本获取的方法与设备,首先获取视频及所述视频的视频特征,接着获得所述视频基于不同压缩码率进行编码压缩后得到的若干压缩视频,再确定所述若干压缩视频中每个压缩视频的视频质量得分,其中,每个视频质量得分对应一个压缩码率,然后基于预设视觉质量等级划分以及所述若干压缩视频的视频质量得分,确定同一视觉质量等级下的最小视频质量得分,最后将所述同一视觉质量等级下最小视频质量得分对应的压缩码率确定为所述视频的视频特征在该视觉质量等级下的标注,并将所述视频的视频特征及所述标注确定为所述同一视觉质量等级下的数据样本。通过该方法,基于利用人眼视觉特性确定的视觉质量等级划分,通过机器学习来预测满足一定视觉质量下的最佳编码参数,以获得在人眼察觉不到视频质量差异下的最小传输码率,降低了传输带宽要求。对于有带宽压力又要保证压缩视频的视频质量的应用场景,有实际应用价值。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本申请一个方面的一种用于机器学习的数据样本获取的方法流程图;
图2示出根据本申请另一个方面的一种用于机器学习的数据样本获取的设备示意图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
在本申请一个典型的配置中,系统各模块和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
为更进一步阐述本申请所采取的技术手段及取得的效果,下面结合附图及优选实施例,对本申请的技术方案,进行清楚和完整的描述。
图1示出本申请一个方面的一种用于机器学习的数据样本获取的方法流程图,其中,一个实施例的方法包括:
S11获取视频及所述视频的视频特征;
S12获得所述视频基于不同压缩码率进行编码压缩后得到的若干压缩视频;
S13确定所述若干压缩视频中每个压缩视频的视频质量得分,其中,每个视频质量得分对应一个压缩码率;
S14基于预设视觉质量等级划分以及所述若干压缩视频的视频质量得分,确定同一视觉质量等级下的最小视频质量得分;
S15将所述同一视觉质量等级下最小视频质量得分对应的压缩码率确定为所述视频的视频特征在该视觉质量等级下的标注,并将所述视频的视频特征及所述标注确定为所述同一视觉质量等级下的数据样本。
在本申请中,所述方法通过设备1执行,所述设备1为计算机设备和/或云,所述计算机设备包括但不限于个人计算机、笔记本电脑、工业计算机、网络主机、单个网络服务器、多个网络服务器集;所述云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。
在此,所述计算机设备和/或云仅为举例,其他现有的或者今后可能出现的设备和/或资源共享平台如适用于本申请也应包含在本申请的保护范围内,在此,以引用的方式包含于此。
在该实施例中,在所述步骤S11中,通过设备1从视频捕获设备,比如摄像机等,获取到视频,也可以是从与设备1网络连接的视频数据库中获取到视频,以及获取该视频的视频特征。设备1获取视频的方式在此不做限定,任何获取方式如适用于本申请也应包含在本申请的保护范围内。
所述视频可以是YUV格式,也可以是RGB格式,在此,不作限定。对所述视频的分辨率以及压缩编码方式也不作限定。
可选地,其中,所述视频的视频特征包括:
所述视频的空域纹理特征及时域特征。
视频的空域特征主要表征为纹理特征为主,在对视频的压缩编码中,纹理复杂的区域往往会分配到更多的比特数。
例如,设备1获取到包含N帧视频图像的YUV格式视频,针对视频中各帧视频图像,将每帧视频图像Y通道分量都经过Sobel算子卷积运算后,得到该帧视频图像的Y通道梯度图Yg。比如,对于第i帧视频图像,其中,i为0~N-1,在其Y通道梯度图Yig中,像素点(x,y)对应的Y通道梯度Yig(x,y)可通过如下公式计算获得:
Yigx=Yi*Sobelx,Yigy=Yi*Sobely
Figure BDA0002974756380000071
Figure BDA0002974756380000072
然后,可分别计算该帧视频图像的Y通道梯度图Yig的均值Yig_mean、最大值Yig_max及标准差Yig_std,其中,
Yig_mean=mean(Yig)
Yig_max=max(Yig)
Yig_std=std(Yig)
再遍历该视频的所有帧视频图像,可分别得到该视频的Y通道梯度图的均值Yg_mean、最大值Yg_max及标准差Yg_std,将该视频的Y通道梯度图的均值Yg_mean、最大值Yg_max及标准差Yg_std作为该视频对应的空域纹理特征集SIset,可表述为:
Yg_mean==mean(Y0g_mean,Y1g_mean,...,YN-1g_mean)
Yg_max=max(Y0g_max,Y1g_max,...,YN-1g_max)
Yg_std==std(Y0g_std,Y1g_std,...,YN-1g_std)
SIset{Yg_mean,Yg_max,Yg_std}
视频的时域特征主要表征为前后帧图像的残差信息为主。
例如,设备1获取到包含N帧视频图像的YUV格式视频,针对视频中的各帧视频图像,提取该视频中相邻两帧视频图像的Y通道分量,进行差值运算得到这两帧视频图像之间的残差图,可表示如下:
Di=Yi+1-Yi
其中,Yi+1表示为第(i+1)帧视频图像的Y通道分量,Yi表示为第i帧视频图像的Y通道分量,i为0~N-2。
然后,可分别计算这两个前后相邻帧视频图像的残差图Di的均值Di_mean、最大值Di_max及标准差Di_std,其中,
Di_mean=mean(Di)
Di_max=max(Di)
Di_std=std(Di)
再遍历该视频的全部视频图像,可分别得到该视频的残差图的均值D_mean、最大值D_max及标准差D_std,将该视频的残差图的均值D_mean、最大值D_max及标准差D_std作为该视频对应的时域特征集TIset,可表述为:
D_mean=mean(D0_mean,D1_mean,...,DN-2_mean)
D_max=max(D0_max,D1_max,...,DN-2_max)
D_std=std(D0_std,D1_std,...,DN-2_std)
TIset={D_mean,D_max,D_std}
继续在上述实施例中,在所述步骤S12中,若设备1具备编码压缩能力,则基于不同压缩码率对获得的所述视频进行编码压缩,得到若干压缩视频,或者设备1将获得的视频发送至具备编码压缩能力的设备,该设备基于不同压缩码率对收到的所述视频进行编码压缩,得到若干压缩视频并发送至设备1。
可选地,其中,所述步骤S12包括:
基于预设固定码率系数范围及步进参数,确定若干压缩码率;
基于每个压缩码率对所述视频进行编码压缩,以获得若干压缩视频。
其中,可以基于先验数据以及设备的编码压缩能力,预设固定码率系数范围可以设置为[0,51],步进参数可以设置为1,则可以确定51个压缩码率,然后基于每个压缩码率,对该视频进行编码压缩,获得51个不同压缩码率的压缩视频。
继续在上述实施例中,在所述步骤S13中,设备1确定所述若干压缩视频中每个压缩视频的视频质量得分,其中,每个视频质量得分对应一个压缩码率。
可选地,其中,所述确定所述若干压缩视频中每个压缩视频的视频质量得分包括:
基于预设参数的主客观质量评价工具,将所述若干压缩视频中每个基于不同压缩码率的压缩视频对照编码压缩前的视频,进行视频质量评价,以确定每个压缩视频的视频质量得分。
其中,设备1可以是基于视频质量主观评价体系来确定每个压缩视频的视频质量得分,比如美国Netflix公司开发的视频质量评价工具VMAF(Video MultimethodAssessment Fusion,视频多方法评估融合);也可以是基于视频质量客观评价体系来确定每个压缩视频的视频质量得分,比如利用压缩前视频与压缩后产生的损失之间的比例来判断的PSNR(Peak Signal to Noise Ratio,峰值信噪比)。
继续在上述实施例中,在所述步骤S14中,设备1基于预设视觉质量等级划分以及所述若干压缩视频的视频质量得分,确定同一视觉质量等级下的最小视频质量得分。
可选地,其中,所述基于预设视觉质量等级划分包括:
参照人眼视觉特性确定不同视觉质量等级的质量得分临界点;
基于所述不同视觉质量等级的质量得分临界点确定所述预设视觉质量等级划分。
根据人眼视觉特性,对于视频图像中不同区域的失真,人眼在观看视频时的敏感度表现有极大的差异。当同一视频被相近的两个固定码率系数编码压缩后,通过人眼对比观察编码压缩后的两个视频,并不能敏锐地察觉到两者视频质量上的差异,只有当同一视频被相差一定范围的两个固定码率系数编码压缩后,通过人眼对比观察编码压缩后的两个视频,才可能察觉到视频质量上的差异。因此,可以结合人眼视觉特性划分视觉质量等级。
比如,将人眼观看到的视频的视频质量划分成5个等级,分别对应1~5,其中,1表示视频质量好,2表示视频质量比较好,3表示视频质量还可以,4表示视频质量比较差,5表示视频质量差。结合视频的视频质量得分,可确定各视频质量等级的质量得分临界点。例如,对于基于上述的视频质量评价工具VMAF获得的视频质量得分,结合人眼视觉特性,各等级划分可如下表1。
表1
等级 1(好) 2(比较好) 3(可以) 4(比较差) 5(差)
VMAF得分 >93 93-87 87-81 81-75 <75
可以得出采用VMAF评价视频质量的各视频质量等级的质量得分临界点为:等级1与等级2之间的质量得分临界点是93分,等级2与等级3之间的质量得分临界点是87分,等级3与等级4之间的质量得分临界点是81分,等级4与等级5之间的质量得分临界点是75分。
对于前述的一个应用场景中,设置固定码率系数范围为[0,51],步进参数为1,对视频进行编码压缩后获得51个不同压缩码率的压缩视频,基于VMAF工具,可确定每个压缩视频的视频质量得分。根据上述获得的每个视觉质量等级对应质量得分临界点,可以结合这51个压缩视频的视频质量得分,将这51个压缩视频分段,划分到不同视频质量等级中。
继续在上述实施例中,在所述步骤S15中,设备1将所述同一视觉质量等级下最小视频质量得分对应的压缩码率确定为所述视频的视频特征在该视觉质量等级下的标注,并将所述视频的视频特征及所述标注确定为所述同一视觉质量等级下的数据样本。
比如,对于前述的一个应用场景中,51个压缩视频分段,划分到不同视频质量等级中,可确定每个视频质量等级下的若干压缩视频中视频质量得分最小的压缩视频,将该压缩视频对应的压缩码率确定为该视频的视频特征在对应视觉质量等级下的标注。进而将该视频的视频特征及所述标注确定为对应视觉质量等级下的数据样本。通常,每个视频质量等级下都可以获得一个数据样本,即每个视频处理后可以得到5个不同视频质量等级下的数据样本。
在上述的一个应用场景中,基于人眼视觉特性,实际上使用过小的固定码率系数对视频进行编码压缩,观察不到得到的压缩视频之间的质量差异,其视频质量得分都较高且比较接近,因此,实际操作上,可以设置固定码率系数范围为[18,51],步进参数为1,对视频进行编码压缩后获得33个不同压缩码率的压缩视频,然后进行视频质量评分,划分视频质量等级,确定各视频质量等级下最小视频质量得分对应的压缩码率作为该视频的视频特征在对应视频质量等级下的标注,进而将该视频的视频特征及所述标注确定为对应视觉质量等级下的数据样本。
可选地,其中,若所述视频是YUV格式,所述视频的视频特征还包括:
所述视频的空域色度特征。
根据人眼视觉特性中对颜色的视觉反映,还可以提取视频的空域色度特征用于数据样本。
例如,设备1获取到包含N帧视频图像的YUV格式视频,针对视频中的各帧视频图像,提取每帧视频图像的U、V通道分量,分别计算该帧视频图像U通道分量的均值U_mean、最大值U_max及标准差U_std,以及V通道分量的均值V_mean、最大值V_max及标准差V_std。比如,对于第i帧视频图像,其中,i为0~N-1,其U通道分量Ui的均值Ui_mean、最大值Ui_max及标准差Ui_std,以及V通道分量Vi的均值Vi_mean、最大值Vi_max及标准差Vi_std可表示如下:
Ui_mean=mean(Ui)
Ui_max=max(Ui)
Ui_std=std(Ui)
Vi_mean=mean(Vi)
Vi_max=max(Vi)
Vi_std=std(Vi)
再遍历该视频的全部帧视频图像,可分别得到该视频的U通道分量的均值U_mean、最大值U_max及标准差U_std,以及V通道分量的均值V_mean、最大值V_max及标准差V_std,可将该视频的U通道分量的均值U_mean、最大值U_max及标准差U_std,以及V通道分量的均值V_mean、最大值V_max及标准差V_std作为该视频对应的空域色度特征集CIset,可表述为:
U_mean=mean(U0_mean,U1_mean,…,UN-1_mean)
U_max=max(U0_max,U1_max,…,UN-1_max)
U_std=std(U0_std,U1_std,…,UN-1_std)
V_mean=mean(V0_mean,V1_mean,…,VN-1_mean)
V_max=max(V0_max,V1_max,…,VN-1_max)
V_std=std(V0_std,V1_std,…,VN-1_std)
CIset={U_mean,U_max,U_std,V_mean,V_max,V_std}
可选地,其中,若所述视频是YUV格式,所述视频的视频特征还包括:
所述视频的空域对比度特征。
根据人眼视觉特性,还可以提取视频的空域对比度特征用于数据样本。
例如,设备1获取到包含N帧视频图像的YUV格式视频,针对视频中的各帧视频图像,提取各帧视频图像的Y通道分量,分别计算该帧视频图像Y通道分量的均值Y_mean、最大值Y_max及标准差Y_std。比如,对于第i帧视频图像,其中,i为0~N-1,其Y通道分量Yi的均值Yi_mean、最大值Yi_max及标准差Yi_std可表示如下:
Yi_mean=mean(Yi)
Yi_max=max(Yi)
Yi_std=std(Yi)
再遍历该视频的全部帧视频图像,可分别得到该视频的Y通道分量的均值Y_mean、最大值Y_max及标准差Y_std,可将该视频的Y通道分量的均值Y_mean、最大值Y_max及标准差Y_std作为该视频对应的空域对比度特征集CTIset,可表述为:
Y_mean=mean(Y0_mean,Y1_mean,…,YN-1_mean)
Y_max=max(Y0_max,Y1_max,…,YN-1_max)
Y_std=std(Y0_std,Y1_std,…,YN-1_std)
CTIset={Y_mean,Y_max,Y_std}
可选地,其中,所述获取所述视频的视频特征包括:
获取所述视频的首个图像组的视频特征,其中,所述视频的每帧视频图像包含相同的场景。
若所述视频中的每帧视频图像包含相同场景,那么此类视频各GOP(Group ofPictures,图像组)包含相同场景,则所述视频的首个GOP的视频特征可以包含所述视频的几乎全部视频特征。
为了减少获取视频的视频特征的计算量,则在前述实施例中,可只需针对所述视频的首个GOP进行处理,分别获取所述视频首个GOP的视频特征,比如:所述视频首个GOP对应的空域纹理特征集SIset、时域特征集TIset、空域色度特征集CIset及空域对比度特征集CSIset,将及该视频在相应视频质量等级下的最小码率作为所述视频首个GOP的视频特征的标注,将所述视频首个GOP的视频特征及其标注确定为该视觉质量等级下的数据样本。
若设备1获取的视频各帧视频图像包含了场景的变化,可选地,在所述步骤S11之前,所述方法还包括:
S10(未示出)获取原始视频,并基于所述原始视频的每帧视频图像的场景,将所述原始视频分割成若干个所述视频。
其中,在所述步骤S10中,设备1获取到原始视频,根据该原始视频的每帧视频图像的场景,将该原始视频分割成若干个视频片段,其中,每个视频片段的每帧视频图像包含相同的场景,然后在步骤S11中,设备1获取到视频片段及该视频片段首个GOP的视频特征。
可选地,所述一种用于机器学习的数据样本获取的方法还包括:
S16(未示出)获取若干所述同一视觉质量等级下的数据样本,组成与所述同一视觉质量等级对应的数据集,其中,所述数据集中每个数据样本的视频特征对应的视频是相同的分辨率;
S17(未示出)基于所述数据集,训练随机森林回归器,以获得回归预测模型,其中所述随机森林回归器的超参数初值是默认值;
S18(未示出)基于预设调整参数,调整所述回归预测模型的超参数,并基于所述数据集进行测试,以获取不同超参数组合对应的回归预测模型的预测准确率,并将预测准确率最高的一组超参数对应的回归预测模型确定为所述同一视觉质量等级下的编码参数预测模型。
在所述步骤S16中,针对不同的应用场景,可以针对不同视觉质量等级要求,设备1可以获取若干同一视觉质量等级下的数据样本,组成数据集,其中,为了获得预测准确率高的模型,要求数据集中每个数据样本的视频特征对应的视频的分辨率是相同的。比如,针对要求编码压缩后视频质量等级为1的应用场景,获取若干视频质量等级为1的数据样本组成数据集,这些数据样本中视频特征对应的视频的分辨率是相同的。针对要求编码压缩后视频质量等级为2的应用场景,获取若干视频质量等级为2的数据样本组成数据集,这些数据样本中视频特征对应的视频的分辨率是相同的。
继续在所述步骤S17中,设备1用获得的数据集去训练随机森林回归器。比如,将数据集根据一定比例随机分配为训练数据集和测试数据集去训练、测试随机森林回归器RandomForestRegressor,将RandomForestRegressor的超参数初值设置为默认值。首先从训练数据集中采集多个不同的子训练数据集来依次训练RandomForestRegressor的多个不同决策树,以获得回归预测模型,接着从测试数据集中采集样本数据输入该回归预测模型,根据其内部多个决策树的预测结果来获得输出结果,其中,该输出结果可以是RandomForestRegressor内部多个决策树的预测结果的平均;通过将输出结果与样本数据的标注相比较,确定预测准确率,然后基于预设参数,比如:决策树划分时考虑的最大特征数max_features,决策树最大深度max_depth,内部节点再划分所需最小样本数min_samples_split,叶子节点最少样本数min_samples_leaf等超参数,调整相关超参数,再进行训练、测试,比如:先调节超参数max_features,将max_features设置为某一个值,得到对应的训练数据集和测试数据集上的预测准确率,然后,增大或减小max_features,根据回归预测模型模型的预测准确率在对应的训练数据集和测试数据集上的变化,选择预测准确率最高对应的max_features值并固定下来,然后使用同样的调整方法去调整其他超参数。
继续在所述步骤S18中,设备1通过不断调整超参数,可获取不同超参数组合对应的回归预测模型的预测准确率,并将预测准确率最高的一组超参数对应的回归预测模型确定为所述同一视觉质量等级下的编码参数预测模型。
在采用由上述数据样本组成的数据集训练测试随机森林回归器确定某一视觉质量等级下的编码参数预测模型后,可将该编码参数预测模型用于预测某个视频在该视觉质量等级下的最小压缩码率。
可选地,所述一种用于机器学习的数据样本获取的方法还包括:
S19(未示出)获取待编码视频的视频特征;
S110(未示出)将所述待编码视频的视频特征输入所述同一视觉质量等级下的编码参数预测模型,以预测所述待编码视频在所述同一视觉质量等级下的最小压缩码率。
在所述步骤S19中,设备1获取待编码视频的视频特征。比如,针对要求将某待编码视频编码压缩后获得视频质量等级为1的压缩视频,设备1在获取该待编码视频的视频特征。
继续在所述步骤S110中,设备1将获取的视频特征输入某一视觉质量等级下的编码参数预测模型,以预测所述待编码视频在所述同一视觉质量等级下的最小压缩码率。比如,设备1将上述获得的待编码视频的视频特征输入在视频质量等级为1下的编码参数预测模型,得到该待编码视频在视频质量等级为1下的最小压缩码率。针对要求将某待编码视频编码压缩后获得视频质量等级为2的压缩视频,设备1在获取该待编码视频的视频特征后,将视频特征输入在视频质量等级为2下的编码参数预测模型,得到该待编码视频在视频质量等级为2下的最小压缩码率。
可选地,在获得视频在某一视频质量等级下的最小压缩码率后,所述一种用于机器学习的数据样本获取的方法还包括:
S111(未示出)基于所述最小压缩码率设置编码器的编码参数;
S112(未示出)基于已设置编码参数的编码器,对所述待编码视频进行编码压缩,以获得所述待编码视频在所述同一视觉质量等级下的压缩视频。
其中,编码器可以是集成在设备1上,或者是独立的编码设备。通常编码器的编码参数与压缩码率之间是对应的,在步骤S110中,设备1获取到与应用场景要求的视频质量等级下的最小压缩码率,在步骤S111中,将编码器的编码参数设置为与该最小压缩码率对应,然后在步骤S112中,基于已设置对应编码参数的编码器,对该待编码视频进行编码压缩,可以获得视频质量满足所述视觉质量等级的压缩视频。
图2示出根据本申请另一个方面的一种用于机器学习的数据样本获取的设备示意图,其中,一个实施例的所述设备包括:
第一装置21,用于获取视频及所述视频的视频特征;
第二装置22,用于获得所述视频基于不同压缩码率进行编码压缩后得到的若干压缩视频;
第三装置23,用于确定所述若干压缩视频中每个压缩视频的视频质量得分,其中,每个视频质量得分对应一个压缩码率;
第四装置24,用于基于预设视觉质量等级划分以及所述若干压缩视频的视频质量得分,确定同一视觉质量等级下的最小视频质量得分;
第五装置25,用于将所述同一视觉质量等级下最小视频质量得分对应的压缩码率确定为所述视频的视频特征在该视觉质量等级下的标注,并将所述视频的视频特征及所述标注确定为该视觉质量等级下的数据样本。
所述设备与上述设备1相同。
其中,基于前述的方法,设备1的第一装置21获取视频及所述视频的视频特征;设备1的第二装置22获得所述视频基于不同压缩码率进行编码压缩后得到的若干压缩视频;设备1的第三装置23确定所述若干压缩视频中每个压缩视频的视频质量得分,其中,每个视频质量得分对应一个压缩码率;设备1的第四装置24基于预设视觉质量等级划分以及所述若干压缩视频的视频质量得分,确定同一视觉质量等级下的最小视频质量得分;设备1的第五装置25将所述同一视觉质量等级下最小视频质量得分对应的压缩码率确定为所述视频的视频特征在该视觉质量等级下的标注,并将所述视频的视频特征及所述标注确定为该视觉质量等级下的数据样本。
可选地,所述一种用于机器学习的数据样本获取的设备还包括:
第六装置26(未示出),用于获取若干同一视觉质量等级下的数据样本,组成与所述同一视觉质量等级对应的数据集,其中,所述数据集中每个数据样本的视频特征对应的视频是相同的分辨率;
第七装置27(未示出),用于基于所述数据集,训练随机森林回归器,以获得回归预测模型,其中所述随机森林回归器的超参数初值是默认值;
第八装置28(未示出),用于基于预设调整参数,调整所述回归预测模型的超参数,并基于所述数据集进行测试,以获取不同超参数组合对应的回归预测模型的预测准确率,并将预测准确率最高的一组超参数对应的回归预测模型确定为所述同一视觉质量等级下的编码参数预测模型。
其中,基于前述的方法,根据所述实施例的应用场景对视频质量等级的要求,设备1的第六装置26获取若干该视觉质量等级下的数据样本,组成与该视觉质量等级对应的数据集,其中,所述数据集中每个数据样本的视频特征对应的视频是相同的分辨率;设备1的第七装置27基于该数据集,训练随机森林回归器,以获得回归预测模型,其中所述随机森林回归器的超参数初值是默认值;设备1的第八装置28基于预设调整参数,调整所述回归预测模型的超参数,并基于所述数据集进行测试,以获取不同超参数组合对应的回归预测模型的预测准确率,并将预测准确率最高的一组超参数对应的回归预测模型确定为所述同一视觉质量等级下的编码参数预测模型。
可选地,所述一种用于机器学习的数据样本获取的设备还包括:
第九装置29(未示出),用于待编码视频的视频特征;
第十装置210(未示出),用于将所述待编码视频的视频特征输入所述同一视觉质量等级下的编码参数预测模型,以预测所述待编码视频在所述同一视觉质量等级下的最小压缩码率。
其中,基于前述的方法,设备1的第九装置29获取待编码视频的视频特征;设备1的第十装置210将所述待编码视频的视频特征输入所述同一视觉质量等级下的编码参数预测模型,以预测所述待编码视频在该视觉质量等级下的最小压缩码率。
可选地,所述一种用于机器学习的数据样本获取的设备还包括:
第十一装置211(未示出),用于基于所述最小压缩码率设置编码器的编码参数;
第十二装置212(未示出),用于基于已设置编码参数的编码器,对所述待编码视频进行编码压缩,以获得所述待编码视频在所述同一视觉质量等级下的压缩视频。
对应集成了编码器的设备1,基于前述的方法,设备1的第十一装置211基于所述最小压缩码率设置编码器的编码参数,设备1的第十二装置212基于已设置编码参数的编码器,对所述待编码视频进行编码压缩,以获得所述待编码视频在所述同一视觉质量等级下的压缩视频。
根据本申请的又一方面,还提供了一种计算机可读介质,所述计算机可读介质存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现前述方法。
根据本申请的又一方面,还提供了一种用于机器学习的数据样本获取的设备,其中,该设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如前述方法的操作。
例如,计算机可读指令在被执行时使所述一个或多个处理器:获取视频及所述视频的视频特征;获得所述视频基于不同压缩码率进行编码压缩后得到的若干压缩视频;确定所述若干压缩视频中每个压缩视频的视频质量得分,其中,每个视频质量得分对应一个压缩码率;基于预设视觉质量等级划分以及所述若干压缩视频的视频质量得分,确定同一视觉质量等级下的最小视频质量得分;将所述同一视觉质量等级下最小视频质量得分对应的压缩码率确定为所述视频的视频特征在该视觉质量等级下的标注,并将所述视频的视频特征及所述标注确定为所述同一视觉质量等级下的数据样本。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (18)

1.一种用于机器学习的数据样本获取的方法,其特征在于,所述方法包括:
获取视频及所述视频的视频特征;
获得所述视频基于不同压缩码率进行编码压缩后得到的若干压缩视频;
确定所述若干压缩视频中每个压缩视频的视频质量得分,其中,每个视频质量得分对应一个压缩码率;
基于预设视觉质量等级划分以及所述若干压缩视频的视频质量得分,确定同一视觉质量等级下的最小视频质量得分;
将所述同一视觉质量等级下最小视频质量得分对应的压缩码率确定为所述视频的视频特征在该视觉质量等级下的标注,并将所述视频的视频特征及所述标注确定为所述同一视觉质量等级下的数据样本。
2.根据权利要求1所述的方法,其特征在于,所述视频的视频特征包括:
所述视频的空域纹理特征及时域特征。
3.根据权利要求1所述的方法,其特征在于,所述获得所述视频基于不同压缩码率进行编码压缩后得到的若干压缩视频包括:
基于预设固定码率系数范围及步进参数,确定若干压缩码率;
基于每个压缩码率对所述视频进行编码压缩,以获得若干压缩视频。
4.根据权利要求1所述的方法,其特征在于,所述确定所述若干压缩视频中每个压缩视频的视频质量得分包括:
基于预设参数的主客观质量评价工具,将所述若干压缩视频中每个基于不同压缩码率的压缩视频对照编码压缩前的视频,进行视频质量评价,以确定每个压缩视频的视频质量得分。
5.根据权利要求1所述的方法,其特征在于,所述基于预设视觉质量等级划分包括:
参照人眼视觉特性确定不同视觉质量等级的质量得分临界点;
基于所述不同视觉质量等级的质量得分临界点确定所述预设视觉质量等级划分。
6.根据权利要求2所述的方法,其特征在于,所述视频是YUV格式,其中,所述视频的视频特征还包括:
所述视频的空域色度特征。
7.根据权利要求6所述的方法,其特征在于,所述视频的视频特征还包括:
所述视频的空域对比度特征。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述获取所述视频的视频特征包括:
获取所述视频的首个图像组的视频特征,其中,所述视频的每帧视频图像包含相同的场景。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
获取原始视频,并基于所述原始视频的每帧视频图像的场景,将所述原始视频分割成若干个所述视频。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取若干所述同一视觉质量等级下的数据样本,组成与所述同一视觉质量等级对应的数据集,其中,所述数据集中每个数据样本的视频特征对应的视频是相同的分辨率;
基于所述数据集,训练随机森林回归器,以获得回归预测模型,其中所述随机森林回归器的超参数初值是默认值;
基于预设调整参数,调整所述回归预测模型的超参数,并基于所述数据集进行测试,以获取不同超参数组合对应的回归预测模型的预测准确率,并将预测准确率最高的一组超参数对应的回归预测模型确定为所述同一视觉质量等级下的编码参数预测模型。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
获取待编码视频的视频特征;
将所述待编码视频的视频特征输入所述同一视觉质量等级下的编码参数预测模型,以预测所述待编码视频在所述同一视觉质量等级下的最小压缩码率。
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
基于所述最小压缩码率设置编码器的编码参数;
基于已设置编码参数的编码器,对所述待编码视频进行编码压缩,以获得所述待编码视频在所述同一视觉质量等级下的压缩视频。
13.一种用于机器学习的数据样本获取的设备,其特征在于,所述设备包括:
第一装置,用于获取视频及所述视频的视频特征;
第二装置,用于获得所述视频基于不同压缩码率进行编码压缩后得到的若干压缩视频;
第三装置,用于确定所述若干压缩视频中每个压缩视频的视频质量得分,其中,每个视频质量得分对应一个压缩码率;
第四装置,用于基于预设视觉质量等级划分以及所述若干压缩视频的视频质量得分,确定同一视觉质量等级下的最小视频质量得分;
第五装置,用于将所述同一视觉质量等级下最小视频质量得分对应的压缩码率确定为所述视频的视频特征在该视觉质量等级下的标注,并将所述视频的视频特征及所述标注确定为该视觉质量等级下的数据样本。
14.根据权利要求13所述的设备,其特征在于,所述设备还包括:
第六装置,用于获取若干同一视觉质量等级下的数据样本,组成与所述同一视觉质量等级对应的数据集,其中,所述数据集中每个数据样本的视频特征对应的视频是相同的分辨率;
第七装置,用于基于所述数据集,训练随机森林回归器,以获得回归预测模型,其中所述随机森林回归器的超参数初值是默认值;
第八装置,用于基于预设调整参数,调整所述回归预测模型的超参数,并基于所述数据集进行测试,以获取不同超参数组合对应的回归预测模型的预测准确率,并将预测准确率最高的一组超参数对应的回归预测模型确定为所述同一视觉质量等级下的编码参数预测模型。
15.根据权利要求14所述的设备,其特征在于,所述设备还包括:
第九装置,用于获取待编码视频的视频特征;
第十装置,用于将所述待编码视频的视频特征输入所述同一视觉质量等级下的编码参数预测模型,以预测所述待编码视频在所述同一视觉质量等级下的最小压缩码率。
16.根据权利要求15所述的设备,其特征在于,所述设备还包括:
第十一装置,用于基于所述最小压缩码率设置编码器的编码参数;
第十二装置,用于基于已设置编码参数的编码器,对所述待编码视频进行编码压缩,以获得所述待编码视频在所述同一视觉质量等级下的压缩视频。
17.一种计算机可读介质,其特征在于,
其上存储有计算机可读指令,所述计算机可读指令被处理器执行以实现如权利要求1至12中任一项所述的方法。
18.一种用于视频处理的设备,其特征在于,该设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如权利要求1至12中任一项所述方法的操作。
CN202110271575.7A 2021-03-12 2021-03-12 一种用于机器学习的数据样本获取的方法及设备 Pending CN113038129A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110271575.7A CN113038129A (zh) 2021-03-12 2021-03-12 一种用于机器学习的数据样本获取的方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110271575.7A CN113038129A (zh) 2021-03-12 2021-03-12 一种用于机器学习的数据样本获取的方法及设备

Publications (1)

Publication Number Publication Date
CN113038129A true CN113038129A (zh) 2021-06-25

Family

ID=76470492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110271575.7A Pending CN113038129A (zh) 2021-03-12 2021-03-12 一种用于机器学习的数据样本获取的方法及设备

Country Status (1)

Country Link
CN (1) CN113038129A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023207205A1 (zh) * 2022-04-29 2023-11-02 上海哔哩哔哩科技有限公司 视频编码方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110719457A (zh) * 2019-09-17 2020-01-21 北京达佳互联信息技术有限公司 一种视频编码方法、装置、电子设备及存储介质
CN110913221A (zh) * 2018-09-18 2020-03-24 华为技术有限公司 一种视频码率预测方法及装置
CN111447446A (zh) * 2020-05-15 2020-07-24 西北民族大学 一种基于人眼视觉区域重要性分析的hevc码率控制方法
CN112468816A (zh) * 2019-09-06 2021-03-09 上海哔哩哔哩科技有限公司 固定码率系数预测模型建立及视频编码的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110913221A (zh) * 2018-09-18 2020-03-24 华为技术有限公司 一种视频码率预测方法及装置
CN112468816A (zh) * 2019-09-06 2021-03-09 上海哔哩哔哩科技有限公司 固定码率系数预测模型建立及视频编码的方法
CN110719457A (zh) * 2019-09-17 2020-01-21 北京达佳互联信息技术有限公司 一种视频编码方法、装置、电子设备及存储介质
CN111447446A (zh) * 2020-05-15 2020-07-24 西北民族大学 一种基于人眼视觉区域重要性分析的hevc码率控制方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023207205A1 (zh) * 2022-04-29 2023-11-02 上海哔哩哔哩科技有限公司 视频编码方法及装置

Similar Documents

Publication Publication Date Title
US8804815B2 (en) Support vector regression based video quality prediction
Shen et al. Hybrid no-reference natural image quality assessment of noisy, blurry, JPEG2000, and JPEG images
CN109844736B (zh) 概括视频内容
US8903186B2 (en) Methods and systems for differentiating synthetic and non-synthetic images
US9049420B1 (en) Relative quality score for video transcoding
US20100316131A1 (en) Macroblock level no-reference objective quality estimation of video
US20130336582A1 (en) Image processing apparatus, image processing method, and storage medium
Attar et al. Image quality assessment using edge based features
US10085015B1 (en) Method and system for measuring visual quality of a video sequence
Zeng et al. 3D-SSIM for video quality assessment
Ghamsarian et al. Relevance-based compression of cataract surgery videos using convolutional neural networks
WO2018153161A1 (zh) 一种视频质量评价方法及装置、设备、存储介质
Nezhivleva et al. Comparing of Modern Methods Used to Assess the Quality of Video Sequences During Signal Streaming with and Without Human Perception
CN115115968A (zh) 视频质量评价方法、装置及计算机可读存储介质
CN112950491B (zh) 一种视频处理的方法及设备
Rohil et al. An improved model for no-reference image quality assessment and a no-reference video quality assessment model based on frame analysis
CN111311584B (zh) 视频质量评估方法及装置、电子设备、可读介质
CN113038129A (zh) 一种用于机器学习的数据样本获取的方法及设备
CN113452996A (zh) 一种视频编码、解码方法及装置
O’Byrne et al. Impact of video compression on the performance of object detection systems for surveillance applications
Mele et al. Using spatio-temporal saliency to predict subjective video quality: a new high-speed objective assessment metric
Gao et al. Spatio-temporal salience based video quality assessment
CN112949431A (zh) 视频篡改检测方法和系统、存储介质
US10382516B2 (en) Detecting upscaled source video
Hsu et al. Combination of SSIM and JND with content-transition classification for image quality assessment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination