CN113038130A - 一种视频编码方法、装置、电子设备及可读存储介质 - Google Patents

一种视频编码方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN113038130A
CN113038130A CN202110287432.5A CN202110287432A CN113038130A CN 113038130 A CN113038130 A CN 113038130A CN 202110287432 A CN202110287432 A CN 202110287432A CN 113038130 A CN113038130 A CN 113038130A
Authority
CN
China
Prior art keywords
video
target
quality factor
constant quality
resolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110287432.5A
Other languages
English (en)
Other versions
CN113038130B (zh
Inventor
袁子逸
郭治姣
翟海昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bigo Technology Pte Ltd
Original Assignee
Bigo Technology Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bigo Technology Pte Ltd filed Critical Bigo Technology Pte Ltd
Priority to CN202110287432.5A priority Critical patent/CN113038130B/zh
Priority claimed from CN202110287432.5A external-priority patent/CN113038130B/zh
Publication of CN113038130A publication Critical patent/CN113038130A/zh
Application granted granted Critical
Publication of CN113038130B publication Critical patent/CN113038130B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本公开提供了一种视频编码方法、装置、电子设备及可读存储介质,该方法包括:获取待编码的原始视频;基于至少一个第一恒定质量因子,对所述原始视频进行第一编码处理,得到与所述第一恒定质量因子一一对应的第一编码视频;提取所述第一编码视频的视频特征;根据所述第一编码视频的视频特征、预设的目标视频质量评估分数和预设的目标分辨率,确定所述原始视频所对应的目标恒定质量因子;基于所述目标恒定质量因子和所述目标分辨率,对所述原始视频进行第二编码处理,得到第二编码视频。这样,通过目标恒定质量因子对原始视频进行编码所得到的第二编码视频的视频质量评估分数,更加接近预设的目标视频质量评估分数;还可以提高观众的视频观看体验。

Description

一种视频编码方法、装置、电子设备及可读存储介质
技术领域
本公开涉及视频编码技术领域,更具体地,涉及一种视频编码方法、一种视频编码装置、一种电子设备及一种可读存储介质。
背景技术
随着时代的发展,观看视频已经成为日常娱乐生活中必不可少的重要活动,为满足不同人群对视频不同码率的需求,在视频进行展示时可以根据用户需求对视频进行第二编码处理。
现有技术中,大部分视频编码系统是采用恒定质量因子(Constant Rate Factor,CRF)的方式进行视频编码。在传统的编码技术框架中,一般会根据通用的编码配置表对每个源视频产生多个分辨率和对应恒定质量因子组合的版本,然后用户可以根据个人喜好、网络状况等自身实际情况选择合适的版本来满足个人的观看需求。
然而这样的编码配置表,往往只考虑了网络带宽、分辨率等因素,无法根据视频本身的特效做出相应的调整。而且,不同类别的视频,内容复杂度往往差异巨大。提前设置好的参数对于体育竞技这样的复杂运动视频,可能因为编码后的码率过低导致丢失细节较多,而对于类似幻灯片的简单视频,又可能因为编码后的码率过高造成浪费。
因此,提出一种能够根据视频本身特性来选择编码过程中的恒定质量因子的技术方案,是十分有价值的。
发明内容
本公开的一个目的是提供一种视频编码的新技术方案。
根据本公开的第一方面,提供了一种视频编码方法,包括:
获取待编码的原始视频;
基于至少一个第一恒定质量因子,对所述原始视频进行第一编码处理,得到与所述第一恒定质量因子一一对应的第一编码视频;
提取所述第一编码视频的视频特征;
根据所述第一编码视频的视频特征、预设的目标视频质量评估分数和预设的目标分辨率,确定所述原始视频所对应的目标恒定质量因子;
基于所述目标恒定质量因子和所述目标分辨率,对所述原始视频进行第二编码处理,得到第二编码视频;
其中,所述目标视频质量评估分数用于表征所述第二编码视频的质量,所述目标分辨率为所述第二编码视频的分辨率。
根据本公开的第二方面,提供了一种视频编码装置,包括:
原始视频获取模块,用于获取待编码的原始视频;
第一编码模块,用于基于至少一个第一恒定质量因子,对所述原始视频进行第一编码处理,得到与所述第一恒定质量因子一一对应的第一编码视频;
特征提取模块,用于提取所述第一编码视频的视频特征;
因子确定模块,用于根据所述第一编码视频的视频特征、预设的目标视频质量评估分数和预设的目标分辨率,确定所述原始视频所对应的目标恒定质量因子;
第二编码模块,用于基于所述目标恒定质量因子和所述目标分辨率,对所述原始视频进行第二编码处理,得到第二编码视频;
其中,所述目标视频质量评估分数用于表征所述第二编码视频的质量,所述目标分辨率为所述第二编码视频的分辨率。
根据本公开的第三方面,提供了一种电子设备,包括处理器和存储器,所述存储器用于存储指令,所述指令用于控制所述处理器执行根据本公开第一方面所述的方法。
根据本公开的第四方面,提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时实现如本公开第一方面所述的方法。
通过本公开的实施例,预先对原始视频进行第一编码处理得到第一编码视频,使得提取到的第一编码视频的视频特征更能够表征原始视频本身的特点和信息,使得得到的目标恒定质量因子的准确率更高,再通过目标恒定质量因子对原始视频进行第二次编码处理,进而使得最终得到的第二编码视频的视频质量评估分数,更加接近目标视频质量评估分数。此外,通过目标恒定质量因子对原始视频进行编码,可以使得最终得到的第二编码视频的码率与视频主观质量间达到一个平衡,以提高观众的视频观看体验。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且连同其说明一起用于解释本公开的原理。
图1示出了本公开的实施例的视频编码方法的流程图。
图2示出了本公开的实施例的训练机器学习模型的步骤的流程图。
图3示出了本公开的实施例的视频编码方法的一个例子的流程图。
图4示出了本公开实施例的训练机器学习模型的步骤的一个例子的流程图。
图5示出了本公开的实施例的视频编码装置的框图。
图6示出了本公开的实施例的电子设备的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<方法实施例一>
在本实施例中,提供一种视频编码方法。该方法由电子设备实施。该电子设备可以是具有处理器和存储器的电子产品。例如可以是台式计算机、笔记本电脑、手机、平板电脑、计算机集群等。
根据图1所示,本实施例的视频编码方法可以包括如下步骤S3100~S3500。
步骤S3100,获取待编码的原始视频。
在本公开的一个实施例中,原始视频可以是预先存储在执行本公开实施例的电子设备中的,在执行步骤S3100时,直接从电子设备的存储器中获取该原始视频。
在本公开的另一个实施例中,执行本公开实施例的电子设备可以是响应于用户的下载操作,通过网络从视频服务器中下载至该电子设备中的,或者是从其他电子设备中拷贝至该电子设备中的。
步骤S3200,基于至少一个第一恒定质量因子,对原始视频进行第一编码处理,得到与第一恒定质量因子一一对应的第一编码视频。
在本公开的一个实施例中,可以是采用高级视频编码(Advanced Video Coding,AVC)的视频压缩标准,对原始视频进行第一编码处理,也可以是采用高效率视频编码(HighEfficiency Video Coding,HEVC)的视频压缩标准,对原始视频进行第一编码处理,在此不做限定。
具体的,可以根据每一个第一恒定质量因子对原始视频进行第一编码处理,第一编码处理的过程可以包括编码规则变换、运动估计、运动补偿和熵编码等步骤,第一编码处理的目的可以是降低原始视频内冗余数据的占比,实现原始视频数据的压缩。恒定质量因子(Constant Rate Factor,CRF)与原始视频内冗余数据的压缩比率对应,第一恒定质量因子越大,原始视频经过第一编码处理后的数据压缩比率可以越大。
本实施例中的至少一个第一恒定质量因子,可以是预先根据应用场景或具体需求来设定的。例如,第一恒定质量因子可以是两个,取值分别为26和32。
在第一恒定质量因子的数量为多个的情况下,可以是基于每个第一恒定质量因子,对原始视频进行第一编码处理,得到与该第一恒定质量因子一一对应的第一编码视频。具体的,第一编码视频的数量与第一恒定质量因子的数量相同。
在本公开的一个实施例中,在对原始视频进行第一编码处理之前,该方法还可以包括:
获取原始视频的初始分辨率;在初始分辨率大于预设的最小分辨率的情况下,基于最小分辨率,对原始视频进行压缩处理,以对压缩处理后的原始视频进行第一编码处理。
在对原始视频进行第一编码处理之前,先基于最小分辨率,对原始视频进行压缩处理,压缩处理后的原始视频相对于原始视频而言,可以加快第一编码处理过程的速度。
在本实施例中,最小分辨率可以是预先根据应用场景或具体需求所设定的,例如,该最小分辨率可以是270P。
在一个例子中,还可以是预先设定与最小分辨率所对应的最小宽度,原始视频的初始分辨率所对应的初始宽度大于该最小宽度的情况下,可以是获取原始视频的宽高比,基于最小宽度和原始视频的宽高比确定对应的目标高度,基于最小宽度和目标高度对原始视频进行压缩处理,使得原始视频在压缩前后处理后的宽高比保持不变。
步骤S3300,提取第一编码视频的视频特征。
在本实施例中,可以是通过预设的卷积网络,来提取第一编码视频的视频特征;还可以是分析第一编码视频的视频内容获取视频特征;还可以是提取该第一编码视频中的各视频帧对应的帧特征向量;将所提取的各视频帧对应的帧特征向量进行聚合,得到第一编码视频的视频特征。本实施例中不对提取视频特征的方式进行限定。
步骤S3400,根据第一编码视频的视频特征、预设的目标视频质量评估分数和预设的目标分辨率,确定原始视频所对应的目标恒定质量因子。
本实施例中的目标视频质量评估分数,为用于表征对原始视频进行第二视频编码后所得到的第二编码视频的质量的分数,目标分辨率为第二编码视频的分辨率。
本实施例中的目标恒定质量因子具体为,对原始视频进行编码得到符合目标视频质量评估分数和目标分辨率的第二编码视频的过程中,所需的恒定质量因子。
在本公开的一个实施例中,该目标视频质量评估分数和目标分辨率可以是用户根据应用场景或具体需求所设定的。
在本实施例的基础上,该方法还可以包括:
提供用于输入目标视频质量评估分数的第一输入框、以及用于输入目标分辨率的第二输入框;
通过第一输入框获取目标视频质量评估分数,通过第二输入框获取目标分辨率。
本实施例中,用户可以根据实际需求,通过第一输入框和第二输入框来分别设定与原始视频所对应的目标视频质量评估分数和目标分辨率。
在本公开的一个实施例中,根据第一编码视频的视频特征、预设的目标视频质量评估分数和预设的目标分辨率,确定原始视频所对应的目标恒定质量因子可以包括:
将第一编码视频的视频特征、目标视频质量评估分数和目标分辨率输入至少一个预先训练好的机器学习模型中,得到机器学习模型所输出的预测恒定质量因子;根据预测恒定质量因子,得到原始视频所对应的目标恒定质量因子。
本实施例中的机器学习模型,是能够预测与视频特征、视频质量评估分数和分辨率相对应的恒定质量因子的模型,可以基于输入的第一编码视频的视频特征、目标视频质量评估分数和目标分辨率,输入对应的预测恒定质量因子。
在第一恒定质量因子的数量为至少两个的一个例子中,可以是先将每个第一恒定质量因子所对应的第一编码视频的视频特征,按照预设的顺序进行拼接,得到拼接后的视频特征,再将拼接后的视频特征、目标视频质量评估分数和目标分辨率输入至少一个预先训练好的机器学习模型中,得到机器学习模型所输出的预测恒定质量因子;根据预测恒定质量因子,得到原始视频所对应的目标恒定质量因子。
在第一恒定质量因子的数量为至少两个的另一个例子中,可以是将标示有对应的第一恒定质量因子的视频特征、目标视频质量评估分数和目标分辨率直接输入至少一个预先训练好的机器学习模型中,得到机器学习模型所输出的预测恒定质量因子;根据预测恒定质量因子,得到原始视频所对应的目标恒定质量因子。其中,与视频特征所对应的第一恒定质量因子,可以是与提取得到该视频特征的第一编码视频所对应的第一恒定质量因子。
本实施例中的机器学习模型,可以是用于确定与第一编码视频的视频特征、目标视频质量评估分数和目标分辨率所对应的预测恒定质量因子的模型。
在本实施例中,可以是基于训练样本通过各种拟合手段获得机器学习模型,例如,可以利用任意的多元线性回归算法获得机器学习模型,在此不做限定。
在一个例子中,该多元线性回归算法可以是简单的反映该机器学习模型的多项式函数,其中,多项式函数的各阶系数未知,通过将训练样本代入该多项式函数,便可以确定多项式函数的各阶系数,进而获得机器学习模型。
在另一个例子中,可以利用各种机器学习算法,以训练样本作为准确样品进行多轮训练,每一轮都学习上一轮拟合后的残差,迭代T轮,即可将残差控制在很低的值,以使得最终得到的机器学习模型具有非常高的精确度。该机器学习算法例如是MLP、LightGBM、GBDT、XGBoost等,在此不做限定。
在机器学习模型的数量为一个的实施例中,根据预测恒定质量因子,得到原始视频所对应的目标恒定质量因子可以包括:将该机器学习模型所输出的预测恒定质量因子,作为原始视频所对应的目标恒定质量因子。
在机器学习模型的数量为至少两个的实施例中,根据预测恒定质量因子,得到原始视频所对应的目标恒定质量因子可以包括:根据预设的每一机器学习模型所对应的权重,确定所有机器学习模型所输出的预测恒定质量因子的加权平均值,作为原始视频所对应的目标恒定质量因子。
在本实施例中,可以是预先根据应用场景或具体需求,针对每个机器学习模型来设定对应的权重。例如,在机器学习模型的数量为3,第一个机器学习模型所对应权重为λ1,第二个机器学习模型所对应权重为λ2,第三个机器学习模型所对应权重为λ3,第一个机器学习模型所输出的预测恒定质量因子为CRF1,第二个机器学习模型所输出的预测恒定质量因子为CRF2,第三个机器学习模型所输出的预测恒定质量因子为CRF3,那么,可以确定原始视频所对应的目标恒定质量因子为:
Figure BDA0002981072470000081
进一步地,在机器学习模型的数量为至少两个的情况下,用于训练得到不同机器学习模型的机器学习算法可以不同。
在本实施例中,对至少两个机器学习模型所输出的预测恒定质量因子进行加权平均,使得最终得到的目标恒定质量因子的准确率更高,可以提高机器学习模型的鲁棒性,减少部分机器学习模型过拟合风险。
步骤S3500,基于目标恒定质量因子和目标分辨率,对原始视频进行第二编码处理,得到第二编码视频。
本实施例所得到的第二编码视频的分辨率为目标分辨率,第二编码视频的视频质量评估分数大致为目标视频质量评估分数。
在本实施例中,可以是基于视频多方法评估融合(Video MultimethodAssessment Fusion,VMAF)工具,对第二编码视频的视频质量进行评估,得到第二编码视频的视频质量评估分数可以大致为目标视频质量评估分数。
在本公开的一个实施例中,可以是采用高级视频编码(Advanced Video Coding,AVC)的视频压缩标准,对原始视频进行第二编码处理,也可以是采用高效率视频编码(HighEfficiency Video Coding,HEVC)的视频压缩标准,对原始视频进行第二编码处理,在此不做限定。
本公开实施例中第一编码处理的方式和第二编码处理的方式可以相同,也可以不同,在此不做限定。
在一个例子中,第一编码处理的方式可以是AVC,第二编码处理的方式可以是HEVC,使得第一编码处理的速度快于第二编码处理的速度。因此,本实施例的技术方案,相比于直接根据编码配置表进行HEVC编码相比,本实施例方法的耗时增加较少。
具体的,可以根据目标恒定质量因子对原始视频进行第二编码处理,第二编码处理的过程可以包括编码规则变换、运动估计、运动补偿和熵编码等步骤,第二编码处理的目的可以是降低原始视频内冗余数据的占比,实现原始视频数据的压缩。恒定质量因子(Constant Rate Factor,CRF)与原始视频内冗余数据的压缩比率对应,目标恒定质量因子越大,原始视频经过第二编码处理后的数据压缩比率可以越大。
通过本公开的实施例,预先对原始视频进行第一编码处理得到第一编码视频,使得提取到的第一编码视频的视频特征更能够表征原始视频本身的特点和信息,使得得到的目标恒定质量因子的准确率更高,再通过目标恒定质量因子对原始视频进行第二次编码处理,进而使得最终得到的第二编码视频的视频质量评估分数,更加接近目标视频质量评估分数。此外,通过目标恒定质量因子对原始视频进行编码,可以使得最终得到的第二编码视频的码率与视频主观质量间达到一个平衡,以提高观众的视频观看体验。
此外,本公开实施例的编码方法,以少量耗时增加为代价对原始视频的编码质量进行了控制,可以为复杂的原始视频提供更高码率以提高画质,也可以为简单的原始视频在不过多降低质量的情况下节省了部分码率。
<方法实施例二>
在本实施例中,提供了一种训练前述实施例中所用的其中一个机器学习模型的方法。该方法由电子设备实施。该电子设备可以是具有处理器和存储器的电子产品。例如可以是台式计算机、笔记本电脑、手机、平板电脑、计算机集群等。
根据图2所示,本实施例的视频编码方法可以包括如下步骤S4100~S4300。
步骤S4100,获取训练视频。
本实施例中的训练视频,可以是一个视频,也可以是多个视频,在此不做限定。
本实施例的电子设备获取训练视频的方式,具体可以参照前述是时候了中的步骤S3100的描述,在此不再赘述。
在本实施例中,为了使机器学习模型具有良好的泛化能力,可以是选取尽可能涵盖各种场景(体育赛事、动漫、游戏等等)、类型(自拍、他拍、航拍等等)与视频特征(高帧率、低帧率等等)的视频,作为训练视频。在训练视频的范围足够广的情况下,训练得到的机器学习模型才能在预测时对原始视频所对应的目标恒定质量因子做出较为准确的判断。反之,当原始视频各种特征与训练视频之间的差异巨大时,机器学习模型可能会失效或产生错误的预测结果。
步骤S4200,根据训练视频,生成用于训练机器学习模型的训练样本。
本实施例以一个训练视频为例,对根据训练视频生成训练样本的方式进行解释说明。
在本公开的一个实施例中,根据训练视频,生成训练样用于训练机器学习模型的训练样本包括如下所示的步骤S4210~S4250:
步骤S4210,基于至少一个第一恒定质量因子,对训练视频进行第一编码处理,得到与第一恒定质量因子一一对应的第三编码视频。
该步骤S4210中用于对训练视频进行第一编码处理的第一恒定质量因子,与前述实施例的步骤S3200中所用到的第一恒定质量因子数量和取值均相同。
本实施例中对训练视频进行第一编码处理的过程可以参照前述实施例中的步骤S3200的描述,在此不再赘述。
在本公开的一个实施例中,在对训练视频进行第二编码处理之前,该方法还可以包括:
获取训练视频的初始分辨率;在初始分辨率大于预设的最小分辨率的情况下,基于最小分辨率,对训练视频进行压缩处理,以对压缩处理后的训练视频进行第一编码处理。
在对训练视频进行第一编码处理之前,先基于最小分辨率,对训练视频进行压缩处理,压缩处理后的训练视频相对于原始视频而言,可以加快第一编码处理过程的速度。
在本实施例中,最小分辨率可以是预先根据应用场景或具体需求所设定的,例如,该最小分辨率可以是270P。
在一个例子中,还可以是预先设定与最小分辨率所对应的最小宽度,训练视频的初始分辨率所对应的初始宽度大于该最小宽度的情况下,可以是获取训练视频的宽高比,基于最小宽度和训练视频的宽高比确定对应的目标高度,基于最小宽度和目标高度对训练视频进行压缩处理,使得训练视频在压缩前后处理后的宽高比保持不变。
步骤S4220,提取第三编码视频的视频特征。
本实施例中提取第三编码视频的视频特征的方式,可以参照前述实施例中的步骤S3300的描述,在此不再赘述。
步骤S4230,基于预设的至少一个设定分辨率和至少一个第二恒定质量因子,对训练视频进行第二编码处理,得到与设定分辨率和第二恒定质量因子所对应的第四编码视频。
在一个例子中,可以是预先根据应用场景或具体需求设定多个设定分辨率和多个第二恒定质量因子。多个第二恒定质量因子的取值可以是等差排列的。
具体的,可以是基于每个设定分辨率和第二恒定质量因子的组合,对训练视频进行一次第二编码处理,得到对应该组合的第四编码视频。
例如,在多个设定分辨率包括第一个设定分辨率和第二个设定分辨率多个第二恒定质量因子包括第一个第二恒定质量因子和第二个第二恒定质量因子的情况下,可以是基于第一个设定分辨率和第一个第二恒定质量因子,对训练视频进行第二编码处理,得到与第一个设定分辨率和第一个第二恒定质量因子所对应的第四编码视频;基于第二个设定分辨率和第一个第二恒定质量因子,对训练视频进行第二编码处理,得到与第二个设定分辨率和第一个第二恒定质量因子所对应的第四编码视频;基于第一个设定分辨率和第二个第二恒定质量因子,对训练视频进行第二编码处理,得到与第一个设定分辨率和第二个第二恒定质量因子所对应的第四编码视频;基于第二个设定分辨率和第二个第二恒定质量因子,对训练视频进行第二编码处理,得到与第二个设定分辨率和第二个第二恒定质量因子所对应的第四编码视频。
步骤S4240,确定第四编码视频的实际视频质量评估分数。
在本实施例中,可以是基于视频多方法评估融合(Video MultimethodAssessment Fusion,VMAF)工具,对步骤S4230所得到的每个第四编码视频的视频质量进行评估,得到对于第四编码视频的实际视频质量评估分数。
步骤S4250,根据第三编码视频的视频特征、设定分辨率、实际视频质量评估分数和第二恒定质量因子,生成训练样本。
在本实施例中,对于其中任意一个训练视频,可以是将基于该训练视频所得到的第三编码视频的视频特征、一个设定分辨率、一个第二恒定质量因子、和根据该设定分辨率和该第二恒定质量因子所得到的第四编码视频的实际视频质量评估分数,作为一个训练样本。其中,第二恒定质量因子可以是作为对应训练样本的标签。
具体的,可以是根据第三编码视频的视频特征、每个设定分辨率、实际视频质量评估分数和每个第二恒定质量因子,生成与每个设定分辨率和每个第二恒定质量因子所对应的训练样本。具体的,对于设定分辨率和第二恒定质量因子所构成的每个组合,可以得到一一对应的训练样本。
例如,在多个设定分辨率包括第一个设定分辨率和第二个设定分辨率多个第二恒定质量因子包括第一个第二恒定质量因子和第二个第二恒定质量因子的情况下,可以是将第三编码视频的视频特征、第一个设定分辨率、第一个第二恒定质量因子、与第一个设定分辨率和第一个第二恒定质量因子所对应的第四编码视频的实际视频质量评估分数,作为一个样本;将第三编码视频的视频特征、第一个设定分辨率、第二个第二恒定质量因子、与第一个设定分辨率和第二个第二恒定质量因子所对应的第四编码视频的实际视频质量评估分数,作为一个样本;将第三编码视频的视频特征、第二个设定分辨率、第一个第二恒定质量因子、与第二个设定分辨率和第一个第二恒定质量因子所对应的第四编码视频的实际视频质量评估分数,作为一个样本;将第三编码视频的视频特征、第二个设定分辨率、第二个第二恒定质量因子、与第二个设定分辨率和第二个第二恒定质量因子所对应的第四编码视频的实际视频质量评估分数,作为一个样本。
在第一恒定质量因子的数量为至少两个的一个例子中,可以是先将每个第一恒定质量因子所对应的第三编码视频的视频特征,按照预设的顺序进行拼接,得到拼接后的视频特征,再将拼接后的视频特征、一个设定分辨率、一个第二恒定质量因子、和根据该设定分辨率和该第二恒定质量因子所得到的第四编码视频的实际视频质量评估分数,作为一个训练样本。也就是说,一个训练样本中,可以包括对至少两个第一恒定质量因子所对应的第三编码视频的视频特征所拼接得到的视频特征、一个设定分辨率、一个第二恒定质量因子、以及根据该样本中的设定分辨率和第二恒定质量因子所得到的第四编码视频的实际视频质量评估分数。其中,与每个第一恒定质量因子所对应的第三编码视频,为根据对应第一恒定质量因子对训练视频编码得到的;第四编码视频为根据该样本中的设定分辨率和第二恒定质量因子对训练视频编码所得到的。
在此基础上,在执行前述实施例中的步骤S3400时,需要预先将每个第一恒定质量因子所对应的第一编码视频的视频特征,按照预设的顺序进行拼接,得到拼接后的视频特征,再将拼接后的视频特征、目标视频质量评估分数和目标分辨率输入至少一个预先训练好的机器学习模型中,即可得到目标恒定质量因子。
步骤S4300,根据训练样本进行机器学习训练,得到机器学习模型。
在本实施例中,可以是基于训练样本通过各种拟合手段获得机器学习模型,例如,可以利用任意的多元线性回归算法获得机器学习模型,在此不做限定。
在一个例子中,该多元线性回归算法可以是简单的反映该机器学习模型的多项式函数,其中,多项式函数的各阶系数未知,通过将训练样本代入该多项式函数,便可以确定多项式函数的各阶系数,进而获得机器学习模型。
在另一个例子中,可以利用各种机器学习算法,对训练样本进行多轮训练,每一轮都学习上一轮拟合后的残差,迭代T轮。每一轮训练过程中的训练目标,可以是使得残差的平方和最小,那么,在迭代T轮之后,即可将残差控制在较低的值,以使得最终得到的机器学习模型具有非常高的精确度。该机器学习算法例如是MLP、LightGBM、GBDT、XGBoost等,在此不做限定。
通过本实施例的方法来训练机器学习模型,可以使得机器学习模型的预测效果更加准确,即使得最终得到的目标恒定质量因子的准确率更高。那么,通过目标恒定质量因子对原始视频进行第二次编码处理,进而使得最终得到的第二编码视频的视频质量评估分数,更加接近目标视频质量评估分数。
<例子1>
图3示出了在第一恒定质量因子的数量为两个、机器学习模型的数量为三个的情况下,本实施例的视频编码方法的流程图。
在本实施例中,用户可以预先根据应用场景或具体需求分别来设定目标视频质量评估分数,目标分辨率,和两个第一恒定质量因子的取值。
根据图3所示,该方法可以包括如下所示的步骤S5001~S5013:
步骤S5001,获取待编码的原始视频。
步骤S5002,将原始视频按照最小分辨率进行压缩处理,得到压缩后的原始视频。
步骤S5003,根据第一个第一恒定质量因子,对压缩后的原始视频进行第一编码处理,得到与第一个第一恒定质量因子对应的第一编码视频。
步骤S5004,提取与第一个第一恒定质量因子对应的第一编码视频的视频特征。
步骤S5005,根据第二个第一恒定质量因子,对压缩后的原始视频进行第一编码处理,得到与第二个第一恒定质量因子对应的第一编码视频。
步骤S5006,提取与第二个第一恒定质量因子对应的第一编码视频的视频特征。
步骤S5007,获取预设的目标视频质量评估分数和目标分辨率。
步骤S5008,将每一第一编码视频的视频特征、目标视频质量评估分数和目标分辨率组成待输入机器学习模型的最终数据。
步骤S5009,将最终数据输入至第一个机器学习模型中进行预测,得到第一个机器学习模型所输出的预测恒定质量因子。
步骤S5010,将最终数据输入至第二个机器学习模型中进行预测,得到第二个机器学习模型所输出的预测恒定质量因子。
步骤S5011,将最终数据输入至第三个机器学习模型中进行预测,得到第三个机器学习模型所输出的预测恒定质量因子。
步骤S5012,根据预设的每一机器学习模型所对应的权重,确定所有机器学习模型所输出的预测恒定质量因子的加权平均值,作为原始视频所对应的目标恒定质量因子。
步骤S5013,根据目标恒定质量因子对原始视频进行第二编码处理,得到第二编码视频。
<例子2>
图4示出了在第一恒定质量因子的数量为两个的情况下,本实施例中任一个机器学习模型的训练过程的流程图。
在本实施例中,用户可以预先根据应用场景或具体需求分别来设定最小分辨率、两个第一恒定质量因子、至少一个设定分辨率和至少一个第二恒定质量因子的取值。
根据图4所示,该方法可以包括如下所示的步骤S6001~S6010:
步骤S6001,获取训练视频。
步骤S6002,将训练视频按最小分辨率进行压缩处理,得到压缩后的训练视频。
步骤S6003,基于第一个第一恒定质量因子,对压缩后的训练视频进行第一编码处理,得到与第一个第一恒定质量因子对应的第三编码视频。
步骤S6004,提取与第一个第一恒定质量因子对应的第三编码视频的视频特征。
步骤S6005,基于第二个第一恒定质量因子,对压缩后的训练视频进行第一编码处理,得到与第二个第一恒定质量因子对应的第三编码视频。
步骤S6006,提取与第二个第一恒定质量因子对应的第三编码视频的视频特征。
步骤S6007,基于预设的至少一个设定分辨率和至少一个第二恒定质量因子,对训练视频进行第二编码处理,得到与每个设定分辨率和每个第二恒定质量因子所对应的第四编码视频。
步骤S6008,确定每个第四编码视频的实际视频质量评估分数。
步骤S6009,根据第三编码视频的视频特征、每个设定分辨率、每个第二恒定质量因子和对应的实际视频质量评估分数,生成与每个设定分辨率和实际视频质量评估分数所对应的训练样本。
步骤S6010,根据训练样本进行机器学习训练,得到机器学习模型。
<装置实施例>
在本实施例中,提供一种视频编码装置7000,如图5所示,包括原始视频获取模块7100、第一编码模块7200、特征提取模块7300、因子确定模块7400和第二编码模块7500。
该原始视频获取模块7100用于获取待编码的原始视频;该第一编码模块7200用于基于至少一个第一恒定质量因子,对原始视频进行第一编码处理,得到与第一恒定质量因子一一对应的第一编码视频;该特征提取模块7300用于提取第一编码视频的视频特征;该因子确定模块7400用于根据第一编码视频的视频特征、预设的目标视频质量评估分数和预设的目标分辨率,确定原始视频所对应的目标恒定质量因子;该第二编码模块7500用于基于目标恒定质量因子和目标分辨率,对原始视频进行第二编码处理,得到第二编码视频;其中,目标视频质量评估分数用于表征第二编码视频的质量,目标分辨率为第二编码视频的分辨率。
本领域技术人员应当明白,可以通过各种方式来实现视频编码装置7000。例如,可以通过指令配置处理器来实现视频编码装置7000。例如,可以将指令存储在ROM中,并且当启动设备时,将指令从ROM读取到可编程器件中来实现视频编码装置7000。例如,可以将视频编码装置7000固化到专用器件(例如ASIC)中。可以将视频编码装置7000分成相互独立的单元,或者可以将它们合并在一起实现。视频编码装置7000可以通过上述各种实现方式中的一种来实现,或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。
在本实施例中,视频编码装置7000可以具有多种实现形式,例如,视频编码装置7000可以是任何的提供视频编码服务的软件产品或者应用程序中运行的功能模块,或者是这些软件产品或者应用程序的外设嵌入件、插件、补丁件等,还可以是这些软件产品或者应用程序本身。
<电子设备>
在本实施例中,还提供一种电子设备8000。
在一个例子中,如图6所示,该电子设备8000可以包括:
存储器8100和处理器8200,该存储器8100用于存储可执行的指令;该指令用于控制处理器8200执行前述的视频编码方法。
在本实施例中,该电子设备8000可以是手机、平板电脑、掌上电脑、台式机、笔记本电脑、工作站、游戏机、计算机集群等任意具有存储器8100以及处理器8200的电子产品。
以上已经结合附图描述了本公开的实施例,预先对原始视频进行第一编码处理得到第一编码视频,使得提取到的第一编码视频的视频特征更能够表征原始视频本身的特点和信息,使得得到的目标恒定质量因子的准确率更高,再通过目标恒定质量因子对原始视频进行第二次编码处理,进而使得最终得到的第二编码视频的视频质量评估分数,更加接近目标视频质量评估分数。此外,通过目标恒定质量因子对原始视频进行编码,可以使得最终得到的第二编码视频的码率与视频主观质量间达到一个平衡,以提高观众的视频观看体验。
<可读存储介质>
在本实施例中,还提供一种可读存储介质,其上存储有计算机程序,计算机程序在被处理器执行时实现如本公开任意实施例的视频编码方法。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本公开的范围由所附权利要求来限定。

Claims (10)

1.一种视频编码方法,其特征在于,包括:
获取待编码的原始视频;
基于至少一个第一恒定质量因子,对所述原始视频进行第一编码处理,得到与所述第一恒定质量因子一一对应的第一编码视频;
提取所述第一编码视频的视频特征;
根据所述第一编码视频的视频特征、预设的目标视频质量评估分数和预设的目标分辨率,确定所述原始视频所对应的目标恒定质量因子;
基于所述目标恒定质量因子和所述目标分辨率,对所述原始视频进行第二编码处理,得到第二编码视频;
其中,所述目标视频质量评估分数用于表征所述第二编码视频的质量,所述目标分辨率为所述第二编码视频的分辨率。
2.根据权利要求1所述的方法,所述根据所述视频特征、预设的目标视频质量评估分数和预设的目标分辨率,确定所述原始视频所对应的目标恒定质量因子包括:
将所述第一编码视频的视频特征、所述目标视频质量评估分数和所述目标分辨率输入至少一个预先训练好的机器学习模型中,得到所述机器学习模型所输出的预测恒定质量因子;
根据预测恒定质量因子,得到所述原始视频所对应的目标恒定质量因子。
3.根据权利要求2所述的方法,在所述机器学习模型的数量为一个的情况下,所述根据预测恒定质量因子,得到所述原始视频所对应的目标恒定质量因子包括:
将所述机器学习模型所输出的所述预测恒定质量因子,作为所述原始视频所对应的目标恒定质量因子;
或者,
在所述机器学习模型的数量为至少两个的情况下,所述根据预测恒定质量因子,得到所述原始视频所对应的目标恒定质量因子包括:
根据预设的每一所述机器学习模型所对应的权重,确定所述机器学习模型所输出的预测恒定质量因子的加权平均值,作为所述原始视频所对应的目标恒定质量因子。
4.根据权利要求2所述的方法,所述方法还包括训练所述机器学习模型的步骤,包括:
获取训练视频;
根据所述训练视频,生成用于训练所述机器学习模型的训练样本;
根据所述训练样本进行机器学习训练,得到所述机器学习模型。
5.根据权利要求4所述的方法,所述根据所述训练视频,生成用于训练所述机器学习模型的训练样本包括:
基于至少一个第一恒定质量因子,对所述训练视频进行第一编码处理,得到与所述第一恒定质量因子一一对应的第三编码视频;
提取所述第三编码视频的视频特征;
基于预设的至少一个设定分辨率和至少一个第二恒定质量因子,对所述训练视频进行第二编码处理,得到与所述设定分辨率和所述第二恒定质量因子所对应的第四编码视频;
确定所述第四编码视频的实际视频质量评估分数;
根据所述第三编码视频的视频特征、所述设定分辨率、所述实际视频质量评估分数和所述第二恒定质量因子,生成所述训练样本。
6.根据权利要求1或5所述的方法,其特征在于,对任一视频进行编码之前,所述方法还包括:
获取所述任一视频的初始分辨率;
在所述初始分辨率大于预设的最小分辨率的情况下,基于所述最小分辨率,对所述任一视频进行压缩处理,以对压缩处理后的任一视频进行第一编码处理;
其中,所述任一视频为所述原始视频或所述训练视频。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
提供用于输入所述目标视频质量评估分数的第一输入框、以及用于输入所述目标分辨率的第二输入框;
通过所述第一输入框获取所述目标视频质量评估分数,通过所述第二输入框获取所述目标分辨率。
8.一种视频编码装置,其特征在于,包括:
原始视频获取模块,用于获取待编码的原始视频;
第一编码模块,用于基于至少一个第一恒定质量因子,对所述原始视频进行第一编码处理,得到与所述第一恒定质量因子一一对应的第一编码视频;
特征提取模块,用于提取所述第一编码视频的视频特征;
因子确定模块,用于根据所述第一编码视频的视频特征、预设的目标视频质量评估分数和预设的目标分辨率,确定所述原始视频所对应的目标恒定质量因子;
第二编码模块,用于基于所述目标恒定质量因子和所述目标分辨率,对所述原始视频进行第二编码处理,得到第二编码视频;
其中,所述目标视频质量评估分数用于表征所述第二编码视频的质量,所述目标分辨率为所述第二编码视频的分辨率。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器用于存储指令,所述指令用于控制所述处理器执行根据权利要求1-7中任一项所述的方法。
10.一种可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器执行时实现如权利要求1至7中任一项所述的方法。
CN202110287432.5A 2021-03-17 一种视频编码方法、装置、电子设备及可读存储介质 Active CN113038130B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110287432.5A CN113038130B (zh) 2021-03-17 一种视频编码方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110287432.5A CN113038130B (zh) 2021-03-17 一种视频编码方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN113038130A true CN113038130A (zh) 2021-06-25
CN113038130B CN113038130B (zh) 2024-06-04

Family

ID=

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101547349A (zh) * 2009-04-27 2009-09-30 宁波大学 一种对视频信号的二次avs编码码率控制的方法
CN107846595A (zh) * 2016-09-19 2018-03-27 阿里巴巴集团控股有限公司 一种视频编码的方法和视频编码器
US20190124330A1 (en) * 2017-10-19 2019-04-25 Qualcomm Incorporated Chroma quantization parameter (qp) offset
JP2019176500A (ja) * 2019-06-05 2019-10-10 株式会社東芝 エンコード装置、エンコードプログラム、及びストリーミングシステム
CN110876060A (zh) * 2018-08-31 2020-03-10 网宿科技股份有限公司 一种编码过程中的码率调整方法及装置
CN111325681A (zh) * 2020-01-20 2020-06-23 南京邮电大学 一种结合元学习机制与特征融合的图像风格迁移方法
CN112204970A (zh) * 2018-07-25 2021-01-08 深圳市大疆创新科技有限公司 图像的编码控制方法、装置、存储介质及无人机
CN112312133A (zh) * 2020-10-30 2021-02-02 北京奇艺世纪科技有限公司 一种视频编码方法、装置、电子设备及可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101547349A (zh) * 2009-04-27 2009-09-30 宁波大学 一种对视频信号的二次avs编码码率控制的方法
CN107846595A (zh) * 2016-09-19 2018-03-27 阿里巴巴集团控股有限公司 一种视频编码的方法和视频编码器
US20190124330A1 (en) * 2017-10-19 2019-04-25 Qualcomm Incorporated Chroma quantization parameter (qp) offset
CN112204970A (zh) * 2018-07-25 2021-01-08 深圳市大疆创新科技有限公司 图像的编码控制方法、装置、存储介质及无人机
CN110876060A (zh) * 2018-08-31 2020-03-10 网宿科技股份有限公司 一种编码过程中的码率调整方法及装置
JP2019176500A (ja) * 2019-06-05 2019-10-10 株式会社東芝 エンコード装置、エンコードプログラム、及びストリーミングシステム
CN111325681A (zh) * 2020-01-20 2020-06-23 南京邮电大学 一种结合元学习机制与特征融合的图像风格迁移方法
CN112312133A (zh) * 2020-10-30 2021-02-02 北京奇艺世纪科技有限公司 一种视频编码方法、装置、电子设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨珍: ""基于感知质量的视频编码算法研究"", 中国优秀硕士学位论文全文数据库 *

Similar Documents

Publication Publication Date Title
CN109033149B (zh) 信息推荐方法、装置、服务器及存储介质
CN106326391B (zh) 多媒体资源推荐方法及装置
KR102180327B1 (ko) 전체적 특성 피드백을 이용한 점진적인 시각적 질의 처리
US8718378B2 (en) Image topological coding for visual search
US10897649B1 (en) Mature themes prediction for online content
CN110213458B (zh) 一种图像数据处理方法、装置及存储介质
CN109361927A (zh) 图像处理方法及装置
CN112148923A (zh) 搜索结果的排序方法、排序模型的生成方法、装置及设备
CN110719327B (zh) 图像上传的交互方法、装置和存储介质
CN106997381B (zh) 向目标用户推荐影视的方法及装置
CN114528474A (zh) 推荐对象确定方法、装置、电子设备及存储介质
CN113704509B (zh) 多媒体推荐方法、装置、电子设备及存储介质
CN113038130B (zh) 一种视频编码方法、装置、电子设备及可读存储介质
CN113038130A (zh) 一种视频编码方法、装置、电子设备及可读存储介质
CN110933504B (zh) 视频推荐方法、装置、服务器和存储介质
WO2016077103A1 (en) Automatic selection of images for an application
US20160132771A1 (en) Application Complexity Computation
CN106710196B (zh) 使用图像作为模拟遥控面板的方法和装置
CN114139046B (zh) 对象推荐方法、装置、电子设备及存储介质
Cao et al. How much longer to go? The influence of waiting time and progress indicators on quality of experience for mobile visual search applied to print media
US20230319327A1 (en) Methods, systems, and media for determining perceptual quality indicators of video content items
CN116881483B (zh) 多媒体资源推荐方法、装置及存储介质
WO2022141683A1 (en) Scalable feature stream
CN114155307A (zh) 信息提取模型的训练及信息提取方法、装置、介质
CN114491151A (zh) 视频封面生成方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant