CN110636291B - 一种视频编码初始量化参数优化方法 - Google Patents

一种视频编码初始量化参数优化方法 Download PDF

Info

Publication number
CN110636291B
CN110636291B CN201910548446.0A CN201910548446A CN110636291B CN 110636291 B CN110636291 B CN 110636291B CN 201910548446 A CN201910548446 A CN 201910548446A CN 110636291 B CN110636291 B CN 110636291B
Authority
CN
China
Prior art keywords
initial
frame
machine learning
tbpp
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910548446.0A
Other languages
English (en)
Other versions
CN110636291A (zh
Inventor
高伟
邝得互
冯志强
黄汉华
陆瀚东
张学坤
袁耀辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tfi Digital Media Ltd
Original Assignee
Tfi Digital Media Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tfi Digital Media Ltd filed Critical Tfi Digital Media Ltd
Publication of CN110636291A publication Critical patent/CN110636291A/zh
Application granted granted Critical
Publication of CN110636291B publication Critical patent/CN110636291B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种基于初始量化参数(QP)预测的机器学习方法,可有效地优化RD性能,本发明提出了一种用于初始QP预测的机器学习框架,其中,学习标签是以最大化率失真性能标准建立的,被证明比绝对变换差异(SATD)复杂度的QP确定方法更有效。主要原因是实时更新的剩余比特可以更好地反映实际QP水平的实时要求,用剩余帧目标每像素比特代替帧内编码帧目标每像素比特用作样本数据,避免凭经验设置帧内编码帧比特分配,从而提高了预测精度。

Description

一种视频编码初始量化参数优化方法
技术领域
本发明涉及视频编码中的码率控制(RC),具体涉及一种用于视频编码中码率控制优化的基于机器学习的初始量化参数(QP)预测方法。
背景技术
由于受到比特率资源的限制以及帧之间的质量相关性的限制,RC中初始帧内编码中的初始QP配置对视频编码性能影响很大。在视频编码中,每个帧内编码刷新周期以帧内编码帧开始,对于该帧内编码帧,确定初始QP是RC初始化的关键步骤之一。获得理想的初始QP往往比较困难:1)比特资源总是有限的,而为帧内编码帧分配比特实际上意味着在帧内编码帧和后续帧间编码帧之间的编码比特资源的权衡;2)帧内编码帧和后续帧间编码帧之间的质量依赖性使得比特分配更加复杂。因此,确定最佳初始QP可以被视为帧内编码帧和帧间编码帧之间的权衡问题。同理,很难获得最佳初始QP的精确模型和精确模型参数。
令人遗憾的是,关于改进RC初始化的文献很少,特别是利用机器学习方法得到最佳初始QP。现有技术中,用于机器学习去获得初始QP如图1所示。如图1所示,这些方法中影响因素通常可以分为两类:1)与目标每像素比特数目相关,2)与帧内编码复杂度相关。
在H.264/AVC的JVT-O079[1]中公开了初始QP确定方法,其中来自可用带宽的目标每像素比特的三个阈值用于设置四个固定QP。文献TCSVT-2008[2]指出,编码复杂度与熵信息和INTRA16 DC模式相关。在H.264/AVC的TBC-2009[3]标准中,边缘矢量幅度的信息被认为与编码复杂度有关。在H.264/SVC的TIE-2012[4]标准中,从帧内编码帧和特定相关帧之间,提取基于方差(MBV)和绝对差之和(SAD)的宏块以生成用于帧内编码帧编码内容复杂度的评价指标。由于与H.264/AVC和H.264/SVC中的特定编码工具具有高度相关性,编码复杂度相关特征在高效视频编码(HEVC)中不容易获得,因此,最好使编码复杂度相关特征独立于编码工具,以便在视频编码中易于采用。
现有的初始QP确定方法中的许多方法大部分是凭经验得到的,针对具有不同分辨率的不同视频进行了不同的配置。因此,所获得的模型参数对于其他不同的视频并不可靠。这些现有方法实际上对最终获得的编码性能的鲁棒性缺乏保证。
现有初始QP确定方法的另一个关键问题是缺乏有效的优化目标,使得优化工作对于RC优化目标以及视频编码性能都是无用的。通常,主要的RC优化目标包括提升的R-D性能、降低质量波动、获得更高的比特率准确度和更稳定的缓冲区控制。一些现有的初始QP方法仅评估编码失真来确定最佳方案,这是不准确的,因为不同的初始QP将在比特率准确度方面获得不同的结果。初始QP对整个视频编码影响体现在:不同的初始QP将在平均比特率和失真上产生不同的结果。尽管一些传统的帧级和块级RC算法努力使最终实现的比特率接近目标比特率,但由于初始QP中的某些参数不能合理地设置而导致毫无疑问的失败。因此,仅仅比较编码失真用来进行R-D性能评价显然是不可取的,需要研究一种更有效的RC优化方案。
对于HEVC,最新的参考软件HM-16.14[5]提供了一种基于R-λ模型的方法,该方法主要用于初始QP的确定和参数更新。除了当前帧内编码帧的目标每像素比特数目之外,绝对变换残差和(SATD,the sum of the absolute transformed difference)也被用作编码复杂度的度量,这种初始QP确定方法的缺点是对帧内编码帧所分配比特数目引入了不准确的经验设置。这种经验性的比特设置不可能获得最佳初始QP,从而RC性能也无法达到最佳。另一个问题是使用具有不准确的参数的R-λ模型来预测初始QP,不能保证帧内编码帧比特分配是最佳的。因此,为了避免凭经验设置帧内编码帧比特分配不准确性的问题,迫切需要更好的初始QP的获取方法。
下列参考文献的公开内容通过引用整体并入本文:
[1]K.P.Lim,G.Sullivan,and T.Wiegand,“Text Description of Joint ModelReference EncodingMethods and Decoding Concealment Methods,”JVT-O079,Busan,Korea,April 2005.
[2]H.Wang and S.Kwong,“Rate-distortion optimization of rate controlfor H.264with adaptive
initial quantization parameter determination,”IEEE Trans.CircuitsSyst.Video Technol.,vol.
18,no.1,pp.140-144,Jan.2008.
[3]M.Yang,J.C.Serrano and C.Grecos,“MPEG-7Descriptors Based ShotDetection and
Adaptive Initial Quantization Parameter Estimation for the H.264/AVC,”IEEE Trans.
Broadcasting,vol.55,no.2,pp.165-177,June 2009.
[4]S.Hu,H.Wang,S.Kwong and C.C.J.Kuo,“Novel Rate-Quantization Model-Based Rate
Control With Adaptive Initialization for Spatial Scalable VideoCoding,”IEEE Trans.Ind.
Electron.,vol.59,no.3,pp.1673-1684,March 2012.
[5]HM Reference Software 16.14.(2017,August)[Online].Available:
https://hevc.hhi.fraunhofer.de/svn/svn_HEVCSoftware/tags/HM-16.14.
发明内容
本发明公开了基于机器学习的初始QP预测方法,可以有效地优化RC性能,提出了用于初始QP预测的机器学习框架,其中学习标签是以最大化率失真(R-D)性能的目的构建的。对于帧内编码帧,为了避免帧内编码帧比特分配的经验设置,剩余帧的目标每像素比特代替传统使用的目标像素比特数目用于学习特征,因为实时更新的剩余比特可以更好地反映QP水平的实时需要,因此,选择支持向量回归(SVR)来进行预测可提高其鲁棒性。
附图说明
在下文中参考附图更详细地描述本发明的实施例,其中:
图1为现有技术中典型的初始QP确定方法的列表;
图2为一种实施例的用于视频编码中码率控制的确定初始QP的方法框架示意图;
图3为一种实施例的两组R-D数据对的编码结果,以及通过比较最大化R-D性能标准确定更好的初始QP编码方案示意图;
图4A-4E为一种实施例的初始QP选择与其对应的RD值之间的关系示意图;其中,图4A为视频序列流量的关系示意图;图4B为视频序列BQTerrace的关系示意图;图4C为视频序列BasketballDrill的关系示意图;图4D为视频序列BasketballPass的关系示意图;图4E为视频序列KristenAndSara的关系示意图;
图5为一种实施例的推荐用于HEVC编码性能评价的视频序列列表;
图6A-6C为一种实施例的使用FS1,FS2和FS3的不同特征集的学习参数网格搜索预测误差(RMSE)最小化的结果示意图;其中,图6A为特征集FS1,使用剩余帧目标每像素比特Tbpp的结果示意图;图6B为特征集FS2,使用绝对变换差SATD的和的结果示意图;图6C为特征集FS3,同时使用Tbpp和SATD的结果示意图;
图7为一种实施例的基于三个不同特征集FS1,FS2和FS3,初始QP机器学习的训练和测试结果与预测精度最大化标准值进行比较的列表。
具体实施方式
在以下描述中,作为优选示例阐述了用于预测视频编码中码率控制的初始量化参数(QP)的方法。对于本领域技术人员来说显而易见的是,在不脱离本发明的范围和精神的情况下,可以对实施方式进行增加和/或替换的修改。为了不模糊本发明,可以省略具体细节;然而,撰写本公开旨在使本领域技术人员能够在不需要过多实验的情况下可实践本文的方法。
图2给出了一个实施例中,一种用于预测视频编码中码率控制的初始QP的方法框架示意图,包括:接收输入视频;从输入视频中提取一个或多个特征向量;将提取的特征向量输入机器学习模型;并使用机器学习模型预测一个或多个初始QP。
特征向量提取的过程可以包括:为输入视频中的初始帧内编码帧确定初始目标每像素比特Tbpp0;确定输入视频中剩余帧的目标每像素比特Tbpp;从所确定的剩余帧的目标每像素比特Tbpp中提取特征向量。
初始目标每像素比特Tbpp0由式(1)确定:
其中,TBR表示目标比特率,FR表示帧率,FP为输入视频的每帧像素数。
剩余帧的目标每像素比特Tbpp由式(2)确定:
其中,AFN表示总帧数,CFN表示编码帧数,Ri为输入视频的第i帧的已消耗比特数。
机器学习模型训练的过程包括:接收测试视频数据集;从测试视频数据集中提取样本数据;基于性能优化的标准从多个初始QP中选择最佳初始QP;将提取的样本数据和相应的最优初始QP输入到机器学习模型中;训练机器学习模型以获得初始QP的预测函数。
用于机器学习模型训练的样本数据提取过程与特征向量提取的过程类似,包括:设置用于测试视频编码的目标比特率;确定测试视频中初始帧的初始每像素比特Tbpp0;确定测试视频中剩余帧的目标每像素比特Tbpp;从剩余帧所确定的目标每像素比特Tbpp中提取样本数据。
初始目标每像素比特Tbpp0可以用式(1)来计算,其中,TBR表示目标比特率,FR表示帧率,FP为测试视频的每帧像素数。
剩余帧的目标每像素比特Tbpp可以用式(2)来确定,其中,AFN表示总帧数,CFN表示编码帧数,Ri为测试视频第i帧的已消耗比特数。
用于机器学习模型训练的最佳初始QP选择的过程包括:用具有不同初始QP值的一个或多个编码方案对测试视频进行编码;计算每个编码方案的率失真(R-D)性能RDSi;选择获得最高R-D性能分值的编码方案对应的最佳初始QP值。
通过式(3)确定第i个初始QP编码方案的率失真(R-D)性能分值RDSi
其中,RF、DF和CF分别表示使用固定QP编码的已消耗比特数、均方误差(MSE)失真和剩余复杂性指标;Ci是第i个初始QP编码的一对R-D数据的乘积,如式(4)所示:
Ci=Ri·Di (4)
其中,Ri和Di分别是第i个初始QP编码的已消耗比特数和均方误差(MSE)失真。
图3给出了通过将单个R-D数据对与R-D性能最大化标准进行比较来确定更好的初始QP编码方案。R-D数据对有两个编码结果:S1(R1,D1)和S2(R2,D2),来自两个不同的初始QP方案:A和B。根据式(4)中所示的R-D关系,C1<C2。如果将S1延伸到方案B的曲线S1,B,则S1,B在R1,B处具有比在R1处的S1的R值更大,这意味着为了在S1处实现与方案A相同的D,方案B将需要消耗更多的比特。同理,如果方案A在方案B的曲线上具有与S2相同的比特数,则S2,A在D2,A处比S2在D2处具有较低的D。因此,可以得出,方案A在R-D性能方面优于方案B。如果方案i的Ci更小,则方案i具有更好的R-D性能。因此,通过比较不同方案的Ci,仅使用单个R-D数据对,快速识别获得R-D性能最大化的最佳初始QP。
应当注意的是,由于QP对模式选择(MD)和运动估计(ME)的率失真优化(RDO)过程的重要性,不同的QP策略将在复杂性上产生不同的结果,即对编码内容产生不同的R-D特性。因此,不同的初始QP方案将针对不同的编码内容在Ci上生成不同的结果。对于初始QP的确定问题,RDS的变化可以反映不同备选的初始QP方案的质量。如上所述,较小的Ci表示更好的R-D性能。然后,通过在相同目标比特率下对固定QP的编码结果进行归一化,最大的RDS结果用于表示R-D优化的初始QP的最佳选择。
图4A-4E分别给出了视频序列Traffic、BQTerrace、BasketballDrill、BasketballPass和KristenAndSara使用不同的初始QP与其对应的RD分值之间的关系。作为非限制性示例,采用GOP大小为4且帧内编码刷新周期大小为8的低延迟B编码结构。虚线表示针对不同视频序列在12种不同目标比特率下的最佳初始QP和得到的RD分值。本领域技术人员应该理解,用于收集用于初始QP预测的基准学习标签的视频序列不限于图4A-4E中所示的那些。如图5所示,用于HEVC编码性能评估的其他视频序列也可以分别用于训练和测试。
支持向量回归(SVR)模型是机器学习常用的模型之一,该模型最大的特点是鲁棒性和简单性,该模型因其鲁棒性和简单性而众所周知。然而,应该理解的是,SVR在本文中用作非限制性示例,也可以用其他合适的回归算法代替以提高预测精度。
在训练SVR机器学习模型时,基于核方法的径向基函数(RBF)产生的超平面由式(5)来定义:
f(x)=ωTφ(x)+b (5)
其中,φ(·)是RBF核函数,b是偏置项,ω与支持向量系数高度相关,支持向量系数描述了所选择的支持向量和被学习的超平面之间的关系。
可以通过由模型定义的成本函数J最小化来微调超平面,见式(6):
其中,xi和yi分别从第i个测试视频提取样本数据和相应选择的最佳初始QP,n是数据样本的数量,ξi和ξi*表示松弛变量,ε是允许的误差,参数C定义了位于ε-管外的数据样本的惩罚因子,参数ε决定了误差区域的灵敏度,从而影响了所选支持向量的数量。
在训练SVR机器学习模型之后,可以根据从所获得的最优超平面得到的支持向量SV、对应的支持向量系数SVCoef和偏置参数b来确定初始QP预测函数H,见式(7):
Pred_IQP=H(SV,SVCoef,φ(x),b) (7)
其中,x是从中提取的输入特征向量,Pred_IQP为输入视频预测的初始QP。
在一些实施例中,可以通过网格搜索调整机器学习模型的学习参数{g,c}来进一步最小化预测误差,其中,g对应于RBF核函数中的核超参数γ,c对应于ε-SVR中的成本参数C。图6A-6C给出了使用不同特征集的学习参数网格搜索预测误差(RMSE)最小化的结果。表示为FS1、FS2和FS3的三个不同的样本数据集分别被测试。特征集FS1仅由剩余帧的目标每像素比特Tbpp组成;FS2仅由绝对变换差值之和SATD组成;FS3由Tbpp和SATD共同组成。
图7给出了机器学习模型训练初始QP预测的训练和测试结果与基于三个不同特征集FS1、FS2和FS3的预测精度最大化的标准进行比较的结果。拟合精度通过相关系数R2来测量,预测误差用MSE(root MSE,RMSE)来测量,标记为RMSE_wr。
在图7的表中可以看出,对于FS1、FS2和FS3,R2分别达到0.8947、0.0140和0.6904。对于FS1、FS2和FS3,RMSE_wr分别为3.8005、5.7381和4.4701。仅使用剩余帧目标的bpp的方案FS1得到最小的预测误差。仅使用简单的SATD的方案FS2不能得到有效的初始QP预测。FS3不能给出比FS1更准确的预测。因此,通过使用基于剩余帧目标每像素比特提取特征向量的机器学习方案,可以将初始QP预测误差从可用宽范围0~51范围缩窄到更小的范围。
在根据本发明的另一个实施例中,提供了一种预测初始量化参数(QP)的方法,用于在对具有一个或多个帧内编码刷新周期视频进行编码时进行码率控制。该方法包括:接收输入视频数据集;从输入视频的数据集每个帧内编码刷新周期中提取一个或多个特征向量;将从第一个帧内编码刷新周期提取的特征向量送到机器学习模型中;使用机器学习模型预测每个帧内编码刷新周期的初始QP。
特征向量提取包括:设置用于测试视频编码的目标比特率;确定用于每个帧内编码刷新周期帧内编码帧的初始目标每像素比特Tbpp0;确定用于每个帧内编码刷新周期剩余帧的目标每像素比特Tbpp;从确定的目标每像素比特Tbpp中提取特征向量,用于每个帧内编码刷新周期的剩余帧。
初始目标每像素比特Tbpp0通过式(1)计算,其中,TBR是目标比特率,FR是帧率,FP是输入视频的每帧像素数。
剩余帧的目标每像素比特Tbpp由式(2)确定,其中,AFN是总帧数,CFN是编码帧数,Ri是输入视频的第i帧的已消耗比特数。
用于预测视频编码中码率控制的初始QP的方法和系统可以用于诸如高清电视、移动终端或个人计算设备(例如,平板电脑、笔记本电脑和台式机)、信息亭、打印机、数码相机、扫描仪或复印机或具有内置或外围电子显示器的用户终端。该装置至少包括用于执行算法的机器指令;其中,机器指令可以使用通用或专用计算设备、计算机处理器或电子电路来执行,包括但不限于数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)和其他可编程逻辑器件。该装置还可以包括计算机存储介质,用于存储计算机指令或软件代码,可对计算机或微处理器进行编程以执行本发明的任何过程。存储介质可以包括但不限于适用于存储指令,代码和/或数据的软盘、光盘、蓝光光盘、DVD、CD-ROM、磁光盘、ROM、RAM、闪存设备或任何类型的介质或设备。
出于说明和描述的目的提供了本发明的上述描述,其并非旨在穷举或将本发明限制于所公开的具体形式。以上公开的和其他的特征和功能或其替代方式中的各种可以被组合成许多其他不同的系统或应用。本领域技术人员随后可以做出各种目前无法预料的或未预料到的替代方案,修改,变化或改进,其中的每一个也旨在被所公开的实施例所涵盖。

Claims (12)

1.一种视频编码初始量化参数(QP)的优化方法,其特征在于,包括:
接收输入视频;
从输入视频中提取一个或多个特征向量;
将提取的特征向量输入机器学习模型中;
使用机器学习模型预测一个或多个初始QP;
其中,所述特征向量提取包括:
为输入视频中的初始帧确定初始目标每像素比特Tbpp0
确定输入视频中剩余帧的目标每像素比特Tbpp;
从所确定的输入视频中剩余帧的目标每像素比特Tbpp中提取特征向量。
2.如权利要求1所述的方法,其特征在于,所述初始目标每像素比特Tbpp0由以下参数确定:
其中,TBR表示目标比特率,FR表示帧率,FP为输入视频的每帧像素数。
3.如权利要求2所述的方法,其特征在于,所述剩余帧的目标每像素比特Tbpp由以下参数确定:
其中,AFN表示总帧数,CFN表示编码帧数,Ri为输入视频的第i帧的已消耗比特数。
4.如权利要求1所述的方法,其特征在于,所述机器学习模型由以下方式训练:
接收测试视频;
从测试视频中提取样本数据;
基于性能优化标准从多个初始QP中选择最佳初始QP;
将提取的样本数据和相应的所选最优初始QP输入到机器学习模型中;
训练机器学习模型以获得初始QP的预测函数。
5.如权利要求4所述的方法,其特征在于,所述样本数据提取包括:
设置用于测试视频编码的目标比特率;
确定测试视频中初始帧的初始目标每像素比特Tbpp0
确定测试视频中剩余帧的目标每像素比特Tbpp;
从剩余帧所确定的目标每像素比特Tbpp中提取样本数据。
6.如权利要求5所述的方法,其特征在于,所述初始目标每像素比特Tbpp0由以下参数确定:
其中,TBR是目标比特率,FR是帧率,FP是测试视频的每帧像素数。
7.如权利要求6所述的方法,其特征在于,所述剩余帧的目标每像素比特Tbpp由下式确定:
其中,AFN是总帧数,CFN是编码帧数,Ri是测试视频第i帧的已消耗比特数。
8.如权利要求4所述的方法,其特征在于,所述选择最佳初始QP包括:
用一个或多个具有不同初始QP值的编码方案对测试视频进行编码;
计算每个编码方案的率失真(R-D)性能分值RDSi
选择最佳初始QP值,其对应于实现最高R-D性能分值的编码方案。
9.如权利要求8所述的方法,其特征在于,第i个初始QP编码方案的率失真(R-D)性能分值RDSi由以下参数确定:
其中,RF、DF和CF分别是固定QP编码的平均已消耗比特数、均方误差(MSE)失真和剩余复杂性指标;Ci是第i个初始QP编码方案的一对R-D数据的乘积,由下面的模型近似得到:
Ci=Ri·Di
其中,Ri和Di分别是第i个初始QP编码方案的消耗比特数和均方误差(MSE)失真。
10.如权利要求1所述的方法,其特征在于,所述机器学习模型支持向量回归(SVR)模型,所述机器学习模型的训练包括:
采用基于核方法的径向基函数(RBF)来产生由下式定义的超平面:
f(x)=ωTφ(x)+b
其中,φ(·)是RBF核函数,b是偏置项,ω与支持向量系数高度相关,支持向量系数描述了所选择的支持向量和被学习的超平面之间的关系;
最小化成本函数J,以获得最佳超平面:
其中,xi和yi分别为第i个测试视频提取样本数据和相应选择的最佳初始QP,n是数据样本的数量,ξi和ξi *表示松弛变量,ε是允许的误差,参数C定义了数据样本的惩罚因子,参数ε决定了误差区域的灵敏度从而影响所选支持向量的数量;
根据从所获得的最佳超平面得到的支持向量SV、对应的支持向量系数SVCoef和偏置参数b,确定预测函数H,见下式:
Pred_IQP=H(SV,SVCoef,φ(x),b)
其中,x是从中提取的特征向量,Pred_IQP为输入视频预测的初始QP。
11.如权利要求10所述的方法,其特征在于,还包括通过网格搜索调整机器学习模型的学习参数{g,c}来进一步最小化机器学习模型的预测误差,其中,g对应于RBF核函数中的核超参数γ’c对应于成本参数。
12.如权利要求1所述的方法,其特征在于,
所述输入视频包括一个或多个帧内编码刷新周期;
使用机器学习模型预测第一帧内编码刷新周期的初始帧内编码帧的初始QP;
使用机器学习模型预测每个后续帧内编码刷新周期中帧内编码帧的初始QP。
CN201910548446.0A 2018-06-25 2019-06-24 一种视频编码初始量化参数优化方法 Active CN110636291B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/016,691 2018-06-25
US16/016,691 US10560696B2 (en) 2018-06-25 2018-06-25 Method for initial quantization parameter optimization in video coding

Publications (2)

Publication Number Publication Date
CN110636291A CN110636291A (zh) 2019-12-31
CN110636291B true CN110636291B (zh) 2023-08-15

Family

ID=68968860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910548446.0A Active CN110636291B (zh) 2018-06-25 2019-06-24 一种视频编码初始量化参数优化方法

Country Status (2)

Country Link
US (1) US10560696B2 (zh)
CN (1) CN110636291B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340240A (zh) * 2020-03-25 2020-06-26 第四范式(北京)技术有限公司 实现自动机器学习的方法及装置
CN111479113B (zh) * 2020-04-15 2021-04-09 腾讯科技(深圳)有限公司 码率控制方法和装置、存储介质和电子设备
EP4111417A1 (en) * 2020-04-17 2023-01-04 Google LLC Generating quantization tables for image compression
CN111898701B (zh) * 2020-08-13 2023-07-25 网易(杭州)网络有限公司 模型训练、帧图像生成、插帧方法、装置、设备及介质
CN112104863B (zh) * 2020-09-18 2022-11-11 北京金山云网络技术有限公司 视频质量评测模型训练、视频质量评测的方法和相关装置
CN112218078B (zh) * 2020-10-16 2021-09-14 西安邮电大学 面向监控视频的高效视频编码标准量化参数级联方法
CN116491115A (zh) * 2020-11-03 2023-07-25 渊慧科技有限公司 用于视频编码的具有反馈控制的速率控制机器学习模型
CN112422965B (zh) * 2020-11-16 2022-08-30 深圳市嬴圳科技有限公司 一种视频码率控制方法、装置、计算机设备及存储介质
CN114640890B (zh) * 2020-12-15 2024-05-17 北京神州数码云科信息技术有限公司 一种视频数据动态加载方法、装置、电子设备及存储介质
CN112770115B (zh) * 2020-12-25 2024-02-20 杭州电子科技大学 一种基于方向梯度统计特征的快速帧内预测模式决策方法
CN113286145B (zh) * 2021-04-26 2022-07-22 维沃移动通信有限公司 视频编码方法、装置和电子设备
CN114513664B (zh) * 2022-04-18 2022-07-22 鹏城实验室 视频帧编码方法、装置、智能终端及计算机可读存储介质
CN117807818B (zh) * 2024-03-01 2024-05-10 西安慧金科技有限公司 一种结合动态篮环优化算法的工业炉寿命预测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1833257A1 (en) * 2006-03-06 2007-09-12 THOMSON Licensing Method and apparatus for bit rate control in scalable video signal encoding using a Rate-Distortion optimisation
CN102067610A (zh) * 2008-06-16 2011-05-18 杜比实验室特许公司 基于视频编码的切片依赖性的码率控制模型适配
US8767825B1 (en) * 2009-11-30 2014-07-01 Google Inc. Content-based adaptive video transcoding framework
JP2014230151A (ja) * 2013-05-23 2014-12-08 日本電信電話株式会社 主観画質推定装置、及び、主観画質推定プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10499056B2 (en) * 2016-03-09 2019-12-03 Sony Corporation System and method for video processing based on quantization parameter
US10542262B2 (en) * 2016-11-15 2020-01-21 City University Of Hong Kong Systems and methods for rate control in video coding using joint machine learning and game theory
US10728553B2 (en) * 2017-07-11 2020-07-28 Sony Corporation Visual quality preserving quantization parameter prediction with deep neural network
US10721471B2 (en) * 2017-10-26 2020-07-21 Intel Corporation Deep learning based quantization parameter estimation for video encoding
KR20190056888A (ko) * 2017-11-17 2019-05-27 삼성전자주식회사 비디오 부호화 장치 및 방법
US10325352B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Method and device for transforming CNN layers to optimize CNN parameter quantization to be used for mobile devices or compact networks with high precision via hardware optimization

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1833257A1 (en) * 2006-03-06 2007-09-12 THOMSON Licensing Method and apparatus for bit rate control in scalable video signal encoding using a Rate-Distortion optimisation
CN102067610A (zh) * 2008-06-16 2011-05-18 杜比实验室特许公司 基于视频编码的切片依赖性的码率控制模型适配
US8767825B1 (en) * 2009-11-30 2014-07-01 Google Inc. Content-based adaptive video transcoding framework
JP2014230151A (ja) * 2013-05-23 2014-12-08 日本電信電話株式会社 主観画質推定装置、及び、主観画質推定プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
R1-99970 "Revised proposal for extended TFCI coding";Samsung;《3GPP tsg_ran\WG1_RL1》;19990721;全文 *

Also Published As

Publication number Publication date
US10560696B2 (en) 2020-02-11
CN110636291A (zh) 2019-12-31
US20190394466A1 (en) 2019-12-26

Similar Documents

Publication Publication Date Title
CN110636291B (zh) 一种视频编码初始量化参数优化方法
RU2709158C1 (ru) Кодирование и декодирование видео с повышенной устойчивостью к ошибкам
US10542262B2 (en) Systems and methods for rate control in video coding using joint machine learning and game theory
TWI466549B (zh) 運動預測方法
EP1574038B1 (en) Method and apparatus for estimating a motion vector
JP4735375B2 (ja) 画像処理装置及び動画像符号化方法。
CN110519600B (zh) 帧内帧间联合预测方法、装置、编解码器及存储装置
US10148947B2 (en) Method and device for determining parameters for encoding or decoding of an image of a video sequence
CN101945280B (zh) 对编码视频数据选择编码类型和预测模式的方法和设备
JP5555221B2 (ja) 着目物の適応的な色モデル・パラメータ推定に係る方法および装置
CN108124154B (zh) 帧间预测模式的快速选择方法、装置及电子设备
JP5138048B2 (ja) 適応性動き推定
Chen et al. Block-composed background reference for high efficiency video coding
CN101540912B (zh) 对编码视频数据选择编码类型和预测模式
US9113170B2 (en) Motion vector decision apparatus, motion vector decision method and computer readable storage medium
US10440384B2 (en) Encoding method and equipment for implementing the method
EP1530831A1 (en) Method and apparatus for performing high quality fast predictive motion search
JP2010537489A (ja) 関心のある領域の情報を使用した改善されたビデオ符号化の方法及び装置
Shahid et al. A no-reference machine learning based video quality predictor
US20190261001A1 (en) Encoding video using palette prediction and intra-block copy
JP2005348280A (ja) 画像符号化方法、画像符号化装置、画像符号化プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
Sanchez Rate control for predictive transform screen content video coding based on RANSAC
Ma et al. An adaptive lagrange multiplier determination method for dynamic texture in HEVC
WO2020001591A1 (zh) 一种解码、编码方法及其设备
WO2008079353A1 (en) Scaling the complexity of video encoding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40022440

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant