CN116170594A - 一种基于率失真代价预测的编码方法和装置 - Google Patents
一种基于率失真代价预测的编码方法和装置 Download PDFInfo
- Publication number
- CN116170594A CN116170594A CN202310417791.7A CN202310417791A CN116170594A CN 116170594 A CN116170594 A CN 116170594A CN 202310417791 A CN202310417791 A CN 202310417791A CN 116170594 A CN116170594 A CN 116170594A
- Authority
- CN
- China
- Prior art keywords
- coding
- mode
- coding unit
- distortion cost
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 106
- 238000007781 pre-processing Methods 0.000 claims abstract description 23
- 239000013598 vector Substances 0.000 claims description 50
- 238000010586 diagram Methods 0.000 claims description 46
- 230000008569 process Effects 0.000 claims description 35
- 238000005192 partition Methods 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 23
- 230000004927 fusion Effects 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 8
- 238000004590 computer program Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 13
- 238000005457 optimization Methods 0.000 description 12
- 230000015654 memory Effects 0.000 description 9
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 101001095088 Homo sapiens Melanoma antigen preferentially expressed in tumors Proteins 0.000 description 2
- 102100037020 Melanoma antigen preferentially expressed in tumors Human genes 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/147—Data rate or code amount at the encoder output according to rate distortion criteria
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
- H04N19/96—Tree coding, e.g. quad-tree coding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明提供了一种基于率失真代价预测的编码方法和装置,可应用于屏幕内容处理技术领域。该方法包括:获取当前帧中待编码的编码树单元;按照预设划分方式将编码树单元划分为至少一个编码单元,得到编码单元集;针对M种编码模式中的第j编码模式,根据第j编码模式的可执行深度从编码单元集中提取与第j编码模式的可执行深度对应的目标编码单元,得到第j编码单元子集;根据第j编码模式的预测特性对第j编码单元子集中的每个目标编码单元进行预处理,得到第j输入数据;将第j输入数据输入到与第j编码模式对应的第j率失真代价预测模型中,输出与第j编码单元子集对应的第j率失真代价集;根据M个率失真代价集对编码树单元进行编码。
Description
技术领域
本发明涉及屏幕内容处理技术领域,更具体地涉及一种基于率失真代价预测的编码方法和装置。
背景技术
屏幕内容一般是指从一些电子设备的显示屏中捕获的内容,它被广泛应用于线上屏幕内容共享的应用程序。与由传感器捕捉到的画面不同,屏幕内容包括文字、图形、软件界面等。这些内容通常只有几种颜色,并且图形边缘非常锐利,包含着大量重复的特征。屏幕内容的这些特性对传统的视频编码方式提出了重大挑战。
相关技术中,在屏幕内容的编码过程中,一帧图像首先被划分为互相不重叠的编码树单元(Coding Tree Unit,CTU),每个CTU可以被进一步划分为需要编码的编码单元(Coding Unit,CU),而每个CU都要在率失真优化过程中执行多个编码模式,编码器通过计算每种编码模式对应的率失真代价以决策出最优的编码模式。由于每个CU需要执行多个编码模式,这将使得整个编码过程的编码复杂度较高,导致编码速度较慢。
发明内容
鉴于上述问题,本发明提供了一种基于率失真代价预测的编码方法和装置。
根据本发明的第一个方面,提供了一种基于率失真代价预测的编码方法,上述方法包括M种编码模式,每种上述编码模式对应一种率失真代价预测模型,其中,M≥1;上述方法包括:获取当前帧中待编码的编码树单元;按照预设划分方式将上述编码树单元划分为至少一个编码单元,得到编码单元集;针对上述M种编码模式中的第j编码模式,根据上述第j编码模式的可执行深度从上述编码单元集中提取与上述第j编码模式的可执行深度对应的目标编码单元,得到与上述第j编码模式对应的第j编码单元子集,其中,1≤j≤M;根据上述第j编码模式的预测特性对上述第j编码单元子集中的每个上述目标编码单元进行预处理,得到与上述第j编码模式对应的第j输入数据;将上述第j输入数据输入到与上述第j编码模式对应的第j率失真代价预测模型中,输出与上述第j编码单元子集对应的第j率失真代价集,其中,上述第j率失真代价集中包括上述目标编码单元在上述第j编码模式下的率失真代价,最终得到M个率失真代价集;以及根据上述M个率失真代价集对上述编码树单元进行编码。
根据本发明的实施例,上述编码单元集中包括N个编码单元,其中,N≥1;上述方法还包括:在M≥2的情况下,针对上述编码单元集中的第i编码单元,从上述M个率失真代价集中提取与上述第i编码单元对应的至少一个候选率失真代价,其中,1≤i≤N;从上述至少一个候选率失真代价中确定数值最小的候选率失真代价作为与上述第i编码单元对应的第i最终率失真代价,最终得到N个最终率失真代价;其中,根据上述M个率失真代价集对上述编码树单元进行编码包括:根据上述N个最终率失真代价对上述编码树单元进行编码。
根据本发明的实施例,上述编码模式包括以下至少两种:帧内块复制模式、帧内角度预测模式、调色板模式、帧内块复制融合模式;其中,根据上述第j编码模式的预测特性对上述第j编码单元子集中的每个目标编码单元进行预处理,得到与上述第j编码模式对应的第j输入数据包括:针对上述第j编码单元子集中的每个目标编码单元,在上述第j编码模式为帧内块复制模式的情况下,将上述目标编码单元、在上述目标编码单元的第一方向上与所述目标编码单元相邻且处于第一预设范围的内容、在上述目标编码单元的第二方向上与所述目标编码单元相邻且处于上述第一预设范围的内容进行合并处理,得到与上述目标编码单元对应的输入子数据;根据上述输入子数据确定上述第j输入数据;在上述第j编码模式为帧内角度预测模式的情况下,将上述目标编码单元、在上述目标编码单元的第三方向上与所述目标编码单元相邻且处于第二预设范围的内容、在上述目标编码单元的第四方向上与所述目标编码单元相邻且处于上述第二预设范围的内容进行合并处理,得到与上述目标编码单元对应的输入子数据;根据上述输入子数据确定上述第j输入数据;在上述第j编码模式为调色板模式的情况下,直接将上述第j编码单元子集作为上述第j输入数据;在上述第j编码模式为帧内块复制融合模式的情况下,利用上述目标编码单元对预先提取的块向量进行运动补偿,得到预测块;提取上述预测块和上述目标编码单元的残差;利用上述残差确定与上述块向量对应的绝对变化差之和、水平梯度值和竖直梯度值,将上述变化差之和、上述水平梯度值和上述竖直梯度值作为与上述目标编码单元对应的输入子数据,其中,上述输入子数据包括至少一组与上述块向量对应的绝对变化差之和、水平梯度值和竖直梯度值;根据上述输入子数据确定上述第j输入数据。
根据本发明的实施例,上述方法还包括:在上述第j编码模式为帧内块复制模式的情况下,在上述目标编码单元处于边界位置时,将上述目标编码单元、在上述目标编码单元的第一方向上与所述目标编码单元相邻且处于第一预设范围的内容、在上述目标编码单元的第二方向上与所述目标编码单元相邻且处于上述第一预设范围的内容进行合并处理过程中,利用预设亮度值填充不可用区域;在上述第j编码模式为帧内角度预测模式的情况下,在上述目标编码单元处于边界位置时,将上述目标编码单元、在上述目标编码单元的第三方向上与所述目标编码单元相邻且处于第二预设范围的内容、在上述目标编码单元的第四方向上与所述目标编码单元相邻且处于上述第二预设范围的内容进行合并过程中,利用上述预设亮度值填充不可用区域。
根据本发明的实施例,上述利用上述目标编码单元对预先提取的块向量进行运动补偿,得到与上述块向量对应的预测块包括:提取上述当前帧中已编码的编码树单元的所有块向量,得到块向量集;针对上述块向量集中的每个块向量,利用上述目标编码单元对上述块向量进行运动补偿,得到与上述块向量对应的预测块。
根据本发明的实施例,在上述第j编码模式为帧内块复制融合模式的情况下,上述将上述第j输入数据输入与上述第j编码模式对应的第j率失真代价预测模型中,输出与上述第j编码单元子集对应的第j率失真代价集包括:针对上述第j编码单元子集中的每个目标编码单元,将上述至少一组与上述块向量对应的绝对变化差之和、水平梯度值和竖直梯度值输入与上述帧内块复制融合模式对应的率失真代价模型中,输出与至少一个块向量预测率失真代价;确定上述至少一个块向量预测率失真代价中数值最小的块向量预测率失真代价作为与上述目标编码单元对应的率失真代价,最终得到上述第j率失真代价集。
根据本发明的实施例,上述根据上述M个率失真代价集对上述编码树单元进行编码包括:根据上述M个率失真代价集确定与上述编码树单元对应的模式-划分图,其中,上述模式-划分图展示需要编入码流的划分结构和模式信息;根据上述模式-划分图对上述编码树单元进行编码。
根据本发明的实施例,上述根据上述M个率失真代价集确定与上述编码树单元对应的模式-划分图包括:根据上述M个率失真代价集确定上述编码单元集中的每个编码单元的率失真代价和目标编码模式;根据上述编码单元的目标编码模式构建初始模式-划分图,其中,在上述初始模式-划分图中,利用与上述目标编码模式对应的模式标识标注上述编码单元;针对上述编码单元集中的每个编码单元,在根据上述编码单元的率失真代价确定上述编码单元不是最优划分结构的情况下,在上述初始模式-划分图中利用预设标识更新上述编码单元的模式标识;在根据上述编码单元的率失真代价确定上述编码单元是最优划分结构的情况下,保持上述初始模式-划分图中上述编码单元的模式标识不变。
根据本发明的实施例,与上述编码模式对应的率失真代价预测模型的训练方法包括:获取与上述编码模式对应的训练样本,其中,上述训练样本包括样本编码单元的样本输入数据和样本率失真代价;将上述样本输入数据输入初始预测模型中,得到样本预测率失真代价;根据上述样本预测率失真代价和上述样本率失真代价确定损失值;以及利用上述损失值调整上述初始预测模型的网络参数,直至满足预设迭代条件时,得到上述率失真代价预测模型。
本发明的第二方面提供了一种基于率失真代价预测的编码装置,上述装置包括M种编码模式,每种上述编码模式对应一种率失真代价预测模型,其中,M≥1;上述装置包括:获取模块,用于获取当前帧中待编码的编码树单元;划分模块,用于按照预设划分方式将上述编码树单元划分为至少一个编码单元,得到编码单元集;提取模块,用于针对上述M种编码模式中的第j编码模式,根据上述第j编码模式的可执行深度从上述编码单元集中提取与上述第j编码模式的可执行深度对应的目标编码单元,得到与上述第j编码模式对应的第j编码单元子集,其中,1≤j≤M;预处理模块,用于根据上述第j编码模式的预测特性对上述第j编码单元子集中的每个上述目标编码单元进行预处理,得到与上述第j编码模式对应的第j输入数据;输入输出模块,用于将上述第j输入数据输入到与上述第j编码模式对应的第j率失真代价预测模型中,输出与上述第j编码单元子集对应的第j率失真代价集,其中,上述第j率失真代价集中包括上述目标编码单元在上述第j编码模式下的率失真代价,最终得到M个率失真代价集;以及编码模块,用于根据上述M个率失真代价集对上述编码树单元进行编码。
根据本发明的实施例,通过获取当前帧中待编码的编码树单元,并按照预设划分方式将编码树单元划分为至少一个编码单元,得到编码单元集;之后针对多种编码模式中的第j编码模式,根据第j编码模式的可执行深度从编码单元集中提取与第j编码模式的可执行深度对应的目标编码单元,得到与第j编码模式对应的第j编码单元子集;之后根据第j编码模式的预测特性对第j编码单元子集中的每个目标编码单元进行预处理,得到与第j编码模式对应的第j输入数据;之后将第j输入数据输入到与第j编码模式对应的第j率失真代价预测模型中,输出与第j编码单元子集对应的第j率失真代价集,最终得到多个率失真代价集;最后根据多个率失真代价集对编码树单元进行编码。本发明提供的编码方法通过利用率失真代价预测模型对编码单元在每个编码模式下的率失真代价进行预测,无需实际执行多种编码模式即可确定较优的编码模式,降低了整个编码过程的编码复杂度,提高了编码速度。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述内容以及其他目的、特征和优点将更为清楚。
图1示出了在HEVC-SCC标准下帧内模式选择过程的流程图。
图2示出了编码单元的划分合并过程的示意图。
图3示出了相关技术一中进行编码模式选择的示意图。
图4示出了相关技术二中进行编码模式选择的示意图。
图5示出了相关技术三中进行编码模式选择的示意图。
图6示出了根据本发明实施例的编码方法的流程图。
图7示出了在编码模式为帧内块复制模式时的输入子数据示意图。
图8示出了在编码模式为帧内角度预测模式时的输入子数据示意图。
图9示出了根据本发明实施例的在IBC merge模式下预测RD cost的示意图。
图10示出了根据本发明另一实施例的编码方法的流程图。
图11示出了根据本发明实施例的模式-划分图和可视化结果的示意图。
图12示出了根据本发明实施例的预测网络RDP-Nets的结构示意图。
图13示出了根据本发明实施例的残差块的结构示意图。
图14示出了根据本发明实施例的基于率失真代价预测的编码装置的结构框图。
图15示出了根据本发明实施例的适于实现基于率失真代价预测的编码方法的电子设备的方框图。
具体实施方式
本发明的方案适用于基于多功能视频编码(Versatile Video Coding,VVC)、高效率视频编码-屏幕内容编码扩展(High Efficiency Video Coding-Screen ContentCoding,HEVC-SCC)、高效率视频编码(High Efficiency Video Coding,HEVC)、高级视频编码(Advanced Video Coding,H.264)等编码标准对图像编码过程中,确定编码单元(CodingUnit,CU)的最优编码模式和划分模式。
以下,将参照附图来描述本发明的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本发明实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
在本发明的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
在本发明的技术方案中,对数据的获取、收集、存储、使用、加工、传输、提供、公开和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
在本发明的技术方案中,包括但不限于如下相关术语。
屏幕内容:一般是指从一些电子设备的显示屏中捕获的内容,被广泛应用于线上屏幕内容共享的应用程序,如远程会议,网络游戏,在线教育等。与传统的由传感器捕捉到的画面不同,屏幕内容包括文字、图形、软件界面等,这些内容通常只有几种颜色,并且图形边缘非常锐利,包含着大量重复的特征。
率失真优化:在视频有损压缩的过程中,其性能需要对编码输出的比特率和带来的失真进行综合度量。编码比特率与失真相互制衡,降低比特率往往会使得编码的失真度增大,而要想降低编码失真度,则需要增大编码的比特率。所以,率失真优化指的就是通过一系列的编码参数优化的方法,实现最优的编码性能,即在保证视频质量的情况下尽量降低编码比特率,或在一定的编码比特率下尽量提升视频质量。率失真优化过程描述为如下公式(1)所示的约束性优化问题。
其中,D 为失真;s.t. 表示“在以下条件下”,R为编码比特率。对于基于混合编码框架的视频编码系统,其中的各个环节包含大量的编码参数,例如预测模式、运动估计参数、编码模式参数等,且每个编码参数可能还含有多个候选值。为了取得最优的编码参数,率失真优化利用率失真代价(RD cost)量化每个编码模式候选,乃至每个编码模式的性能,从而在这些候选的编码模式中选择最优编码模式。
RD cost的计算公式如下式(2)。
其中,SSE 指重建块与源图像的差值均方和,λ是拉格朗日乘子,R 为编码该率失真优化对象的比特率。
在屏幕内容编码过程中,每个CTU通过率失真优化确定最优的编码模式选择和划分选择。其中,编码模式选择是将CTU划分为CU做编码模式选择。
图1示出了在HEVC-SCC标准下帧内模式选择过程的流程图。
如图1所示,在HEVC-SCC标准下帧内模式选择过程包括操作S110~操作S170。
在操作S110,获取当前编码单元。
在操作S120,针对当前编码单元,执行intra编码模式进行编码,并计算当前编码单元在intra编码模式下的第一率失真代价。
在操作S130,针对当前编码单元,执行IBC merge编码模式进行编码,并计算当前编码单元在IBC merge编码模式下的第二率失真代价。
在操作S140,判断IBC merge编码模式是否为Skip模式。在确定IBC merge编码模式是Skip模式的情况下,执行操作S170;在确定IBC merge编码模式不是Skip模式的情况下,执行操作S150。
在操作S150,针对当前编码单元,执行IBC编码模式进行编码,并计算当前编码单元在IBC编码模式下的第三率失真代价。
在操作S160,针对当前编码单元,执行PLT编码模式进行编码,并计算当前编码单元在PLT编码模式下的第四率失真代价。
在操作S170,将第一率失真代价、第二率失真代价、第三率失真代价、第四率失真代价中数值最低的率失真代价对应的编码模式作为最优编码模式,结束对当前编码单元的编码。
需要说明的是,intra是intra angle prediction的简写,中文名称是帧内角度预测;IBC merge是Intra Block Copy Merge的简写,中文名称是帧内块复制融合;Skip是Skipped Macroblock的简写,中文名称是跳过宏块;IBC是Intra Block Copy的简写,中文名称是帧内块复制;PLT是Palette的简写,中文名称是调色板。Skip模式为IBC merge模式的不传残差,仅传索引和模式标志的版本。一旦选用Skip模式,将跳过余下的模式选择过程,直接进入下一个CU。
在HEVC标准中,图1所示的流程仅需考虑Intra编码模式下的编码。
在完成上述编码模式的选择之后,进行划分决策。
图2示出了编码单元的划分合并过程的示意图。
如图2所示,图中的数字代表CU的深度。基于HEVC及HEVC-SCC在编码时规定CU共有四个深度,分别对应四种大小的CU。除了最小的CU外,每个CU都依据四叉树自上而下的划分为四个子CU。在进行率失真优化过程时,同样要进行自底向上的合并过程。其合并的依据就是经过编码模式选择为每个CU生成的最优RD cost。每层的CU划分标志SplitFlag_hi可采用公式(3)计算。
其中,,h 为CU的深度,i为当前深度下以光栅扫描顺序的编号;j为当前深度下的CU的子CU的编号;为对h深度下的CU对应的四个子CU的RD cost求和。在公式(3)中,如果SplitFlag为1,则表示该CU需要继续划分为更小的四个子CU。在完成所有CU的划分SplitFlag计算完成后,即可得到当前CTU最优划分情况,即经过率失真优化的结果。
目前,针对屏幕内容的编码一般包括如下相关技术。
相关技术一:基于统计特征算法的SCC帧内编码方法。在SCC的帧内编码过程中,CU本身的内容特征对编码模式选择有一定程度上的影响。在该技术方案中,通常对CU的内容进行特征分析,提取对编码模式可能有一定影响的特征,如颜色数量、梯度值、亮度的标准差等。然后在若干屏幕内容序列中统计这些特征与编码模式选择的关系映射,基于统计情况设置模式跳过或执行的阈值。
图3示出了相关技术一中进行编码模式选择的示意图。
如图3所示,在进行编码模式选择时,首先提取编码单元310的内容特征320,然后将提取的内容特征320进行阈值比较,之后根据阈值比较结果确定冗余模式330,并跳过冗余模式330,完成模式选择340,实现对编码单元310的快速编码。
但是,相关技术一中的技术方案一方面需要手工提取内容特征,若提取的特征数量较少,则难以有效判断每个编码模式应当跳过还是执行;若提取的特征数量较多,泛用性不强,例如,屏幕内容模式中的IBC模式和Merge模式的预测特性相似,通过手工提取特征无法区分这两种模式,只能将这两个模式绑定预测,一定程度上增加了编码复杂度。另一方面,基于统计得到的阈值判断无法应用于所有的屏幕内容。在该方案下,阈值用于调节特征对模式选择的影响,而这种阈值都是基于在多个序列的特征与模式选择情况映射的统计数据下计算的。如果应用到的序列与上述序列的内容特征差异过大,特征与模式选择的映射同样会产生差异,导致设置的阈值失效。
相关技术二:基于机器学习方法的SCC帧内编码方法。该方法首先通过利用机器学习的方法基于大量的特征训练出最优的模式决策模型,在进行编码过程中,对CU的内容特征进行人工提取,将提取的内容输入到训练好的最优模式决策模型中,以更为精准地判断每个编码模式是否应被跳过。这类机器学习方法可以包括决策树、随机森林、在线学习等。
图4示出了相关技术二中进行编码模式选择的示意图。
如图4所示,首先提取样本编码单元410的样本特征,得到训练样本特征420,利用训练样本特征420进行机器学习模型训练,得到模式决策模型430。在进行编码模式选择时,首先对编码单元440进行内容提取,得到内容特征450,然后将内容特征450输入模式决策模型430中,输出最优编码模式,完成模式的选择460。
相关技术二的技术方案通过模型预测的方式进行预测相比于基于统计得到的阈值更有泛化性,在有更多数据支撑的情况下,预测出的结果也更为准确。但是,基于机器学习的方法仍然需要手工提取特征作为模型训练的输入,仍然难以解决如何最优地确定手工提取特征的数量的问题。
相关技术三:基于深度学习方法的SCC帧内编码方法。该方法通过自动提取CU内容的特征,并将提取的内容特征作为模型训练的输入进行模型训练,以得到内容提取模型。在进行编码过程中,以CU本身或将CU进行图像预处理后的结果输入到训练好的模型中,输出CU的内容特征,并将输出的CU的内容特征应用到其余步骤中进行模式决策。
图5示出了相关技术三中进行编码模式选择的示意图。
如图5所示,首先需要对样本编码单元510进行图像预处理,得到训练输入样本520,利用训练输入样本520进行深度学习模型训练,得到内容提取模型530。在进行编码模式选择时,首先对编码单元540进行图像预处理,得到待提取数据550,然后将待提取数据550输入内容提取模型530中,输出内容特征560,再采用相关技术一或相关技术二中的方式对内容特征560进行特征处理,以完成模式选择570。
相关技术三的技术方案可以在一定程度上解决手工提取特征的问题,但是经过深度学习模型预测得到的结果不会作为最终模式选择的结果,而是作为媒介做进一步的处理,从而使得编码速度有待提高。
有鉴于此,本发明针对以上技术问题,通过利用率失真代价预测模型对编码单元在每个模式下的率失真代价进行预测,之后根据率失真代价确定最优编码模式,无需实际进行多种编码模式即可确定较优的编码模式,从而完成编码模式的快速选择,提高编码速度。
具体地,本发明的实施例提供了一种基于率失真代价预测的编码方法,该方法包括M种编码模式,每种编码模式对应一种率失真代价预测模型,其中,M≥1;该包括:获取当前帧中待编码的编码树单元;按照预设划分方式将编码树单元划分为至少一个编码单元,得到编码单元集;针对M种编码模式中的第j编码模式,根据第j编码模式的可执行深度从编码单元集中提取与第j编码模式的可执行深度对应的目标编码单元,得到与第j编码模式对应的第j编码单元子集,其中,1≤j≤M;根据第j编码模式的预测特性对第j编码单元子集中的每个目标编码单元进行预处理,得到与第j编码模式对应的第j输入数据;将第j输入数据输入到与第j编码模式对应的第j率失真代价预测模型中,输出与第j编码单元子集对应的第j率失真代价集,其中,第j率失真代价集中包括目标编码单元在第j编码模式下的率失真代价,最终得到M个率失真代价集;以及根据M个率失真代价集对编码树单元进行编码。
图6示出了根据本发明实施例的编码方法的流程图。
该实施例的编码方法包括M种编码模式,每种上述编码模式对应一种率失真代价预测模型,其中,M≥1。
如图6所示,该实施例的编码方法包括操作S610~操作S660。
在操作S610,获取当前帧中待编码的编码树单元。
根据本发明的实施例,待编码的编码树单元实际上是图像划分出的一个图像块,可以通过待编码的编码树单元的各个像素点的像素值来表示。
在操作S620,按照预设划分方式将上述编码树单元划分为至少一个编码单元,得到编码单元集。
根据本发明的实施例,按照预设划分方式将上述编码树单元划分为至少一个编码单元可以包括将编码树单元划分为64×64、32×32、16×16及8×8的编码单元,得到编码单元集。
在操作S630,针对上述M种编码模式中的第j编码模式,根据上述第j编码模式的可执行深度从上述编码单元集中提取与上述第j编码模式的可执行深度对应的目标编码单元,得到与上述第j编码模式对应的第j编码单元子集,其中,1≤j≤M。
根据本发明的实施例,不同的编码模式的可执行深度不同,例如,编码模式A仅在可执行深度为2和3的情况下执行,则与编码模式A对应的目标编码单元可以包括32×32、16×16的编码单元。
在操作S640,根据上述第j编码模式的预测特性对上述第j编码单元子集中的每个上述目标编码单元进行预处理,得到与上述第j编码模式对应的第j输入数据。
需要说明的是,不同的编码模式的预测特性不同,在进行编码模式选择时,需要对目标编码单元进行预处理以便于提高编码模式选择的准确性。
例如,对于IBC编码模式,其预测特性是根据历史已编码信息中相似的编码块,对当前内容进行预测。也就是说,对于IBC编码模式的预测结果与CU本身关联不大,而是与周边已编码信息相关性较大,因此,对于IBC编码模式进行预处理时,需要合并CU周围的内容作为输入数据。
在操作S650,将上述第j输入数据输入到与上述第j编码模式对应的第j率失真代价预测模型中,输出与上述第j编码单元子集对应的第j率失真代价集,其中,上述第j率失真代价集中包括上述目标编码单元在上述第j编码模式下的率失真代价,最终得到M个率失真代价集。
在操作S660,根据上述M个率失真代价集对上述编码树单元进行编码。
根据本发明的实施例,通过获取当前帧中待编码的编码树单元,并按照预设划分方式将编码树单元划分为至少一个编码单元,得到编码单元集;之后针对多种编码模式中的第j编码模式,根据第j编码模式的可执行深度从编码单元集中提取与第j编码模式的可执行深度对应的目标编码单元,得到与第j编码模式对应的第j编码单元子集;之后根据第j编码模式的预测特性对第j编码单元子集中的每个目标编码单元进行预处理,得到与第j编码模式对应的第j输入数据;之后将第j输入数据输入到与第j编码模式对应的第j率失真代价预测模型中,输出与第j编码单元子集对应的第j率失真代价集,最终得到多个率失真代价集;最后根据多个率失真代价集对编码树单元进行编码。本发明提供的编码方法通过利用率失真代价预测模型对编码单元在每个编码模式下的率失真代价进行预测,无需实际执行多种编码模式即可确定较优的编码模式,降低了整个编码过程的编码复杂度,提高了编码速度。
根据本发明的实施例,根据上述第j编码模式的可执行深度从上述编码单元集中提取与上述第j编码模式的可执行深度对应的目标编码单元,得到与上述第j编码模式对应的第j编码单元子集包括:在第j编码模式为帧内块复制模式的情况下,帧内块复制模式的可执行深度包括2和3,从编码单元集中选取编码单元的大小为16×16及8×8的编码单元作为目标编码单元,得到与帧内块复制模式对应的编码单元子集;在第j编码模式为帧内角度预测模式的情况下,帧内角度预测模式的可执行深度包括0、1、2、3,从编码单元集中选取编码单元的大小为64×64、32×32、16×16及8×8的编码单元作为目标编码单元,得到与帧内角度预测模式对应的编码单元子集;在第j编码模式为调色板模式的情况下,调色板模式的可执行深度包括1、2、3,从编码单元集中选取编码单元的大小为32×32、16×16及8×8的编码单元作为目标编码单元,得到与调色板模式对应的编码单元子集。
根据本发明的实施例,上述编码单元集中包括N个编码单元,其中,N≥1;上述方法还包括: 在M≥2的情况下,针对上述编码单元集中的第i编码单元,从上述M个率失真代价集中提取与上述第i编码单元对应的至少一个候选率失真代价,其中,1≤i≤N;从上述至少一个候选率失真代价中确定数值最小的候选率失真代价作为与上述第i编码单元对应的第i最终率失真代价,最终得到N个最终率失真代价;其中,根据上述M个率失真代价集对上述编码树单元进行编码包括:根据上述N个最终率失真代价对上述编码树单元进行编码。
根据本发明的实施例,由于M≥2,对于第i编码单元,需要将第i编码单元依次输入M个率失真代价预测模型中进行率失真代价预测,从而得到至少一个与第i编码单元对应的候选率失真代价;然后根据至少一个候选率失真代价确定最小的候选率失真代价作为与第i编码单元对应的第i最终率失真代价,之后根据第i最终率失真代价确定与第i编码单元对应的第i编码模式,之后利用第i编码模式对第i编码单元进行编码。
根据本发明的实施例,通过提供多种编码模式,并构建与每种编码模式对应的率失真代价预测模型,在进行编码过程中,获得待编码的CTU的所有子CU在每个编码模式下的预测RD cost。通过该预测RD cost可以直接经过大小比较得到最优的编码模式,从而能够快速选择编码模式,提高编码速度。
根据本发明的实施例,上述编码模式包括以下至少两种:帧内块复制模式、帧内角度预测模式、调色板模式、帧内块复制融合模式;其中,根据上述第j编码模式的预测特性对上述第j编码单元子集中的每个目标编码单元进行预处理,得到与上述第j编码模式对应的第j输入数据包括:针对上述第j编码单元子集中的每个目标编码单元,在上述第j编码模式为帧内块复制模式的情况下,将上述目标编码单元、在上述目标编码单元的第一方向上与所述目标编码单元相邻且处于第一预设范围的内容、在上述目标编码单元的第二方向上与所述目标编码单元相邻且处于上述第一预设范围的内容进行合并处理,得到与上述目标编码单元对应的输入子数据;根据上述输入子数据确定上述第j输入数据;在上述第j编码模式为帧内角度预测模式的情况下,将上述目标编码单元、在上述目标编码单元的第三方向上与所述目标编码单元相邻且处于第二预设范围的内容、在上述目标编码单元的第四方向上与所述目标编码单元相邻且处于上述第二预设范围的内容进行合并处理,得到与上述目标编码单元对应的输入子数据;根据上述输入子数据确定上述第j输入数据;在上述第j编码模式为调色板模式的情况下,直接将上述第j编码单元子集作为上述第j输入数据;在上述第j编码模式为帧内块复制融合模式的情况下,利用上述目标编码单元对预先提取的块向量进行运动补偿,得到预测块;提取上述预测块和上述目标编码单元的残差;利用上述残差确定与上述块向量对应的绝对变化差之和、水平梯度值和竖直梯度值,将上述变化差之和、上述水平梯度值和上述竖直梯度值作为与上述目标编码单元对应的输入子数据,其中,上述输入子数据包括至少一组与上述块向量对应的绝对变化差之和、水平梯度值和竖直梯度值;根据上述输入子数据确定上述第j输入数据。
根据本发明的实施例,在第j编码模式为帧内块复制模式(IBC模式)的情况下,第一方向可以是目标编码单元的左侧方向,第二方向可以是目标编码单元的右侧方向。第一预设范围可以是目标编码单元长度的预设倍数,例如,目标编码单元的长度为S,则第一预设范围可以是4×S。
图7示出了在编码模式为帧内块复制模式时的输入子数据示意图。
如图7所示,目标编码单元即CU的图像块长度为S,则对CU左侧及上侧相邻位置处的内容与CU合并,得到输入子数据,该输入子数据的图像块的长度为4×S。
需要说明的是,对于IBC模式,其预测特性是根据历史已编码信息中相似的编码块,对当前内容进行预测。也就是说,该IBC模式预测的结果与CU本身关联不大,而是与周边已编码信息相关。因此,本发明的实施例在预测IBC模式的RD cost时合并了CU周围的内容作为输入子数据。而将第一预设范围设置为目标编码单元长度的四倍大学是基于实验数据证明得到在训练数据中有70%的CU在四倍大小的周边区域中可以找到最优的匹配块,考虑到复杂度与性能的权衡,将第一预设范围确定为四倍大小。
根据本发明的实施例,如上所述,与IBC模式对应的编码单元子集中的目标编码单元包括大小为16×16及8×8的图像块,则经过预处理后得到的输入数据包括64×64及32×32两种规格的图像块。
根据本发明的实施例,在第j编码模式为帧内角度预测模式(Intra模式)的情况下,第三方向可以是目标编码单元的左侧方向,第四方向可以是目标编码单元的右侧方向。第二预设范围可以是预设数量的行数,例如,第二预设范围可以是目标编码单元左侧相邻的两行内容,还可以是目标编码单元上侧相邻的两行内容。
图8示出了在编码模式为帧内角度预测模式时的输入子数据示意图。
如图8所示,目标编码单元即CU的图像块长度为S,则对CU左侧及上侧相邻位置处的内容与CU合并,得到的输入子数据,该输入子数据的图像块的长度为2+S。
需要说明的是,对于Intra模式,在预测时会通过目标编码单元左方和上方的一列一行重建像素进行预测,而本发明实施例为了放大重建像素的特点,多加了一行的参考像素,最终结果是合并了目标编码单元周围的两行两列的像素作为输入子数据。
根据本发明的实施例,如上所述,与Intra模式对应的编码单元子集中的目标编码单元包括大小为64×64、32×32、16×16及8×8的图像块,则经过预处理后得到的输入数据包括66×66、34×34、18×18及10×10四种规格的图像块。
根据本发明的实施例,上述编码方法还包括:在上述第j编码模式为帧内块复制模式的情况下,在上述目标编码单元处于边界位置时,将上述目标编码单元、在上述目标编码单元的第一方向上与所述目标编码单元相邻且处于第一预设范围的内容、在上述目标编码单元的第二方向上与所述目标编码单元相邻且处于上述第一预设范围的内容进行合并处理过程中,利用预设亮度值填充不可用区域;在上述第j编码模式为帧内角度预测模式的情况下,在上述目标编码单元处于边界位置时,将上述目标编码单元、在上述目标编码单元的第三方向上与所述目标编码单元相邻且处于第二预设范围的内容、在上述目标编码单元的第四方向上与所述目标编码单元相邻且处于上述第二预设范围的内容进行合并过程中,利用上述预设亮度值填充不可用区域。
根据本发明的实施例,在编码模式为帧内块复制模式和帧内角度预测模式时,由于对目标编码单元进行预处理时需要合并周边内容,因此需考虑目标编码单元处于边界位置时,导致周边内容不可用的情况。由于最终输入到率失真代价预测模型中的数据是每个图像块(即编码单元)的亮度值(Y分量),所以可以采用预设亮度值128填充不可用的区域。
根据本发明的实施例,在上述第j编码模式为帧内角度预测模式的情况下,并不是以图像块作为输入子数据,而是以块向量(BV)变化差之和(SATD值)、水平梯度值和垂直梯度值作为输入子数据。
根据本发明的实施例,上述利用上述目标编码单元对预先提取的块向量进行运动补偿,得到与上述块向量对应的预测块包括:提取上述当前帧中已编码的编码树单元的所有块向量,得到块向量集;针对上述块向量集中的每个块向量,利用上述目标编码单元对上述块向量进行运动补偿,得到与上述块向量对应的预测块。
根据本发明的实施例,提取与当前的编码树单元相邻的所有预测单元PU的有效BV,组成BV集;其中,BV包括当前帧中已编码内容的有效BV,由于在对当前帧的编码过程是按照Z字形编码,即当前帧中已编码内容包括当前帧的左方、左上方、上方及右上方的内容。
根据本发明的实施例,在进行运动补偿之前,首先需要对BV集进行去重操作,并验证BV的有效性。在进行运动补偿前,首先要对BV候选集去重,并验证BV的有效性。每个目标编码单元对BV进行运动补偿后产生预测块,将预测块与目标编码单元的原始值相减后得到残差。通过残差可以获得SATD值,例如,可以将残差做哈达玛变换的4×4块的预测残差绝对值综合,与RD cost存在一定的线性关系。为了辅助预测,本发明的实施例还对残差提取了水平梯度值、垂直梯度值,作为共同的输入子数据。
根据本发明的实施例,在上述第j编码模式为帧内块复制融合模式的情况下,上述将上述第j输入数据输入与上述第j编码模式对应的第j率失真代价预测模型中,输出与上述第j编码单元子集对应的第j率失真代价集包括:针对上述第j编码单元子集中的每个目标编码单元,将上述至少一组与上述块向量对应的绝对变化差之和、水平梯度值和竖直梯度值输入与上述帧内块复制融合模式对应的率失真代价模型中,输出与至少一个块向量预测率失真代价;确定上述至少一个块向量预测率失真代价中数值最小的块向量预测率失真代价作为与上述目标编码单元对应的率失真代价,最终得到上述第j率失真代价集。
根据本发明的实施例,每个BV经过当前目标编码单元预测后都会得到对应的预测RD cost,最终组成与当前目标编码单元对应的预测RD cost集合。在该集合中,存在一个最小的RD cost,该RD cost即作为当前目标编码单元在的IBC merge模式下的预测RD cost。
例如,BV集中包括BV1、BV2、BV3,当前目标编码单元为目标编码单元A,则上述确定目标编码单元A在的IBC merge模式下的预测RD cost包括:BV1经过目标编码单元A预测后得到预测RD cost-1;BV2经过目标编码单元A预测后得到预测RD cost-2;BV3经过目标编码单元A预测后得到预测RD cost-3;此时,得到的与目标编码单元A对应的预测RD cost集合中包括预测RD cost-1、预测RD cost-2和预测RD cost-3;之后从预测RD cost-1、预测RDcost-2和预测RD cost-3中选取数值最小的RD cost作为目标编码单元A在的IBC merge模式下的预测RD cost。
图9示出了根据本发明实施例的在IBC merge模式下预测RD cost的示意图。
如图9所示,首先,确定CTU左方所有相邻BV和上方所有相邻BV,提取向量块,得到向量块集;然后针对CTU中的每个CU,分别对向量块集中的每个向量块进行运动补偿,得到SATD值、水平梯度值和垂直梯度值;之后将SATD值、水平梯度值和垂直梯度值输入至与IBCmerge模式对应的率失真代价预测模型中,输出与当前CU对应的最优RD cost。
根据本发明的实施例,根据上述M个率失真代价集对上述编码树单元进行编码包括:根据M个率失真代价集确定每个编码单元的最优编码模式,然后指导编码器跳过非最优模式。
根据本发明的实施例,上述根据上述M个率失真代价集对上述编码树单元进行编码包括:根据上述M个率失真代价集确定与上述编码树单元对应的模式-划分图,其中,上述模式-划分图展示需要编入码流的划分结构和模式信息;根据上述模式-划分图对上述编码树单元进行编码。
根据本发明的实施例,上述根据上述M个率失真代价集确定与上述编码树单元对应的模式-划分图包括:根据上述M个率失真代价集确定上述编码单元集中的每个编码单元的率失真代价和目标编码模式;根据上述编码单元的目标编码模式构建初始模式-划分图,其中,在上述初始模式-划分图中,利用与上述目标编码模式对应的模式标识标注上述编码单元;针对上述编码单元集中的每个编码单元,在根据上述编码单元的率失真代价确定上述编码单元不是最优划分结构的情况下,在上述初始模式-划分图中利用预设标识更新上述编码单元的模式标识;在根据上述编码单元的率失真代价确定上述编码单元是最优划分结构的情况下,保持上述初始模式-划分图中上述编码单元的模式标识不变。
图10示出了根据本发明另一实施例的编码方法的流程图。
该实施例的编码方法包括M种编码模式,每种上述编码模式对应一种率失真代价预测模型,其中,M≥1。
如图10所示,该实施例的编码方法包括操作S1001~操作S1011。
在操作S1001,获取当前帧中待编码的编码树单元。
在操作S1002,按照预设划分方式将编码树单元划分为至少一个编码单元,得到编码单元集。
在操作S1003,针对M种编码模式中的第j编码模式,根据第j编码模式的可执行深度从编码单元集中提取与第j编码模式的可执行深度对应的目标编码单元,得到与第j编码模式对应的第j编码单元子集,其中,1≤j≤M。
在操作S1004,根据第j编码模式的预测特性对第j编码单元子集中的每个目标编码单元进行预处理,得到与第j编码模式对应的第j输入数据。
在操作S1005,将第j输入数据输入到与第j编码模式对应的第j率失真代价预测模型中,输出与第j编码单元子集对应的第j率失真代价集,其中,第j率失真代价集中包括目标编码单元在第j编码模式下的率失真代价,最终得到M个率失真代价集。
在操作S1006,根据M个率失真代价集确定编码单元集中的每个编码单元的率失真代价和目标编码模式。
在操作S1007,根据编码单元的目标编码模式构建初始模式-划分图,其中,在初始模式-划分图中,利用与目标编码模式对应的模式标识标注编码单元。
在操作S1008,针对编码单元集中的每个编码单元,在根据编码单元的率失真代价确定编码单元是否为最优划分结构。在确定编码单元不是最优划分结构的情况下,执行操作S1009;在确定编码单元是最优划分结构的情况下,执行操作S1010。
在操作S1009,在初始模式-划分图中利用预设标识更新编码单元的模式标识。
在操作S1010,保持初始模式-划分图中编码单元的模式标识不变。
在操作S1011,根据模式-划分图对编码树单元进行编码。
根据本发明的实施例,根据上述模式-划分图对上述编码树单元进行编码包括:将模式-划分图展示的需要编入码流的划分结构和模式信息进行压缩后编入码流,完成对编码树单元的编码。
图11示出了根据本发明实施例的模式-划分图和可视化结果的示意图。
如图11中的(a)图所示,该模式-划分图包括四个子图,即Depth0,Depth1,Depth2和Depth3,Depth0,Depth1,Depth2和Depth3,分别代表四个划分深度对应的模式选择和划分。Depth0,Depth1,Depth2和Depth3中的数字代表在当前划分深度下的CU选取的最优编码模式。其中,“0”代表跳过当前CU的编码,即“0”对应的CU不必编码任何模式;“1”代表执行Intra编码模式;“2”代表执行PLT编码模式;“3”代表执行IBC编码模式;“4”代表执行IBCMerge编码模式。
编码器在根据模式划分图进行编码过程中,首先分析Depth0子图,Depth0子图代表深度0,CU的大小为64×64,与CTU大小相同,即该深度下只有一个子CU。数字为0,代表该CU不会遍历任何模式,可以直接跳过。编码器则继续进入下一深度的Depth1子图,Depth1子图代表深度1,CU的大小为32×32,共包含4个子CU。编码器按照“Z”字形对每个子CU进行遍历,第一个子CU的数字为1,代表该CU将会出现在最终的最优块划分中,且它的最优模式为Intra模式,则编码器仅使用Intra模式对该子CU进行预测,计算RD cost,并将相关的语法元素(例如预测方向号,MPM索引)等信息编入码流中。由于该子CU已经确定了最优的模式划分,这就意味着该子CU的子CU必然不会出现在最优的块划分中,故编码器可以直接转到下一个CU做进一步的决策。在遍历全部四张子图Depth0,Depth1,Depth2和Depth3后,即得到当前CTU的最优模式决策及划分结构,如图11中的(b)图所示。此时,编码器可以继续进行下一个CTU的编码。与编码器的帧内预测的率失真优化过程相比,本发明跳过了大部分的编码模式及划分,进一步的降低了编码复杂度。
根据本发明的实施例,上述方法还可用于HEVC编码端预测CTU在帧内预测过程中的块划分。由于HEVC标准的帧内预测过程中仅有Intra模式,因此,此时M=1即可。
根据本发明的实施例,通过预测RD cost计算出模式-划分图,使得编码器基于该模式-划分图跳过所有冗余的划分,达到更快速的编码。
根据本发明的实施例,与上述编码模式对应的率失真代价预测模型的训练方法包括:获取与上述编码模式对应的训练样本,其中,上述训练样本包括样本编码单元的样本输入数据和样本率失真代价;将上述样本输入数据输入初始预测模型中,得到样本预测率失真代价;根据上述样本预测率失真代价和上述样本率失真代价确定损失值;以及利用上述损失值调整上述初始预测模型的网络参数,直至满足预设迭代条件时,得到上述率失真代价预测模型。
在其中一个实施例中,M中编码模式包括Intra编码模式、PLT编码模式、IBC编码模式和IBC merge模式。
对于Intra编码模式、PLT编码模式和IBC编码模式,初始预测模型可以采用基于残差结构的RD cost预测网络RDP-Nets (Rate Distortion Prediction Nets)。根据Intra编码模式、PLT编码模式和IBC编码模式三种编码模式的不同特性,设计了三种不同的输入,并根据输入块的大小,自适应的调整预测网络的深度。
图12示出了根据本发明实施例的预测网络RDP-Nets的结构示意图。
如图12所示,预测网络RDP-Nets依次包括N残差块、最大池化层、全连接层1、线性整流函数、随机失活层和全连接层2,最后输出RD cost预测值。其中,每个残差块后附加一个最大池化层,步长为2,卷积核大小为2×2。预测网络RDP-Nets可用于输入三种类型的输入块,例如PLT编码模式下的s×s的亮度块A,Intra编码模式下的(s+2)×(s+2)的亮度块B,IBC编码模式下的4s×4s的亮度块C。
在上述预测网络RDP-Nets中,残差块的数量N由输入的亮度块大小决定,可以采用公式(4)确定。
其中,H表示亮度块的高度。
残差块输出的特征图的数量 NFM 会根据已经过的残差块的个数 i 自适应地变化,表示如下式(5)。
全连接层一中的神经元N neuron 数量与 有关,可以采用公式(6)表示。
图13示出了根据本发明实施例的残差块的结构示意图。
如图13所示,残差块依次包括卷积层、批标准化层、线性整流函数、卷积层、特征图相加以及线性整流函数。
对于IBC merge模式,其特性不适合用RDP-Nets直接通过输入亮度块的方式进行RD cost的预测。本发明实施例设计了一种简单的全连接网络MLP,结合IBC merge模式过程中产生的SATD值、水平梯度值和竖直梯度值,以线性回归的方式预测RD cost。该全连接网络由三大层组成,包括输入层1,隐藏层2及输出层。其中,隐藏层1和隐藏层2之间还加入了随机失活层(即Dropout层)防止过拟合。每个隐藏层有256个神经元,最后输出为预测的RDcost值。
根据本发明的实施例,对于RDP-Nets网络,根据不同的输入大小设置了不同的网络参数,如表1所示。
表1
除此之外,RDP-Nets网络使用Adam优化器,采用平均误差百分比(Mean AbsolutePercentage Error,MAPE)作为损失函数,定义如下公式(7)。
其中, n 代表一个训练批次的训练样本的总数,i 代表第 i 个训练样本,y 和 x分别代表训练标签及网络的输出。
根据本发明的实施例,对于MLP网络,优化器与损失函数与RDP-Nets相同,使用适用于回归任务的Adam优化器及MAPE损失函数。由于该线性回归模型不必考虑CU的大小,考虑到整个数据集的规模,batch size选取512,epoch为 1000。
需要说明的是,本发明实施例中的流程图所示的操作除非明确说明不同操作之间存在执行的先后顺序,或者不同操作在技术实现上存在执行的先后顺序,否则,多个操作之间的执行顺序可以不分先后,多个操作也可以同时执行。
性能对比:(1)将图6所示的编码方法与相关技术中的HEVC-SCC标准的参考软件HM16.7-SCM6.0,在全帧内配置下进行性能对比,使用BDBR(Bjøntegaard delta bitrate,是由Bjøntegaard等人在AVC标准开发过程中提出的评价视频RD性能的指标)衡量Y颜色通道的编码性能,使用编码时间变化衡量编码复杂度。结果如表2所示。
表2
如表2所示,采用本发明图6所示的实施例中编码方法相比于相关技术的编码方法,在文本/图像运动类序列中的BDBR上升了4.70%,编码时间降低了67.36%;在混合类序列中的BDBR上升了4.54%,编码时间降低了67.24%;在摄像内容类序列中的BDBR上升了1.12%,编码时间降低了70.61%;在动漫游戏类序列中的BDBR上升了2.36%,编码时间降低了71.12%;所有序列的平均BDBR上升了3.99%,编码时间降低了68.06%。
(2)将图10所示的编码方法与相关技术中的HEVC-SCC标准的参考软件HM16.7-SCM6.0,在全帧内配置下进行性能对比,使用BDBR衡量Y颜色通道的编码性能,使用编码时间变化衡量编码复杂度。结果如表3所示。
表3
如表3所示,采用本发明图10所示的实施例中编码方法相比于相关技术的编码方法,在文本/图像运动类序列中的BDBR上升了11.06%,编码时间降低了90.18%;在混合类序列中的BDBR上升了10.90%,编码时间降低了89.91%;在摄像内容类序列中的BDBR上升了3.87%,编码时间降低了90.59%;在动漫游戏类序列中的BDBR上升了3.83%,编码时间降低了90.79%。可见,采用本发明图10所示的实施例中的编码方法使得所有序列的平均BDBR上升了9.47%,编码时间降低了90.51%。
基于上述基于率失真代价预测的编码方法,本发明还提供了一种基于率失真代价预测的编码装置。以下将结合图14对该装置进行详细描述。
图14示出了根据本发明实施例的基于率失真代价预测的编码装置的结构框图。
该实施例的基于率失真代价预测的编码装置包括M种编码模式,每种编码模式对应一种率失真代价预测模型,其中,M≥1。
如图14所示,该实施例的基于率失真代价预测的编码装置1400包括获取模块1410、划分模块1420、提取模块1430、预处理模块1440、输入输出模块1450和编码模块1460。
获取模块1410,用于获取当前帧中待编码的编码树单元。在一实施例中,获取模块1410可以用于执行前文描述的操作S610,在此不再赘述。
划分模块1420,用于按照预设划分方式将所述编码树单元划分为至少一个编码单元,得到编码单元集。在一实施例中,划分模块1420可以用于执行前文描述的操作S620,在此不再赘述。
提取模块1430,用于针对所述M种编码模式中的第j编码模式,根据所述第j编码模式的可执行深度从所述编码单元集中提取与所述第j编码模式的可执行深度对应的目标编码单元,得到与所述第j编码模式对应的第j编码单元子集,其中,1≤j≤M。在一实施例中,提取模块1430可以用于执行前文描述的操作S630,在此不再赘述。
预处理模块1440,用于根据所述第j编码模式的预测特性对所述第j编码单元子集中的每个所述目标编码单元进行预处理,得到与所述第j编码模式对应的第j输入数据。在一实施例中,预处理模块1440可以用于执行前文描述的操作S640,在此不再赘述。
输入输出模块1450,用于将所述第j输入数据输入到与所述第j编码模式对应的第j率失真代价预测模型中,输出与所述第j编码单元子集对应的第j率失真代价集,其中,所述第j率失真代价集中包括所述目标编码单元在所述第j编码模式下的率失真代价,最终得到M个率失真代价集。在一实施例中,输入输出模块1450可以用于执行前文描述的操作S650,在此不再赘述。
编码模块1460,用于根据所述M个率失真代价集对所述编码树单元进行编码。在一实施例中,编码模块1460可以用于执行前文描述的操作S660,在此不再赘述。
根据本发明的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本发明实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本发明实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本发明实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
根据本发明的实施例,获取模块1410、划分模块1420、提取模块1430、预处理模块1440、输入输出模块1450和编码模块1460中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的实施例,获取模块1410、划分模块1420、提取模块1430、预处理模块1440、输入输出模块1450和编码模块1460中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,获取模块1410、划分模块1420、提取模块1430、预处理模块1440、输入输出模块1450和编码模块1460中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
需要说明的是,本发明的实施例中编码装置部分与本发明的实施例中编码方法部分是相对应的,编码装置部分的描述具体参考编码方法部分,在此不再赘述。
图15示出了根据本发明实施例的适于实现基于率失真代价预测的编码方法的电子设备的方框图。
如图15所示,根据本发明实施例的电子设备1500包括处理器1501,其可以根据存储在只读存储器(ROM)1502中的程序或者从存储部分1508加载到随机访问存储器(RAM)1503中的程序而执行各种适当的动作和处理。处理器1501例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器1501还可以包括用于缓存用途的板载存储器。处理器1501可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 1503中,存储有电子设备1500操作所需的各种程序和数据。处理器 1501、ROM 1502以及RAM 1503通过总线1504彼此相连。处理器1501通过执行ROM 1502和/或RAM1503中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 1502和RAM 1503以外的一个或多个存储器中。处理器1501也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。
根据本发明的实施例,电子设备1500还可以包括输入/输出(I/O)接口1505,输入/输出(I/O)接口1505也连接至总线1504。电子设备1500还可以包括连接至输入/输出(I/O)接口1505的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1507;包括硬盘等的存储部分1508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1509。通信部分1509经由诸如因特网的网络执行通信处理。驱动器1510也根据需要连接至输入/输出(I/O)接口1505。可拆卸介质1511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1510上,以便于从其上读出的计算机程序根据需要被安装入存储部分1508。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。
根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本发明的实施例,计算机可读存储介质可以包括上文描述的ROM 1502和/或RAM 1503和/或ROM 1502和RAM 1503以外的一个或多个存储器。
本发明的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本发明实施例的方法。
在该计算机程序被处理器1501执行时执行本发明实施例的系统/装置中限定的上述功能。根据本发明的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分1509被下载和安装,和/或从可拆卸介质1511被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分1509从网络上被下载和安装,和/或从可拆卸介质1511被安装。在该计算机程序被处理器1501执行时,执行本发明实施例的系统中限定的上述功能。根据本发明的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本发明的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本发明中。特别地,在不脱离本发明精神和教导的情况下,本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。
以上对本发明的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本发明的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本发明的范围由所附权利要求及其等同物限定。不脱离本发明的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本发明的范围之内。
Claims (10)
1.一种基于率失真代价预测的编码方法,其特征在于,所述方法包括M种编码模式,每种所述编码模式对应一种率失真代价预测模型,其中,M≥1;所述方法包括:
获取当前帧中待编码的编码树单元;
按照预设划分方式将所述编码树单元划分为至少一个编码单元,得到编码单元集;
针对所述M种编码模式中的第j编码模式,根据所述第j编码模式的可执行深度从所述编码单元集中提取与所述第j编码模式的可执行深度对应的目标编码单元,得到与所述第j编码模式对应的第j编码单元子集,其中,1≤j≤M;
根据所述第j编码模式的预测特性对所述第j编码单元子集中的每个所述目标编码单元进行预处理,得到与所述第j编码模式对应的第j输入数据;
将所述第j输入数据输入到与所述第j编码模式对应的第j率失真代价预测模型中,输出与所述第j编码单元子集对应的第j率失真代价集,其中,所述第j率失真代价集中包括所述目标编码单元在所述第j编码模式下的率失真代价,最终得到M个率失真代价集;以及
根据所述M个率失真代价集对所述编码树单元进行编码。
2.根据权利要求1所述的方法,其特征在于,所述编码单元集中包括N个编码单元,其中,N≥1;所述方法还包括:
在M≥2的情况下,针对所述编码单元集中的第i编码单元,从所述M个率失真代价集中提取与所述第i编码单元对应的至少一个候选率失真代价,其中,1≤i≤N;
从所述至少一个候选率失真代价中确定数值最小的候选率失真代价作为与所述第i编码单元对应的第i最终率失真代价,最终得到N个最终率失真代价;
其中,根据所述M个率失真代价集对所述编码树单元进行编码包括:
根据所述N个最终率失真代价对所述编码树单元进行编码。
3.根据权利要求1所述的方法,其特征在于,所述编码模式包括以下至少两种:帧内块复制模式、帧内角度预测模式、调色板模式、帧内块复制融合模式;
其中,根据所述第j编码模式的预测特性对所述第j编码单元子集中的每个目标编码单元进行预处理,得到与所述第j编码模式对应的第j输入数据包括:
针对所述第j编码单元子集中的每个目标编码单元,
在所述第j编码模式为帧内块复制模式的情况下,将所述目标编码单元、在所述目标编码单元的第一方向上与所述目标编码单元相邻且处于第一预设范围的内容、在所述目标编码单元的第二方向上与所述目标编码单元相邻且处于所述第一预设范围的内容进行合并处理,得到与所述目标编码单元对应的输入子数据;根据所述输入子数据确定所述第j输入数据;
在所述第j编码模式为帧内角度预测模式的情况下,将所述目标编码单元、在所述目标编码单元的第三方向上与所述目标编码单元相邻且处于第二预设范围的内容、在所述目标编码单元的第四方向上与所述目标编码单元相邻且处于所述第二预设范围的内容进行合并处理,得到与所述目标编码单元对应的输入子数据;根据所述输入子数据确定所述第j输入数据;
在所述第j编码模式为调色板模式的情况下,直接将所述第j编码单元子集作为所述第j输入数据;
在所述第j编码模式为帧内块复制融合模式的情况下,利用所述目标编码单元对预先提取的块向量进行运动补偿,得到预测块;提取所述预测块和所述目标编码单元的残差;利用所述残差确定与所述块向量对应的绝对变化差之和、水平梯度值和竖直梯度值,将所述变化差之和、所述水平梯度值和所述竖直梯度值作为与所述目标编码单元对应的输入子数据,其中,所述输入子数据包括至少一组与所述块向量对应的绝对变化差之和、水平梯度值和竖直梯度值;根据所述输入子数据确定所述第j输入数据。
4.根据权利要求3所述的方法,其特征在于,还包括:
在所述第j编码模式为帧内块复制模式的情况下,在所述目标编码单元处于边界位置时,将所述目标编码单元、在所述目标编码单元的第一方向上与所述目标编码单元相邻且处于第一预设范围的内容、在所述目标编码单元的第二方向上与所述目标编码单元相邻且处于所述第一预设范围的内容进行合并处理过程中,利用预设亮度值填充不可用区域;
在所述第j编码模式为帧内角度预测模式的情况下,在所述目标编码单元处于边界位置时,将所述目标编码单元、在所述目标编码单元的第三方向上与所述目标编码单元相邻且处于第二预设范围的内容、在所述目标编码单元的第四方向上与所述目标编码单元相邻且处于所述第二预设范围的内容进行合并过程中,利用所述预设亮度值填充不可用区域。
5.根据权利要求3所述的方法,其特征在于,所述利用所述目标编码单元对预先提取的块向量进行运动补偿,得到与所述块向量对应的预测块包括:
提取所述当前帧中已编码的编码树单元的所有块向量,得到块向量集;
针对所述块向量集中的每个块向量,利用所述目标编码单元对所述块向量进行运动补偿,得到与所述块向量对应的预测块。
6.根据权利要求5所述的方法,其特征在于,在所述第j编码模式为帧内块复制融合模式的情况下,所述将所述第j输入数据输入与所述第j编码模式对应的第j率失真代价预测模型中,输出与所述第j编码单元子集对应的第j率失真代价集包括:
针对所述第j编码单元子集中的每个目标编码单元,将所述至少一组与所述块向量对应的绝对变化差之和、水平梯度值和竖直梯度值输入与所述帧内块复制融合模式对应的率失真代价模型中,输出与至少一个块向量预测率失真代价;
确定所述至少一个块向量预测率失真代价中数值最小的块向量预测率失真代价作为与所述目标编码单元对应的率失真代价,最终得到所述第j率失真代价集。
7.根据权利要求1~6任一项所述的方法,其特征在于,所述根据所述M个率失真代价集对所述编码树单元进行编码包括:
根据所述M个率失真代价集确定与所述编码树单元对应的模式-划分图,其中,所述模式-划分图展示需要编入码流的划分结构和模式信息;
根据所述模式-划分图对所述编码树单元进行编码。
8.根据权利要求7所述的方法,其特征在于,所述根据所述M个率失真代价集确定与所述编码树单元对应的模式-划分图包括:
根据所述M个率失真代价集确定所述编码单元集中的每个编码单元的率失真代价和目标编码模式;
根据所述编码单元的目标编码模式构建初始模式-划分图,其中,在所述初始模式-划分图中,利用与所述目标编码模式对应的模式标识标注所述编码单元;
针对所述编码单元集中的每个编码单元,在根据所述编码单元的率失真代价确定所述编码单元不是最优划分结构的情况下,在所述初始模式-划分图中利用预设标识更新所述编码单元的模式标识;
在根据所述编码单元的率失真代价确定所述编码单元是最优划分结构的情况下,保持所述初始模式-划分图中所述编码单元的模式标识不变。
9.根据权利要求1所述的方法,其特征在于,与所述编码模式对应的率失真代价预测模型的训练方法包括:
获取与所述编码模式对应的训练样本,其中,所述训练样本包括样本编码单元的样本输入数据和样本率失真代价;
将所述样本输入数据输入初始预测模型中,得到样本预测率失真代价;
根据所述样本预测率失真代价和所述样本率失真代价确定损失值;以及
利用所述损失值调整所述初始预测模型的网络参数,直至满足预设迭代条件时,得到所述率失真代价预测模型。
10.一种基于率失真代价预测的编码装置,其特征在于,所述装置包括M种编码模式,每种所述编码模式对应一种率失真代价预测模型,其中,M≥1;所述装置包括:
获取模块,用于获取当前帧中待编码的编码树单元;
划分模块,用于按照预设划分方式将所述编码树单元划分为至少一个编码单元,得到编码单元集;
提取模块,用于针对所述M种编码模式中的第j编码模式,根据所述第j编码模式的可执行深度从所述编码单元集中提取与所述第j编码模式的可执行深度对应的目标编码单元,得到与所述第j编码模式对应的第j编码单元子集,其中,1≤j≤M;
预处理模块,用于根据所述第j编码模式的预测特性对所述第j编码单元子集中的每个所述目标编码单元进行预处理,得到与所述第j编码模式对应的第j输入数据;
输入输出模块,用于将所述第j输入数据输入到与所述第j编码模式对应的第j率失真代价预测模型中,输出与所述第j编码单元子集对应的第j率失真代价集,其中,所述第j率失真代价集中包括所述目标编码单元在所述第j编码模式下的率失真代价,最终得到M个率失真代价集;以及
编码模块,用于根据所述M个率失真代价集对所述编码树单元进行编码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310417791.7A CN116170594B (zh) | 2023-04-19 | 2023-04-19 | 一种基于率失真代价预测的编码方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310417791.7A CN116170594B (zh) | 2023-04-19 | 2023-04-19 | 一种基于率失真代价预测的编码方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116170594A true CN116170594A (zh) | 2023-05-26 |
CN116170594B CN116170594B (zh) | 2023-07-14 |
Family
ID=86416593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310417791.7A Active CN116170594B (zh) | 2023-04-19 | 2023-04-19 | 一种基于率失真代价预测的编码方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116170594B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117880532A (zh) * | 2024-01-15 | 2024-04-12 | 重庆邮电大学 | 一种基于vvc的屏幕内容快速模式决策方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6167162A (en) * | 1998-10-23 | 2000-12-26 | Lucent Technologies Inc. | Rate-distortion optimized coding mode selection for video coders |
WO2014005367A1 (zh) * | 2012-07-03 | 2014-01-09 | 乐金电子(中国)研究开发中心有限公司 | 一种深度图像帧内编码方法、装置及编码器 |
CN103888762A (zh) * | 2014-02-24 | 2014-06-25 | 西南交通大学 | 一种基于hevc标准的视频编码框架 |
WO2018117334A1 (ko) * | 2016-12-21 | 2018-06-28 | 전자부품연구원 | 고효율 비디오 부호화 모드 결정방법 및 결정장치 |
CN108737841A (zh) * | 2017-04-21 | 2018-11-02 | 腾讯科技(深圳)有限公司 | 编码单元深度确定方法及装置 |
CN109688411A (zh) * | 2017-10-18 | 2019-04-26 | 深圳市中兴微电子技术有限公司 | 一种视频编码率失真代价估计方法和装置 |
WO2020190297A1 (en) * | 2019-03-21 | 2020-09-24 | Google Llc | Using rate distortion cost as a loss function for deep learning |
CN113099224A (zh) * | 2021-04-02 | 2021-07-09 | 江苏允博信息科技有限公司 | 一种基于图像主纹理强度的单元划分和预测模型选择的视频编码方法 |
CN113287309A (zh) * | 2018-12-27 | 2021-08-20 | Oppo广东移动通信有限公司 | 编码预测方法、装置及计算机存储介质 |
WO2022063035A1 (zh) * | 2020-09-23 | 2022-03-31 | 腾讯科技(深圳)有限公司 | 上下文模型的选择方法、装置、设备及存储介质 |
CN115334308A (zh) * | 2022-10-14 | 2022-11-11 | 北京大学深圳研究生院 | 一种面向学习模型的编码决策处理方法、装置及设备 |
-
2023
- 2023-04-19 CN CN202310417791.7A patent/CN116170594B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6167162A (en) * | 1998-10-23 | 2000-12-26 | Lucent Technologies Inc. | Rate-distortion optimized coding mode selection for video coders |
WO2014005367A1 (zh) * | 2012-07-03 | 2014-01-09 | 乐金电子(中国)研究开发中心有限公司 | 一种深度图像帧内编码方法、装置及编码器 |
CN103888762A (zh) * | 2014-02-24 | 2014-06-25 | 西南交通大学 | 一种基于hevc标准的视频编码框架 |
WO2018117334A1 (ko) * | 2016-12-21 | 2018-06-28 | 전자부품연구원 | 고효율 비디오 부호화 모드 결정방법 및 결정장치 |
CN108737841A (zh) * | 2017-04-21 | 2018-11-02 | 腾讯科技(深圳)有限公司 | 编码单元深度确定方法及装置 |
CN109688411A (zh) * | 2017-10-18 | 2019-04-26 | 深圳市中兴微电子技术有限公司 | 一种视频编码率失真代价估计方法和装置 |
CN113287309A (zh) * | 2018-12-27 | 2021-08-20 | Oppo广东移动通信有限公司 | 编码预测方法、装置及计算机存储介质 |
WO2020190297A1 (en) * | 2019-03-21 | 2020-09-24 | Google Llc | Using rate distortion cost as a loss function for deep learning |
WO2022063035A1 (zh) * | 2020-09-23 | 2022-03-31 | 腾讯科技(深圳)有限公司 | 上下文模型的选择方法、装置、设备及存储介质 |
CN113099224A (zh) * | 2021-04-02 | 2021-07-09 | 江苏允博信息科技有限公司 | 一种基于图像主纹理强度的单元划分和预测模型选择的视频编码方法 |
CN115334308A (zh) * | 2022-10-14 | 2022-11-11 | 北京大学深圳研究生院 | 一种面向学习模型的编码决策处理方法、装置及设备 |
Non-Patent Citations (4)
Title |
---|
CONG HUANG: "Neural Compression-Based Feature Learning for Video Restoration", 2022 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR) * |
YEFEI WANG: "Ensemble Learning-Based Rate-Distortion Optimization for End-to-End Image Compression", IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY ( VOLUME: 31, ISSUE: 3, MARCH 2021) * |
周建同: "视频编码的技术基础及发展方向", 电信科学 * |
朱威: "低复杂度的HEVC帧内编码模式决策算法", 电信技术 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117880532A (zh) * | 2024-01-15 | 2024-04-12 | 重庆邮电大学 | 一种基于vvc的屏幕内容快速模式决策方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116170594B (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101155767B1 (ko) | 비디오 데이터의 인코딩을 위한 인코딩 유형 및 예측 모드선택 | |
CN113196761B (zh) | 用于评估视频的主观质量的方法及装置 | |
CN112399176B (zh) | 一种视频编码方法、装置、计算机设备及存储介质 | |
US8755441B2 (en) | Region of interest-based video transfer | |
CN116170594B (zh) | 一种基于率失真代价预测的编码方法和装置 | |
Tissier et al. | Machine learning based efficient QT-MTT partitioning scheme for VVC intra encoders | |
CN112291562B (zh) | 针对h.266/vvc的快速cu分区和帧内模式决策方法 | |
CN111179201A (zh) | 一种视频去噪方法和电子设备 | |
CN115941943A (zh) | 一种hevc视频编码方法 | |
Wang et al. | Semantic-aware video compression for automotive cameras | |
CN115022635A (zh) | 基于目标检测的星图压缩方法 | |
CN112468808B (zh) | 一种基于强化学习的i帧目标带宽分配方法及装置 | |
Wang et al. | A two-stage h. 264 based video compression method for automotive cameras | |
CN110225342A (zh) | 基于语义失真度量的视频编码的比特分配系统及方法 | |
CN114567775B (zh) | 图像划分方法和装置 | |
US20170302930A1 (en) | Method of transcoding video data with fusion of coding units, computer program, transcoding module and telecommunications equipment associated therewith | |
US10425646B2 (en) | Method of and apparatus for processing video image data | |
He et al. | An anti-steganalysis adaptive steganography for HEVC video based on PU partition modes | |
CN117692652B (zh) | 一种基于深度学习的可见光与红外视频融合编码方法 | |
WO2021240647A1 (ja) | 画像処理システム、画像処理装置及び画像処理プログラム | |
CN114697656B (zh) | 一种编码方法、装置、电子设备及介质 | |
US11979587B2 (en) | Hybrid inter-frame coding using an autoregressive model | |
EP4258668A1 (en) | Method and apparatus for dimd region-wise adaptive blending, and encoder/decoder including the same | |
KR100780124B1 (ko) | 이미지들의 인코딩 및 디코딩 | |
CN118015530A (zh) | 一种开放场景下密集人群图像中的行人计数方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |