CN115334308B - 一种面向学习模型的编码决策处理方法、装置及设备 - Google Patents
一种面向学习模型的编码决策处理方法、装置及设备 Download PDFInfo
- Publication number
- CN115334308B CN115334308B CN202211256606.2A CN202211256606A CN115334308B CN 115334308 B CN115334308 B CN 115334308B CN 202211256606 A CN202211256606 A CN 202211256606A CN 115334308 B CN115334308 B CN 115334308B
- Authority
- CN
- China
- Prior art keywords
- coding
- decision
- coding unit
- value
- rate distortion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 121
- 230000006870 function Effects 0.000 claims abstract description 58
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000000638 solvent extraction Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/149—Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/147—Data rate or code amount at the encoder output according to rate distortion criteria
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Algebra (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请提供了一种面向学习模型的编码决策处理方法、装置及设备,其中,该方法包括:将该编码单元输入至初始编码决策模型中,得到编码决策模型的训练决策模式,确定该编码单元在训练决策模式下的训练率失真损失值,根据该编码单元对应的最佳率失真损失值和训练率失真损失值,计算该编码单元的编码率失真差值;根据每个编码单元的编码率失真差值,确定每个编码单元的率失真损失参考值;根据每个编码单元的率失真损失参考值,计算初始编码决策模型的损失函数值;根据所得到的损失函数值,对初始编码决策模型进行训练,以获得训练完成的目标编码决策模型。使训练得到的目标编码决策模型在提升编码决策准确率的同时,降低对图片编码的率失真代价。
Description
技术领域
本申请涉及视频编码技术领域,具体而言,涉及一种面向学习模型的编码决策处理方法、装置及设备。
背景技术
在视频编码的过程中,会将视频的每一帧确定为一个视频图片,再对每个视频图片进行编码,目前,对编码模式的选择是在对每个视频图片进行编码的一项重要任务。为了在编码预测阶段在多个候选的编码模式中选择出最优的编码模式,达到更低的码率占用和更高的重建质量的效果,编码器在进行编码模式决策时会预编码所有的候选模式,然后计算出每个模式所对应的率失真代价(Rate-Distortion Cost, RDC),其中,率失真代价直接反应了使用编码模式对应的编码代价。因此,RDC最小的编码模式将会被选择为最佳模式。
事实上,更加多样的候选模式通常会进一步带来更多的编码收益。因此,随着编码标准的发展,候选编码模式也在逐渐增多。如在新一代编码标准中(Versatile VideoCoding, VVC和 The Third Generation Audio Video Coding Standard, AVS3)CU划分的模式都由2种提升到了6种,帧内预测角度也分别从33种提升到了65种和66种。
更多的候选模式势必导致编码器在决策过程的编码复杂度的增大。近年来,随着机器学习和深度学习技术的流行,使用学习模型来近似决策结果已成为快速决策算法的一个主要方向。
但是,目前对学习模型的训练的目的均是提升学习模型对候选模式选择的准确性,并未在提升候选模式选择的准确性的同时真正使编码器对图片的编码代价减少,比如,一个有百分之九十九编码模式选择准确率的学习模型,其百分之一的错误率可能会导致编码代价的大量增加,很有可能会比一个有百分之九十七编码模式选择准确率的学习模型的编码代价更大。
发明内容
有鉴于此,本申请的目的在于提供一种面向学习模型的编码决策处理方法、装置及设备,能够通过每个编码单元的训练决策模式下的训练率失真损失值和最佳率失真损失值,计算出每个编码单元的编码率失真差值,根据编码率失真差值,计算率失真损失参考值,并根据率失真损失参考值,计算编码决策模型的损失函数,解决现有技术中存在的并未在提升候选模式选择的准确性的同时真正使编码器对图片的编码代价减少的问题,达到在对学习模型训练的过程中,将图片编码的率失真代价值添加至学习模型的损失函数中,对初始编码决策模型进行训练,保证了训练得到的目标编码决策模型可以在提升编码决策准确率的同时,降低对图片进行编码的率失真代价,达到优化视频编码的效果。
第一方面,本申请实施例提供了一种面向学习模型的编码决策处理方法,所述方法包括:将训练图片划分为多个编码单元,并确定每个编码单元对应的最佳决策模式;针对每个编码单元,执行以下处理:将该编码单元输入至初始编码决策模型中,得到编码决策模型的训练决策模式,确定该编码单元在训练决策模式下的训练率失真损失值,根据该编码单元对应的最佳率失真损失值和训练率失真损失值,计算该编码单元的编码率失真差值;根据每个编码单元的编码率失真差值,确定每个编码单元的率失真损失参考值;根据每个编码单元的率失真损失参考值,计算初始编码决策模型的损失函数值;根据所得到的损失函数值,对初始编码决策模型进行训练,以获得训练完成的目标编码决策模型。
可选地,针对每个编码单元,还执行以下处理:确定该编码单元的多个可选决策模式,并计算该编码单元在每个可选决策模式下的率失真损失值,其中,确定该编码单元在训练决策模式下的训练率失真损失值的步骤包括:从所述可选决策模式中确定与所述训练决策模式对应的决策模式,所述训练决策模式为所述可选决策模式中的一个;将可选决策模式中与所述训练决策模式对应的决策模式的率失真损失值,确定为训练率失真损失值。
可选地,通过以下公式计算每个编码单元的编码率失真差值:
其中,,表示编码单元对应的所有可选决策模式,表示编码单元对应的训练决策模式,该训练决策模式为中的第j种决策模式,表示第i个编码单元在训练决策模式下的训练率失真损失值,表示编码单元对应的最佳决策模式,表示第i个编码单元在最佳决策模式下的最佳率失真损失值,表示第i个编码单元在第j种决策模式的编码率失真差值。
可选地,根据每个编码单元的编码率失真差值,确定每个编码单元的率失真损失参考值的步骤包括:确定目标限制条件下的所有编码单元中的最大率失真差值和目标限制条件下的所有编码单元中的最小率失真差值;计算每个编码单元的编码率失真差值与目标限制条件下的所有编码单元中的最小率失真差值的第一差值;计算目标限制条件下的所有编码单元中的最大率失真差值与目标限制条件下的所有编码单元中的最小率失真差值的第二差值;将第一差值与第二差值的比值,确定为每个编码单元的率失真损失参考值。
可选地,通过以下公式计算每个编码单元的率失真损失参考值:
其中,表示第i个编码单元在第j种决策模式在目标限制条件S下的率失真损失参考值,表示第i个编码单元在第j种决策模式的编码率失真差值,表示目标限制条件S下的所有编码单元中的最大率失真差值,表示目标限制条件S下的所有编码单元中的最小率失真差值。
可选地,根据每个编码单元的率失真损失参考值,计算初始编码决策模型的损失函数值的步骤包括:确定初始编码决策模型的原始损失函数值以及损失函数参数值;根据原始损失函数值、损失函数参数值和每个编码单元的率失真损失参考值,计算初始编码决策模型的损失函数值。
可选地,通过以下公式计算初始编码决策模型的损失函数值:
第二方面,本申请实施例还提供了一种面向学习模型的编码决策处理装置,所述装置包括:训练图片确定模块,用于将训练图片划分为多个编码单元,并确定每个编码单元对应的最佳决策模式;
编码单元计算模块,用于针对每个编码单元,执行以下处理:将该编码单元输入至初始编码决策模型中,得到编码决策模型的训练决策模式,确定该编码单元在训练决策模式下的训练率失真损失值,根据该编码单元对应的最佳率失真损失值和训练率失真损失值,计算该编码单元的编码率失真差值;
率失真损失参考值计算模块,用于根据每个编码单元的编码率失真差值,确定每个编码单元的率失真损失参考值;
损失函数值计算模块,用于根据每个编码单元的率失真损失参考值,计算初始编码决策模型的损失函数值;
目标编码决策模型训练模块,用于根据所得到的损失函数值,对初始编码决策模型进行训练,以获得训练完成的目标编码决策模型。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的面向学习模型的编码决策处理方法的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的面向学习模型的编码决策处理方法的步骤。
本申请实施例提供的面向学习模型的编码决策处理方法、装置及设备,能够通过每个编码单元的训练决策模式下的训练率失真损失值和最佳率失真损失值,计算出每个编码单元的编码率失真差值,根据编码率失真差值,计算率失真损失参考值,并根据率失真损失参考值,计算编码决策模型的损失数,解决现有技术中存在的并未在提升候选模式选择的准确性的同时真正使编码器对图片的编码代价减少的问题,达到在对学习模型训练的过程中,将图片编码的率失真代价值添加至学习模型的损失函数中,对初始编码决策模型进行训练,保证了训练得到的目标编码决策模型可以在提升编码决策准确率的同时,降低对图片进行编码的率失真代价,达到优化视频编码的效果。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种面向学习模型的编码决策处理方法的流程图;
图2为本申请实施例所提供的训练图片的示意图;
图3为本申请实施例所提供的一种面向学习模型的编码决策处理装置的结构示意图;
图4本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
首先,对本申请可适用的应用场景进行介绍。本申请可应用于视频编码技术领域。
经研究发现,在视频编码的过程中,会将视频的每一帧确定为一个视频图片,再对每个视频图片进行编码,目前,对编码模式的选择是在对每个视频图片进行编码的一项重要任务。为了在编码预测阶段在多个候选的编码模式中选择出最优的编码模式,达到更低的码率占用和更高的重建质量的效果,编码器在进行编码模式决策时会预编码所有的候选模式,然后计算出每个模式所对应的率失真代价(Rate-Distortion Cost, RDC),其中,率失真代价直接反应了使用编码模式对应的编码代价。因此,RDC最小的编码模式将会被选择为最佳模式。
事实上,更加多样的候选模式通常会进一步带来更多的编码收益。因此,随着编码标准的发展,候选编码模式也在逐渐增多。如在新一代编码标准中(Versatile VideoCoding, VVC和 The Third Generation Audio Video Coding Standard, AVS3)CU划分的模式都由2种提升到了6种,帧内预测角度也分别从33种提升到了65种和66种。
更多的候选模式势必导致编码器在决策过程的编码复杂度的增大,近年来,随着机器学习和深度学习技术的流行,使用学习模型来近似决策结果已成为快速决策算法的一个主要方向。
但是,目前对学习模型的训练的目的均是提升学习模型对候选模式选择的准确性,并未在提升候选模式选择的准确性的同时真正使编码器对图片的编码代价减少,比如,一个有百分之九十九编码模式选择准确率的学习模型,其百分之一的错误率可能会导致编码代价的大量增加,很有可能会比一个有百分之九十七编码模式选择准确率的学习模型的编码代价更大。
基于此,本申请实施例提供了一种面向学习模型的编码决策处理方法、装置及设备,以解决现有技术中存在的并未在提升候选模式选择的准确性的同时真正使编码器对图片的编码代价减少的问题,达到在对学习模型训练的过程中,将图片编码的率失真代价值添加至学习模型的损失函数中,对初始编码决策模型进行训练,保证了训练得到的目标编码决策模型可以在提升编码决策准确率的同时,降低对图片进行编码的率失真代价,达到优化视频编码的效果。
请参阅图1,图1为本申请实施例所提供的一种面向学习模型的编码决策处理方法的流程图。如图1中所示,本申请实施例提供的面向学习模型的编码决策处理方法,包括:
S101、将训练图片划分为多个编码单元,并确定每个编码单元对应的最佳决策模式。
需要说明的是,可以通过以下方式获取训练图片:获取训练视频集,所述训练视频集中包括多个训练视频;针对每个训练视频,对该训练视频进行投影得到多个训练图片。
示例性的,训练视频可以为三维动态点云视频,可以首先将三维动态点云视频投影成为三个记录不同信息二维视频,也就是二维占用视频、二维几何视频和二维属性视频,再获取上述三个二维视频的每一帧图像,得到二维点云占用图片、二维点云几何图片和二维点云属性图片。
这样,就得到了与训练视频对应的多张训练图片。
示例一,请参阅图2,图2为本申请实施例所提供的训练图片的示意图,如图2中所示,本申请所提供的训练图片的示意图,训练图片201包括:第一编码单元202、第二编码单元203和目标限制条件204。
其中,可以将训练图片划分为大小相同的编码单元,例如,第一编码单元202、第二编码单元203,也可以将训练图片划分为不同大小的编码单元。
如图2中所示,第一编码单元202的最佳决策模式为划分模式,第二编码单元203的最佳决策模式为不划分模式。
示例二,在对训练图片进行帧内预测时,对训练图片的帧内预测的决策模式有65或66种,例如,亮度决策、角度决策、色度决策等,每个编码单元的决策模式也更加多样,在此不再赘述。
S102、针对每个编码单元,执行以下处理:将该编码单元输入至初始编码决策模型中,得到编码决策模型的训练决策模式,确定该编码单元在训练决策模式下的训练率失真损失值,根据该编码单元对应的最佳率失真损失值和训练率失真损失值,计算该编码单元的编码率失真差值。
其中,针对每个编码单元,还执行以下处理:确定该编码单元的多个可选决策模式,并计算该编码单元在每个可选决策模式下的率失真损失值。
需要说明的是,最佳决策模式和训练决策模式均为可选决策模式中的一个。
这样,就得到了每个编码模块在每个可选决策模式下的率失真损失值。
具体的,确定该编码单元在训练决策模式下的训练率失真损失值的步骤包括:从所述可选决策模式中确定与所述训练决策模式对应的决策模式,所述训练决策模式为所述可选决策模式中的一个;将可选决策模式中与所述训练决策模式对应的决策模式的率失真损失值,确定为训练率失真损失值。
其中,可以通过以下公式计算每个编码单元的编码率失真差值:
其中,,表示编码单元对应的所有可选决策模式,表示编码单元对应的训练决策模式,该训练决策模式为中的第j种决策模式,表示第i个编码单元在训练决策模式下的训练率失真损失值,表示编码单元对应的最佳决策模式,表示第i个编码单元在最佳决策模式下的最佳率失真损失值,表示第i个编码单元在第j种决策模式的编码率失真差值。
S103、根据每个编码单元的编码率失真差值,确定每个编码单元的率失真损失参考值。
具体的,根据每个编码单元的编码率失真差值,确定每个编码单元的率失真损失参考值的步骤包括:确定目标限制条件下的所有编码单元中的最大率失真差值和目标限制条件下的所有编码单元中的最小率失真差值;计算每个编码单元的编码率失真差值与目标限制条件下的所有编码单元中的最小率失真差值的第一差值;计算目标限制条件下的所有编码单元中的最大率失真差值与目标限制条件下的所有编码单元中的最小率失真差值的第二差值;将第一差值与第二差值的比值,确定为每个编码单元的率失真损失参考值。
示例一,请参阅图2,第二编码单元203的目标限制条件为第二编码单元203周围一定范围内的所有编码单元204,即为目标限制条件204,目标限制条件204中有多个编码单元,确定目标限制条件204中的所有编码单元中,最大率失真差值和最小率失真差值;计算每个编码单元的编码率失真差值与目标限制条件下的所有编码单元中的最小率失真差值的第一差值;计算目标限制条件下的所有编码单元中的最大率失真差值与目标限制条件下的所有编码单元中的最小率失真差值的第二差值;将第一差值与第二差值的比值,确定为每个编码单元的率失真损失参考值。
示例二,在对训练图片进行帧内预测时,目标限制条件可以为与每个编码单元在相同亮度区间的编码单元,确定目标限制条件中的所有编码单元中,最大率失真差值和最小率失真差值;计算每个编码单元的编码率失真差值与目标限制条件下的所有编码单元中的最小率失真差值的第一差值;计算目标限制条件下的所有编码单元中的最大率失真差值与目标限制条件下的所有编码单元中的最小率失真差值的第二差值;将第一差值与第二差值的比值,确定为每个编码单元的率失真损失参考值。
这样,就确定出每个编码单元与目标限制条件内的编码单元相比,编码单元的率失真差值在目标限制条件内的率失真损失的大小程度。
具体的,可以通过以下公式计算每个编码单元的率失真损失参考值:
其中,表示第i个编码单元在第j种决策模式在目标限制条件S下的率失真损失参考值,表示第i个编码单元在第j种决策模式的编码率失真差值,表示目标限制条件S下的所有编码单元中的最大率失真差值,表示目标限制条件S下的所有编码单元中的最小率失真差值。
S104、根据每个编码单元的率失真损失参考值,计算初始编码决策模型的损失函数值。
其中,根据每个编码单元的率失真损失参考值,计算初始编码决策模型的损失函数值的步骤包括:
确定初始编码决策模型的原始损失函数值以及损失函数参数值;根据原始损失函数值、损失函数参数值和每个编码单元的率失真损失参考值,计算初始编码决策模型的损失函数值。
这样,本申请计算的初始编码决策模型的损失函数值,就在原始损失函数值的基础上,在初始编码决策模型选择错误的决策时,计算了错误的决策对编码损失的影响程度,并根据错误决策对编码损失的影响程度添加至损失函数值的计算中,以避免对初始编码决策模型的训练只针对准确率进行训练,未考虑到对率失真损失进行降低的问题。
具体的,通过以下公式计算初始编码决策模型的损失函数值:
S105、根据所得到的损失函数值,对初始编码决策模型进行训练,以获得训练完成的目标编码决策模型。
示例性的,以视频压缩的编码单元划分模式决策问题为例。在视频压缩的编码单元划分决策中,一共存在两候选模式,分别是划分模式(QT)和不划分模式(Non-Split)。由于仅存在两种候选模式,错误选择划分模式的可能只有一种。因此的计算便可退化为:
此外,在编码单元划分是不同尺寸编码单元的编码性能通常存在较大差异。因此,若仅在相同尺寸的编码单元中考虑错误决策所造成的损失程度,那么指定范围即为与当前编码单元尺寸的所有编码单元。为训练数据中所有与编码单元尺寸相同的所有编码单元中RDCG的最大值,为训练数据中所有与编码单元尺寸相同的编码单元中RDCG的最小值。此时的和分别为:
本申请实施例提供的面向学习模型的编码决策处理方法,能够通过每个编码单元的训练决策模式下的训练率失真损失值和最佳率失真损失值,计算出每个编码单元的编码率失真差值,根据编码率失真差值,计算率失真损失参考值,并根据率失真损失参考值,计算编码决策模型的损失数,解决现有技术中存在的并未在提升候选模式选择的准确性的同时真正使编码器对图片的编码代价减少的问题,达到在对学习模型训练的过程中,将图片编码的率失真代价值添加至学习模型的损失函数中,对初始编码决策模型进行训练,保证了训练得到的目标编码决策模型可以在提升编码决策准确率的同时,降低对图片进行编码的率失真代价,达到优化视频编码的效果。
基于同一发明构思,本申请实施例中还提供了与面向学习模型的编码决策处理方法对应的面向学习模型的编码决策处理装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述面向学习模型的编码决策处理方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
请参阅图3,图3为本申请实施例所提供的一种面向学习模型的编码决策处理装置的结构示意图。如图3中所示,所述面向学习模型的编码决策处理装置300包括:
训练图片确定模块301,用于将训练图片划分为多个编码单元,并确定每个编码单元对应的最佳决策模式。
编码单元计算模块302,用于针对每个编码单元,执行以下处理:将该编码单元输入至初始编码决策模型中,得到编码决策模型的训练决策模式,确定该编码单元在训练决策模式下的训练率失真损失值,根据该编码单元对应的最佳率失真损失值和训练率失真损失值,计算该编码单元的编码率失真差值。
率失真损失参考值计算模块303,用于根据每个编码单元的编码率失真差值,确定每个编码单元的率失真损失参考值。
损失函数值计算模块304,用于根据每个编码单元的率失真损失参考值,计算初始编码决策模型的损失函数值。
目标编码决策模型训练模块305,用于根据所得到的损失函数值,对初始编码决策模型进行训练,以获得训练完成的目标编码决策模型。
本申请实施例提供的面向学习模型的编码决策处理装置,能够通过每个编码单元的训练决策模式下的训练率失真损失值和最佳率失真损失值,计算出每个编码单元的编码率失真差值,根据编码率失真差值,计算率失真损失参考值,并根据率失真损失参考值,计算编码决策模型的损失数,解决现有技术中存在的并未在提升候选模式选择的准确性的同时真正使编码器对图片的编码代价减少的问题,达到在对学习模型训练的过程中,将图片编码的率失真代价值添加至学习模型的损失函数中,对初始编码决策模型进行训练,保证了训练得到的目标编码决策模型可以在提升编码决策准确率的同时,降低对图片进行编码的率失真代价,达到优化视频编码的效果。
请参阅图4,图4为本申请实施例所提供的一种电子设备的结构示意图。如图4中所示,所述电子设备400包括处理器410、存储器420和总线430。
所述存储器420存储有所述处理器410可执行的机器可读指令,当电子设备400运行时,所述处理器410与所述存储器420之间通过总线430通信,所述机器可读指令被所述处理器410执行时,可以执行如上述图1所示方法实施例中的面向学习模型的编码决策处理方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的面向学习模型的编码决策处理方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种面向学习模型的编码决策处理方法,其特征在于,所述方法包括:
将训练图片划分为多个编码单元,并确定每个编码单元对应的最佳决策模式;
针对每个编码单元,执行以下处理:将该编码单元输入至初始编码决策模型中,得到编码决策模型的训练决策模式,确定该编码单元在训练决策模式下的训练率失真损失值,根据该编码单元对应的最佳率失真损失值和训练率失真损失值,计算该编码单元的编码率失真差值;
根据每个编码单元的编码率失真差值,确定每个编码单元的率失真损失参考值;
根据每个编码单元的率失真损失参考值,计算初始编码决策模型的损失函数值;
根据所得到的损失函数值,对初始编码决策模型进行训练,以获得训练完成的目标编码决策模型。
2.根据权利要求1所述的方法,其特征在于,针对每个编码单元,还执行以下处理:确定该编码单元的多个可选决策模式,并计算该编码单元在每个可选决策模式下的率失真损失值,
其中,确定该编码单元在训练决策模式下的训练率失真损失值的步骤包括:
从所述可选决策模式中确定与所述训练决策模式对应的决策模式,所述训练决策模式为所述可选决策模式中的一个;
将可选决策模式中与所述训练决策模式对应的决策模式的率失真损失值,确定为训练率失真损失值。
4.根据权利要求1所述的方法,其特征在于,根据每个编码单元的编码率失真差值,确定每个编码单元的率失真损失参考值的步骤包括:
确定目标限制条件下的所有编码单元中的最大率失真差值和目标限制条件下的所有编码单元中的最小率失真差值;
计算每个编码单元的编码率失真差值与目标限制条件下的所有编码单元中的最小率失真差值的第一差值;
计算目标限制条件下的所有编码单元中的最大率失真差值与目标限制条件下的所有编码单元中的最小率失真差值的第二差值;
将第一差值与第二差值的比值,确定为每个编码单元的率失真损失参考值。
6.根据权利要求1所述的方法,其特征在于,根据每个编码单元的率失真损失参考值,计算初始编码决策模型的损失函数值的步骤包括:
确定初始编码决策模型的原始损失函数值以及损失函数参数值;
根据原始损失函数值、损失函数参数值和每个编码单元的率失真损失参考值,计算初始编码决策模型的损失函数值。
8.一种面向学习模型的编码决策处理装置,其特征在于,所述装置包括:
训练图片确定模块,用于将训练图片划分为多个编码单元,并确定每个编码单元对应的最佳决策模式;
编码单元计算模块,用于针对每个编码单元,执行以下处理:将该编码单元输入至初始编码决策模型中,得到编码决策模型的训练决策模式,确定该编码单元在训练决策模式下的训练率失真损失值,根据该编码单元对应的最佳率失真损失值和训练率失真损失值,计算该编码单元的编码率失真差值;
率失真损失参考值计算模块,用于根据每个编码单元的编码率失真差值,确定每个编码单元的率失真损失参考值;
损失函数值计算模块,用于根据每个编码单元的率失真损失参考值,计算初始编码决策模型的损失函数值;
目标编码决策模型训练模块,用于根据所得到的损失函数值,对初始编码决策模型进行训练,以获得训练完成的目标编码决策模型。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至7任一所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211256606.2A CN115334308B (zh) | 2022-10-14 | 2022-10-14 | 一种面向学习模型的编码决策处理方法、装置及设备 |
PCT/CN2022/139790 WO2024077767A1 (zh) | 2022-10-14 | 2022-12-16 | 一种面向学习模型的编码决策处理方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211256606.2A CN115334308B (zh) | 2022-10-14 | 2022-10-14 | 一种面向学习模型的编码决策处理方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115334308A CN115334308A (zh) | 2022-11-11 |
CN115334308B true CN115334308B (zh) | 2022-12-27 |
Family
ID=83913463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211256606.2A Active CN115334308B (zh) | 2022-10-14 | 2022-10-14 | 一种面向学习模型的编码决策处理方法、装置及设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115334308B (zh) |
WO (1) | WO2024077767A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116170594B (zh) * | 2023-04-19 | 2023-07-14 | 中国科学技术大学 | 一种基于率失真代价预测的编码方法和装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110139098A (zh) * | 2019-04-09 | 2019-08-16 | 中南大学 | 基于决策树的高效率视频编码器帧内快速算法选择方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104394409B (zh) * | 2014-11-21 | 2017-09-26 | 西安电子科技大学 | 基于空域相关性的hevc预测模式快速选择方法 |
CN106713935B (zh) * | 2017-01-09 | 2019-06-11 | 杭州电子科技大学 | 一种基于贝叶斯决策的hevc块划分快速方法 |
US20190045195A1 (en) * | 2018-03-30 | 2019-02-07 | Intel Corporation | Reduced Partitioning and Mode Decisions Based on Content Analysis and Learning |
CN109769119B (zh) * | 2018-12-18 | 2021-01-19 | 中国科学院深圳先进技术研究院 | 一种低复杂度视频信号编码处理方法 |
CN111355956B (zh) * | 2020-03-09 | 2023-05-09 | 蔡晓刚 | 一种hevc帧内编码中基于深度学习的率失真优化快速决策系统及其方法 |
CN114745551A (zh) * | 2021-01-07 | 2022-07-12 | 腾讯科技(深圳)有限公司 | 处理视频帧图像的方法及电子设备 |
US11652994B2 (en) * | 2021-01-19 | 2023-05-16 | Tencent America LLC | Neural image compression with adaptive intra-prediction |
CN113242429B (zh) * | 2021-05-11 | 2023-12-05 | 杭州网易智企科技有限公司 | 视频编码模式决策方法、装置、设备及存储介质 |
-
2022
- 2022-10-14 CN CN202211256606.2A patent/CN115334308B/zh active Active
- 2022-12-16 WO PCT/CN2022/139790 patent/WO2024077767A1/zh unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110139098A (zh) * | 2019-04-09 | 2019-08-16 | 中南大学 | 基于决策树的高效率视频编码器帧内快速算法选择方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2024077767A1 (zh) | 2024-04-18 |
CN115334308A (zh) | 2022-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9171383B2 (en) | Apparatus and method of scalable encoding of 3D mesh, and apparatus and method of scalable decoding of 3D mesh | |
US20170171547A1 (en) | Method for controlling data rate of motion video and electronic apparatus | |
CN112672149B (zh) | 一种视频处理方法、装置、存储介质及服务器 | |
US9984504B2 (en) | System and method for improving video encoding using content information | |
CN115334308B (zh) | 一种面向学习模型的编码决策处理方法、装置及设备 | |
KR102522098B1 (ko) | 인지 민감도를 고려하는 영상 화질 측정 방법 및 장치 | |
US20140369617A1 (en) | Image encoding apparatus, image encoding method, and program | |
CN112437301B (zh) | 一种面向视觉分析的码率控制方法、装置、存储介质及终端 | |
CN115022629B (zh) | 云游戏视频的最优编码模式确定方法与装置 | |
Fu et al. | Efficient depth intra frame coding in 3D-HEVC by corner points | |
CN110913221A (zh) | 一种视频码率预测方法及装置 | |
CN117768647A (zh) | 图像处理方法、装置、设备及可读存储介质 | |
CN104093022A (zh) | 一种率失真优化方法及装置 | |
KR102402643B1 (ko) | 3차원 모델링의 색상 최적화 처리 시스템 | |
CN110944211A (zh) | 用于帧内预测的插值滤波方法、装置、介质及电子设备 | |
CN105872540A (zh) | 视频处理的方法及装置 | |
US20140254690A1 (en) | Multi-view video coding and decoding methods and apparatuses, coder, and decoder | |
CN117640941A (zh) | 视频编码方法、装置、电子设备及计算机可读存储介质 | |
CN110809158B (zh) | 图像环路滤波处理方法、装置 | |
CN109995962B (zh) | 图片编码尺寸上限的控制方法及系统 | |
CN114007134B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN110876082A (zh) | 一种视频帧的复杂度的确定方法及装置 | |
CN117132716B (zh) | 一种动力环境监控方法、装置、电子设备及存储介质 | |
CN112969066B (zh) | 预测单元的选择方法、装置、电子设备及介质 | |
US20220021888A1 (en) | Systems and methods to encode regions-of-interest based on video content detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |