CN115334308A - 一种面向学习模型的编码决策处理方法、装置及设备 - Google Patents

一种面向学习模型的编码决策处理方法、装置及设备 Download PDF

Info

Publication number
CN115334308A
CN115334308A CN202211256606.2A CN202211256606A CN115334308A CN 115334308 A CN115334308 A CN 115334308A CN 202211256606 A CN202211256606 A CN 202211256606A CN 115334308 A CN115334308 A CN 115334308A
Authority
CN
China
Prior art keywords
coding
decision
coding unit
value
rate distortion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211256606.2A
Other languages
English (en)
Other versions
CN115334308B (zh
Inventor
高伟
袁航
李革
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Shenzhen Graduate School
Original Assignee
Peking University Shenzhen Graduate School
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Shenzhen Graduate School filed Critical Peking University Shenzhen Graduate School
Priority to CN202211256606.2A priority Critical patent/CN115334308B/zh
Publication of CN115334308A publication Critical patent/CN115334308A/zh
Priority to PCT/CN2022/139790 priority patent/WO2024077767A1/zh
Application granted granted Critical
Publication of CN115334308B publication Critical patent/CN115334308B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请提供了一种面向学习模型的编码决策处理方法、装置及设备,其中,该方法包括:将该编码单元输入至初始编码决策模型中,得到编码决策模型的训练决策模式,确定该编码单元在训练决策模式下的训练率失真损失值,根据该编码单元对应的最佳率失真损失值和训练率失真损失值,计算该编码单元的编码率失真差值;根据每个编码单元的编码率失真差值,确定每个编码单元的率失真损失参考值;根据每个编码单元的率失真损失参考值,计算初始编码决策模型的损失函数值;根据所得到的损失函数值,对初始编码决策模型进行训练,以获得训练完成的目标编码决策模型。使训练得到的目标编码决策模型在提升编码决策准确率的同时,降低对图片编码的率失真代价。

Description

一种面向学习模型的编码决策处理方法、装置及设备
技术领域
本申请涉及视频编码技术领域,具体而言,涉及一种面向学习模型的编码决策处理方法、装置及设备。
背景技术
在视频编码的过程中,会将视频的每一帧确定为一个视频图片,再对每个视频图片进行编码,目前,对编码模式的选择是在对每个视频图片进行编码的一项重要任务。为了在编码预测阶段在多个候选的编码模式中选择出最优的编码模式,达到更低的码率占用和更高的重建质量的效果,编码器在进行编码模式决策时会预编码所有的候选模式,然后计算出每个模式所对应的率失真代价(Rate-Distortion Cost, RDC),其中,率失真代价直接反应了使用编码模式对应的编码代价。因此,RDC最小的编码模式将会被选择为最佳模式。
事实上,更加多样的候选模式通常会进一步带来更多的编码收益。因此,随着编码标准的发展,候选编码模式也在逐渐增多。如在新一代编码标准中(Versatile VideoCoding, VVC和 The Third Generation Audio Video Coding Standard, AVS3)CU划分的模式都由2种提升到了6种,帧内预测角度也分别从33种提升到了65种和66种。
更多的候选模式势必导致编码器在决策过程的编码复杂度的增大。近年来,随着机器学习和深度学习技术的流行,使用学习模型来近似决策结果已成为快速决策算法的一个主要方向。
但是,目前对学习模型的训练的目的均是提升学习模型对候选模式选择的准确性,并未在提升候选模式选择的准确性的同时真正使编码器对图片的编码代价减少,比如,一个有百分之九十九编码模式选择准确率的学习模型,其百分之一的错误率可能会导致编码代价的大量增加,很有可能会比一个有百分之九十七编码模式选择准确率的学习模型的编码代价更大。
发明内容
有鉴于此,本申请的目的在于提供一种面向学习模型的编码决策处理方法、装置及设备,能够通过每个编码单元的训练决策模式下的训练率失真损失值和最佳率失真损失值,计算出每个编码单元的编码率失真差值,根据编码率失真差值,计算率失真损失参考值,并根据率失真损失参考值,计算编码决策模型的损失函数,解决现有技术中存在的并未在提升候选模式选择的准确性的同时真正使编码器对图片的编码代价减少的问题,达到在对学习模型训练的过程中,将图片编码的率失真代价值添加至学习模型的损失函数中,对初始编码决策模型进行训练,保证了训练得到的目标编码决策模型可以在提升编码决策准确率的同时,降低对图片进行编码的率失真代价,达到优化视频编码的效果。
第一方面,本申请实施例提供了一种面向学习模型的编码决策处理方法,所述方法包括:将训练图片划分为多个编码单元,并确定每个编码单元对应的最佳决策模式;针对每个编码单元,执行以下处理:将该编码单元输入至初始编码决策模型中,得到编码决策模型的训练决策模式,确定该编码单元在训练决策模式下的训练率失真损失值,根据该编码单元对应的最佳率失真损失值和训练率失真损失值,计算该编码单元的编码率失真差值;根据每个编码单元的编码率失真差值,确定每个编码单元的率失真损失参考值;根据每个编码单元的率失真损失参考值,计算初始编码决策模型的损失函数值;根据所得到的损失函数值,对初始编码决策模型进行训练,以获得训练完成的目标编码决策模型。
可选地,针对每个编码单元,还执行以下处理:确定该编码单元的多个可选决策模式,并计算该编码单元在每个可选决策模式下的率失真损失值,其中,确定该编码单元在训练决策模式下的训练率失真损失值的步骤包括:从所述可选决策模式中确定与所述训练决策模式对应的决策模式,所述训练决策模式为所述可选决策模式中的一个;将可选决策模式中与所述训练决策模式对应的决策模式的率失真损失值,确定为训练率失真损失值。
可选地,通过以下公式计算每个编码单元的编码率失真差值:
Figure M_220926163419027_027138001
其中,
Figure M_220926163419074_074011001
Figure M_220926163419138_138472002
表示编码单元对应的所有可选决策模式,
Figure M_220926163419169_169703003
表示第i个编码单元对应的训练决策模式,该训练决策模式为
Figure M_220926163419185_185365004
中的第j种决策模式,
Figure M_220926163419216_216581005
表示第i个编码单元在训练决策模式下的训练率失真损失值,
Figure M_220926163419263_263448006
表示第i个编码单元对应的最佳决策模式,
Figure M_220926163419294_294707007
表示第i个编码单元在最佳决策模式下的最佳率失真损失值,
Figure M_220926163419325_325956008
表示编码单元的编码率失真差值。
可选地,根据每个编码单元的编码率失真差值,确定每个编码单元的率失真损失参考值的步骤包括:确定目标限制条件下的所有编码单元中的最大率失真差值和目标限制条件下的所有编码单元中的最小率失真差值;计算每个编码单元的编码率失真差值与目标限制条件下的所有编码单元中的最小率失真差值的第一差值;计算目标限制条件下的所有编码单元中的最大率失真差值与目标限制条件下的所有编码单元中的最小率失真差值的第二差值;将第一差值与第二差值的比值,确定为每个编码单元的编码损失参考值。
可选地,通过以下公式计算每个编码单元的率失真损失参考值:
Figure M_220926163419357_357250001
其中,
Figure M_220926163419388_388497001
表示第i个编码单元在第j种决策模式在目标限制条件S下的率失真损失参考值,
Figure M_220926163419419_419803002
表示第i个编码单元在第j种决策模式的编码率失真差值,
Figure M_220926163419450_450952003
表示目标限制条件S下的所有编码单元中的最大率失真差值,
Figure M_220926163419483_483144004
表示目标限制条件S下的所有编码单元中的最小率失真差值。
可选地,根据每个编码单元的率失真损失参考值,计算初始编码决策模型的损失函数值的步骤包括:确定初始编码决策模型的原始损失函数值以及损失函数参数值;根据原始损失函数值、损失函数参数值和每个编码单元的率失真损失参考值,计算初始编码决策模型的损失函数值。
可选地,通过以下公式计算初始编码决策模型的损失函数值:
Figure M_220926163419514_514908001
,或,
Figure M_220926163419546_546199001
其中,
Figure M_220926163419577_577420001
表示初始编码决策模型的损失函数值,
Figure M_220926163419624_624311002
表示损失函数参数值,
Figure M_220926163419655_655543003
表示每个编码单元在目标限制条件S下的率失真损失参考值,
Figure M_220926163419687_687733004
表示原始损失函数值。
第二方面,本申请实施例还提供了一种面向学习模型的编码决策处理装置,所述装置包括:训练图片确定模块,用于将训练图片划分为多个编码单元,并确定每个编码单元对应的最佳决策模式;
编码单元计算模块,用于针对每个编码单元,执行以下处理:将该编码单元输入至初始编码决策模型中,得到编码决策模型的训练决策模式,确定该编码单元在训练决策模式下的训练率失真损失值,根据该编码单元对应的最佳率失真损失值和训练率失真损失值,计算该编码单元的编码率失真差值;
率失真损失参考值计算模块,用于根据每个编码单元的编码率失真差值,确定每个编码单元的率失真损失参考值;
损失函数值计算模块,用于根据每个编码单元的率失真损失参考值,计算初始编码决策模型的损失函数值;
目标编码决策模型训练模块,用于根据所得到的损失函数值,对初始编码决策模型进行训练,以获得训练完成的目标编码决策模型。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的面向学习模型的编码决策处理方法的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的面向学习模型的编码决策处理方法的步骤。
本申请实施例提供的面向学习模型的编码决策处理方法、装置及设备,能够通过每个编码单元的训练决策模式下的训练率失真损失值和最佳率失真损失值,计算出每个编码单元的编码率失真差值,根据编码率失真差值,计算率失真损失参考值,并根据率失真损失参考值,计算编码决策模型的损失数,解决现有技术中存在的并未在提升候选模式选择的准确性的同时真正使编码器对图片的编码代价减少的问题,达到在对学习模型训练的过程中,将图片编码的率失真代价值添加至学习模型的损失函数中,对初始编码决策模型进行训练,保证了训练得到的目标编码决策模型可以在提升编码决策准确率的同时,降低对图片进行编码的率失真代价,达到优化视频编码的效果。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种面向学习模型的编码决策处理方法的流程图;
图2为本申请实施例所提供的训练图片的示意图;
图3为本申请实施例所提供的一种面向学习模型的编码决策处理装置的结构示意图;
图4本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
首先,对本申请可适用的应用场景进行介绍。本申请可应用于视频编码技术领域。
经研究发现,在视频编码的过程中,会将视频的每一帧确定为一个视频图片,再对每个视频图片进行编码,目前,对编码模式的选择是在对每个视频图片进行编码的一项重要任务。为了在编码预测阶段在多个候选的编码模式中选择出最优的编码模式,达到更低的码率占用和更高的重建质量的效果,编码器在进行编码模式决策时会预编码所有的候选模式,然后计算出每个模式所对应的率失真代价(Rate-Distortion Cost, RDC),其中,率失真代价直接反应了使用编码模式对应的编码代价。因此,RDC最小的编码模式将会被选择为最佳模式。
事实上,更加多样的候选模式通常会进一步带来更多的编码收益。因此,随着编码标准的发展,候选编码模式也在逐渐增多。如在新一代编码标准中(Versatile VideoCoding, VVC和 The Third Generation Audio Video Coding Standard, AVS3)CU划分的模式都由2种提升到了6种,帧内预测角度也分别从33种提升到了65种和66种。
更多的候选模式势必导致编码器在决策过程的编码复杂度的增大,近年来,随着机器学习和深度学习技术的流行,使用学习模型来近似决策结果已成为快速决策算法的一个主要方向。
但是,目前对学习模型的训练的目的均是提升学习模型对候选模式选择的准确性,并未在提升候选模式选择的准确性的同时真正使编码器对图片的编码代价减少,比如,一个有百分之九十九编码模式选择准确率的学习模型,其百分之一的错误率可能会导致编码代价的大量增加,很有可能会比一个有百分之九十七编码模式选择准确率的学习模型的编码代价更大。
基于此,本申请实施例提供了一种面向学习模型的编码决策处理方法、装置及设备,以解决现有技术中存在的并未在提升候选模式选择的准确性的同时真正使编码器对图片的编码代价减少的问题,达到在对学习模型训练的过程中,将图片编码的率失真代价值添加至学习模型的损失函数中,对初始编码决策模型进行训练,保证了训练得到的目标编码决策模型可以在提升编码决策准确率的同时,降低对图片进行编码的率失真代价,达到优化视频编码的效果。
请参阅图1,图1为本申请实施例所提供的一种面向学习模型的编码决策处理方法的流程图。如图1中所示,本申请实施例提供的面向学习模型的编码决策处理方法,包括:
S101、将训练图片划分为多个编码单元,并确定每个编码单元对应的最佳决策模式。
需要说明的是,可以通过以下方式获取训练图片:获取训练视频集,所述训练视频集中包括多个训练视频;针对每个训练视频,对该训练视频进行投影得到多个训练图片。
示例性的,训练视频可以为三维动态点云视频,可以首先将三维动态点云视频投影成为三个记录不同信息二维视频,也就是二维占用视频、二维几何视频和二维属性视频,再获取上述三个二维视频的每一帧图像,得到二维点云占用图片、二维点云几何图片和二维点云属性图片。
这样,就得到了与训练视频对应的多张训练图片。
示例一,请参阅图2,图2为本申请实施例所提供的训练图片的示意图,如图2中所示,本申请所提供的训练图片的示意图,训练图片201包括:第一编码单元202、第二编码单元203和目标限制条件204。
其中,可以将训练图片划分为大小相同的编码单元,例如,第一编码单元202、第二编码单元203,也可以将训练图片划分为不同大小的编码单元。
如图2中所示,第一编码单元202的最佳决策模式为划分模式,第二编码单元203的最佳决策模式为不划分模式。
示例二,在对训练图片进行帧内预测时,对训练图片的帧内预测的决策模式有65或66种,例如,亮度决策、角度决策、色度决策等,每个编码单元的决策模式也更加多样,在此不再赘述。
S102、针对每个编码单元,执行以下处理:将该编码单元输入至初始编码决策模型中,得到编码决策模型的训练决策模式,确定该编码单元在训练决策模式下的训练率失真损失值,根据该编码单元对应的最佳率失真损失值和训练率失真损失值,计算该编码单元的编码率失真差值。
其中,针对每个编码单元,还执行以下处理:确定该编码单元的多个可选决策模式,并计算该编码单元在每个可选决策模式下的率失真损失值。
需要说明的是,最佳决策模式和训练决策模式均为可选决策模式中的一个。
这样,就得到了每个编码模块在每个可选决策模式下的率失真损失值。
具体的,确定该编码单元在训练决策模式下的训练率失真损失值的步骤包括:从所述可选决策模式中确定与所述训练决策模式对应的决策模式,所述训练决策模式为所述可选决策模式中的一个;将可选决策模式中与所述训练决策模式对应的决策模式的率失真损失值,确定为训练率失真损失值。
其中,可以通过以下公式计算每个编码单元的编码率失真差值:
Figure M_220926163419703_703881001
其中,
Figure M_220926163419735_735142001
Figure M_220926163419782_782032002
表示编码单元对应的所有可选决策模式,
Figure M_220926163419797_797633003
表示第i个编码单元对应的训练决策模式,该训练决策模式为
Figure M_220926163419828_828911004
中的第j种决策模式,
Figure M_220926163419860_860143005
表示第i个编码单元在训练决策模式下的训练率失真损失值,
Figure M_220926163419892_892822006
表示第i个编码单元对应的最佳决策模式,
Figure M_220926163419924_924576007
表示第i个编码单元在最佳决策模式下的最佳率失真损失值,
Figure M_220926163419940_940217008
表示编码单元的编码率失真差值。
S103、根据每个编码单元的编码率失真差值,确定每个编码单元的率失真损失参考值。
具体的,根据每个编码单元的编码率失真差值,确定每个编码单元的率失真损失参考值的步骤包括:确定目标限制条件下的所有编码单元中的最大率失真差值和目标限制条件下的所有编码单元中的最小率失真差值;计算每个编码单元的编码率失真差值与目标限制条件下的所有编码单元中的最小率失真差值的第一差值;计算目标限制条件下的所有编码单元中的最大率失真差值与目标限制条件下的所有编码单元中的最小率失真差值的第二差值;将第一差值与第二差值的比值,确定为每个编码单元的编码损失参考值。
示例一,请参阅图2,第二编码单元203的目标限制条件为第二编码单元203周围一定范围内的所有编码单元204,即为目标限制条件204,目标限制条件204中有多个编码单元,确定目标限制条件204中的所有编码单元中,最大率失真差值和最小率失真差值;计算每个编码单元的编码率失真差值与目标限制条件下的所有编码单元中的最小率失真差值的第一差值;计算目标限制条件下的所有编码单元中的最大率失真差值与目标限制条件下的所有编码单元中的最小率失真差值的第二差值;将第一差值与第二差值的比值,确定为每个编码单元的编码损失参考值。
示例二,在对训练图片进行帧内预测时,目标限制条件可以为与每个编码单元在相同亮度区间的编码单元,确定目标限制条件中的所有编码单元中,最大率失真差值和最小率失真差值;计算每个编码单元的编码率失真差值与目标限制条件下的所有编码单元中的最小率失真差值的第一差值;计算目标限制条件下的所有编码单元中的最大率失真差值与目标限制条件下的所有编码单元中的最小率失真差值的第二差值;将第一差值与第二差值的比值,确定为每个编码单元的编码损失参考值。
这样,就确定出每个编码单元与目标限制条件内的编码单元相比,编码单元的率失真差值在目标限制条件内的率失真损失的大小程度。
具体的,可以通过以下公式计算每个编码单元的率失真损失参考值:
Figure M_220926163419971_971488001
其中,
Figure M_220926163420018_018349001
表示第i个编码单元在第j种决策模式在目标限制条件S下的率失真损失参考值,
Figure M_220926163420049_049575002
表示第i个编码单元在第j种决策模式的编码率失真差值,
Figure M_220926163420065_065249003
表示目标限制条件S下的所有编码单元中的最大率失真差值,
Figure M_220926163420099_099378004
表示目标限制条件S下的所有编码单元中的最小率失真差值。
S104、根据每个编码单元的率失真损失参考值,计算初始编码决策模型的损失函数值。
其中,根据每个编码单元的率失真损失参考值,计算初始编码决策模型的损失函数值的步骤包括:
确定初始编码决策模型的原始损失函数值以及损失函数参数值;根据原始损失函数值、损失函数参数值和每个编码单元的率失真损失参考值,计算初始编码决策模型的损失函数值。
这样,本申请计算的初始编码决策模型的损失函数值,就在原始损失函数值的基础上,在初始编码决策模型选择错误的决策时,计算了错误的决策对编码损失的影响程度,并根据错误决策对编码损失的影响程度添加至损失函数值的计算中,以避免对初始编码决策模型的训练只针对准确率进行训练,未考虑到对率失真损失进行降低的问题。
具体的,通过以下公式计算初始编码决策模型的损失函数值:
Figure M_220926163420130_130661001
,或,
Figure M_220926163420166_166220001
其中,
Figure M_220926163420190_190663001
表示初始编码决策模型的损失函数值,
Figure M_220926163420222_222419002
表示损失函数参数值,
Figure M_220926163420253_253246003
表示每个编码单元在目标限制条件S下的率失真损失参考值,
Figure M_220926163420286_286866004
表示原始损失函数值。
S105、根据所得到的损失函数值,对初始编码决策模型进行训练,以获得训练完成的目标编码决策模型。
示例性的,以视频压缩的编码单元划分模式决策问题为例。在视频压缩的编码单元划分决策中,一共存在两候选模式,分别是划分模式(QT)和不划分模式(Non-Split)。由于仅存在两种候选模式,错误选择划分模式的可能只有一种。因此
Figure M_220926163420318_318615001
的计算便可退化为:
Figure M_220926163420354_354275001
其中,
Figure M_220926163420385_385521001
为编码单元使用QT模式编码时的率失真损失,
Figure M_220926163420432_432393002
为使用Non-Split模式编码时的率失真损失。
此外,在编码单元划分是不同尺寸编码单元的编码性能通常存在较大差异。因此,若仅在相同尺寸的编码单元中考虑错误决策所造成的损失程度
Figure M_220926163420448_448030001
,那么指定范围
Figure M_220926163420479_479270002
即为与当前编码单元尺寸的所有编码单元。
Figure M_220926163420513_513446003
为训练数据中所有与编码单元尺寸相同的所有编码单元中RDCG的最大值,
Figure M_220926163420544_544700004
为训练数据中所有与编码单元尺寸相同的编码单元中RDCG的最小值。此时的
Figure M_220926163420560_560354005
Figure M_220926163420591_591586006
分别为:
Figure M_220926163420622_622814001
或,
Figure M_220926163420669_669694001
本申请实施例提供的面向学习模型的编码决策处理方法,能够通过每个编码单元的训练决策模式下的训练率失真损失值和最佳率失真损失值,计算出每个编码单元的编码率失真差值,根据编码率失真差值,计算率失真损失参考值,并根据率失真损失参考值,计算编码决策模型的损失数,解决现有技术中存在的并未在提升候选模式选择的准确性的同时真正使编码器对图片的编码代价减少的问题,达到在对学习模型训练的过程中,将图片编码的率失真代价值添加至学习模型的损失函数中,对初始编码决策模型进行训练,保证了训练得到的目标编码决策模型可以在提升编码决策准确率的同时,降低对图片进行编码的率失真代价,达到优化视频编码的效果。
基于同一发明构思,本申请实施例中还提供了与面向学习模型的编码决策处理方法对应的面向学习模型的编码决策处理装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述面向学习模型的编码决策处理方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
请参阅图3,图3为本申请实施例所提供的一种面向学习模型的编码决策处理装置的结构示意图。如图3中所示,所述面向学习模型的编码决策处理装置300包括:
训练图片确定模块301,用于将训练图片划分为多个编码单元,并确定每个编码单元对应的最佳决策模式。
编码单元计算模块302,用于针对每个编码单元,执行以下处理:将该编码单元输入至初始编码决策模型中,得到编码决策模型的训练决策模式,确定该编码单元在训练决策模式下的训练率失真损失值,根据该编码单元对应的最佳率失真损失值和训练率失真损失值,计算该编码单元的编码率失真差值。
率失真损失参考值计算模块303,用于根据每个编码单元的编码率失真差值,确定每个编码单元的率失真损失参考值。
损失函数值计算模块304,用于根据每个编码单元的率失真损失参考值,计算初始编码决策模型的损失函数值。
目标编码决策模型训练模块305,用于根据所得到的损失函数值,对初始编码决策模型进行训练,以获得训练完成的目标编码决策模型。
本申请实施例提供的面向学习模型的编码决策处理装置,能够通过每个编码单元的训练决策模式下的训练率失真损失值和最佳率失真损失值,计算出每个编码单元的编码率失真差值,根据编码率失真差值,计算率失真损失参考值,并根据率失真损失参考值,计算编码决策模型的损失数,解决现有技术中存在的并未在提升候选模式选择的准确性的同时真正使编码器对图片的编码代价减少的问题,达到在对学习模型训练的过程中,将图片编码的率失真代价值添加至学习模型的损失函数中,对初始编码决策模型进行训练,保证了训练得到的目标编码决策模型可以在提升编码决策准确率的同时,降低对图片进行编码的率失真代价,达到优化视频编码的效果。
请参阅图4,图4为本申请实施例所提供的一种电子设备的结构示意图。如图4中所示,所述电子设备400包括处理器410、存储器420和总线430。
所述存储器420存储有所述处理器410可执行的机器可读指令,当电子设备400运行时,所述处理器410与所述存储器420之间通过总线430通信,所述机器可读指令被所述处理器410执行时,可以执行如上述图1所示方法实施例中的面向学习模型的编码决策处理方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的面向学习模型的编码决策处理方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种面向学习模型的编码决策处理方法,其特征在于,所述方法包括:
将训练图片划分为多个编码单元,并确定每个编码单元对应的最佳决策模式;
针对每个编码单元,执行以下处理:将该编码单元输入至初始编码决策模型中,得到编码决策模型的训练决策模式,确定该编码单元在训练决策模式下的训练率失真损失值,根据该编码单元对应的最佳率失真损失值和训练率失真损失值,计算该编码单元的编码率失真差值;
根据每个编码单元的编码率失真差值,确定每个编码单元的率失真损失参考值;
根据每个编码单元的率失真损失参考值,计算初始编码决策模型的损失函数值;
根据所得到的损失函数值,对初始编码决策模型进行训练,以获得训练完成的目标编码决策模型。
2.根据权利要求1所述的方法,其特征在于,针对每个编码单元,还执行以下处理:确定该编码单元的多个可选决策模式,并计算该编码单元在每个可选决策模式下的率失真损失值,
其中,确定该编码单元在训练决策模式下的训练率失真损失值的步骤包括:
从所述可选决策模式中确定与所述训练决策模式对应的决策模式,所述训练决策模式为所述可选决策模式中的一个;
将可选决策模式中与所述训练决策模式对应的决策模式的率失真损失值,确定为训练率失真损失值。
3.根据权利要求1所述的方法,其特征在于,通过以下公式计算每个编码单元的编码率失真差值:
Figure M_220926163415614_614053001
其中,
Figure M_220926163415756_756629001
Figure M_220926163415803_803498002
表示编码单元对应的所有可选决策模式,
Figure M_220926163415834_834738003
表示第i个编码单元对应的训练决策模式,该训练决策模式为
Figure M_220926163415866_866000004
中的第j种决策模式,
Figure M_220926163415886_886462005
表示第i个编码单元在训练决策模式下的训练率失真损失值,
Figure M_220926163415918_918248006
表示第i个编码单元对应的最佳决策模式,
Figure M_220926163415949_949505007
表示第i个编码单元在最佳决策模式下的最佳率失真损失值,
Figure M_220926163415980_980740008
表示编码单元的编码率失真差值。
4.根据权利要求1所述的方法,其特征在于,根据每个编码单元的编码率失真差值,确定每个编码单元的率失真损失参考值的步骤包括:
确定目标限制条件下的所有编码单元中的最大率失真差值和目标限制条件下的所有编码单元中的最小率失真差值;
计算每个编码单元的编码率失真差值与目标限制条件下的所有编码单元中的最小率失真差值的第一差值;
计算目标限制条件下的所有编码单元中的最大率失真差值与目标限制条件下的所有编码单元中的最小率失真差值的第二差值;
将第一差值与第二差值的比值,确定为每个编码单元的编码损失参考值。
5.根据权利要求4所述的方法,其特征在于,通过以下公式计算每个编码单元的率失真损失参考值:
Figure M_220926163416011_011999001
其中,
Figure M_220926163416074_074479001
表示第i个编码单元在第j种决策模式在目标限制条件S下的率失真损失参考值,
Figure M_220926163416091_091550002
表示第i个编码单元在第j种决策模式的编码率失真差值,
Figure M_220926163416123_123312003
表示目标限制条件S下的所有编码单元中的最大率失真差值,
Figure M_220926163416154_154551004
表示目标限制条件S下的所有编码单元中的最小率失真差值。
6.根据权利要求1所述的方法,其特征在于,根据每个编码单元的率失真损失参考值,计算初始编码决策模型的损失函数值的步骤包括:
确定初始编码决策模型的原始损失函数值以及损失函数参数值;
根据原始损失函数值、损失函数参数值和每个编码单元的率失真损失参考值,计算初始编码决策模型的损失函数值。
7.根据权利要求6所述的方法,其特征在于,通过以下公式计算初始编码决策模型的损失函数值:
Figure M_220926163416170_170181001
,或,
Figure M_220926163416217_217064001
其中,
Figure M_220926163416248_248316001
表示初始编码决策模型的损失函数值,
Figure M_220926163416280_280999002
表示损失函数参数值,
Figure M_220926163416312_312760003
表示每个编码单元在目标限制条件S下的率失真损失参考值,
Figure M_220926163416344_344022004
表示原始损失函数值。
8.一种面向学习模型的编码决策处理装置,其特征在于,所述装置包括:
训练图片确定模块,用于将训练图片划分为多个编码单元,并确定每个编码单元对应的最佳决策模式;
编码单元计算模块,用于针对每个编码单元,执行以下处理:将该编码单元输入至初始编码决策模型中,得到编码决策模型的训练决策模式,确定该编码单元在训练决策模式下的训练率失真损失值,根据该编码单元对应的最佳率失真损失值和训练率失真损失值,计算该编码单元的编码率失真差值;
率失真损失参考值计算模块,用于根据每个编码单元的编码率失真差值,确定每个编码单元的率失真损失参考值;
损失函数值计算模块,用于根据每个编码单元的率失真损失参考值,计算初始编码决策模型的损失函数值;
目标编码决策模型训练模块,用于根据所得到的损失函数值,对初始编码决策模型进行训练,以获得训练完成的目标编码决策模型。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至7任一所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一所述方法的步骤。
CN202211256606.2A 2022-10-14 2022-10-14 一种面向学习模型的编码决策处理方法、装置及设备 Active CN115334308B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211256606.2A CN115334308B (zh) 2022-10-14 2022-10-14 一种面向学习模型的编码决策处理方法、装置及设备
PCT/CN2022/139790 WO2024077767A1 (zh) 2022-10-14 2022-12-16 一种面向学习模型的编码决策处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211256606.2A CN115334308B (zh) 2022-10-14 2022-10-14 一种面向学习模型的编码决策处理方法、装置及设备

Publications (2)

Publication Number Publication Date
CN115334308A true CN115334308A (zh) 2022-11-11
CN115334308B CN115334308B (zh) 2022-12-27

Family

ID=83913463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211256606.2A Active CN115334308B (zh) 2022-10-14 2022-10-14 一种面向学习模型的编码决策处理方法、装置及设备

Country Status (2)

Country Link
CN (1) CN115334308B (zh)
WO (1) WO2024077767A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116170594A (zh) * 2023-04-19 2023-05-26 中国科学技术大学 一种基于率失真代价预测的编码方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190045195A1 (en) * 2018-03-30 2019-02-07 Intel Corporation Reduced Partitioning and Mode Decisions Based on Content Analysis and Learning
CN109769119A (zh) * 2018-12-18 2019-05-17 中国科学院深圳先进技术研究院 一种低复杂度视频信号编码处理方法
CN110139098A (zh) * 2019-04-09 2019-08-16 中南大学 基于决策树的高效率视频编码器帧内快速算法选择方法
CN111355956A (zh) * 2020-03-09 2020-06-30 蔡晓刚 一种hevc帧内编码中基于深度学习的率失真优化快速决策系统及其方法
CN113242429A (zh) * 2021-05-11 2021-08-10 杭州朗和科技有限公司 视频编码模式决策方法、装置、设备及存储介质
CN113767400A (zh) * 2019-03-21 2021-12-07 谷歌有限责任公司 使用率失真成本作为深度学习的损失函数

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104394409B (zh) * 2014-11-21 2017-09-26 西安电子科技大学 基于空域相关性的hevc预测模式快速选择方法
CN106713935B (zh) * 2017-01-09 2019-06-11 杭州电子科技大学 一种基于贝叶斯决策的hevc块划分快速方法
CN114745551A (zh) * 2021-01-07 2022-07-12 腾讯科技(深圳)有限公司 处理视频帧图像的方法及电子设备
US11652994B2 (en) * 2021-01-19 2023-05-16 Tencent America LLC Neural image compression with adaptive intra-prediction

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190045195A1 (en) * 2018-03-30 2019-02-07 Intel Corporation Reduced Partitioning and Mode Decisions Based on Content Analysis and Learning
CN109769119A (zh) * 2018-12-18 2019-05-17 中国科学院深圳先进技术研究院 一种低复杂度视频信号编码处理方法
CN113767400A (zh) * 2019-03-21 2021-12-07 谷歌有限责任公司 使用率失真成本作为深度学习的损失函数
CN110139098A (zh) * 2019-04-09 2019-08-16 中南大学 基于决策树的高效率视频编码器帧内快速算法选择方法
CN111355956A (zh) * 2020-03-09 2020-06-30 蔡晓刚 一种hevc帧内编码中基于深度学习的率失真优化快速决策系统及其方法
CN113242429A (zh) * 2021-05-11 2021-08-10 杭州朗和科技有限公司 视频编码模式决策方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
施金诚 等: "基于深度学习的VVC快速帧内模式决策", 《电子测量技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116170594A (zh) * 2023-04-19 2023-05-26 中国科学技术大学 一种基于率失真代价预测的编码方法和装置
CN116170594B (zh) * 2023-04-19 2023-07-14 中国科学技术大学 一种基于率失真代价预测的编码方法和装置

Also Published As

Publication number Publication date
WO2024077767A1 (zh) 2024-04-18
CN115334308B (zh) 2022-12-27

Similar Documents

Publication Publication Date Title
JP6400720B2 (ja) ビュー非依存色等化3dシーンテクスチャ処理
US20170171547A1 (en) Method for controlling data rate of motion video and electronic apparatus
EP3282701A1 (en) Prediction mode selection method, apparatus and device
CN112672149B (zh) 一种视频处理方法、装置、存储介质及服务器
US9984504B2 (en) System and method for improving video encoding using content information
KR102522098B1 (ko) 인지 민감도를 고려하는 영상 화질 측정 방법 및 장치
US11769291B2 (en) Method and device for rendering point cloud-based data
CN115334308B (zh) 一种面向学习模型的编码决策处理方法、装置及设备
US20140369617A1 (en) Image encoding apparatus, image encoding method, and program
CN115022629B (zh) 云游戏视频的最优编码模式确定方法与装置
Fu et al. Efficient depth intra frame coding in 3D-HEVC by corner points
CN106664404A (zh) 视频编码中的块分割方式处理方法和相关装置
CN112437301A (zh) 一种面向视觉分析的码率控制方法、装置、存储介质及终端
CN117768647A (zh) 图像处理方法、装置、设备及可读存储介质
CN110913221A (zh) 一种视频码率预测方法及装置
CN104093022A (zh) 一种率失真优化方法及装置
US9467676B2 (en) Multi-view video coding and decoding methods and apparatuses, coder, and decoder
KR102402643B1 (ko) 3차원 모델링의 색상 최적화 처리 시스템
CN117640941A (zh) 视频编码方法、装置、电子设备及计算机可读存储介质
CN110876082B (zh) 一种视频帧的复杂度的确定方法及装置
CN109995962B (zh) 图片编码尺寸上限的控制方法及系统
CN114007134B (zh) 视频处理方法、装置、电子设备及存储介质
US20220021888A1 (en) Systems and methods to encode regions-of-interest based on video content detection
CN117132716B (zh) 一种动力环境监控方法、装置、电子设备及存储介质
CN112969066B (zh) 预测单元的选择方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant