CN115866247B - 基于mae预训练模型的视频编码帧内预测方法和系统 - Google Patents

基于mae预训练模型的视频编码帧内预测方法和系统 Download PDF

Info

Publication number
CN115866247B
CN115866247B CN202310189730.XA CN202310189730A CN115866247B CN 115866247 B CN115866247 B CN 115866247B CN 202310189730 A CN202310189730 A CN 202310189730A CN 115866247 B CN115866247 B CN 115866247B
Authority
CN
China
Prior art keywords
prediction
mae
loss
predicted
candidate list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310189730.XA
Other languages
English (en)
Other versions
CN115866247A (zh
Inventor
张昊
肖婴然
林立新
李昆霖
刘增辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202310189730.XA priority Critical patent/CN115866247B/zh
Publication of CN115866247A publication Critical patent/CN115866247A/zh
Application granted granted Critical
Publication of CN115866247B publication Critical patent/CN115866247B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于MAE预训练模型的视频编码帧内预测方法和系统,本方法通过根据获得的所有预测单元的最优预测模式完成每个编码单元的帧内预测;获取每个预测单元的最优预测模式包括步骤:根据预测单元相邻的已预测单元获得初始化候选列表,并获取已预测单元的重建信息;计算每种预测模式的第一率失真损失;通过训练好的MAE预测模型,获得预测图像,并根据预测图像计算获得第二率失真损失;根据第一率失真损失和第二率失真损失,更新加入训练好的MAE预测模型后的初始化候选列表;计算更新后的候选列表中每种预测模式的实际损失,并根据实际损失获得预测单元的最优预测模式。本发明能够提高视频编码帧内预测的准确度。

Description

基于MAE预训练模型的视频编码帧内预测方法和系统
技术领域
本发明涉及视频编码帧内预测技术领域,尤其是涉及一种基于MAE预训练模型的视频编码帧内预测方法和系统。
背景技术
HEVC(High Efficiency Video Coding)为高效率视频编码,又称为H.265和MPEG-H第2部分,是一种视频压缩标准,被视为是ITU-T H.264/MPEG-4 AVC标准的继任者。HEVC被认为不仅提升影像质量,同时也能达到H.264/MPEG-4 AVC两倍之压缩率(等同于同样画面质量下位元率减少到了50%),可支持4K清晰度甚至到超高清电视(UHDTV),最高清晰度可达到8192×4320(8K清晰度)。
帧内预测在先前的H.26x系列和MPEG-x系列标准中,都是采用的帧间预测的方式。在H.264中,当编码Intra图像时可用帧内预测。对于每个4×4块(除了边缘块特别处置以外),每个像素都可用17个最接近的先前已编码的像素的不同加权和(有的权值可为0)来预测,即此像素所在块的左上角的17个像素。显然,这种帧内预测不是在时间上,而是在空间域上进行的预测编码算法,可以除去相邻块之间的空间冗余度,取得更为有效的压缩。
现有技术在以HEVC为代表的视频编码标准的编码器中,传统帧内预测算法均采用不同角度模式下的线性预测,在一些较为复杂的场合中效果较差。而基于深度学习的帧内预测方法大都采用较为广泛使用的L2损失,但在编码器中的实际损失应为残差的变换值,无法更为准确体现真实预测损失。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种基于MAE预训练模型的视频编码帧内预测方法和系统,能够提高视频编码帧内预测的准确度。
第一方面,本发明实施例提供了一种基于MAE预训练模型的视频编码帧内预测方法,所述基于MAE预训练模型的视频编码帧内预测方法包括:
获取编码待预测图像的多个编码单元、每个编码单元中多个预测单元以及所述每个编码单元中所有预测单元的最优预测模式;其中,获取每个预测单元的最优预测模式包括如下步骤:
根据预测单元相邻的已预测单元获得初始化候选列表,并获取所述已预测单元的重建信息;
初始化所述预测单元的多种预测模式,计算每种预测模式的第一率失真损失;
根据所述已预测单元的重建信息,通过编码器获得预测块的尺寸和已重建块像素信息;
根据所述预测块的尺寸和已重建块像素信息,通过训练好的MAE预测模型,获得预测图像,并根据所述预测图像计算获得第二率失真损失;
根据所述第一率失真损失和所述第二率失真损失,更新加入所述训练好的MAE预测模型后的初始化候选列表,获得更新后的候选列表;
计算所述更新后的候选列表中每种预测模式的实际损失,并根据所述实际损失获得所述预测单元的最优预测模式;
根据获得的所有预测单元的最优预测模式完成所述每个编码单元的帧内预测。
与现有技术相比,本发明第一方面具有以下有益效果:
本方法通过根据预测单元相邻的已预测单元获得初始化候选列表,并获取已预测单元的重建信息;初始化预测单元的多种预测模式,计算每种预测模式的第一率失真损失;根据已预测单元的重建信息,通过编码器获得预测块的尺寸和已重建块像素信息;根据预测块的尺寸和已重建块像素信息,通过训练好的MAE预测模型,获得预测图像,并根据预测图像计算获得第二率失真损失,通过训练好的MAE预测模型预测图象并计算获得第二率失真损失,能够提高图像预测的准确度,获得更准确的率失真损失;本方法通过根据第一率失真损失和第二率失真损失,更新加入训练好的MAE预测模型后的初始化候选列表,获得更新后的候选列表,通过将预测更为准确的训练好的MAE预测模型加入候选列表中,能够减少编码传输过程中的码流大小;本方法还通过计算更新后的候选列表中每种预测模式的实际损失,并根据实际损失获得预测单元的最优预测模式,通过增加训练好的MAE预测模型后获得的候选列表来获取最优预测模式,通过最优预测模式进行帧内预测能够提高视频编码帧内预测的准确度。
根据本发明的一些实施例,通过如下方式训练所述MAE预测模型:
从多种预测块的尺寸中选定预测块的预设尺寸,并根据选定的所述预测块的预设尺寸制作图像样本集;
将所述图像样本集输入至MAE预训练模型,并采用第一损失函数进行第一次训练,获得第一次训练后的MAE预训练模型;
将所述第一次训练后的MAE预训练模型采用第二损失函数进行第二次训练,获得训练好的MAE预测模型。
根据本发明的一些实施例,所述第一损失函数表示为:
其中,表示所述第一损失函数,表示目标值,表示估计值,表示图像样本总数,表示第个图像样本。
根据本发明的一些实施例,通过如下方式获得所述第二损失函数:
在所述第二次训练中初始化变换矩阵为:
根据所述初始化变换矩阵,对重建图像中每个4x4的块分别进行对应像素矩阵的行变换和列变换为:
根据每个4x4的块的像素矩阵的行变换和列变换后的值获得所述第二损失函数:
其中,表示像素矩阵,表示所述第二损失函数,表示每个4x4的块的像素矩阵的行变换和列变换后的值,表示当前4x4的块在输入图像中的位置,表示输入块的尺寸与4x4的块的比值。
根据本发明的一些实施例,所述根据所述第一率失真损失和所述第二率失真损失,更新加入所述训练好的MAE预测模型后的初始化候选列表,获得更新后的候选列表,包括:
从所述多种预测模式中每种预测模式对应的第一率失真损失和所述训练好的MAE预测模型对应的第二率失真损失中选取多个率失真损失最小的模式;
根据所述多个率失真损失最小的模式,获得更新后的候选列表。
根据本发明的一些实施例,所述计算所述更新后的候选列表中每种预测模式的实际损失,并根据所述实际损失获得所述预测单元的最优预测模式,包括:
通过熵编码计算所述更新后的候选列表中每种预测模式的实际损失;
选取所述实际损失最低的预测模式作为所述预测单元的最优预测模式。
根据本发明的一些实施例,在所述根据所述实际损失获得所述预测单元的最优预测模式之后,所述基于MAE预训练模型的视频编码帧内预测方法还包括:
在原编码存储空间中增加一位模式编码存储空间。
第二方面,本发明实施例还提供了一种基于MAE预训练模型的视频编码帧内预测系统,所述基于MAE预训练模型的视频编码帧内预测系统包括:
数据获取模块,用于获取编码待预测图像的多个编码单元、每个编码单元中多个预测单元以及所述每个编码单元中所有预测单元的最优预测模式;所述数据获取模块包括候选列表初始化子模块、第一计算子模块、信息获取子模块、第二计算子模块、候选列表更新子模块以及最优预测模式获取子模块,其中:
所述候选列表初始化子模块,用于获取预测单元相邻的已预测单元的重建信息,并根据所述已预测单元获得初始化候选列表;
所述第一计算子模块,用于初始化所述预测单元的多种预测模式,计算每种预测模式的第一率失真损失;
所述信息获取子模块,用于根据所述已预测单元的重建信息,通过编码器获得预测块的尺寸和已重建块像素信息;
所述第二计算子模块,用于根据所述预测块的尺寸和已重建块像素信息,通过训练好的MAE预测模型,获得预测图像,并根据所述预测图像计算获得第二率失真损失;
所述候选列表更新子模块,用于根据所述第一率失真损失和所述第二率失真损失,更新加入所述训练好的MAE预测模型后的初始化候选列表,获得更新后的候选列表;
所述最优预测模式获取子模块,用于计算所述更新后的候选列表中每种预测模式的实际损失,并根据所述实际损失获得所述预测单元的最优预测模式;
帧内预测模块,用于根据获得的所有预测单元的最优预测模式完成所述每个编码单元的帧内预测。
第三方面,本发明实施例还提供了一种基于MAE预训练模型的视频编码帧内预测设备,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如上所述的一种基于MAE预训练模型的视频编码帧内预测方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上所述的一种基于MAE预训练模型的视频编码帧内预测方法。
可以理解的是,上述第二方面至第四方面与相关技术相比存在的有益效果与上述第一方面与相关技术相比存在的有益效果相同,可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例的一种基于MAE预训练模型的视频编码帧内预测方法的流程图;
图2是本发明一实施例的步骤S200中的流程图;
图3是本发明一实施例的MAE预测模型的结构示意图;
图4是本发明一实施例的MAE预测模型训练的流程图;
图5是本发明另一实施例的一种基于MAE预训练模型的视频编码帧内预测方法的流程图;
图6是本发明一实施例的一种基于MAE预训练模型的视频编码帧内预测系统的结构图;
图7是本发明一实施例的帧内预测模块中子模块的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,如果有描述到第一、第二等只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
本发明的描述中,需要说明的是,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
现有技术在以HEVC为代表的视频编码标准的编码器中,传统帧内预测算法均采用不同角度模式下的线性预测,在一些较为复杂的场合中效果较差。而基于深度学习的帧内预测方法大都采用较为广泛使用的L2损失,但在编码器中的实际损失应为残差的变换值,无法更为准确体现真实预测损失。
为了解决上述问题,本发明根据预测单元相邻的已预测单元获得初始化候选列表,并获取已预测单元的重建信息;初始化预测单元的多种预测模式,计算每种预测模式的第一率失真损失;根据已预测单元的重建信息,通过编码器获得预测块的尺寸和已重建块像素信息;根据预测块的尺寸和已重建块像素信息,通过训练好的MAE预测模型,获得预测图像,并根据预测图像计算获得第二率失真损失,通过训练好的MAE预测模型预测图象并计算获得第二率失真损失,能够提高图像预测的准确度,获得更准确的率失真损失;本发明通过根据第一率失真损失和第二率失真损失,更新加入训练好的MAE预测模型后的初始化候选列表,获得更新后的候选列表,通过将预测更为准确的训练好的MAE预测模型加入候选列表中,能够减少编码传输过程中的码流大小;本发明还通过计算更新后的候选列表中每种预测模式的实际损失,并根据实际损失获得预测单元的最优预测模式,通过增加训练好的MAE预测模型后获得的候选列表来获取最优预测模式,通过最优预测模式进行帧内预测能够提高视频编码帧内预测的准确度。
参照图1至图2,本发明实施例提供了一种基于MAE预训练模型的视频编码帧内预测方法,本基于MAE预训练模型的视频编码帧内预测方法包括但不限于步骤S100至步骤S200以及步骤S110至步骤S160,其中:
步骤S100、获取编码待预测图像的多个编码单元、每个编码单元中多个预测单元以及每个编码单元中所有预测单元的最优预测模式;其中,获取每个预测单元的最优预测模式包括如下步骤:
步骤S110、根据预测单元相邻的已预测单元获得初始化候选列表,并获取已预测单元的重建信息;
步骤S120、初始化预测单元的多种预测模式,计算每种预测模式的第一率失真损失;
步骤S130、根据已预测单元的重建信息,通过编码器获得预测块的尺寸和已重建块像素信息;
步骤S140、根据预测块的尺寸和已重建块像素信息,通过训练好的MAE预测模型,获得预测图像,并根据预测图像计算获得第二率失真损失;
步骤S150、根据第一率失真损失和第二率失真损失,更新加入训练好的MAE预测模型后的初始化候选列表,获得更新后的候选列表;
步骤S160、计算更新后的候选列表中每种预测模式的实际损失,并根据实际损失获得预测单元的最优预测模式;
步骤S200、根据获得的所有预测单元的最优预测模式完成每个编码单元的帧内预测。
在一些实施例的步骤S100至步骤S200以及步骤S110至步骤S160中,为了提高图像预测的准确度,获得更准确的率失真损失,本实施例通过根据预测单元相邻的已预测单元获得初始化候选列表,并获取已预测单元的重建信息;初始化预测单元的多种预测模式,计算每种预测模式的第一率失真损失;根据已预测单元的重建信息,通过编码器获得预测块的尺寸和已重建块像素信息;根据预测块的尺寸和已重建块像素信息,通过训练好的MAE预测模型,获得预测图像,并根据预测图像计算获得第二率失真损失;为了增加更为准确的预测模式,减少编码传输过程中的码流大小,本实施例通过根据第一率失真损失和第二率失真损失,更新加入训练好的MAE预测模型后的初始化候选列表,获得更新后的候选列表;为了提高视频编码帧内预测的准确度,本实施例通过计算更新后的候选列表中每种预测模式的实际损失,并根据实际损失获得预测单元的最优预测模式,并根据获得的所有预测单元的最优预测模式完成每个编码单元的帧内预测。
需要说明的是,本实施例中的第一率失真损失和第二率失真损失都是通过相邻块的重建信息推出预测块的预测信息,率失真损失计算方式相同,预测模式不同。
在一些实施例中,通过如下方式训练MAE预测模型:
从多种预测块的尺寸中选定预测块的预设尺寸,并根据选定的预测块的预设尺寸制作图像样本集;
将图像样本集输入至MAE预训练模型,并采用第一损失函数进行第一次训练,获得第一次训练后的MAE预训练模型;
将第一次训练后的MAE预训练模型采用第二损失函数进行第二次训练,获得训练好的MAE预测模型。
在本实施例中,通过根据第一损失函数和第二损失函数进行两次训练获得训练好的MAE预测模型,该训练好的MAE预测模型能够获得更准确的预测图象,因此具有更小的率失真损失,从而能够获得更好的帧内预测效果。
在一些实施例中,第一损失函数表示为:
其中,表示第一损失函数,表示目标值,表示估计值,表示图像样本总数,表示第个图像样本。
在一些实施例中,通过如下方式获得第二损失函数:
在第二次训练中初始化变换矩阵为:
根据初始化变换矩阵,对重建图像中每个4x4的块分别进行对应像素矩阵的行变换和列变换为:
根据每个4x4的块的像素矩阵的行变换和列变换后的值获得第二损失函数:
其中,表示像素矩阵,表示第二损失函数,表示每个4x4的块的像素矩阵的行变换和列变换后的值,表示当前4x4的块在输入图像中的位置,表示输入块的尺寸与4x4的块的比值。
在一些实施例中,根据第一率失真损失和第二率失真损失,更新加入训练好的MAE预测模型后的初始化候选列表,获得更新后的候选列表,包括:
从多种预测模式中每种预测模式对应的第一率失真损失和训练好的MAE预测模型对应的第二率失真损失中选取多个率失真损失最小的模式;
根据多个率失真损失最小的模式,获得更新后的候选列表。
在本实施例中,能够将训练好的MAE预测模型加入候选列表中,使得更新后的候选列表具有更好的预测效果。
在一些实施例中,计算更新后的候选列表中每种预测模式的实际损失,并根据实际损失获得预测单元的最优预测模式,包括:
通过熵编码计算更新后的候选列表中每种预测模式的实际损失;
选取实际损失最低的预测模式作为预测单元的最优预测模式。
在本实施例中,通过实际损失最低的预测模式来进行帧内预测能够提高视频编码帧内预测的准确度。
在一些实施例中,在根据实际损失获得预测单元的最优预测模式之后,基于MAE预训练模型的视频编码帧内预测方法还包括:
在原编码存储空间中增加一位模式编码存储空间。
在本实施例中,由于本实施例新增了一种预测模式,因此在原编码存储空间中增加一位模式编码存储空间,使得新增的训练好的MAE预测模式能够正确写入。
为方便本领域人员理解,以下提供一组最佳实施例:
(1)参照图3,图3包含一个编码器和解码器,其中,编码器对应32层的深度自注意力变换网络(即Transformer block 32),解码器对应4层的深度自注意力变换网络(即Transformer block 4),Transformer为MAE模型中的一部分。在编码器中,为了符合Vit模型输入,本实施例将以当前预测块为中心的三倍尺寸像素进行输入,例如:
当前预测块大小为16x16,输入像素为48x48,即9个块同时输入。编码器的主要任务是利用Vit模型进行特征提取,生成可以用于重建的已知信息隐式表达。为了增加网络表达能力,本实施例对于Vit模型中patch的划分进行更细的构建,建立当前预测块1/16大小的patches序列。而在解码器中,与原始MAE模型结构相同,减少网络层数,实现对未知信息的预测。
(2)对MAE预测模型进行训练,具体训练过程为:
1. 选定帧内预测块的尺寸。
本实施例在基于HEVC编码体系下进行具体的帧内预测工作,备选帧内预测块的尺寸为4x4、8x8、16x16、32x32。在这一步需要对当前训练MAE预测模型初始化预测块尺寸。
2. 制作图像数据集。
本实施例主要应用于帧内信息预测,数据集可以直接采用现有的图像数据集。并且为了与帧内预测尺寸相匹配,本实施例对数据集中图片进行随机裁剪,裁剪大小为由步骤1中确定的预测块尺寸的三倍大小。
3. 确定训练参数、初始化训练模型。
在MAE(Masked Autoencoders)预测模型训练过程中,与现有的MAE模型训练过程大体类似,依旧采用75%的随机Mask进行输入。例如,当预测块大小为16x16,输入尺寸为48x48,patch大小为4x4,总patches数量为144,Mask数量则为108。
4. 采用L2损失进行第一步训练。
针对图像重建任务,本实施例先采用L2损失(即第一损失函数)进行有效的特征学习,将原始图像与重建图像相比较得到对应损失,并进行反向传播,第一次训练MAE预训练模型。L2损失的计算公式如下:
其中,表示第一损失函数,表示目标值,表示估计值,表示图像样本总数,表示第个图像样本。
5. 采用Satd损失进行第二步训练。
对于编码器任务,本实施例认为仅仅采用L2损失是不能非常有效实现帧内预测效果的提升。在实际帧内预测过程中,编码器会通过率失真损失粗略计算出少量的候选角度模式,然后再模拟实际熵编码得到最优模式。而在率失真损失中,针对预测变换后的粗略损失采用satd损失(即第二损失函数)进行计算得到,在本实施例的MAE预测模型的第二次训练过程中,引入了相应的损失计算公式,其中在MAE预训练模型训练过程中初始化的变换矩阵如下所示:
然后对重建图像中每个4x4的块分别进行对应像素矩阵X的行变换和列变换,其中像素矩阵的大小与初始化矩阵大小一致均为4x4大小矩阵,具体公式如下:
最后对所有4x4的块进行计算损失,具体公式如下所示:
其中,表示第二损失函数,表示每个4x4的块的像素矩阵的行变换和列变换后的值,表示当前4x4的块在输入图像中的位置,表示输入块的尺寸与4x4的块的比值。例如,若输入块大小为48x48,则Satd损失为:
6. 参照图4,按照上述流程依次进行不同预测块尺寸大小的MAE预训练模型帧内预测训练,获得训练好的MAE预训练模型。
(3)本实施例根据步骤(2)中得到的训练好的MAE预训练模型,在传统编码器里面添加训练好的MAE预训练模型,结合实际编码器的率失真损失计算得到包含深度学习模式的模式候选列表,最后通过熵编码损失得到最优模式,主要流程参照图5。具体过程为:
每张待预测图像中包含有多个编码单元,通过编码器获取编码待预测图像的当前编码单元;每个编码单元可以划分多个预测单元,获取当前预测单元及其相邻已预测单元的重建信息,初始化当前预测单元的预测模式数量(即获得多种预测模式),并根据当前预测单元相邻的已预测单元获得初始化候选列表;粗略计算每种预测模式的第一率失真损失;根据相邻已预测单元的重建信息计算当前预测块的预测信息,该预测信息包括预测块的尺寸和已重建块像素信息;根据预测块的尺寸和已重建块像素信息,通过训练好的MAE预测模型(即图5中的深度模型),获得预测图像,并根据预测图像计算获得第二率失真损失;将训练好的MAE预测模型传回编码器(即将训练好的MAE预测模型加入至多种预测模式中),加入训练好的MAE预测模型后的所有预测模式的率失真损失更新初始化候选列表,获得更新后的候选列表;计算更新后的候选列表中每种预测模式的实际损失,并根据实际损失获得预测单元的最优预测模式;通过获得所有预测单元的最优预测模式后,对所有编码单元进行帧内预测以完成视频编码帧内预测。
为了更好的说明,本实施例进行了如下实验:
1)本发明实施例整个MAE预训练模型的训练和测试平台的软硬件具体配置如下表1所示。
表1
由于本实施例方案是基于视频编码帧内预测环节进行的优化,考虑的因素主要为帧内的空间冗余关系,因此本实施例使用如表2所示的标准视频测试序列,并且每个视频随机选取一帧。除此之外,考虑到编码器中所应用的预测块大小有多种,为了更直观的比较本实施例方案与传统编码预测的效果性能,在下面的实验结果中本实施例控制所有的预测块大小均为16x16,比较码流大小以及采用不同损失函数的模型训练结果。所有的实验均在以H.265为编码标准的x265编码器中进行测试和分析,均采用单线程编码消除其它因素对结果的影响,均选用无损压缩模式,比较在不考虑变换带来的损失情况下的帧内预测对实际码流的影响。
表2
2)本实施例的实验结果。
在针对本实施例方案的实验中,其测试结果如表3所示。表中HEVC代表仅使用原编码器中的帧内预测算法下,无损压缩的实际码流大小,MAE+HEVC为引入本实施例方案下的码流大小。通过实验结果可以看出,本实施例方案在原始编码器上不同分辨率大小有着大约2%的码流下降,因此,本实施例方案能够减少编码传输过程中的码流大小。
表3
针对选用不同损失函数训练策略的实验中,本实施例比较了采用L2损失和Satd损失的模型的结果对于最优模式数量的影响。如表4所示,L2和Satd分别表示使用L2损失训练得到的模型(简称L2模型)和按照本实施例训练策略的MAE预训练模型(简称Satd模型),在实际预测过程中,总预测块所选用的深度模式数量。例如:在Bus序列中,总的16x16预测块有396个,在应用了L2模型的预测模式下,有170个预测块在帧内预测损失计算中选用了L2模型的预测结果。而在应用了Satd模型的预测模式下,有179个预测块在帧内预测损失计算中选用了Satd模型的预测结果,说明了采用Satd损失对于基于深度学习的帧内预测具有效果上的提升。
表4
参照图6至图7,本发明实施例还提供了一种基于MAE预训练模型的视频编码帧内预测系统,本基于MAE预训练模型的视频编码帧内预测系统包括数据获取模块100和帧内预测模块200,其中:
数据获取模块100,用于获取编码待预测图像的多个编码单元、每个编码单元中多个预测单元以及每个编码单元中所有预测单元的最优预测模式;数据获取模块包括候选列表初始化子模块110、第一计算子模块120、信息获取子模块130、第二计算子模块140、候选列表更新子模块150以及最优预测模式获取子模块160,其中:
候选列表初始化子模块110,用于获取预测单元相邻的已预测单元的重建信息,并根据已预测单元获得初始化候选列表;
第一计算子模块120,用于初始化预测单元的多种预测模式,计算每种预测模式的第一率失真损失;
信息获取子模块130,用于根据已预测单元的重建信息,通过编码器获得预测块的尺寸和已重建块像素信息;
第二计算子模块140,用于根据预测块的尺寸和已重建块像素信息,通过训练好的MAE预测模型,获得预测图像,并根据预测图像计算获得第二率失真损失;
候选列表更新子模块150,用于根据第一率失真损失和第二率失真损失,更新加入训练好的MAE预测模型后的初始化候选列表,获得更新后的候选列表;
最优预测模式获取子模块160,用于计算更新后的候选列表中每种预测模式的实际损失,并根据实际损失获得预测单元的最优预测模式;
帧内预测模块200,用于根据获得的所有预测单元的最优预测模式完成每个编码单元的帧内预测。
需要说明的是,由于本实施例中的一种基于MAE预训练模型的视频编码帧内预测系统与上述的一种基于MAE预训练模型的视频编码帧内预测方法基于相同的发明构思,因此,方法实施例中的相应内容同样适用于本系统实施例,此处不再详述。
本发明实施例还提供了一种基于MAE预训练模型的视频编码帧内预测设备,包括:至少一个控制处理器和用于与至少一个控制处理器通信连接的存储器。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现上述实施例的一种基于MAE预训练模型的视频编码帧内预测方法所需的非暂态软件程序以及指令存储在存储器中,当被处理器执行时,执行上述实施例中的一种基于MAE预训练模型的视频编码帧内预测方法,例如,执行以上描述的图1中的方法步骤S100至步骤S200以及图2中的方法步骤S110至步骤S160。
以上所描述的系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个控制处理器执行,可使得上述一个或多个控制处理器执行上述方法实施例中的一种基于MAE预训练模型的视频编码帧内预测方法,例如,执行以上描述的图1中的方法步骤S100至步骤S200的功能以及图2中的方法步骤S110至步骤S160的功能。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本申请实施例的较佳实施进行了具体说明,但本申请实施例并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请实施例精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请实施例权利要求所限定的范围内。

Claims (10)

1.一种基于MAE预训练模型的视频编码帧内预测方法,其特征在于,所述基于MAE预训练模型的视频编码帧内预测方法包括:
获取编码待预测图像的多个编码单元、每个编码单元中多个预测单元以及所述每个编码单元中所有预测单元的最优预测模式;其中,获取每个预测单元的最优预测模式包括如下步骤:
根据预测单元相邻的已预测单元获得初始化候选列表,并获取所述已预测单元的重建信息;
初始化所述预测单元的多种预测模式,计算每种预测模式的第一率失真损失;
根据所述已预测单元的重建信息,通过编码器获得预测块的尺寸和已重建块像素信息;
根据所述预测块的尺寸和已重建块像素信息,通过训练好的MAE预测模型,获得预测图像,并根据所述预测图像计算获得第二率失真损失;
根据所述第一率失真损失和所述第二率失真损失,更新加入所述训练好的MAE预测模型后的初始化候选列表,获得更新后的候选列表;
计算所述更新后的候选列表中每种预测模式的实际损失,并根据所述实际损失获得所述预测单元的最优预测模式;
根据获得的所有预测单元的最优预测模式完成所述每个编码单元的帧内预测。
2.根据权利要求1所述的基于MAE预训练模型的视频编码帧内预测方法,其特征在于,通过如下方式训练所述MAE预测模型:
从多种预测块的尺寸中选定预测块的预设尺寸,并根据选定的所述预测块的预设尺寸制作图像样本集;
将所述图像样本集输入至MAE预训练模型,并采用第一损失函数进行第一次训练,获得第一次训练后的MAE预训练模型;
将所述第一次训练后的MAE预训练模型采用第二损失函数进行第二次训练,获得训练好的MAE预测模型。
3.根据权利要求2所述的基于MAE预训练模型的视频编码帧内预测方法,其特征在于,所述第一损失函数表示为:
其中,表示所述第一损失函数,表示目标值,表示估计值,表示图像样本总数,表示第个图像样本。
4.根据权利要求2所述的基于MAE预训练模型的视频编码帧内预测方法,其特征在于,通过如下方式获得所述第二损失函数:
在所述第二次训练中初始化变换矩阵为:
根据所述初始化变换矩阵,对重建图像中每个4x4的块分别进行对应像素矩阵的行变换和列变换为:
根据每个4x4的块的像素矩阵的行变换和列变换后的值获得所述第二损失函数:
其中,表示像素矩阵,表示所述第二损失函数,表示每个4x4的块的像素矩阵的行变换和列变换后的值,表示当前4x4的块在输入图像中的位置,表示输入块的尺寸与4x4的块的比值。
5.根据权利要求1所述的基于MAE预训练模型的视频编码帧内预测方法,其特征在于,所述根据所述第一率失真损失和所述第二率失真损失,更新加入所述训练好的MAE预测模型后的初始化候选列表,获得更新后的候选列表,包括:
从所述多种预测模式中每种预测模式对应的第一率失真损失和所述训练好的MAE预测模型对应的第二率失真损失中选取多个率失真损失最小的模式;
根据所述多个率失真损失最小的模式,获得更新后的候选列表。
6.根据权利要求1所述的基于MAE预训练模型的视频编码帧内预测方法,其特征在于,所述计算所述更新后的候选列表中每种预测模式的实际损失,并根据所述实际损失获得所述预测单元的最优预测模式,包括:
通过熵编码计算所述更新后的候选列表中每种预测模式的实际损失;
选取所述实际损失最低的预测模式作为所述预测单元的最优预测模式。
7.根据权利要求1所述的基于MAE预训练模型的视频编码帧内预测方法,其特征在于,在所述根据所述实际损失获得所述预测单元的最优预测模式之后,所述基于MAE预训练模型的视频编码帧内预测方法还包括:
在原编码存储空间中增加一位模式编码存储空间。
8.一种基于MAE预训练模型的视频编码帧内预测系统,其特征在于,所述基于MAE预训练模型的视频编码帧内预测系统包括:
数据获取模块,用于获取编码待预测图像的多个编码单元、每个编码单元中多个预测单元以及所述每个编码单元中所有预测单元的最优预测模式;所述数据获取模块包括候选列表初始化子模块、第一计算子模块、信息获取子模块、第二计算子模块、候选列表更新子模块以及最优预测模式获取子模块,其中:
所述候选列表初始化子模块,用于获取预测单元相邻的已预测单元的重建信息,并根据所述已预测单元获得初始化候选列表;
所述第一计算子模块,用于初始化所述预测单元的多种预测模式,计算每种预测模式的第一率失真损失;
所述信息获取子模块,用于根据所述已预测单元的重建信息,通过编码器获得预测块的尺寸和已重建块像素信息;
所述第二计算子模块,用于根据所述预测块的尺寸和已重建块像素信息,通过训练好的MAE预测模型,获得预测图像,并根据所述预测图像计算获得第二率失真损失;
所述候选列表更新子模块,用于根据所述第一率失真损失和所述第二率失真损失,更新加入所述训练好的MAE预测模型后的初始化候选列表,获得更新后的候选列表;
所述最优预测模式获取子模块,用于计算所述更新后的候选列表中每种预测模式的实际损失,并根据所述实际损失获得所述预测单元的最优预测模式;
帧内预测模块,用于根据获得的所有预测单元的最优预测模式完成所述每个编码单元的帧内预测。
9.一种基于MAE预训练模型的视频编码帧内预测设备,其特征在于,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如权利要求1至7任一项所述的基于MAE预训练模型的视频编码帧内预测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的基于MAE预训练模型的视频编码帧内预测方法。
CN202310189730.XA 2023-03-02 2023-03-02 基于mae预训练模型的视频编码帧内预测方法和系统 Active CN115866247B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310189730.XA CN115866247B (zh) 2023-03-02 2023-03-02 基于mae预训练模型的视频编码帧内预测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310189730.XA CN115866247B (zh) 2023-03-02 2023-03-02 基于mae预训练模型的视频编码帧内预测方法和系统

Publications (2)

Publication Number Publication Date
CN115866247A CN115866247A (zh) 2023-03-28
CN115866247B true CN115866247B (zh) 2023-05-09

Family

ID=85659697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310189730.XA Active CN115866247B (zh) 2023-03-02 2023-03-02 基于mae预训练模型的视频编码帧内预测方法和系统

Country Status (1)

Country Link
CN (1) CN115866247B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111586405A (zh) * 2020-04-24 2020-08-25 中南大学 一种多功能视频编码中基于alf滤波的预测模式快速选择方法
CN112235570A (zh) * 2020-09-28 2021-01-15 中南大学 基于预编码的快速预测方法
CN114128294A (zh) * 2019-07-08 2022-03-01 现代自动车株式会社 用于视频数据的帧内预测编码的方法和装置
CN114627012A (zh) * 2022-03-09 2022-06-14 上海应用技术大学 基于自动编码器的老照片复原方法
CN114724060A (zh) * 2022-03-14 2022-07-08 中国人民解放军国防科技大学 基于掩码自编码器的无监督视频异常检测方法和装置
CN115471665A (zh) * 2022-08-31 2022-12-13 华中科技大学 基于三分图视觉Transformer语义信息解码器的抠图方法与装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114128294A (zh) * 2019-07-08 2022-03-01 现代自动车株式会社 用于视频数据的帧内预测编码的方法和装置
CN111586405A (zh) * 2020-04-24 2020-08-25 中南大学 一种多功能视频编码中基于alf滤波的预测模式快速选择方法
CN112235570A (zh) * 2020-09-28 2021-01-15 中南大学 基于预编码的快速预测方法
CN114627012A (zh) * 2022-03-09 2022-06-14 上海应用技术大学 基于自动编码器的老照片复原方法
CN114724060A (zh) * 2022-03-14 2022-07-08 中国人民解放军国防科技大学 基于掩码自编码器的无监督视频异常检测方法和装置
CN115471665A (zh) * 2022-08-31 2022-12-13 华中科技大学 基于三分图视觉Transformer语义信息解码器的抠图方法与装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张莹 ; .基于屏幕内容的快速模式选择算法.软件导刊.2016,(第07期),全文. *
苏磊等.《基于帧内空间域预测的快速纹理逼近算法》.《电视技术》.2004,全文. *

Also Published As

Publication number Publication date
CN115866247A (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
RU2770185C2 (ru) Множество кандидатов предсказателя для компенсации движения
WO2020007362A1 (en) Inherited motion information for decoding a current coding unit in a video coding system
US9307250B2 (en) Optimization of intra block size in video coding based on minimal activity directions and strengths
KR100871646B1 (ko) 인트라-예측 방향에 기반한 h.264 공간 에러 은닉 방법 및장치
RU2544799C2 (ru) Устройство кодирования движущихся изображений, устройство декодирования движущихся изображений, способ кодирования движущихся изображений и способ декодирования движущихся изображений
US7840096B2 (en) Directional interpolation method and video encoding/decoding apparatus and method using the directional interpolation method
KR102140331B1 (ko) 인트라 예측 방법 및 그 장치
KR20110044487A (ko) 계층적 부호화 단위의 크기에 따른 비디오 부호화 방법과 그 장치, 및 비디오 복호화 방법과 그 장치
WO2022104498A1 (zh) 帧内预测方法、编码器、解码器以及计算机存储介质
US20230345034A1 (en) Image decoding method/apparatus, image encoding method/apparatus, and recording medium storing bitstream
US20230297833A1 (en) Method and device for providing compression and transmission of training parameters in distributed processing environment
EP3818713A1 (en) Apparatus for block-based predictive video decoding
CN111385584B (zh) 进行编码、解码的方法、装置和系统
CN109688411B (zh) 一种视频编码率失真代价估计方法和装置
KR20110067539A (ko) 화면 내 예측 부호화/복호화 방법 및 장치
US20230396780A1 (en) Illumination compensation method, encoder, and decoder
CN115866247B (zh) 基于mae预训练模型的视频编码帧内预测方法和系统
CN110971897B (zh) 色度分量的帧内预测模式的编码、解码方法、设备和系统
CN116567232A (zh) 图像块的划分方法、视频编码方法、装置以及设备
US20220182623A1 (en) Video encoding/decoding method and device using segmentation limitation for chroma block, and method for transmitting bitstream
CN116569549A (zh) 一种帧间预测方法、编码器、解码器及存储介质
CN113840146B (zh) 一种视频信息隐藏方法及系统
CN112153385B (zh) 编码处理方法、装置、设备及存储介质
RU2810727C1 (ru) Способы, оборудование и устройства для декодирования, кодирования и кодирования/декодирования
WO2023123736A1 (zh) 预测方法、装置、设备、系统、及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant