CN117395426A - 编码模式的预测方法、装置、电子设备和存储介质 - Google Patents

编码模式的预测方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN117395426A
CN117395426A CN202210759310.6A CN202210759310A CN117395426A CN 117395426 A CN117395426 A CN 117395426A CN 202210759310 A CN202210759310 A CN 202210759310A CN 117395426 A CN117395426 A CN 117395426A
Authority
CN
China
Prior art keywords
coding mode
prediction
processed
image
pixel block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210759310.6A
Other languages
English (en)
Inventor
曹洲
徐科
孔德辉
杨维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanechips Technology Co Ltd
Original Assignee
Sanechips Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanechips Technology Co Ltd filed Critical Sanechips Technology Co Ltd
Priority to CN202210759310.6A priority Critical patent/CN117395426A/zh
Priority to PCT/CN2023/088685 priority patent/WO2024001433A1/zh
Publication of CN117395426A publication Critical patent/CN117395426A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请提出一种编码模式的预测方法、装置、电子设备和存储介质,涉及图像处理技术领域。该方法包括:获取至少两帧待处理图像的信息,两帧待处理图像为连续的前后两帧图像;将至少两帧待处理图像的信息输入至编码模式预测网络中进行预测,确定目标编码模式;其中,编码模式预测网络为基于多尺寸的像素块对卷积神经网络进行训练获得的网络,目标编码模式用于对待处理图像进行编码和/或解码。能够降低传统算法循环遍历寻找最优编码模式的时间复杂度,减少对待处理图像的处理时长,经过训练标签和网络结构合理的设计,可以获得相近或更高的压缩比,保证图像质量的同时,还能够提升视频图像的编码效率。

Description

编码模式的预测方法、装置、电子设备和存储介质
技术领域
本申请涉及图像处理技术领域,具体涉及一种编码模式的预测方法、装置、电子设备和存储介质。
背景技术
目前,在视频编码的过程中,通常会采用预测编码技术,来消除像素间的相关性,例如,对参考像素与当前像素的差值进行编码,以达到视频压缩的目的。
但是,在选择传统的视频编码模式时,需要对所有的预测模式或部分相关的预测模式进行遍历,才能选择其中最优的预测模式作为最后的处理模式,使得预测过程繁琐,极大地增加了计算复杂度,延长了对视频文件的处理时长。
发明内容
本申请提供一种编码模式的预测方法、装置、电子设备和存储介质。
本申请实施例提供一种编码模式的预测方法,方法包括:获取至少两帧待处理图像的信息,所述两帧待处理图像为连续的前后两帧图像;将至少所述两帧待处理图像的信息输入至编码模式预测网络中进行预测,确定目标编码模式;其中,所述编码模式预测网络为基于多尺寸的像素块对卷积神经网络进行训练获得的网络,所述目标编码模式用于对所述待处理图像进行编码和/或解码。
本申请实施例提供一种编码模式的预测装置,其包括:获取模块,被配置为获取至少两帧待处理图像的信息,所述两帧待处理图像为连续的前后两帧图像;预测模块,被配置为将至少所述两帧待处理图像的信息输入至编码模式预测网络中进行预测,确定目标编码模式;其中,所述编码模式预测网络为基于多尺寸的像素块对卷积神经网络进行训练获得的网络,所述目标编码模式用于对所述待处理图像进行编码和/或解码。
本申请实施例提供一种电子设备,包括:一个或多个处理器;存储器,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现本申请实施例中的任意一种编码模式的预测方法。
本申请实施例提供了一种可读存储介质,该可读存储介质存储有计算机程序,计算机程序被处理器执行时实现本申请实施例中的任意一种编码模式的预测方法。
根据本申请实施例的编码模式的预测方法、设备、电子设备和存储介质,通过获取至少两帧待处理图像的信息,能够明确待处理图像的信息,方便后续对连续的至少前后两帧待处理图像进行处理;将至少两帧待处理图像的信息输入至编码模式预测网络中进行预测,确定目标编码模式,因其中的编码模式预测网络为基于多尺寸的像素块对卷积神经网络进行训练获得的网络,能够降低传统算法循环遍历寻找最优预测编码模式的时间复杂度,从而在使用其中的目标编码模式对待处理图像进行编码和/或解码时,可减少对待处理图像的处理时长,经过训练标签和网络结构合理的设计,可以获得相近或更高的压缩比,保证图像质量的同时,还能够提升视频图像的编码效率。
关于本申请的以上实施例和其他方面以及其实现方式,在附图说明、具体实施方式和权利要求中提供更多说明。
附图说明
图1示出本申请实施例提供的基于视频压缩协议的编码流程示意图。
图2示出本申请一实施例提供的编码模式的预测方法的流程示意图。
图3示出本申请实施例提供的Res-CNN的网络结构示意图。
图4示出本申请实施例提供的采用样本图像对Res-CNN进行训练的方法的流程示意图。
图5示出本申请实施例提供的基于Res-CNN的编码模式的预测方法的流程示意图。
图6示出本申请又一实施例提供的编码模式的预测方法的流程示意图。
图7示出本申请实施例提供的编码模式的预测装置的组成方框图。
图8示出能够实现根据本发明实施例的编码模式的预测方法和装置的计算设备的示例性硬件架构的结构图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
根据参考像素的位置不同,视频编码预测主要包括:帧内预测方式和帧间预测方式。其中,帧内预测方式是通过利用视频空间的相关性,使用当前帧内已编码的像素对未编码的像素进行预测的方式。通过帧内预测方式,将预测残差进行量化处理等,可以有效地去除视频的空间冗余信息,提升视频图像的清晰度。
采用不同的视频编解码协议进行帧内预测时,都对应有不同的预测模式。例如,H265协议或高效率视频编码(High Efficiency Video Coding,HEVC)协议可支持的预测模式包括:平面(plannar)模式,双通道(Dual Channel,DC)模式,以及33种角度模式。H266协议或视频编解码标准(Versatile Video Coding,VVC)协议支持的预测模式包括:plannar模式,DC模式,以及65种角度模式。
图1示出本申请实施例提供的基于视频压缩协议的编码流程示意图。其中,视频压缩协议可以包括H265协议、HEVC协议、H266协议和VVC协议中的任意一种或几种。
如图1所示,基于视频压缩协议的编码方法包括但不限于如下步骤。
步骤S101,判断当前的编码单元是否需要进行预测单元的划分。
其中,编码单元(Code Unit,CU)是编码树单元(Coding Tree Unit,CTU)中的一部分;预测单元(Prediction Unit,PU)规定了编码单元的所有预测模式,一切与预测有关的信息都定义在PU中。例如,PU可以包括如下信息:帧内预测的方向、帧间预测的分割方式、运动矢量预测和帧间预测参考图像索引号中的任意一种或多种。
在确定需要进行PU划分的情况下,执行步骤S103;否则,执行步骤S102。
步骤S102,循环对4个子编码单元(SubCU)进行处理。
步骤S103,判断PU的划分方式。
其中,PU划分方式可以包括多种,例如,PU划分_1、PU划分_2、……、PU划分_m,其中,m表示PU划分方式的数量,m为大于或等于1的整数。
需要说明的是,在确定PU的划分方式的过程中,需要循环遍历每种PU划分方式。在选的PU划分方式之后,还需要执行步骤S104。
步骤S104,判断使用的预测模式。
其中,预测模式包括多种,例如,模式_1、模式_2、……、模式_k,其中,k表示预测模式的数量,k为大于或等于1的整数。
需要说明的是,在确定预测模式的过程中,需要循环遍历每种预测模式,从而最终选择最优的预测模式作为目标预测编码模式。
步骤S105,获得目标预测编码模式。
其中,通过步骤S103~步骤S104的处理过程,需要对所有的预测模式进行遍历,才能选择出最优的预测编码模式最为目标预测编码模式,使得预测过程繁琐,极大地增加了计算复杂度,延长了对视频文件的处理时长。
本申请提供一种编码模式的预测方法、装置、电子设备和存储介质。用于针对步骤S104中的预测模式的选择过程进行优化处理,降低传统算法循环遍历寻找最优预测编码模式的时间复杂度,减少对待处理图像的处理时长。
图2示出本申请一实施例提供的编码模式的预测方法的流程示意图。该编码模式的预测方法可应用于编码模式的预测装置。如图2所示,本申请实施例中的编码模式的预测方法包括但不限于以下步骤。
步骤S201,获取至少两帧待处理图像的信息。
其中,两帧待处理图像为连续的前后两帧图像。
步骤S202,将至少两帧待处理图像的信息输入至编码模式预测网络中进行预测,确定目标编码模式。
其中,编码模式预测网络为基于多尺寸的像素块对卷积神经网络进行训练获得的网络,目标编码模式用于对待处理图像进行编码和/或解码。
在本实施例中,通过获取至少两帧待处理图像的信息,能够明确待处理图像的信息,方便后续对连续的至少前后两帧待处理图像进行处理;将至少两帧待处理图像的信息输入至编码模式预测网络中进行预测,确定目标编码模式,因其中的编码模式预测网络为基于多尺寸的像素块对卷积神经网络进行训练获得的网络,能够降低传统算法循环遍历寻找最优编码模式的时间复杂度,从而在使用其中的目标编码模式对待处理图像进行编码和/或解码时,可减少对待处理图像的处理时长,以使待处理图像可以获得更高的压缩比,保证图像质量的同时,还能够提升视频图像的编码效率。
在一些具体实现中,待处理图像的信息包括:待处理图像的像素块信息、与像素块信息对应的预测模式、预测模式的数量和编码单元CU的划分信息中的至少一种。
例如,待处理图像的像素块信息可以包括:像素块的尺寸大小,像素块是否已进行编码等信息。例如,可以采用不同的标识来表征已编码像素块和待编码像素块,以区分不同的像素块,加快对图像的处理速度。
其中,预测模式的数量是基于不同的视频编解码协议(如,H265协议、HEVC协议、H266协议和VVC协议等)能够支持的预测模式确定的数量。
需要说明的是,不同的像素块信息对应的预测模式不同,例如,像素块尺寸越大,其需要的编码模式预测网络的网络层数越多,以保证获得的与该像素块信息对应的预测模式的准确性。
例如,两帧待处理图像包括:第一帧待处理图像和第二帧待处理图像。第一帧待处理图像和第二帧待处理图像是连续的前后两帧图像。第一帧待处理图像对应的像素块尺寸越大,目标编码模式预测网络对应的网络层数越多;第二帧待处理图像对应的像素块尺寸越小,目标编码模式预测网络对应的网络层数越少。
在一些具体实现中,步骤S202中的将至少两帧待处理图像的信息输入至编码模式预测网络中进行预测,确定目标编码模式,可用采用如下方式实现:
依据获取到的第一帧待处理图像的树编码单元CTU信息,确定第一帧待处理图像对应的像素块尺寸;依据第一帧待处理图像对应的像素块尺寸,对多个编码模式预测网络进行筛选,获得目标编码模式预测网络;将第一帧待处理图像的信息和第二帧待处理图像的信息输入至目标编码模式预测网络中进行预测,确定目标编码模式。
其中,CTU信息用于表征第一帧待处理图像对应的编码复杂程度,目标编码模式预测网络与第一帧待处理图像对应的像素块尺寸相匹配。
需要说明的是,CTU信息中对第一帧待处理图像的划分越细致,表征该第一帧待处理图像对应的编码复杂程度越高。通过第一帧待处理图像对应的像素块尺寸能够确定第一帧待处理图像需要选用哪个编码模式预测网络进行预测,以使获得的目标编码模式预测网络能够符合对第一帧待处理图像的处理需求,加快图像的处理速度的同时,还能够使第一帧待处理图像获得更准确的预测,并且,通过目标编码模式预测网络对第一帧待处理图像的编码模式进行预测,以确定编码后的图像是否符合第二帧待处理图像的要求,从而使确定的目标编码模式更准确。
在一些具体实现中,依据获取到的第一帧待处理图像的树编码单元CTU信息,确定第一帧待处理图像对应的像素块尺寸,包括:依据第一帧待处理图像对应的编码单元CU的数量、预测单元PU的数量和变换单元(Transform Unit,TU)的数量中的至少一种,确定第一帧待处理图像对应的像素块尺寸。
其中,CU是进行预测、变换、量化和熵编码等处理的基本单元,PU是进行帧内预测和/或帧间预测的基本单元,TU是进行变换和量化的基本单元。这三个单元的分离,不仅使待处理图像对应的变换预测和编码的各个处理环节更加灵活,也使得各环节的划分更加符合视频图像的纹理特征,保证编码性能的最优化。
通过第一帧待处理图像对应的CU的数量、PU的数量和TU的数量中的至少一种,能够体现第一帧待处理图像对应的纹理复杂度,从而根据不同的纹理复杂度来确定第一帧待处理图像对应的像素块尺寸。
在一些具体实现中,第一帧待处理图像的树编码单元CTU信息,包括:编码单元CU和CU的数量。
依据第一帧待处理图像对应的像素块尺寸,对多个编码模式预测网络进行筛选,获得目标编码模式预测网络,包括:依据CU的数量、每个CU的划分方式和CU中的已编码像素块的信息,对CU中的待编码像素块对应的预测编码模式进行聚类分析,获得分析结果;依据分析结果确定目标编码模式预测网络。
其中,预测编码模式是基于像素点的预测编码模式,分析结果包括:基于当前预测像素块的预测编码模式。聚类分析可以是对编码模式预测网络输出的基于像素点的预测编码模式进行统计聚类,以获得最终待预测像素块的预测编码模式。
具体实现时,可以基于CU的数量,对每个CU进行循环处理,以根据每个CU的划分方式和CU中的已编码像素块的信息,对CU中的待编码像素块对应的预测编码模式进行类别的划分,以使获得的分析结果能够体现预测编码模式的类别,从而基于该分析结果确定目标编码模式预测网络。
在一些具体实现中,分析结果包括:CU中的待编码像素块对应的预测编码模式的出现次数。依据分析结果确定目标编码模式预测网络,包括:对CU中的待编码像素块对应的预测编码模式的出现次数进行排序,获得排序结果;依据排序结果,确定目标编码模式预测网络。
例如,CU中的待编码像素块对应的预测编码模式包括:第一预测编码模式、第二预测编码模式和第三预测编码模式。对应的,第一预测编码模式出现的次数为3,第二预测编码模式出现的次数为2、第三预测编码模式出现的次数为5,则通过对上述预测编码模式出现的次数进行排序,可以获知第三预测编码模式出现的次数最多(即,5次),则可以将该第三预测编码模式对应的编码模式预测网络作为目标编码模式预测网络,从而快速准确的确定出目标编码模式预测网络,提升预测网络的获取速度。
在一些具体实现中,在执行步骤S201中的获取至少两帧待处理图像的信息之前,还包括:依据多个样本图像和多个预设像素块尺寸,对卷积神经网络进行训练,获得多个与预设像素块尺寸对应的编码模式预测网络。
其中,预设像素块尺寸可以包括图像分辨率为8×8对应的尺寸、图像分辨率为16×16对应的尺寸、图像分辨率为32×32对应的尺寸和图像分辨率为64×64对应的尺寸中的任意一种或多种,以上对于预设像素块尺寸仅是举例说明,可根据实际需要进行具体设定,其他未说明的预设像素块尺寸也在本申请的保护范围之内,在此不再赘述。
基于多个不同的预设像素块尺寸,分别采用多个样本图像对卷积神经网络进行训练,能够获得多个与预设像素块尺寸对应的编码模式预测网络,以方便在对图像进行编码模式的预测过程中,可以筛选到与不同的像素块尺寸对应的编码模式预测网络,提升对不同的像素块尺寸的预测速度,加快对图像的处理速度。
在一些具体实现中,依据多个样本图像和多个预设像素块尺寸,对卷积神经网络进行训练,获得多个与预设像素块尺寸对应的编码模式预测网络,包括:依据多个预设像素块尺寸对多个样本图像进行筛选,获得多个待测试样本图像集;将多个待测试样本图像集中的待测试样本图像输入至卷积神经网络中进行训练,获得多个与预设像素块尺寸对应的编码模式预测网络。
其中,一个待测试样本图像集中的多个待测试样本图像对应的像素块尺寸相同,两个不同的待测试样板图像集对应的像素块尺寸不同。
需要说明的是,一个待测试样本图像集对应一个像素块尺寸的编码模式预测网络,基于预设像素块尺寸的数量,确定获得多个编码模式预测网络,该编码模式预测网络的数量与预设像素块尺寸的数量相同。
例如,预设像素块尺寸的数量为4,具体包括如下尺寸:8×8、16×16、32×32和64×64。则对应的,根据上述四个尺寸对多个样本图像进行筛选,可获得4个待测试样本图像集,每个待测试样本图像集包括多个待测试样本图像。
例如,第一待测试样本图像集对应的预设像素块尺寸为8×8;第二待测试样本图像集对应的预设像素块尺寸为16×16;第三待测试样本图像集对应的预设像素块尺寸为32×32;第四待测试样本图像集对应的预设像素块尺寸为64×64。将上述四个待测试样本图像集分别输入至卷积神经网络(例如,Res-CNN网络、Tranformer网络和GAN网络中的任意一种)中进行训练,获得四个编码模式预测网络,例如,与预设像素块尺寸8×8对应的编码模式预测网络;与预设像素块尺寸16×16对应的编码模式预测网络;与预设像素块尺寸32×32对应的编码模式预测网络;以及与预设像素块尺寸64×64对应的编码模式预测网络。从而使不同的编码模式预测网络能够适用于不同的像素块尺寸,提升对不同的像素块尺寸的图像的适应能力。
在一些具体实现中,将多个待测试样本图像集中的待测试样本图像输入至卷积神经网络中进行训练,获得多个与预设像素块尺寸对应的编码模式预测网络,包括:
分别对每个待测试样本图像集做如下处理:将待测试样本图像集中的待测试样本图像输入至卷积神经网络中进行训练,获得待验证编码模式预测网络;在确定待验证编码模式预测网络的输出结果满足预设条件的情况下,获得与预设像素块尺寸对应的编码模式预测网络。
需要说明的是,采用待测试样本图像集中的待测试样本图像输入至卷积神经网络中进行训练的过程是循环进行的,若确定待验证编码模式预测网络的输出结果不满足预设条件,则需要继续对卷积神经网络进行训练,直至待验证编码模式预测网络的输出结果满足预设条件为止,从而获得与预设像素块尺寸对应的编码模式预测网络。
其中,预设条件是预先设定好的测试条件,例如,可以基于待验证编码模式预测网络输出的待验证预测编码模式对验证图像进行编码,从而获得待验证编码图像,若该待验证编码图像的图像质量满足用户的使用需求,或该待验证编码图像的尖峰信噪比满足预设信噪比阈值,则确定该待验证编码模式预测网络的输出结果满足预设条件。
在一些具体实现中,待验证编码模式预测网络的输出结果包括:输出图像对应的像素点的预测模式概率值和预设编码协议支持的预设编码模式数量。
在确定待验证编码模式预测网络的输出结果满足预设条件的情况下,获得与预设像素块尺寸对应的编码模式预测网络,包括:依据输出图像对应的像素点的预测模式概率值和预设编码协议支持的预设编码模式数量,计算损失值;在确定损失值在预设损失阈值的范围内的情况下,获得与预设像素块尺寸对应的编码模式预测网络。
其中,损失值用于表征卷积神经网络中的多分类交叉熵的损失。该损失值还可以用来衡量真实标记的分布与训练后的编码模式预测网络的预测标记分布之间的相似性。
例如,可以采用如下公式计算损失值:
其中,C表示预设编码协议支持的预设编码模式数量;p(xi)表示输出图像对应的像素点的预测模式概率值(例如,输出图像中的像素块X的每个像素点的预测模式的概率值等);loss表示损失值,该损失值用于表征Res-CNN网络中的多分类交叉熵的损失。
在确定损失值在预设损失阈值的范围内的情况下,停止对卷积神经网络的训练,并获得与预设像素块尺寸对应的编码模式预测网络,以适应不同尺寸的像素块的预测需求。
例如,图3示出本申请实施例提供的Res-CNN的网络结构示意图。如图3所示,Res-CNN网络的结构包括但不限于如下模块。
第一卷积模块311、第二卷积模块312、……、第n卷积模块31n;池化层320;全局池化处理模块330、全连接层340和激活函数350。
其中,n表示卷积模块的数量,n为大于或等于1的整数。A/B/C分别表示已编码像素块;X表示待预测像素块。
第一卷积模块311的输入参数包括但不限于如下信息:已编码像素块A(和/或,已编码像素块B,和/或,已编码像素块C等)的图像信息、CU划分信息,以及已编码像素块A(和/或,已编码像素块B,和/或,已编码像素块C等)对应的预测模式信息。
图4示出本申请实施例提供的采用样本图像对Res-CNN进行训练的方法的流程示意图。如图4所示,采用样本图像对Res-CNN进行训练的方法包括但不限于如下步骤。
步骤S401,获取多个样本图像的信息。
其中,样本图像的信息可以包括:多个样本图像的像素块信息(例如,已编码像素块A/已编码像素块B/已编码像素块C,和,待预测像素块X等),通过多个样本图像的多种像素块信息,能够提升对待预测像素块X的预测编码模式的预测准确性。
步骤S402,根据样本图像中的像素块的尺寸大小,确定自适应Res-CNN网络的网络层数。
其中,自适应Res-CNN网络的网络层数可根据输入的已编码像素块A、已编码像素块B和已编码像素块C中的至少一种像素快的尺寸大小进行自适应调节。例如,像素快的尺寸大小可以是8×8的,也可以是16×16,还可以是32×32或64×64等。以上对于像素块的尺寸大小仅是举例说明,可根据实际需要进行具体设定,其他未说明的像素块的尺寸大小都在本申请的保护范围之内,在此不再赘述。
需要说明的是,样本图像中的像素块尺寸越大,则自适应Res-CNN网络对应的网络层数越多,可以捕捉大尺寸像素块特征信息;样本图像中的像素块尺寸越小,则自适应Res-CNN网络对应的网络层数越少,在保证训练效果的同时,能够抵消因像素块增多带来的计算消耗。
步骤S403,将多个样本图像的信息输入到自适应Res-CNN网络中的卷积模块中进行训练,获得训练结果。
如图3所示,将已编码像素块A、已编码像素块B、已编码像素块C和待预测像素块X的信息依次输入至第一卷积模块311、第二卷积模块312、……、第n卷积模块31n进行卷积运算,获得卷积处理结果,并将该卷积结果输入到池化层320进行池化处理,获得池化结果和残差值,基于该残差值进行判断,获得判断结果;根据该判断结果确定是否将池化结果反馈至第一卷积模块311进行循环处理。当确定不需要进行循环处理时,将池化层320输出的池化结果输入至全局池化处理模块330、全连接层340和激活函数350进行依次处理,获得训练结果。
步骤S404,对训练结果进行性能测试,根据性能测试结果判断是否结束对自适应Res-CNN网络的训练。
其中,性能测试结果能够满足预设测试指标时,确定可以结束对自适应Res-CNN网络的训练,否则,需要继续对对自适应Res-CNN网络进行训练。
例如,训练结果包括:对待预测像素块X的预测编码模式,通过该预测编码模式对待预测像素块X进行编码,获得编码结果,在确定该编码结果满足预设编码需求的情况下,确定结束对自适应Res-CNN网络的训练。
在确定结束对自适应Res-CNN网络的训练的情况下,执行步骤S405;在确定需要继续对自适应Res-CNN网络进行训练的情况下,执行步骤S403。
步骤S405,获得训练好的自适应Res-CNN网络,以供后续对不同的待处理图像进行处理。
在本实施例中,通过多个不同的预设像素块尺寸,分别采用多个样本图像对Res-CNN网络进行训练,能够获得多个与预设像素块尺寸对应的自适应Res-CNN网络,以方便在对图像进行编码模式的预测过程中,可以基于训练好的自适应Res-CNN网络,对不同的待处理图像进行处理,提升对不同的待处理图像的预测速度,加快对图像的处理速度。
图5示出本申请实施例提供的基于Res-CNN的编码模式的预测方法的流程示意图。如图5所示,将输入的帧块序列输入到自适应Res-CNN编码模式预测网络501中进行预测,可获得第i帧块的X像素块的预测模式信息,进一步地,循环对每个帧块的X像素块进行聚类处理,并计算率失真代价,从而可以选择预测模式集合中的最小率失真代价对应的预测模式为目标编码模式。
其中,输入的帧块序列包括:第i-2帧块、第i-1帧块和第i帧块,其中,i为大于或等于2的整数。并且,每个帧块都包括已编码帧块A、已编码帧块B、已编码帧块C和待编码帧块X。
需要说明的是,自适应Res-CNN编码模式预测网络501能够根据输入的帧块的尺寸大小,自动选择对应的残差卷积神经网络对应的网络层数,帧块的尺寸越大,残差卷积神经网络对应的网络层数越多。
通过循环遍历待编码帧块X对应的所有CU划分方式,针对每种CU划分方式,计算率失真代价,从而获得包括多个预测模式的预测模式集合;进一步地,基于率失真代价,对预测模式集合中的多个预测模式进行排序,获得最小率失真代价对应的预测模式,并将该最小率失真代价对应的预测模式作为目标编码模式,同时获得目标编码模式对应的CU划分方式,以实现对预测编码模式的快速预测,减少对图像的处理时长,提升编码效率。
图6示出本申请又一实施例提供的编码模式的预测方法的流程示意图。如图6所示,该编码模式的预测方法包括但不限于如下步骤。
步骤S601,获取训练集数据和验证集数据。
其中,训练集数据包括:多个样本图像,每个样本图像包括多个像素块,每个像素块的尺寸不同(例如,像素块的尺寸为64×64、32×32等)。验证集数据包括:待验证图像,每个待验证图像包括多个待验证像素块。
例如,依据多个预设像素块尺寸对多个样本图像进行筛选,获得多个待测试样本图像集,其中,一个待测试样本图像集中的多个待测试样本图像对应的像素块尺寸相同,两个不同的待测试样板图像集对应的像素块尺寸不同。
需要说明的是,像素块的尺寸大小由其块内的纹理复杂度决定,例如,某像素块的纹理复杂度高,则该像素块的尺寸就大;反之,某像素块的纹理复杂度低,则该像素块的尺寸就小。像素块的纹理复杂度通过该像素块的对应的编码单元CU的数量、预测单元PU的数量和转换单元TU的数量中的至少一种确定。像素块的尺寸越大,对应需要训练的神经网络的层数越多。
步骤S602,将训练集数据输入到Res-CNN网络中进行训练,获得训练结果。
其中,训练集数据还可以包括:待处理图像的像素块信息(例如,已编码帧块A对应的像素值、已编码帧块B对应的像素值和已编码帧块C对应的像素值等)、与像素块信息对应的预测模式、预测模式的数量和编码单元CU的划分信息中的至少一种。待处理图像至少包括连续的前后两帧图像。
其中,Res-CNN网络可以包括多个不同的卷积模块(例如,图3所示的,第一卷积模块311、第二卷积模块312、……、第n卷积模块31n等),每个卷积模块对应的卷积核不同。
采用如图3所示的网络结构来表示Res-CNN网络的组成,根据输入的像素块的尺寸大小不同,对应训练不同网络层数的Res-CNN网络。其中,训练集数据在训练的过程中,需要经过具有不同卷积核的卷积模块(如,第一卷积模块311、第二卷积模块312等)、池化层320、全局池化处理模块330、全连接层340和激活函数350,并最终获得输出数据,该输出数据对应的输出像素块X的尺寸可以表示为W*H*C。
其中,W表示输出像素块X的长,H表示输出像素块X的宽,C表示当前协议支持的预测模式的数量。
进一步地,还需要计算输出像素块X中每个像素点的预测模式的概率值p(xi),并基于每个像素点,选取其最大概率对应的预测编码模式。例如,可采用多分类交叉熵作为Res-CNN网络的损失函数,该损失函数可采用如下公式表示:
其中,C表示当前协议支持的预测模式的数量;p(xi)表示输出像素块X中每个像素点的预测模式的概率值;loss表示损失值,该损失值用于表征Res-CNN网络中的多分类交叉熵的损失。
在确定损失值在预设损失阈值的范围内的情况下,停止对Res-CNN网络的训练,并获得训练结果,该训练结果可以包括多个编码模式预测网络,每个编码模式预测网络对应的像素块尺寸不同,以适应不同尺寸的像素块的预测需求。
需要说明的是,不同的训练集数据对应的像素块尺寸不同,但每个训练集数据内部的像素块尺寸是相同的,在对Res-CNN网络进行训练时,需要根据像素块尺寸的不同,分别对Res-CNN网络进行训练,从而获得多个编码模式预测网络.
步骤S603,使用验证集数据对训练获得的多个编码模式预测网络进行性能测试,以判断是否需要继续对编码模式预测网络进行再训练。
其中,验证集数据包括多个待验证图像。
例如,使用人工智能(Artificial Intelligence,AI)划分器对验证集数据进行划分,获得多种不同像素块尺寸的待验证图像,并将不同的像素块尺寸的待验证图像输入到与其像素块尺寸对应的编码模式预测网络中进行验证,在确定使用输出的目标编码模式对图像进行编码所获得的编码后的图像能够满足预设编码质量需求的情况下,则确定不需要在对编码模式预测网络进行训练,从而获得训练完成的编码模式预测网络;否则,返回步骤S602,继续对编码模式预测网络进行训练。
其中,预设编码质量需求可以包括:尖峰信噪比、图像相似度和编码速度中的至少一种。
步骤S603,获取第一帧待处理图像和第二帧待处理图像,并确定第一帧待处理图像的纹理复杂度。
例如,第一帧待处理图像的纹理复杂度可通过第一帧待处理图像对应的CU的数量、PU的数量和TU的数量等确定。
步骤S604,依据获取到的第一帧待处理图像的CU信息,确定第一帧待处理图像对应的像素块尺寸,并基于该第一帧待处理图像对应的像素块尺寸,从多个编码模式预测网络中筛选出与该第一帧待处理图像对应的像素块尺寸相匹配的目标编码模式预测网络。
其中,目标编码模式预测网络对应的像素块尺寸与第一帧待处理图像的像素块尺寸相同。
步骤S605,将第一帧待处理图像的信息和第二帧待处理图像的信息输入至目标编码模式预测网络中进行预测,确定目标编码模式。
其中,可以基于第一帧待处理图像中的CU的数量,每个CU的划分方式和CU中的已编码像素块(如,已编码像素块A、已编码像素块B、已编码像素块C等)的信息,对CU中的待编码像素块X对应的预测编码模式进行聚类分析(例如,统计CU中的待编码像素块对应的预测编码模式的出现次数,并对该次数进行排序),获得分析结果,该分析结果包括:待编码像素块对应的预测编码模式的出现次数最多的预测编码模式。
进一步地,还可以计算率失真代价,最终选择最小率失真代价对应的目标编码模式预测网络输出的目标编码模式。
其中,率失真(distortion-rate)代价表示图像失真度与编码码率之间的相互关系。图像失真度可以采用原始图像与编码重建图像之间的峰值性噪比(Peak Signal ToNoise Ratio,PSNR)来衡量,这个PSNR可以是亮度PSNR,也可以是亮度与色度PSNR的线性组合。
其中,峰值性噪比表示峰值信号与噪声信号之间的功率的比值,其中,峰值信号用于表示图像中像素的最大值(例如,像素亮度的最大值);噪声信号用于表示原始图像与重建图像中各像素值的均方差(例如,差值的平方取均值)。
在一些具体实现中,还可以采用标签的方式来标识该目标编码模式,例如,预测模式标签表示目标编码模式,即最小率失真代价对应的目标编码模式预测网络输出的目标编码模式。
在本实施例中,通过对基于深度学习的Res-CNN网络进行训练,获得多个不同尺寸的编码模式预测网络,使得能够针对不同的像素块尺寸进行编码模式预测时,能够基于像素块尺寸,选择与该像素块尺寸对应的目标编码模式预测网络,进行预测,使获得的目标编码模式能够对应更小的率失真代价,即传输视频取得压缩比更高。并且,相比于传统的循环遍历的算法,能够降低寻找最优的预测编码模式的时间复杂度;在保证图像质量的同时,还能够提升视频图像的编码效率。
图7示出本申请实施例提供的编码模式的预测装置的组成方框图。如图7所示,编码模式的预测装置700包括但不限于如下模块。
获取模块701,被配置为获取至少两帧待处理图像的信息,两帧待处理图像为连续的前后两帧图像;
预测模块702,被配置为将至少两帧待处理图像的信息输入至编码模式预测网络中进行预测,确定目标编码模式;其中,编码模式预测网络为基于多尺寸的像素块对卷积神经网络进行训练获得的网络,目标编码模式用于对待处理图像进行编码和/或解码。
在一些具体实现中,两帧待处理图像包括:第一帧待处理图像和第二帧待处理图像;预测模块702,具体用于:依据获取到的第一帧待处理图像的树编码单元CTU信息,确定第一帧待处理图像对应的像素块尺寸,其中,CTU信息用于表征第一帧待处理图像对应的编码复杂程度;依据第一帧待处理图像对应的像素块尺寸,对多个编码模式预测网络进行筛选,获得目标编码模式预测网络,目标编码模式预测网络与第一帧待处理图像对应的像素块尺寸相匹配;将第一帧待处理图像的信息和第二帧待处理图像的信息输入至目标编码模式预测网络中进行预测,确定目标编码模式。
在一些具体实现中,第一帧待处理图像对应的像素块尺寸越大,目标编码模式预测网络对应的网络层数越多。
在一些具体实现中,依据获取到的第一帧待处理图像的树编码单元CTU信息,确定第一帧待处理图像对应的像素块尺寸,包括:依据第一帧待处理图像对应的编码单元CU的数量、预测单元PU的数量和转换单元TU的数量中的至少一种,确定第一帧待处理图像对应的像素块尺寸。
在一些具体实现中,第一帧待处理图像的树编码单元CTU信息,包括:编码单元CU和CU的数量;依据第一帧待处理图像对应的像素块尺寸,对多个编码模式预测网络进行筛选,获得目标编码模式预测网络,包括:依据CU的数量、每个CU的划分方式和CU中的已编码像素块的信息,对CU中的待编码像素块对应的预测编码模式进行聚类分析,获得分析结果;依据分析结果确定目标编码模式预测网络。
在一些具体实现中,分析结果包括:CU中的待编码像素块对应的预测编码模式的出现次数;依据分析结果确定目标编码模式预测网络,包括:对CU中的待编码像素块对应的预测编码模式的出现次数进行排序,获得排序结果;依据排序结果,确定目标编码模式预测网络。
在一些具体实现中,编码模式的预测装置700,还包括:训练模块(图中未示出),用于依据多个样本图像和多个预设像素块尺寸,对卷积神经网络进行训练,获得多个与预设像素块尺寸对应的编码模式预测网络。
在一些具体实现中,依据多个样本图像和多个预设像素块尺寸,对卷积神经网络进行训练,获得多个与预设像素块尺寸对应的编码模式预测网络,包括:依据多个预设像素块尺寸对多个样本图像进行筛选,获得多个待测试样本图像集,其中,一个待测试样本图像集中的多个待测试样本图像对应的像素块尺寸相同,两个不同的待测试样板图像集对应的像素块尺寸不同;将多个待测试样本图像集中的待测试样本图像输入至卷积神经网络中进行训练,获得多个与预设像素块尺寸对应的编码模式预测网络。
在一些具体实现中,将多个待测试样本图像集中的待测试样本图像输入至卷积神经网络中进行训练,获得多个与预设像素块尺寸对应的编码模式预测网络,包括:分别对每个待测试样本图像集做如下处理:将待测试样本图像集中的待测试样本图像输入至卷积神经网络中进行训练,获得待验证编码模式预测网络;在确定待验证编码模式预测网络的输出结果满足预设条件的情况下,获得与预设像素块尺寸对应的编码模式预测网络。
在一些具体实现中,待验证编码模式预测网络的输出结果包括:输出图像对应的像素点的预测模式概率值和预设编码协议支持的预设编码模式数量;在确定待验证编码模式预测网络的输出结果满足预设条件的情况下,获得与预设像素块尺寸对应的编码模式预测网络,包括:依据输出图像对应的像素点的预测模式概率值和预设编码协议支持的预设编码模式数量,计算损失值,损失值用于表征卷积神经网络中的多分类交叉熵的损失;在确定损失值在预设损失阈值的范围内的情况下,获得与预设像素块尺寸对应的编码模式预测网络。
在一些具体实现中,待处理图像的信息包括:待处理图像的像素块信息、与像素块信息对应的预测模式、预测模式的数量和编码单元CU的划分信息中的至少一种。
需要说明的是,本实施例中的编码模式的预测700能够实现本申请实施例中任一种编码模式的预测方法。
根据本申请实施例的设备,通过获取模块获取至少两帧待处理图像的信息,能够明确待处理图像的信息,方便后续对连续的至少前后两帧待处理图像进行处理;预测模块将至少两帧待处理图像的信息输入至编码模式预测网络中进行预测,确定目标编码模式,因其中的编码模式预测网络为基于多尺寸的像素块对卷积神经网络进行训练获得的网络,能够降低传统算法循环遍历寻找最优编码模式的时间复杂度,从而在使用其中的目标编码模式对待处理图像进行编码和/或解码时,可减少对待处理图像的处理时长,以使待处理图像可以获得更高的压缩比,保证图像质量的同时,还能够提升视频图像的编码效率。
需要明确的是,本发明并不局限于上文实施例中所描述并在图中示出的特定配置和处理。为了描述的方便和简洁,这里省略了对已知方法的详细描述,并且上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图8示出能够实现根据本发明实施例的编码模式的预测方法和装置的计算设备的示例性硬件架构的结构图。
如图8所示,计算设备800包括输入设备801、输入接口802、中央处理器803、存储器804、输出接口805、以及输出设备806。其中,输入接口802、中央处理器803、存储器804、以及输出接口805通过总线807相互连接,输入设备801和输出设备806分别通过输入接口802和输出接口805与总线807连接,进而与计算设备800的其他组件连接。
具体地,输入设备801接收来自外部的输入信息,并通过输入接口802将输入信息传送到中央处理器803;中央处理器803基于存储器804中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器804中,然后通过输出接口805将输出信息传送到输出设备806;输出设备806将输出信息输出到计算设备800的外部供用户使用。
在一个实施例中,图8所示的计算设备可以被实现为一种电子设备,该电子设备可以包括:存储器,被配置为存储程序;处理器,被配置为运行存储器中存储的程序,以执行上述实施例描述的编码模式的预测方法。
在一个实施例中,图8所示的计算设备可以被实现为一种编码模式的预测系统,该系统可以包括:存储器,被配置为存储程序;处理器,被配置为运行存储器中存储的程序,以执行上述实施例描述的编码模式的预测方法。
以上所述,仅为本申请的示例性实施例而已,并非用于限定本申请的保护范围。一般来说,本申请的多种实施例可以在硬件或专用电路、软件、逻辑或其任何组合中实现。例如,一些方面可以被实现在硬件中,而其它方面可以被实现在可以被控制器、微处理器或其它计算装置执行的固件或软件中,尽管本申请不限于此。
本申请的实施例可以通过移动装置的数据处理器执行计算机程序指令来实现,例如在处理器实体中,或者通过硬件,或者通过软件和硬件的组合。计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码。
本申请附图中的任何逻辑流程的框图可以表示程序步骤,或者可以表示相互连接的逻辑电路、模块和功能,或者可以表示程序步骤与逻辑电路、模块和功能的组合。计算机程序可以存储在存储器上。存储器可以具有任何适合于本地技术环境的类型并且可以使用任何适合的数据存储技术实现,例如但不限于只读存储器(ROM)、随机访问存储器(RAM)、光存储器装置和系统(数码多功能光碟DVD或CD光盘)等。计算机可读介质可以包括非瞬时性存储介质。数据处理器可以是任何适合于本地技术环境的类型,例如但不限于通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、可编程逻辑器件(FGPA)以及基于多核处理器架构的处理器。
通过示范性和非限制性的示例,上文已提供了对本申请的示范实施例的详细描述。但结合附图和权利要求来考虑,对以上实施例的多种修改和调整对本领域技术人员来说是显而易见的,但不偏离本发明的范围。因此,本发明的恰当范围将根据权利要求确定。

Claims (14)

1.一种编码模式的预测方法,其特征在于,所述方法包括:
获取至少两帧待处理图像的信息,所述两帧待处理图像为连续的前后两帧图像;
将至少所述两帧待处理图像的信息输入至编码模式预测网络中进行预测,确定目标编码模式;
其中,所述编码模式预测网络为基于多尺寸的像素块对卷积神经网络进行训练获得的网络,所述目标编码模式用于对所述待处理图像进行后续编码和/或解码。
2.根据权利要求1所述的方法,其特征在于,所述两帧待处理图像包括:第一帧待处理图像和第二帧待处理图像;
所述将至少所述两帧待处理图像的信息输入至编码模式预测网络中进行预测,确定目标编码模式,包括:
依据获取到的所述第一帧待处理图像的树编码单元CTU信息,确定所述第一帧待处理图像对应的像素块尺寸,其中,所述CTU信息用于表征所述第一帧待处理图像对应的编码复杂程度;
依据所述第一帧待处理图像对应的像素块尺寸,对多个所述编码模式预测网络进行筛选,获得目标编码模式预测网络,所述目标编码模式预测网络与所述第一帧待处理图像对应的像素块尺寸相匹配;
将所述第一帧待处理图像的信息和第二帧待处理图像的信息输入至所述目标编码模式预测网络中进行预测,确定所述目标编码模式。
3.根据权利要求2所述的方法,其特征在于,所述第一帧待处理图像对应的像素块尺寸越大,所述目标编码模式预测网络对应的网络层数越多。
4.根据权利要求2所述的方法,其特征在于,所述依据获取到的所述第一帧待处理图像的树编码单元CTU信息,确定所述第一帧待处理图像对应的像素块尺寸,包括:
依据所述第一帧待处理图像对应的编码单元CU的数量、预测单元PU的数量和转换单元TU的数量中的至少一种,确定所述第一帧待处理图像对应的像素块尺寸。
5.根据权利要求2所述的方法,其特征在于,所述第一帧待处理图像的树编码单元CTU信息,包括:编码单元CU和所述CU的数量;
所述依据所述第一帧待处理图像对应的像素块尺寸,对多个所述编码模式预测网络进行筛选,获得目标编码模式预测网络,包括:
依据所述CU的数量、每个所述CU的划分方式和所述CU中的已编码像素块的信息,对所述CU中的待编码像素块对应的预测编码模式进行聚类分析,获得分析结果;
依据所述分析结果确定所述目标编码模式预测网络。
6.根据权利要求5所述的方法,其特征在于,所述分析结果包括:所述CU中的待编码像素块对应的预测编码模式的出现次数;
所述依据所述分析结果确定所述目标编码模式预测网络,包括:
对所述CU中的待编码像素块对应的预测编码模式的出现次数进行排序,获得排序结果;
依据所述排序结果,确定所述目标编码模式预测网络。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述获取至少两帧待处理图像的信息之前,还包括:
依据多个样本图像和多个预设像素块尺寸,对所述卷积神经网络进行训练,获得多个与所述预设像素块尺寸对应的编码模式预测网络。
8.根据权利要求7所述的方法,其特征在于,所述依据多个样本图像和多个预设像素块尺寸,对所述卷积神经网络进行训练,获得多个与所述预设像素块尺寸对应的编码模式预测网络,包括:
依据多个所述预设像素块尺寸对多个所述样本图像进行筛选,获得多个待测试样本图像集,其中,一个所述待测试样本图像集中的多个待测试样本图像对应的像素块尺寸相同,两个不同的待测试样板图像集对应的像素块尺寸不同;
将多个所述待测试样本图像集中的待测试样本图像输入至所述卷积神经网络中进行训练,获得多个与所述预设像素块尺寸对应的编码模式预测网络。
9.根据权利要求8所述的方法,其特征在于,所述将多个所述待测试样本图像集中的待测试样本图像输入至所述卷积神经网络中进行训练,获得多个与所述预设像素块尺寸对应的编码模式预测网络,包括:
分别对每个所述待测试样本图像集做如下处理:
将所述待测试样本图像集中的待测试样本图像输入至所述卷积神经网络中进行训练,获得待验证编码模式预测网络;
在确定所述待验证编码模式预测网络的输出结果满足预设条件的情况下,获得与所述预设像素块尺寸对应的编码模式预测网络。
10.根据权利要求9所述的方法,其特征在于,所述待验证编码模式预测网络的输出结果包括:输出图像对应的像素点的预测模式概率值和预设编码协议支持的预设编码模式数量;
所述在确定所述待验证编码模式预测网络的输出结果满足预设条件的情况下,获得与所述预设像素块尺寸对应的编码模式预测网络,包括:
依据所述输出图像对应的像素点的预测模式概率值和预设编码协议支持的预设编码模式数量,计算损失值,所述损失值用于表征所述卷积神经网络中的多分类交叉熵的损失;
在确定所述损失值在预设损失阈值的范围内的情况下,获得与所述预设像素块尺寸对应的编码模式预测网络。
11.根据权利要求2所述的方法,其特征在于,所述待处理图像的信息包括:所述待处理图像的像素块信息、与所述像素块信息对应的预测模式、所述预测模式的数量和编码单元CU的划分信息中的至少一种。
12.一种编码模式的预测装置,其特征在于,其包括:
获取模块,被配置为获取至少两帧待处理图像的信息,所述两帧待处理图像为连续的前后两帧图像;
预测模块,被配置为将至少所述两帧待处理图像的信息输入至编码模式预测网络中进行预测,确定目标编码模式;其中,所述编码模式预测网络为基于多尺寸的像素块对卷积神经网络进行训练获得的网络,所述目标编码模式用于对所述待处理图像进行编码和/或解码。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至11中任一项所述的编码模式的预测方法。
14.一种可读存储介质,其特征在于,所述可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至11中任一项所述的编码模式的预测方法。
CN202210759310.6A 2022-06-30 2022-06-30 编码模式的预测方法、装置、电子设备和存储介质 Pending CN117395426A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210759310.6A CN117395426A (zh) 2022-06-30 2022-06-30 编码模式的预测方法、装置、电子设备和存储介质
PCT/CN2023/088685 WO2024001433A1 (zh) 2022-06-30 2023-04-17 编码模式的预测方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210759310.6A CN117395426A (zh) 2022-06-30 2022-06-30 编码模式的预测方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN117395426A true CN117395426A (zh) 2024-01-12

Family

ID=89383143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210759310.6A Pending CN117395426A (zh) 2022-06-30 2022-06-30 编码模式的预测方法、装置、电子设备和存储介质

Country Status (2)

Country Link
CN (1) CN117395426A (zh)
WO (1) WO2024001433A1 (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3545679B1 (en) * 2016-12-02 2022-08-24 Huawei Technologies Co., Ltd. Apparatus and method for encoding an image
CN111800642B (zh) * 2020-07-02 2023-05-26 中实燃气发展(西安)有限公司 Hevc帧内角度模式选择方法、装置、设备及可读存储介质
KR20220007541A (ko) * 2020-07-10 2022-01-18 세종대학교산학협력단 신경망 기반 부호화 정보 결정 방법
CN112383777B (zh) * 2020-09-28 2023-09-05 北京达佳互联信息技术有限公司 视频编码方法、装置、电子设备及存储介质
CN114143540A (zh) * 2021-12-09 2022-03-04 浙江大华技术股份有限公司 视频编码方法及装置、视频解码方法及装置、电子设备
CN114363632B (zh) * 2021-12-10 2023-05-16 浙江大华技术股份有限公司 帧内预测方法、编解码方法、编解码器、系统、电子设备和存储介质

Also Published As

Publication number Publication date
WO2024001433A1 (zh) 2024-01-04

Similar Documents

Publication Publication Date Title
CN107046645B9 (zh) 图像编解码方法及装置
US10003792B2 (en) Video encoder for images
KR20240068078A (ko) 모드-인식 딥 러닝을 갖는 필터링을 위한 방법 및 장치
US12058348B2 (en) Parallelized rate-distortion optimized quantization using deep learning
CN111641832A (zh) 编码方法、解码方法、装置、电子设备及存储介质
CN103997646A (zh) 一种高清视频编码中快速帧内预测模式选择方法
CN108989799B (zh) 一种编码单元参考帧的选择方法、装置及电子设备
US20150055697A1 (en) Method and Apparatus of Transform Process for Video Coding
US20240031576A1 (en) Method and apparatus for video predictive coding
CN108353175A (zh) 使用系数引起的预测处理视频信号的方法和装置
WO2012033969A1 (en) Decoding of the link to a reference block in video compression by image content based search and ranking
Katayama et al. Low-complexity intra coding algorithm based on convolutional neural network for HEVC
CN115379217A (zh) 一种视频编码处理方法、装置、设备及存储介质
WO2023024115A1 (zh) 编码方法、解码方法、编码器、解码器和解码系统
CN112399177B (zh) 一种视频编码方法、装置、计算机设备及存储介质
CN109688411B (zh) 一种视频编码率失真代价估计方法和装置
Chen et al. CNN-optimized image compression with uncertainty based resource allocation
WO2024078892A1 (en) Image and video compression using learned dictionary of implicit neural representations
CN108881908B (zh) 视频编码中基于编码单元纹理复杂度的快速分块
CN117395426A (zh) 编码模式的预测方法、装置、电子设备和存储介质
CN111918059B (zh) 硬件友好的基于回归树的帧内预测模式决策方法及装置
CN115103196A (zh) 图像编码方法、电子设备以及介质
CN110035285B (zh) 基于运动矢量敏感度的深度预测方法
CN114143537A (zh) 一种基于可能性大小的全零块预测方法
CN109168000B (zh) 一种基于rc预测的hevc帧内预测快速算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB02 Change of applicant information

Country or region after: China

Address after: 518055, 2nd Floor, ZTE Industrial Park, No. 2 Chuangyan Road, Xili Community, Xili Street, Nanshan District, Shenzhen City, Guangdong Province, China

Applicant after: SANECHIPS TECHNOLOGY Co.,Ltd.

Address before: 518055 Zhongxing Industrial Park, Liuxian Avenue, Xili street, Nanshan District, Shenzhen City, Guangdong Province

Applicant before: SANECHIPS TECHNOLOGY Co.,Ltd.

Country or region before: China

CB02 Change of applicant information