CN115484464A - 视频编码方法和装置 - Google Patents

视频编码方法和装置 Download PDF

Info

Publication number
CN115484464A
CN115484464A CN202210969495.3A CN202210969495A CN115484464A CN 115484464 A CN115484464 A CN 115484464A CN 202210969495 A CN202210969495 A CN 202210969495A CN 115484464 A CN115484464 A CN 115484464A
Authority
CN
China
Prior art keywords
coding
mode
unit
probability
acquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210969495.3A
Other languages
English (en)
Inventor
杨明田
张昊
王豪
陈高星
缪泽翔
苏昊天
石隽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Publication of CN115484464A publication Critical patent/CN115484464A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/436Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation using parallelised computational arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请公开了视频编码方法、系统、装置及设备。其中所述方法通过分层CU划分图(HCPM)表示编码树单元(CTU)的划分结构,通过分层CU模式图(HCMM)表示CTU中各CU的编码模式类型,将多任务学习用于同时加速视频编码器的多个模块的编码过程,包括CU的深度决策过程和CU的模式决策过程,多任务学习模型以HCPM和HCMM作为学习目标,基于该模型对CU深度和编码模式预测的结果,确定编码树单元的划分模式和编码模式。采用这种处理方式,使得用一个深度模型来预测多个目标,能够快速跳过不必要的CU划分过程和CU帧内模式决策过程;因此,可以有效降低较高编码质量下的编码复杂度。

Description

视频编码方法和装置
本申请要求在2022年8月3日提交中国专利局、申请号为202210926773.7、发明名称为“视频编码方法和装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及视频处理技术领域,具体涉及视频编码方法、装置和系统,视频编码预测模型构建方法和装置,以及电子设备。
背景技术
视频编码器能够提供的视频压缩率和编码复杂度,是影响视频产品(如直播、点播、视频通话等)竞争力的重要指标。
一种典型的视频编码方式采用如下过程:用分层编码单元(CU)划分图(HCPM)的形式表示整个编码树单元(CTU)的CU划分结构;通过早期终止的分层CNN(Early-TerminatedHierarchical CNN,ETH-CNN)来学习预测HCPM;通过早期终止的长短期记忆LSTM网络(ETH-LSTM)来学习CU划分的时域相关性;结合ETH-LSTM和ETH-CNN网络来预测CU的划分,以提升视频压缩率及降低帧间模式下的编码复杂度。
然而,在实现本发明过程中,发明人发现上述方案至少存在如下问题:由于存在不必要的CU划分过程和CU帧内模式决策过程,因此编码复杂度较高。
发明内容
本申请提供视频编码方法,以解决现有技术存在的无编码复杂度较高的问题。本申请另外提供视频编码装置和系统,视频编码预测模型构建方法和装置,以及电子设备。
本申请提供一种视频编码方法,包括:
获取视频帧的编码树单元;
获取所述编码树单元的预测残差图像和预测重建图像;
通过多任务学习的预测模型,根据所述预测残差图像和预测重建图像,获取所述编码树单元的分层编码单元划分图和分层编码单元模式图,所述分层编码单元划分图包括编码单元的划分概率,所述分层编码单元模式图包括编码单元的编码模式概率;
根据所述划分概率、所述编码模式概率,确定所述编码树单元的划分模式及编码模式。
可选的,所述通过多任务学习的预测模型,根据所述预测残差图像和预测重建图像,获取所述编码树单元的分层编码单元划分图和分层编码单元模式图,包括:
通过所述预测模型,根据所述预测残差图像和预测重建图像,获取共享特征;
根据所述共享特征,获取所述分层编码单元划分图;
根据所述共享特征,获取所述分层编码单元模式图。
可选的,所述通过所述预测模型,根据所述预测残差图像和预测重建图像,获取共享特征,包括:
通过所述预测模型,根据所述预测残差图像和预测重建图像,获取多个层次的共享特征;
所述根据所述共享特征,获取所述分层编码单元划分图,包括:
根据多个层次的共享特征,获取所述分层编码单元划分图;
所述根据所述共享特征,获取所述分层编码单元模式图,包括:
根据多个层次的共享特征,获取所述分层编码单元模式图。
可选的,所述通过所述预测模型,根据所述预测残差图像和预测重建图像,获取所述编码树单元的分层编码单元划分图和分层编码单元模式图,包括:
根据所述预测残差图像和预测重建图像,获取所述预测残差图像和预测重建图像的归一化数据;
根据所述归一化数据,获取所述分层编码单元划分图和分层编码单元模式图。
可选的,所述获取所述编码树单元的预测残差图像和预测重建图像,包括:
将对所述编码树单元进行帧间编码产生的重建图像作为所述预测重建图像;
根据预测重建图像确定所述预测残差图像。
可选的,所述根据所述划分概率、所述编码模式概率,确定所述编码树单元的划分模式及编码模式,包括:
根据所述划分概率,判断是否跳过编码单元在当前深度的编码过程和/或跳过编码单元划分模式编码过程;
根据编码模式概率,判断是否跳过编码单元的帧内编码过程或者帧间编码过程。
可选的,还包括:
根据编码单元的深度和编码量化参数,确定与编码单元对应的第一划分概率阈值、第二划分概率阈值和/或编码模式概率阈值。
本申请还提供一种视频编码预测模型处理方法,包括:
获取训练数据集;训练数据包括:残差图像和重建图像与分层编码单元划分图的标注数据和分层编码单元模式图的标注数据之间的对应关系;
构建多任务学习的预测模型;
根据所述训练数据集,训练所述预测模型的模型参数。
本申请还提供一种视频编码装置,包括:
编码树单元获取单元,用于获取视频帧的编码树单元;
第一编码单元,用于获取所述编码树单元的预测残差图像和预测重建图像;
预测单元,用于通过多任务学习的预测模型,根据所述预测残差图像和预测重建图像,获取所述编码树单元的分层编码单元划分图和分层编码单元模式图,所述分层编码单元划分图包括编码单元的划分概率,所述分层编码单元模式图包括编码单元的编码模式概率;
第二编码单元,用于根据所述划分概率、所述编码模式概率,确定所述编码树单元的划分模式及编码模式。
本申请还提供一种电子设备,包括:
处理器和存储器;
存储器,用于存储实现根据上述视频编码方法的程序,该设备通电并通过所述处理器运行该方法的程序。
本申请还提供一种视频处理系统,包括:
上述视频编码装置;以及,视频解码装置。
本申请还提供一种视频直播方法,包括:
获取直播视频包括的视频帧的编码树单元;
获取所述编码树单元的预测残差图像和预测重建图像;
通过多任务学习的预测模型,根据所述预测残差图像和预测重建图像,获取所述编码树单元的分层编码单元划分图和分层编码单元模式图,所述分层编码单元划分图包括编码单元的划分概率,所述分层编码单元模式图包括编码单元的编码模式概率;
根据所述划分概率、所述编码模式概率,确定所述编码树单元的划分模式及编码模式,以根据所述编码树单元的划分模式及编码模式生成编码数据。
本申请还提供一种用于视频点播的视频编码方法,包括:
获取点播视频包括的视频帧的编码树单元;
获取所述编码树单元的预测残差图像和预测重建图像;
通过多任务学习的预测模型,根据所述预测残差图像和预测重建图像,获取所述编码树单元的分层编码单元划分图和分层编码单元模式图,所述分层编码单元划分图包括编码单元的划分概率,所述分层编码单元模式图包括编码单元的编码模式概率;
根据所述划分概率、所述编码模式概率,确定所述编码树单元的划分模式及编码模式,以根据所述编码树单元的划分模式及编码模式生成编码数据。
本申请还提供一种用于视频通话的视频编码方法,包括:
获取视频通话包括的视频帧的编码树单元;
获取所述编码树单元的预测残差图像和预测重建图像;
通过多任务学习的预测模型,根据所述预测残差图像和预测重建图像,获取所述编码树单元的分层编码单元划分图和分层编码单元模式图,所述分层编码单元划分图包括编码单元的划分概率,所述分层编码单元模式图包括编码单元的编码模式概率;
根据所述划分概率、所述编码模式概率,确定所述编码树单元的划分模式及编码模式,以根据所述编码树单元的划分模式及编码模式生成编码数据。
本申请还提供一种用于视频会议的视频编码方法,包括:
获取视频会议包括的视频帧的编码树单元;
获取所述编码树单元的预测残差图像和预测重建图像;
通过多任务学习的预测模型,根据所述预测残差图像和预测重建图像,获取所述编码树单元的分层编码单元划分图和分层编码单元模式图,所述分层编码单元划分图包括编码单元的划分概率,所述分层编码单元模式图包括编码单元的编码模式概率;
根据所述划分概率、所述编码模式概率,确定所述编码树单元的划分模式及编码模式,以根据所述编码树单元的划分模式及编码模式生成编码数据。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各种方法。
本申请还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各种方法。
与现有技术相比,本申请具有以下优点:
本申请实施例提供的视频编码方法,通过分层CU划分图(HCPM)表示编码树单元(CTU)的划分结构,通过分层CU模式图(HCMM)表示CTU中各CU的编码模式类型,将多任务学习用于同时加速视频编码器的多个模块的编码过程,包括CU的深度决策过程和CU的模式决策过程,多任务学习模型以HCPM和HCMM作为学习目标,基于该模型对CU深度和编码模式预测的结果,确定编码树单元的划分模式和编码模式。采用这种处理方式,使得用一个深度模型来预测多个目标,能够快速跳过不必要的CU划分过程和CU帧内模式决策过程;因此,可以有效降低较高编码质量下的编码复杂度。
附图说明
图1本申请提供的视频编码方法的实施例的流程示意图;
图2本申请提供的视频编码方法的实施例的编码流程示意图;
图3本申请提供的视频编码方法的实施例的HCPM结构样例示意图;
图4本申请提供的视频编码方法的实施例的HCMM结构样例示意图;
图5本申请提供的视频编码方法的实施例的MTL-CNN模型结构示意图;
图6本申请提供的视频编码方法的实施例的CommonNet_X网络结构示意图;
图7本申请提供的视频编码方法的实施例的Task0_Net网络结构示意图;
图8本申请提供的视频编码方法的实施例的Task1_Net网络结构示意图;
图9本申请提供的视频编码方法的实施例的训练样本生成示例图;
图10本申请提供的视频编码方法的实施例的具体流程图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请中,提供了视频编码方法和装置,以及电子设备。在下面的实施例中逐一对各种方案进行详细说明。
视频编码是指通过压缩技术,将原始视频格式的文件转换成另一种视频格式文件。视频编码包括帧内编码和帧间编码。一幅图像里面的物体往往具有空间上的相关性,相邻图像里面的物体往往具有时间上的相关性。帧内编码是利用图像的空间冗余进行压缩,帧间编码是利用视频信息前后帧之间的关联进行压缩。帧间编码的压缩率通常高于帧内编码的压缩率。
视频编码要将视频帧的图像划分为编码树单元(coding tree units,CTU),编码树单元是基本编码单位,可向下分成编码单元(Coding Unit,CU),如图2所示,每个编码树单元可利用四叉树结构被递归分割。
在现有编码框架中,编码器为了寻找适合当前CTU所在视频内容的CU大小,会递归的尝试不同CU深度的编码。例如,CTU大小为64,编码器会尝试Depth 0到Depth 4(64x64到4x4的CU)共5种不同深度的编码。除了Depth 4不做四叉划分模式的尝试外,所有深度的CU都会做帧间模式、帧内模式和四叉划分模式的编码,并且会计算不同模式的率失真代价(RD0Cost),最后根据率失真代价选择优化的编码模式和CU深度。
本申请的发明人发现现有编码方式存在多余的CU深度决策编码过程,编码复杂度较高。比如在图像平缓、基本上没有纹理特征的区域,优化的编码块一般属于大块的CU,但是为了找到这个CU尺寸,编码器做了许多多余小CU的编码尝试,通过求解不同CU尺寸率失真代价(RDO Cost)并对比,才能得到优化的CU深度,这个过程称之为“CU深度的搜索过程”。
本申请的发明人通过实验对现有编码过程做了复杂度和可优化空间的分析。为了了解帧间编码在总编码复杂度的占比和在不同划分深度的情况下帧间编码复杂度占比,发明人首先将编码模块分为“帧间模块”(inter module),“B帧帧内模块”(intra module(Bframe)),“I帧帧内模块”intra module(I frame),“其它模块”(other)四类,分别统计各个模块在总编码时间中的占比。接着,按照帧间和帧内两大类,在不同的深度统计两类编码模式的时间占比。其中,帧间模块是指采用帧间编码方式进行编码的编码单元,B帧帧内模块是指采用B帧帧内编码方式进行编码的编码单元,I帧帧内模块是指采用I帧帧内编码方式进行编码的编码单元,采用其它编码模式的编码单元为其它模块。
CU深度搜索过程的优化空间是指为了寻找更合适的优化深度而浪费的计算资源和时间成本,这些浪费的计算资源和时间成本实际可以通过其他算法来避免。为了解CU划分过程中可以优化的空间,发明人把CU分为“恶性不划分”CU(Malignant_nonSplit”CU)和“恶性划分”CU(“Malignant_split”CU)两类。其中,“恶性不划分”CU代表当前CU就是最优的CU深度或者CU尺寸,但是编码器为了得到这个结果,对当前CU做四叉划分,并对划分得到的子CU(sub-CU)也做了帧内/帧间模式的编码;而“恶性划分”CU则表示当前CU不是最优的CU尺寸,但是编码器为了寻找最优CU深度对当前CU做了帧内/帧间模式的编码。在实验过程中,发明人统计了在实际编码过程中,这两类CU在不同深度CU里的占比,用它们的占比来衡量CU深度搜索过程中的优化空间,这两类CU的占比越高则表示当前深度CU的优化空间越大。
为了寻找适合当前CU的编码模式,编码器会按照顺序逐个尝试所有编码模式,对每个模式做编码并计算RD Cost,最终选出一个最小RD Cost对应的编码模式作为当前CU的最优编码模式。
为了了解CU模式选择过程的优化空间,发明人将编码模式简化为帧间编码和帧内编码。并将CU分为“恶意帧内”CU(“Malignant_intra”CU)和“恶意帧间”CU(“Malignant_inter”CU)。其中,“恶意帧内”CU是指最优编码模式为帧内编码模式,但做了帧间编码模式尝试的CU;而“恶意帧间”CU是指最优编码模式为帧间编码模式,但做了帧内编码模式尝试的CU。这两类CU的占比越高则表示CU模式选择过程的优化空间越大,即这两类CU的占比可以代表模式选择过程的优化空间。
实验数据表明,在现有编码方式中,帧间模式的决策占据了高达51.54%的编码时间,I帧和B帧的帧内模式决策各占据了不到10%的时间,而帧间模式决策和B帧的帧内模式决策属于帧间CU深度决策过程的主体部分,因此,帧间的CU深度决策过程几乎占据了现有编码过程60%以上的时间复杂度。在复杂度分布方面,从平均结果看,除了深度为4(Depth4)的CU仅1.99%的复杂度外,其他深度的编码复杂度基本相近(13%~15%),说明大部分的CU不会选择Depth 4,编码加速算法在深度为4的CU上会很难发挥效果。此外还发现,在每个CU深度上,相比帧内模式占据了大部分模式选择的复杂度。
实验数据还表明,小QP(编码量化参数)下的优化空间会比QP下更大一些,小块CU依旧还有很大的优化空间。从平均结果看,有大量的CU存在着计算资源浪费的情况,“Malignant_nonSplit”CU和“Malignant_split”CU分别在D0~D2深度上占比100%,88.05%,85.18%和82.63%,78.99%,61.60%。QP值越小,量化步长越小,量化的精度越高,在同样画质的情况下,产生的数据量更大。从不同的QP来看,较小的QP因为会对图像质量编码更加精细、更加严格,所以很难有较好的算法准确地预测CU的深度,因此从结果来看,小QP下的优化空间会比QP下更大一些。从不同CU深度来看,更大块的CU会比小块的CU拥有更大的优化空间,因为在做小块CU的深度预测时,会比大块拥有更多的参考信息,所以现有编码加速算法已经利用这些信息做了一部分小块CU的深度预测算法,但是从统计结果来看,小块CU依旧还有很大的优化空间。
实验数据又表明,帧内帧间模式搜索过程依旧有优化空间。不同深度下(Depth 0~Depth 4)模式选择的优化空间虽有所不同,但是总体上“Malignant_intra”CU的优化空间会高于“Malignant_inter”CU的优化空间,说明现有编码器中已经有一些算法用于跳过某些CU的帧内模式搜索过程。除了Depth3外,其他深度下,“Malignant_intra”CU占比都是100%,说明VVenc已有的快速跳过CU帧间模式搜索算法仅在Depth 3有效。因此,现有编码框架的帧内帧间模式搜索过程依旧有优化空间。
第一实施例
请参考图1,其为本申请的视频编码方法的实施例的流程示意图。在本实施例中,所述方法可包括如下步骤:
步骤S101:获取视频帧的编码树单元。
视频编码是基于块进行的,将一帧视频划分成不同的块,然后对每个块再分别进行编码处理。在本实施例中,将一帧图像划分为多个编码树单元(coding tree units,CTU),例如对于高清视频,每帧图像分辨率为1920x1080,若划分为64x64大小的CTU,则每行有30个CTU,整帧图像可划分为30x17个CTU。
编码树单元是基本编码单位,可向下分成编码单元(Coding Unit,CU),每个树编码块可利用四叉树嵌套多类型树的结构递归划分。
步骤S103:获取所述编码树单元的预测残差图像和预测重建图像。
在模型推断阶段当前视频帧还未开始编码,因此无法获得CTU的真实预测残差(Resi)和真实重建图像(Rec)。本申请实施例提供的方法,在通过步骤S105开始编码当前视频帧前,先通过步骤S103对当前视频帧中的每个CTU做一个简单粗略的编码,称为预编码,得到预编码产生的预测残差图像和预测重建图像。
在一个示例中,视频编码器对时间性能有着严格的要求,为了尽量减少预编码上产生的时间开销,步骤S103可采用如下方式实施:将对所述编码树单元进行帧间编码产生的重建图像作为所述预测重建图像,根据预测残差图像确定所述预测残差图像。采用这种处理方式,使得仅对深度为0的CU(最大的CU)做帧间模式(Inter_ME)的编码,省去了实际编码中耗时的CU深度搜索和模式搜索过程。经实验表明,采用该预编码方式仅增加了约3%的时间,而用预编码产生的残差图像作为输入数据,在接下来训练出的模型上也表现出了较好的效果。
在一个示例中,本申请实施例提供的方法用于采用多用途视频编码标准(Versatile Video Coding,VVC,如H.266)的视频编码系统。相比传统编码标准而言,VVC更强调编码标准的多用途性,但是编码复杂度也极大增加了,因此可采用本申请实施例提供的方法降低编码复杂度。在这种情况下,可采用复杂度较低的视频编码方式,获取所述编码树单元的预测残差图像和预测重建图像。例如,采用高效视频编码标准(High EfficiencyVideo Coding,H.265/HEVC)、高级视频编码标准(Advanced Video Coding,H.264/AVC)或者更低标准的编码器进行预编码。
步骤S105:通过多任务学习的预测模型,根据所述预测残差图像和预测重建图像,获取所述编码树单元的分层编码单元划分图和分层编码单元模式图。
在本实施例中,用分层CU划分图(HCPM)的形式表示整个编码树单元(CTU)的CU划分结构,用分层CU模式图(HCMM)表示CTU中各CU的编码模式类型。所述分层编码单元划分图包括各编码单元的划分概率,所述分层编码单元模式图包括各编码单元的编码模式概率,如帧间编码概率或者帧内编码概率等。通过多任务学习的预测模型,以预编码过程产生的预测残差图像和编码后的预测重建图像作为输入,预测两个任务:1)当前CU是否需要划分为小块编码;2)当前CU最优编码模式是否是帧间编码模式,这样可优化CU划分的决策方式和CU编码模式的选择方式,从而降低帧间模式下的编码复杂度。
本步骤用预编码产生的预测残差图像和预测重建图像近似代替真实的预测残差和重建图像,将预编码产生的预测残差和预编码后的重建图像作为预测模型(也称为多任务学习模型)的输入数据,通过预测模型输出所述编码树单元的分层编码单元划分图和分层编码单元模式图。预测模型输出的分层编码单元划分图包括各深度CU的划分概率(probability_split,HCPM的预测值),预测模型输出的分层编码单元模式图包括各CU选择帧间模式作为最优模式的概率(probabilityinter_mode),将其作为预测模型输出的编码单元的编码模式概率。
分层CU划分图(HCPM)可代表CTU的划分结构,该结构用来作为预测模型的输出结构,目的是使得模型只需要预测对应的HCPM就能得到对整个CTU划分结构,无需对每个CU单独调用模型,因此可以有效降低时间开销。
HCPM结构如图3所示,图中(a)表示HCPM的真实标签,(b)表示模型预测的HCPM预测值。HCPM结构会用y1(U)代表一级(深度为0)CU是否划分,y1(U)=1代表划分,y1(U)=0代表不划分;y2(Ui)i={1,2,3,4}代表二级的4个CU是否划分,同理,y3(Ui,j)i,j={1,2,3,4}代表三级中的16个CU是否划分。
Figure BDA0003795992770000091
表示模型预测出来的HCPM值,分别代表各层CU需要做划分编码的概率。此外,在HCPM结构中,一旦上一层的父CU不划分,则下一层的4个子CU的划分标签将无效,如图(a)部分HCPM标注数据(Ground-truth of HCPM),二级的y2(U2)=0(代表该CU不划分),则该CU所对应的4个子CU在三级中将是无效的,在模型训练计算损失阶段将不考虑这些无效CU的损失。
根据多任务模型的需要,本申请实施例提供的方法在HCPM结构基础上提出了分层CU模式图(Hierarchical CU Mode Map,HCMM)。如图4所示,HCMM采用了与HCPM类似的结构,相比HCPM,HCMM可对四级(深度为3)的CU也做了决策,并且HCMM中的M1(U)、M2(Ui)i={1,2,3,4}、M3(Ui,j)i,j={1,2,3,4}、M4(Ui,j,k)i,j,k={1,2,3,4}分别代表了各深度CU的优化模式,取值为1代表CU优化模式为帧间模式,取值为0代表优化模式为帧内模式。由于CU划分结构与模式决策有着不可分离的关系,即如果当前CU不做划分,那么对应位置不存在更小块CU,也就不会存在相应的帧内/帧间模式决策过程。因此,HCPM结构中无效的CU在HCMM中也将无效,无效的CU最终将不计入损失(Loss)的计算中。本申请实施例提出的所述预测模型(如MTL-CNN模型)旨在预测HCPM和HCMM,与预测的HCPM类似,预测的HCMM中,
Figure BDA0003795992770000092
Figure BDA0003795992770000093
可分别代表各层CU选择帧间编码为优化模式的概率。
所述预测模型可以是深度模型,其网络结构可以是多任务学习卷积神经网络(Multi-Tasking Learning CNN,MTL-CNN),也可以是多任务学习循环神经网络等。
在一个示例中,步骤S105可包括如下步骤:根据所述预测残差图像和预测重建图像,获取共享特征;根据所述共享特征,获取所述分层编码单元划分图;根据所述共享特征,获取所述分层编码单元模式图。
具体实施时,所述预测模型可包括:共享特征提取单元,第一预测单元,第二预测单元;步骤S105可采用如下方式:通过所述共享特征提取单元,根据所述预测残差图像和预测重建图像,获取共享特征;通过所述第一预测单元,根据所述共享特征,获取所述分层编码单元划分图;通过所述第二预测单元,根据所述共享特征,获取所述分层编码单元模式图。所述共享特征是指获取分层编码单元划分图和分层编码单元模式图共同基于的特征,也就是说,根据共享特征即可获取分层编码单元划分图,又可获取分层编码单元模式图。
在本实施例中,所述预测模型为多任务学习卷积神经网络(Multi-TaskingLearning CNN,MTL-CNN)的模型。MTL-CNN模型的主干可采用多任务学习中常用的共享底部多任务(Shared-Bottom multi-task)DNN结构。该网络结构是在输入层之后用一个共享层学习不同任务在浅层的相同特征,然后每个任务在底部相同特征学习的基础上,用一个单独的网络学习各自的深层特征,再输出各自的目标任务结果。
图5展示了MTL-CNN模型的基本结构,包括三个层:输入层(Input Layer)、共享层(Share Layer)和多任务层(Multi-Task Layer)。在输入层中,Resi CTU和Rec CTU是对CTU进行预编码得到的残差图像和重建图像,两者的大小都可以是64x64,通道数可以为1。
在一个示例中,步骤S105还可包括如下步骤:根据所述预测残差图像和预测重建图像,获取所述预测残差图像和预测重建图像的归一化数据。由于预测残差图像和预测重建图像的数据分布差异较大,为了加快模型的收敛速度,提高模型在多任务上的性能,输入层可采用标准化方法对Resi CTU(残差图像)和Rec CTU(重建图像)进行数据标准化,使得它们服从标准正太分布。
具体实施时,所述预测模型可包括数据标准化单元,用于根据所述预测残差图像和预测重建图像,获取所述预测残差图像和预测重建图像的归一化数据。
具体实施时,标准化方法可以是标准分数(z-score,z分数)法,采用标准分数法对残差图像和重建图像进行数据标准化,如采用如下公式:
Figure BDA0003795992770000101
在该公式中,x*代表标准化后的数据,x代表标准化前的数据,μ代表多个数据样本的均值,σ代表所有数据的标准差。其中,数据样本又称为训练样本,数据样本包括预测残差图像和预测重建图像,多个数据样本的均值包括多个预测残差图像的均值和多个预测重建图像的均值,也可以是多个预测残差图像和多个预测重建图像的均值。
共享层负责提取多任务数据浅层的公共特征或者共享特征。在一个示例中,所述根据所述预测残差图像和预测重建图像,获取共享特征,包括:根据所述预测残差图像和预测重建图像,获取多个层次的共享特征,不同层次对应不同的编码单元划分深度;所述根据所述共享特征,获取所述分层编码单元划分图,包括:根据多个层次的共享特征,获取所述分层编码单元划分图;所述根据所述共享特征,获取所述分层编码单元模式图,包括:根据多个层次的共享特征,获取所述分层编码单元模式图。
在本实施例中,所述共享特征提取单元包括:多个层次的共享特征提取单元,不同层次对应不同的编码单元划分深度;通过所述第一预测单元,根据多个层次的共享特征,获取所述分层编码单元划分图;通过所述第二预测单元,根据多个层次的共享特征,获取所述分层编码单元模式图。
在一个示例中,根据第一层次、第二层次和第三层次分别对应的共享特征,获取所述分层编码单元划分图;根据第一层次、第二层次、第三层次和第四层次分别对应的共享特征,获取所述分层编码单元模式图。
具体实施时,可通过所述第一预测单元,根据第一层次、第二层次和第三层次分别对应的共享特征,获取所述分层编码单元划分图;通过所述第二预测单元,根据第一层次、第二层次、第三层次和第四层次分别对应的共享特征,获取所述分层编码单元模式图。
如图5所示,输入层输出的标准化残差图像和重建图像,经过4个并行的公共网络(CommonNet_X,X=0,1,2,3)分别提取不同层次的共享特征,它们可分别对应HCPM的3个级别和HCMM的4个级别。
在一个示例中,根据所述预测残差图像和预测重建图像,获取不同层次的共享特征,可包括如下步骤:根据所述预测残差图像和不同的编码量化参数,获取预测残差图像的总体特征;根据所述预测重建图像和不同的编码量化参数,获取预测重建图像的总体特征;根据所述预测残差图像的总体特征和预测重建图像的总体特征,获取第一总体特征;根据所述第一总体特征,获取第二总体特征;根据所述第二总体特征,获取所述共享特征。
具体实施时,不同层次的共享特征提取单元包括:第一池化层,第二池化层,特征融合层,第一共享特征提取层,输出层;通过所述第一池化层,根据所述预测残差图像,获取预测残差图像的总体特征;通过所述第二池化层,根据所述预测重建图像,获取预测重建图像的总体特征;通过所述特征融合层,根据所述预测残差图像的总体特征和预测重建图像的总体特征,获取第一总体特征;通过所述第一共享特征提取层,根据所述第一总体特征,获取第二总体特征;通过所述输出层,根据所述第二总体特征,获取所述共享特征。
图6展示了CommonNet_X网络结构,残差图像和重建图像分别经过平均池化(AvgPool)提取数据总体特征,然后拼接在一起,最后经过核大小为3×3的卷积神经网络(CNN)提取它们的浅层共享特征,共享特征经过归一化层(Batch Normalization,BN)和激活函数(RELU后)传向下一层。
在一个示例中,不同层次的池化层对应不同的池化层参数,池化层参数可以是内核大小,还可以是步长。为了提取不同粒度或层次的特征,对不同CommonNet_X网络的平均池化层使用不一样的池化层参数,下表1展示了本实施例中具体参数的设置情况。
表1 CommonNet_X网络的平均池化层参数设置
Figure BDA0003795992770000121
在本实施例中,多任务层包括两个不同任务各自的网络Task0_Net和Task1_Net,用于从共享特征中进一步学习各自任务间不同的特征,并分别预测HCPM和HCMM。
图7和8展示了Task0_Net和Task1_Net的网络结构。在本实施例中,两个网络的基本结构相同,都是以共享层的共享特征作为输出,经过卷积神经网络层(CNN)提取各自更深层次的特征。其中,CNN可包括3个非重叠CNN(4×4CNN的步长为4×4,2×2CNN的步长为2×2)。然后,将深层次的特征拉平(flatten)为一维向量,再将各分支的一维向量(包括全局和局部的特征)都拼接起来得到向量Vector,以便后续的全连接层(FC Layer)能够从全局和局部特征中选择合适的特征。全连接层包括2个隐藏层(fx-1,fx-2)和输出层,目的是为了通过2个隐藏层整合任务层(CNN)提取的特征vector,并最终经过输出层预测得到HCPM或HCMM。
在本实施例中,Task0_Net和Task1_Net网络结构不同之处在于Task1_Net包含了4个分支,而Task0_Net仅有3个分支,这是因为Task0_Net网络的输出是预测HCPM,而HCPM结构只有3个级别(图4所示),每个分支负责预测一个级别,不同分支输出的1、2×2和4×4的预测结果分别对应HCPM的
Figure BDA0003795992770000122
Figure BDA0003795992770000123
它们分别代表各层CU需要做划分模式的概率。而HCMM包含4个级别,相应的Task1_Net网络的4个分支输出的1、2×2、4×4和8×8的预测结果分别对应HCMM的
Figure BDA0003795992770000124
Figure BDA0003795992770000125
Figure BDA0003795992770000126
它们分别代表了各层CU选择帧间编码为优化模式的概率。
为了训练多任务预测模型,将111个YUV测试序列作为建立数据集的数据库,包括了不同分辨率的测试序列,分别是:SIF(352×240),CIF(352×288),NTSC(720×486),4CIF(704×576),240p(416×240),480p(832×480),720p(1280×720),1080p(1920×1080),WQXGA(2560×1600),4K(4096×2160)。将111个序列分为3个不重叠的数据库,分别作为训练集数据库、验证集数据库和测试集数据库,其中训练集数据库包含了83个序列,用于构建训练集,验证集数据库包含10个序列用于构建验证集,测试集包含18个JCT-VC提供的标准测试序列用于构建测试集。
在一个示例中,获取所述预测模型的训练数据集,可采用如下方式:获取多个编码树单元和多个编码量化参数;根据多个编码量化参数,获取多个编码树单元的残差图像和重建图像。
例如,可采用4个编码量化参数QP{22,27,32,37},在编码器的随机访问RandomAccess(RA)(使用random_access.cfg配置)快速挡位下对所有数据库中的序列做编码,编码完之后生成对应数据库下不同序列CTU的预测残差(Resi)、编码后的重建图像(Rec)和CU的二进制标签
Figure BDA0003795992770000131
(对应HCPM结构)和
Figure BDA0003795992770000132
(对应HCMM结构),d表示当前CU的深度,i表示CTU中深度为d的CU标号。其中
Figure BDA0003795992770000133
用于标识d深度下第i个CU
Figure BDA0003795992770000134
是否需要做划分,标签为1代表
Figure BDA0003795992770000135
需要划分为小块,反之,标签为0代表
Figure BDA0003795992770000136
不需要划分为小块;
Figure BDA0003795992770000137
用于标识
Figure BDA0003795992770000138
最优编码模式的类别,标签为1代表
Figure BDA0003795992770000139
的最优编码模式为帧间模式,标签为0则最优模式为帧内模式。
多任务预测模型的训练数据包括:残差图像和重建图像与分层编码单元划分图的标注数据和分层编码单元模式图的标注数据之间的对应关系。
图9展示了一个训练样本的生成示例,编码器将CTU
Figure BDA00037959927700001310
的预测残差Resi、编码后的重建图像Rec、HCPM的标注数据(图9中的{ls0,ls1,ls2})和HCMM的标注数据(图9中的{lm0,lm1,lm2,lm3}),即Resi、Rec、21个CU划分的标注数据
Figure BDA00037959927700001311
+85个CU编码模式的标注数据
Figure BDA00037959927700001312
作为一个训练样本。经过对视频序列数据库编码,共得到上百万个训练样本,上百万个验证样本和上百万个测试样本。
需要说明的是,在模型训练阶段和模型推断阶段可采用不同的方式获取模型的输入数据(残差图像和重建图像),也可采用相同的方式获取模型的输入数据。例如,在模型训练阶段可对多个深度的CU进行编码,获取编码树单元的真实残差图像和真实重建图像;而在模型训练阶段仅对深度为0的CU(最大的CU)做Inter_ME模式的编码,获取编码树单元的精度稍低的残差图像和重建图像,这样可省去实际编码中耗时的CU深度搜索和模式搜索过程,以满足编码器对时间性能的较高需求。在实际应用中,可根据编码器对时间性能的需求,确定采用何种方式获取模型的输入数据。
步骤S107:根据所述划分概率、所述编码模式概率,确定所述编码树单元的划分模式及编码模式。
本步骤根据所述划分概率确定所述编码树单元的划分模式,根据所述编码模式概率确定所述编码树单元的编码模式。所述划分模式包括编码树单元被划分为编码单元的方式,所述编码模式包括各编码单元的编码模式。
在本实施例中,步骤S107可包括如下步骤:
步骤S1071:根据所述划分概率,判断是否跳过编码单元在当前深度的编码过程和/或跳过编码单元划分模式编码过程。
根据所述划分概率,可判断是否跳过编码单元在当前深度的编码过程,或者判断是否跳过编码单元划分模式编码过程,再或者判断是否跳过编码单元在当前深度的编码过程和编码单元划分模式编码过程。
在一个示例中,步骤S1071可采用如下方式实现:根据所述划分概率和第一划分概率范围(如70%至96%),判断是否跳过编码单元在当前深度的编码过程;根据所述划分概率和第二划分概率范围(如5%至30%),判断是否跳过编码单元划分模式编码过程。采用这种处理方式,使得可根据提前设置的第一划分概率范围,决定是否需要跳过CU在当前深度的编码过程,即仅对CU做划分模式;根据提前设置的第二划分概率范围,决定是否需要跳过CU在当前深度的编码过程编码单元划分模式编码过程,即不对当前CU做更深层的子块编码。
在另一个示例中,步骤S1071可采用如下方式实现:根据所述划分概率和第一划分概率阈值,判断是否跳过编码单元在当前深度的编码过程;根据所述划分概率和第二划分概率阈值,判断是否跳过编码单元划分模式编码过程。
本申请实施例提供的方法,可根据多任务学习模型预测各深度CU做划分的概率(probability_split,HCPM的预测值),以及提前设置的第一划分概率阈值(TH_UP),决定是否需要跳过CU在当前深度的编码过程(即仅对CU做划分模式)。此外,还可根据probability_split和第二划分概率阈值(TH_DOWN),决定是否需要跳过CU划分模式编码过程(即不对当前CU做更深层的子块编码)。
在本实施例中,可根据当前CU在CTU中的深度和位置信息,从HCPM中读取当前CU对应的划分概率(probabilitysplit)。如图10所示,在本实施例中,如果所述划分概率大于第一划分概率阈值(TH_UP),则判定跳过CU在当前深度的编码过程,仅对CU做划分模式编码,称之为“提前跳过CU编码策略”。如果所述划分概率小于或者等于第一划分概率阈值,则判定不能跳过CU在当前深度的编码过程,需要执行CU在当前深度的编码过程,对CU进行帧间编码。具体实施时,如果当前CU部分位置超出图像边界,则判定跳过CU在当前深度的编码过程。
如图10所示,在本实施例中,如果所述划分概率小于或者等于第二划分概率阈值(TH_DOWN),则判定跳过CU划分模式编码过程,即不对当前CU做更深层的子块编码,称之为“提前跳过CU划分策略”。如果所述划分概率大于第二划分概率阈值,则判定不能跳过CU划分模式编码过程,需要对当前CU做更深层的子块编码,如做四叉树编码。
本申请实施例提供的方法,通过步骤S1071,使得可根据CU划分概率,判断是否跳过CU在当前深度的编码过程,跳过编码单元划分模式编码过程;因此,可以快速跳过不必要的CU编码过程和不必要的编码单元划分模式编码过程,从而降低编码复杂度。
步骤S1073:根据编码模式概率,判断是否跳过编码单元的帧内编码过程或者帧间编码过程。
在一个示例中,步骤S1073可采用如下方式实现:根据所述编码模式概率和编码模式概率范围,判断是否跳过编码单元的帧内编码过程或者帧间编码过程。采用这种处理方式,使得可根据提前设置的编码模式概率范围(如56-78%),决定是否需要跳过CU帧内编码过程或者帧间编码过程。
在另一个示例中,所述编码模式概率包括:帧间模式概率;步骤S1073可包括如下步骤:根据所述帧间模式概率和帧间模式概率阈值,判断是否跳过CU帧内编码过程。
在本实施例中,可根据当前CU在CTU中的深度和位置信息,从HCMM中读取当前CU选择帧间模式作为最优模式的概率(probabilityinter_mode)。如图10所示,在本实施例中,如果所述帧间模式概率大于帧间模式概率阈值,则判定跳过CU帧内编码过程,仅对CU做帧间编码,称之为“提前跳过CU帧内编码策略”。如果所述划分概率小于或者等于帧间模式概率阈值,则判定不能跳过CU帧内编码过程,需要对CU进行帧内编码。具体实施时,如果当前CU部分位置超出图像边界,则判定跳过CU在当前深度的编码过程。
本申请实施例提供的方法,通过根据所述帧间模式概率和帧间模式概率阈值,判断是否跳过CU帧内编码过程,使得可根据CU帧间模式概率和帧间模式概率阈值,判断是否跳过CU帧内编码过程;因此,可以快速跳过不必要的CU帧内编码过程,从而降低编码复杂度。
具体实施时,所述编码模式概率也可包括:帧内模式概率;步骤S1073可包括如下步骤:根据所述帧内模式概率和帧内模式概率阈值,判断是否跳过CU帧间编码过程。采用这种处理方式,使得可根据CU帧内模式概率和帧内模式概率阈值,判断是否跳过CU帧间编码过程;因此,可以快速跳过不必要的CU帧间编码过程,从而降低编码复杂度。
如图10所示,在一个示例中,确定编码树单元的划分模式和编码模式时,步骤S107可包括如下步骤:
步骤S1101:根据所述分层编码单元划分图和所述分层编码单元模式图,获取编码单元的划分概率和帧间模式概率。
步骤S1102:根据所述划分概率和第一划分概率阈值,判断是否跳过CU在当前深度的编码过程。
步骤S1103:根据所述划分概率和第二划分概率阈值,判断是否跳过CU划分模式编码过程。
步骤S1104:根据所述帧间模式概率和编码模式概率阈值,判断是否跳过CU帧内编码过程。
本申请实施例提供的方法,通过步骤S1101至S1104,可以快速跳过不必要的CU在当前深度的编码过程、CU划分模式编码过程、CU帧内编码过程,从而降低编码复杂度。
具体实施时,步骤S107还可包括如下步骤:根据编码质量评估参数,确定编码模式。所述编码质量评估参数包括但不限于:率失真损失(RD COST)等。
在处理完当前编码单元后,可判断是否存在同深度下的其它编码单元,若存在同深度下的其它编码单元,则获取下一个同深度的编码单元,通过上述步骤S1101至S1104处理下一个同深度的编码单元,直至处理完分层编码单元划分图内的所有编码单元。
在一个示例中,所述方法还可包括如下步骤:根据编码单元的深度和编码量化参数,确定与编码单元对应的第一划分概率阈值、第二划分概率阈值和/或编码模式概率阈值。
第一划分概率阈值和第二划分概率阈值的设定与编码量化参数(QP)及CU的深度都有较强的相关性,为了对不同的编码QP和不同的CU深度设置更合理的双阈值,发明人进行了测试实验。例如,采用4个不同的QP{22,27,32,37},分别对第一划分概率阈值和第二划分概率阈值设置不同的值,在随机访问RA(random_access.cfg)快速挡位下编码测试序列,并统计在不同QP、不同CU深度及不同阈值下,上述“提前跳过CU编码策略”和“提前跳过CU划分策略”各自的准确率(precision)和召回率(recall),这两个指标反映了算法决策的准确性和降低编码复杂度的有效性。具体实验配置如表2所示。
Figure BDA0003795992770000161
第一划分概率阈值(TH_UP)的变化将影响“提前跳过CU编码策略”的准确率(precision)和召回率(recall),precision和recall通过式(2)计算得到。在跳过当前CU编码的决策上,式2中A代表经过编码器传统的搜索方法决策,当前CU需要被划分为小块做编码,B代表当前CU满足第一划分概率阈值条件(即所述划分概率大于第一划分概率阈值),将执行跳过当前CU编码策略,Prob(A|B)和Prob(B|A)代表条件概率,N(*)代表对应事件的CU总数,recall越大,代表执行跳过当前CU编码的事件比重越大,降低编码器复杂度也就越多,而precision越大,代表执行跳过当前CU编码的算法策略正确性越高,编码器的压缩性能下降就越少。经实验验证,为了保障编码压缩性能的同时,达到更好的降低编码复杂度效果,采用上述方式设置第一划分概率阈值TH_UP,可保障视频编码在各QP和各深度下,precision高于90%以上,recall 30%~70%。
第二划分概率阈值(TH_DOWN)的变化将影响“提前跳过CU划分策略”的准确率(precision)和召回率(recall),precision和recall通过式(2)计算得到。在跳过当前CU划分的决策上,式2中A代表经过编码器传统的搜索方法决策,当前CU不需要被划分为小块做编码,B代表当前CU满足第二划分概率阈值条件(即所述划分概率小于或者等于第一划分概率阈值),将执行跳过当前CU的划分编码,Prob(A|B)和Prob(B|A)代表条件概率,N(*)代表对应事件的CU总数,recall越大,代表执行跳过当前CU划分事件的占比越大,降低编码器复杂度也就越多,而precision越大,代表执行跳过当前CU划分的算法策略正确性越高,编码器的压缩性能下降就越少。根据实验验证,为了保障编码压缩性能的同时,达到更好的降低编码复杂度效果,采用上述方式设置第二划分概率阈值,可保障视频编码在各QP和各深度下,precision高于90%以上,recall最高达77%。
为了选择优化的编码模式概率阈值(TH_SKIP_INTRA),可在4个不同QP{22,27,32,37}下,分别测试在不同的编码模式概率阈值(TH_SKIP_INTRA)取值情况下“跳过帧内预测模式策略”的准确率(precision)和召回率(recall),其中precision和recall通过式(2)计算得到。在测试中,式中事件A代表经过编码器传统搜索方法决策,得到当前CU的最优模式为帧间模式,事件B代表当前CU满足跳过帧内编码的阈值条件,并执跳过帧内模式编码,Prob(A|B)和Prob(B|A)代表条件概率,N(*)代表对应事件的CU总数。recall越大,代表执行“跳过帧内预测模式策略”的CU占比越大,降低编码器复杂度也就越多,而precision越大,代表“跳过帧内预测模式策略”的正确性越高,编码器的压缩性能下降就越少。根据实验验证,为了保障编码压缩性能的同时,达到最好的降低编码复杂度效果,采用上述方式编码模式概率阈值TH_SKIP_INTRA,可保障在各QP和各深度下,precision高于97%以上,recall最高可达86%。
从上述实施例可见,本申请实施例提供的视频编码方法,通过分层CU划分图(HCPM)表示编码树单元(CTU)的划分结构,通过分层CU模式图(HCMM)表示CTU中各CU的编码模式类型,将多任务学习用于同时加速视频编码器的多个模块的编码过程,包括CU的深度决策过程和CU的模式决策过程,多任务学习模型以HCPM和HCMM作为学习目标,基于该模型对CU深度和编码模式预测的结果,确定编码树单元的划分模式及编码模式。采用这种处理方式,使得用一个深度模型来预测多个目标,能够快速跳过不必要的CU划分过程和CU帧内模式决策过程;因此,可以有效降低较高编码质量下的编码复杂度。
第二实施例
在上述的实施例中,提供了一种视频编码方法,与之相对应的,本申请还提供一种视频编码装置。该装置是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种视频编码装置包括:编码树单元获取单元,第一编码单元,预测单元,第二编码单元。
编码树单元获取单元,用于获取视频帧的编码树单元;第一编码单元,用于获取所述编码树单元的预测残差图像和预测重建图像;预测单元,用于通过多任务学习的预测模型,根据所述预测残差图像和预测重建图像,获取所述编码树单元的分层编码单元划分图和分层编码单元模式图,所述分层编码单元划分图包括编码单元的划分概率,所述分层编码单元模式图包括编码单元的编码模式概率;第二编码单元,用于根据所述划分概率、所述编码模式概率,确定所述编码树单元的划分模式及编码模式。
在一个示例中,所述预测单元包括:共享特征提取单元,用于通过所述预测模型,根据所述预测残差图像和预测重建图像,获取共享特征;第一预测单元,用于根据所述共享特征,获取所述分层编码单元划分图;第二预测单元,用于根据所述共享特征,获取所述分层编码单元模式图。
在一个示例中,所述共享特征提取单元,具体用于通过所述预测模型,根据所述预测残差图像和预测重建图像,获取多个层次的共享特征;所述第一预测单元,具体用于根据多个层次的共享特征,获取所述分层编码单元划分图;所述第二预测单元,具体用于根据多个层次的共享特征,获取所述分层编码单元模式图。
在一个示例中,所述第一预测单元,具体用于根据第一层次、第二层次和第三层次分别对应的共享特征,获取所述分层编码单元划分图;所述第二预测单元,具体用于根据第一层次、第二层次、第三层次和第四层次分别对应的共享特征,获取所述分层编码单元模式图。
在一个示例中,所述共享特征提取单元包括:第一总体特征提取单元,第二总体特征提取单元,第三总体特征提取单元,第四总体特征提取单元,共享特征获取单元。
第一总体特征提取单元,用于根据所述预测残差图像和不同的编码量化参数,获取预测残差图像的总体特征;第二总体特征提取单元,用于根据所述预测重建图像和不同的编码量化参数,获取预测重建图像的总体特征;第三总体特征提取单元,用于根据所述预测残差图像的总体特征和预测重建图像的总体特征,获取第一总体特征;第四总体特征提取单元,用于根据所述第一总体特征,获取第二总体特征;共享特征获取单元,用于根据所述第二总体特征,获取所述共享特征。
在一个示例中,所述预测单元,具体用于根据所述预测残差图像和预测重建图像,获取所述预测残差图像和预测重建图像的归一化数据;根据所述归一化数据,获取所述分层编码单元划分图和分层编码单元模式图。
在一个示例中,所述第一编码单元,具体用于将对所述编码树单元进行帧间编码产生的重建图像作为所述预测重建图像;根据预测重建图像确定所述预测残差图像。
在一个示例中,第二编码单元,具体用于根据所述划分概率,判断是否跳过编码单元在当前深度的编码过程和/或跳过编码单元划分模式编码过程;根据编码模式概率,判断是否跳过编码单元的帧内编码过程或者帧间编码过程。
在一个示例中,所述装置还包括:根据编码单元的深度和编码量化参数,确定与编码单元对应的第一划分概率阈值、第二划分概率阈值和/或编码模式概率阈值。
第三实施例
在上述的实施例中,提供了一种视频编码方法,与之相对应的,本申请还提供一种视频编码预测模型处理方法。该方法是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种视频编码预测模型处理方法包括:
步骤1:获取训练数据集。
所述训练数据包括:残差图像和重建图像与分层编码单元划分图的标注数据和分层编码单元模式图的标注数据之间的对应关系。
关于训练数据集的准备方法,已在实施例一中给出了详细说明,请参考实施例一中的相关部分,此处不再赘述。
步骤2:构建多任务学习的预测模型。
关于预测模型的输入数据、输出数据、基本网络结构和优化网络结构,已在实施例一中给出了详细说明,请参考实施例一中的相关部分,此处不再赘述。
步骤3:根据所述训练数据集,训练所述预测模型的模型参数。
本步骤是通过机器学习方式,从训练数据集内学习得到所述预测模型的模型参数,将模型参数存储,在预测阶段根据模型参数进行相关预测。
从上述实施例可见,本申请实施例提供的视频编码预测模型处理方法,通过构建多任务学习的预测模型,使得该模型用于根据视频帧的编码树单元的预测残差图像和预测重建图像,获取所述编码树单元的分层编码单元划分图和分层编码单元模式图,所述分层编码单元划分图包括编码单元的划分概率,所述分层编码单元模式图包括编码单元的编码模式概率;根据所述划分概率、所述编码模式概率,确定所述编码树单元的划分模式及编码模式。采用这种处理方式,使得用一个深度模型来预测多个目标,能够快速跳过不必要的CU划分过程和CU帧内模式决策过程;因此,可以有效降低较高编码质量下的编码复杂度。
第四实施例
在上述的实施例中,提供了一种视频编码预测模型处理方法,与之相对应的,本申请还提供一种视频编码预测模型处理装置。该装置是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种视频编码预测模型处理装置包括:训练数据获取单元,模型构建单元,模型训练单元。
训练数据获取单元,用于获取训练数据集;训练数据包括:残差图像和重建图像与分层编码单元划分图的标注数据和分层编码单元模式图的标注数据之间的对应关系;模型构建单元,用于构建多任务学习的预测模型;模型训练单元,用于根据所述训练数据集,训练所述预测模型的模型参数。
第五实施例
本申请还提供一种电子设备。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
本实施例的一种电子设备,该电子设备包括:处理器和存储器;存储器,用于存储实现上述视频编码方法或者视频编码预测模型处理方法的程序,该设备通电并通过所述处理器运行该方法的程序。
第六实施例
在上述的实施例中,提供了一种视频编码方法,与之相对应的,本申请还提供一种视频编码系统。该系统是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种视频编码系统包括:上述任一种视频编码装置,视频解码装置。所述视频解码装置属于现有技术范畴,可采用较为成熟的视频解码技术,此处不再赘述。所述视频编码系统可用于直播场景、点播场景、视频会议场景等。
第七实施例
在上述的实施例中,提供了一种视频编码方法,与之相对应的,本申请还提供一种用于直播场景的视频直播方法。该方法是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种视频直播方法包括如下步骤:
步骤201:获取直播视频包括的视频帧的编码树单元。
直播视频也包括多个视频帧,对视频帧的处理方式如实施例一所述,此处不再赘述。
步骤203:获取所述编码树单元的预测残差图像和预测重建图像。
步骤205:通过多任务学习的预测模型,根据所述预测残差图像和预测重建图像,获取所述编码树单元的分层编码单元划分图和分层编码单元模式图,所述分层编码单元划分图包括编码单元的划分概率,所述分层编码单元模式图包括编码单元的编码模式概率。
步骤207:根据所述划分概率、所述编码模式概率,确定所述编码树单元的划分模式及编码模式,以根据所述编码树单元的划分模式及编码模式生成编码数据。
采用这种处理方式,能够快速跳过不必要的CU划分过程和CU帧内模式决策过程;因此,可以有效降低较高编码质量下的编码复杂度,从而提升较高画面质量下的直播视频流畅度。
第八实施例
在上述的实施例中,提供了一种视频编码方法,与之相对应的,本申请还提供一种用于视频点播的视频编码方法。该方法是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种用于视频点播的视频编码方法包括如下步骤:
步骤301:获取点播视频包括的视频帧的编码树单元。
点播视频也包括多个视频帧,对视频帧的处理方式如实施例一所述,此处不再赘述。
步骤303:获取所述编码树单元的预测残差图像和预测重建图像。
步骤305:通过多任务学习的预测模型,根据所述预测残差图像和预测重建图像,获取所述编码树单元的分层编码单元划分图和分层编码单元模式图,所述分层编码单元划分图包括编码单元的划分概率,所述分层编码单元模式图包括编码单元的编码模式概率。
步骤307:根据所述划分概率、所述编码模式概率,确定所述编码树单元的划分模式及编码模式,以根据所述编码树单元的划分模式及编码模式生成编码数据。
采用这种处理方式,能够快速跳过不必要的CU划分过程和CU帧内模式决策过程;因此,可以有效降低较高编码质量下的编码复杂度,从而提升较高画面质量下的点播视频流畅度。
第九实施例
在上述的实施例中,提供了一种视频编码方法,与之相对应的,本申请还提供一种用于视频通话的视频编码方法。该方法是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种用于视频通话的视频编码方法包括如下步骤:
步骤401:获取视频通话包括的视频帧的编码树单元。
通话视频也包括多个视频帧,对视频帧的处理方式如实施例一所述,此处不再赘述。
步骤403:获取所述编码树单元的预测残差图像和预测重建图像。
步骤405:通过多任务学习的预测模型,根据所述预测残差图像和预测重建图像,获取所述编码树单元的分层编码单元划分图和分层编码单元模式图,所述分层编码单元划分图包括编码单元的划分概率,所述分层编码单元模式图包括编码单元的编码模式概率。
步骤407:根据所述划分概率、所述编码模式概率,确定所述编码树单元的划分模式及编码模式,以根据所述编码树单元的划分模式及编码模式生成编码数据。
采用这种处理方式,能够快速跳过不必要的CU划分过程和CU帧内模式决策过程;因此,可以有效降低较高编码质量下的编码复杂度,从而提升较高画面质量下的视频通话画面的流畅度。
第十实施例
在上述的实施例中,提供了一种视频编码方法,与之相对应的,本申请还提供一种用于视频会议的视频编码方法。该方法是与上述方法的实施例相对应。本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。
本申请提供的一种用于视频会议的视频编码方法包括如下步骤:
步骤501:获取视频会议包括的视频帧的编码树单元。
通话视频也包括多个视频帧,对视频帧的处理方式如实施例一所述,此处不再赘述。
步骤503:获取所述编码树单元的预测残差图像和预测重建图像。
步骤505:通过多任务学习的预测模型,根据所述预测残差图像和预测重建图像,获取所述编码树单元的分层编码单元划分图和分层编码单元模式图,所述分层编码单元划分图包括编码单元的划分概率,所述分层编码单元模式图包括编码单元的编码模式概率。
步骤507:根据所述划分概率、所述编码模式概率,确定所述编码树单元的划分模式及编码模式,以根据所述编码树单元的划分模式及编码模式生成编码数据。
采用这种处理方式,能够快速跳过不必要的CU划分过程和CU帧内模式决策过程;因此,可以有效降低较高编码质量下的编码复杂度,从而提升较高画面质量下的视频通话画面的流畅度。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (14)

1.一种视频编码方法,其特征在于,包括:
获取视频帧的编码树单元;
获取所述编码树单元的预测残差图像和预测重建图像;
通过多任务学习的预测模型,根据所述预测残差图像和预测重建图像,获取所述编码树单元的分层编码单元划分图和分层编码单元模式图,所述分层编码单元划分图包括编码单元的划分概率,所述分层编码单元模式图包括编码单元的编码模式概率;
根据所述划分概率、所述编码模式概率,确定所述编码树单元的划分模式及编码模式。
2.根据权利要求1所述的方法,其特征在于,所述通过多任务学习的预测模型,根据所述预测残差图像和预测重建图像,获取所述编码树单元的分层编码单元划分图和分层编码单元模式图,包括:
通过所述预测模型,根据所述预测残差图像和预测重建图像,获取共享特征;
根据所述共享特征,获取所述分层编码单元划分图;
根据所述共享特征,获取所述分层编码单元模式图。
3.根据权利要求2所述的方法,其特征在于,
所述通过所述预测模型,根据所述预测残差图像和预测重建图像,获取共享特征,包括:
通过所述预测模型,根据所述预测残差图像和预测重建图像,获取多个层次的共享特征;
所述根据所述共享特征,获取所述分层编码单元划分图,包括:
根据多个层次的共享特征,获取所述分层编码单元划分图;
所述根据所述共享特征,获取所述分层编码单元模式图,包括:
根据多个层次的共享特征,获取所述分层编码单元模式图。
4.根据权利要求3所述的方法,其特征在于,
所述根据多个层次的共享特征,获取所述分层编码单元划分图,包括:
根据第一层次、第二层次和第三层次分别对应的共享特征,获取所述分层编码单元划分图;
所述根据多个层次的共享特征,获取所述分层编码单元模式图,包括:
根据第一层次、第二层次、第三层次和第四层次分别对应的共享特征,获取所述分层编码单元模式图。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述获取所述编码树单元的预测残差图像和预测重建图像,包括:
将对所述编码树单元进行帧间编码产生的重建图像作为所述预测重建图像;
根据预测重建图像确定所述预测残差图像。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述划分概率、所述编码模式概率,确定所述编码树单元的划分模式及编码模式,包括:
根据所述划分概率,判断是否跳过编码单元在当前深度的编码过程和/或跳过编码单元划分模式编码过程;
根据编码模式概率,判断是否跳过编码单元的帧内编码过程或者帧间编码过程。
7.一种视频编码预测模型处理方法,其特征在于,包括:
获取训练数据集;训练数据包括:残差图像和重建图像与分层编码单元划分图的标注数据和分层编码单元模式图的标注数据之间的对应关系;
构建多任务学习的预测模型;
根据所述训练数据集,训练所述预测模型的模型参数。
8.一种视频编码装置,其特征在于,包括:
编码树单元获取单元,用于获取视频帧的编码树单元;
第一编码单元,用于获取所述编码树单元的预测残差图像和预测重建图像;
预测单元,用于通过多任务学习的预测模型,根据所述预测残差图像和预测重建图像,获取所述编码树单元的分层编码单元划分图和分层编码单元模式图,所述分层编码单元划分图包括编码单元的划分概率,所述分层编码单元模式图包括编码单元的编码模式概率;
第二编码单元,用于根据所述划分概率、所述编码模式概率,确定所述编码树单元的划分模式及编码模式。
9.一种电子设备,其特征在于,包括:
处理器和存储器;
存储器,用于存储实现根据权利要求1-7任一项所述的方法的程序,该设备通电并通过所述处理器运行该方法的程序。
10.一种视频处理系统,其特征在于,包括:
根据权利要求8所述的视频编码装置;以及,视频解码装置。
11.一种视频直播方法,其特征在于,包括:
获取直播视频包括的视频帧的编码树单元;
获取所述编码树单元的预测残差图像和预测重建图像;
通过多任务学习的预测模型,根据所述预测残差图像和预测重建图像,获取所述编码树单元的分层编码单元划分图和分层编码单元模式图,所述分层编码单元划分图包括编码单元的划分概率,所述分层编码单元模式图包括编码单元的编码模式概率;
根据所述划分概率、所述编码模式概率,确定所述编码树单元的划分模式及编码模式,以根据所述编码树单元的划分模式及编码模式生成编码数据。
12.一种用于视频点播的视频编码方法,其特征在于,包括:
获取点播视频包括的视频帧的编码树单元;
获取所述编码树单元的预测残差图像和预测重建图像;
通过多任务学习的预测模型,根据所述预测残差图像和预测重建图像,获取所述编码树单元的分层编码单元划分图和分层编码单元模式图,所述分层编码单元划分图包括编码单元的划分概率,所述分层编码单元模式图包括编码单元的编码模式概率;
根据所述划分概率、所述编码模式概率,确定所述编码树单元的划分模式及编码模式,以根据所述编码树单元的划分模式及编码模式生成编码数据。
13.一种用于视频通话的视频编码方法,其特征在于,包括:
获取视频通话包括的视频帧的编码树单元;
获取所述编码树单元的预测残差图像和预测重建图像;
通过多任务学习的预测模型,根据所述预测残差图像和预测重建图像,获取所述编码树单元的分层编码单元划分图和分层编码单元模式图,所述分层编码单元划分图包括编码单元的划分概率,所述分层编码单元模式图包括编码单元的编码模式概率;
根据所述划分概率、所述编码模式概率,确定所述编码树单元的划分模式及编码模式,以根据所述编码树单元的划分模式及编码模式生成编码数据。
14.一种用于视频会议的视频编码方法,其特征在于,包括:
获取视频会议包括的视频帧的编码树单元;
获取所述编码树单元的预测残差图像和预测重建图像;
通过多任务学习的预测模型,根据所述预测残差图像和预测重建图像,获取所述编码树单元的分层编码单元划分图和分层编码单元模式图,所述分层编码单元划分图包括编码单元的划分概率,所述分层编码单元模式图包括编码单元的编码模式概率;
根据所述划分概率、所述编码模式概率,确定所述编码树单元的划分模式及编码模式,以根据所述编码树单元的划分模式及编码模式生成编码数据。
CN202210969495.3A 2022-08-03 2022-08-12 视频编码方法和装置 Pending CN115484464A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2022109267737 2022-08-03
CN202210926773 2022-08-03

Publications (1)

Publication Number Publication Date
CN115484464A true CN115484464A (zh) 2022-12-16

Family

ID=84422816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210969495.3A Pending CN115484464A (zh) 2022-08-03 2022-08-12 视频编码方法和装置

Country Status (1)

Country Link
CN (1) CN115484464A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117014610A (zh) * 2023-10-07 2023-11-07 华侨大学 基于多任务学习的h.266vvc屏幕内容帧内cu快速划分方法及装置
CN117319679A (zh) * 2023-07-20 2023-12-29 南通大学 一种基于长短时记忆网络的hevc帧间快速编码方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117319679A (zh) * 2023-07-20 2023-12-29 南通大学 一种基于长短时记忆网络的hevc帧间快速编码方法
CN117014610A (zh) * 2023-10-07 2023-11-07 华侨大学 基于多任务学习的h.266vvc屏幕内容帧内cu快速划分方法及装置
CN117014610B (zh) * 2023-10-07 2023-12-29 华侨大学 基于多任务学习的h.266vvc屏幕内容帧内cu快速划分方法及装置

Similar Documents

Publication Publication Date Title
CN110087087B (zh) Vvc帧间编码单元预测模式提前决策及块划分提前终止方法
RU2509436C1 (ru) Способ и устройство для кодирования и декодирования блока кодирования границы картинки
CN115484464A (zh) 视频编码方法和装置
US20170085892A1 (en) Visual perception characteristics-combining hierarchical video coding method
WO2014190468A1 (en) Video encoder for images
CN109688407B (zh) 编码单元的参考块选择方法、装置、电子设备及存储介质
CN103891278A (zh) 图像编码以及解码方法、装置、程序
CN111316642B (zh) 信令图像编码和解码划分信息的方法和装置
CN104904202A (zh) 用于使用参考画面信息进行并行视频编码的方法和设备以及用于使用参考画面信息进行并行视频解码的方法和设备
US20120219057A1 (en) Video encoding apparatus and video encoding method
CN108989799B (zh) 一种编码单元参考帧的选择方法、装置及电子设备
CN109246430B (zh) 虚拟现实360度视频快速帧内预测和cu划分提前决策
CN111741297A (zh) 帧间预测方法、视频编码方法及其相关装置
CN112188196A (zh) 一种基于纹理的通用视频编码帧内快速预测的方法
KR20170084213A (ko) 디지털 이미지의 블록을 처리하는 시스템 및 방법
CN1604650A (zh) 用于分级运动估计的方法
CN112291562A (zh) 针对h.266/vvc的快速cu分区和帧内模式决策方法
CN111447452A (zh) 数据编码方法及系统
CN1457196A (zh) 基于时空域相关性运动矢量预测的视频编码方法
CN103959788B (zh) 通过模式匹配在解码器层面的运动估计
CN113422959A (zh) 视频编解码的方法、装置、电子设备及存储介质
CN116489385A (zh) 视频编码方法、解码方法、装置、电子设备及存储介质
CN116193140A (zh) 基于lcevc的编码方法、解码方法及译码设备
Zhang et al. Macro-block-level selective background difference coding for surveillance video
CN111918059B (zh) 硬件友好的基于回归树的帧内预测模式决策方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination