CN114222127A

CN114222127A - 一种视频编码方法、视频解码方法及装置

Info

Publication number: CN114222127A
Application number: CN202111291248.4A
Authority: CN
Inventors: 张涵祺
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-03-22

Abstract

本发明公开了一种视频编码方法、视频解码方法及装置，其中，视频编码方法包括：获取待编码视频帧，使用分辨率预测网络，所述网络用于利用视频帧的空时域相关性，通过卷积神经网络以及循环神经网络对其建模，输出待编码视频帧对应的下采样比例，根据所述下采样比例和原始分辨率对所述待编码视频帧分别进行编码，根据失真值和调整后的率失真值，得到最优分辨率，添加所述最优分辨率标识至编码数据中。本发明提出的视频编码、解码方法及装置能够自适应地选择下采样信息，在保证主观质量的前提下，提高视频编码的压缩率，解决了相关技术中采用相同分辨率对视频进行编解码导致峰值信噪比波动较大的技术问题。

Description

一种视频编码方法、视频解码方法及装置

技术领域

本发明涉及视频技术领域，具体而言，涉及一种视频编码方法、视频解码方法及装置。

背景技术

随着数字媒体技术和计算机技术的发展，视频应用于各个领域，如移动通信、网络监控、网络电视等。随着硬件性能和屏幕分辨率的提高，用户对高清视频的需求日益强烈。在带宽有限的条件下，传统的编码器对视频帧无区分地进行编码，可能出现某些场景视频质量差的问题，如在750kbps时，对于所有视频帧不加区分地进行编码时，存在部分视频帧质量差的情况，分析H.264\H.265\iOS等编码器都存在相似问题。

在现有的视频编码过程中，如图1所示，如果对于视频中的所有帧都采用了高分辨率进行编码，则在传输的带宽比较小(例如，小于图1中所示的带宽阈值Th)的情况下，对于视频中所有帧采用高分辨率进行编码时所对应的峰值信噪比PSNR1要低于对于视频中部分帧采用低分辨率进行编码时所对应的峰值信噪比PSNR2，也就是说，在传输带宽较小时采用高分辨率进行编码时的峰值信噪比PSNR1相对较小，失真相对较大。

同理，如果对于视频中所有帧都采用了低分辨率进行编码，则在传输的带宽比较大(例如，大于图1中所示的带宽阈值Th)的情况下，对于视频中的所有帧采用低分辨率进行编码时所对应的峰值信噪比PSNR3要低于对于视频中的所有帧采用高分辨率进行编码时所对应的峰值信噪比PSNR4，也就是说，在传输带宽较大时采用低分辨率进行编码时的峰值信噪比PSNR3相对较小，失真相对较大。

此外，对于不同类型的视频或者同一视频中的不同帧或者同一帧中的不同块，如图1中所示的交点D会移动，从而增加了现有技术中选择哪种分辨率对视频中的帧进行编码的选择难度。

发明内容

本发明为了克服以上技术的不足，提供了一种可以自适应选择下采样比例，提高在带宽有限下的视频质量的视频解码方法、视频编码方法及装置，解决相关技术中采用相同分辨率对视频进行编解码导致峰值信噪比波动较大的技术问题。

本发明克服其技术问题所采用的技术方案是：

一种视频编码方法，包括：获取待编码视频帧；基于分辨率预测网络得到所述待编码视频帧对应的下采样比例；根据所述下采样比例和原始分辨率分别对所述待编码视频帧进行编码，从而对应得到第一编码数据和第二编码数据，以及，获得分别基于下采样比例编码得到的第一重建视频帧和基于原始分辨率编码得到的第二重建视频帧；基于第一或第二重建视频帧的类型调整第二重建视频帧的率失真值从而得到第二率失真值；基于第一重建视频帧和第二重建视频帧的失真值比较结果，以及，第一重建视频帧的第一率失真值与第二重建视频帧的第二率失真值的比较结果，从而确定最优分辨率；添加所述最优分辨率标识至对应的第一编码数据或第二编码数据中，从而得到编码数据。

进一步的，根据所述下采样比例和原始分辨率分别对所述待编码视频帧进行编码，从而对应得到第一编码数据和第二编码数据，以及，获得分别基于下采样比例编码得到的第一重建视频帧和基于原始分辨率编码得到的第二重建视频帧，包括：根据所述原始分辨率对所述待编码视频帧进行编码，得到第二重建视频帧以及对应的第二编码数据；根据所述下采样比例对所述待编码视频帧进行下采样处理，得到第一重建视频帧；获取所述第一重建视频帧或所述待编码视频帧的参考帧；根据所述下采样比例对所述参考帧进行处理得到第一参考帧；根据第一参考帧对第一重建视频进行编码，得到第一编码数据。

进一步的，基于第一或第二重建视频帧的类型调整第二重建视频帧的率失真值从而得到第二率失真值，包括：若重建视频帧的视频类型为I帧或P帧或被参考的B帧，则将第二重建视频帧的率失真值减小预设第一比例值，若重建视频帧类型为不被参考的B帧，则将第二重建视频帧的率失真值增大预设第二比例值，调整后的率失真值作为第二率失真值。

进一步的，基于第一重建视频帧和第二重建视频帧的失真值比较结果，以及，第一重建视频帧的第一率失真值与第二重建视频帧的第二率失真值的比较结果，从而确定最优分辨率，包括：若第一重建视频帧的失真值小于第二重建视频的失真值，且第一重建视频帧的第一率失真值小于第二重建视频帧的第二率失真值，则最优分辨率为下采样比例，否则，最优分辨率为原始分辨率。

进一步的，所述添加所述最优分辨率标识至对应的第一编码数据或第二编码数据中，从而得到编码数据，包括：若最优分辨率为下采样比例，则将最优分辨率标识添加至第一编码数据中，并将添加最优分辨率标识后的第一编码数据作为编码数据；若最优分辨率为原始分辨率，则将最优分辨率标识添加至第二编码数据中，并将添加最优分辨率标识后的第二编码数据作为编码数据。

进一步的，所述分辨率预测网络用于利用待编码视频帧的空时域相关性，通过卷积神经网络以及循环神经网络对待编码视频帧建模，输出待编码视频帧对应的下采样比例。

为了实现上述目的，本发明还提出了一种视频解码方法，包括：获取包括权利要求1-6任一项所述的编码数据的待解码视频帧；从所述编码数据中获取对应待解码视频帧的最优分辨率标识，并基于最优分辨率标识得到所述待解码视频帧的解码分辨率；基于所述解码分辨率对所述待解码视频帧进行解码得到解码视频帧。

进一步的，所述基于所述解码分辨率对所述待解码视频帧进行解码得到解码视频帧，包括：获取所述待解码视频帧对应的参考帧；根据所述解码分辨率对所述参考帧进行处理得到第二参考帧；根据解码分辨率以及第二参考帧对编码数据进行解码，从而得到重建视频帧；根据原始分辨率对所述重建视频帧进行处理得到解码视频帧。

为了实现上述目的，本发明还提出了一种视频解码装置，所述装置包括：第一获取模块，用于获取待解码视频帧对应的编码数据；第二获取模块，作为最优分辨率获取模块，用于从所述编码数据中获取与所述待解码视频帧对应的解码分辨率；解码模块，用于根据所述待解码视频帧对应的解码分辨率对所述编码数据进行解码，得到对应的解码视频帧。

为了实现上述目的，本发明还提出了一种视频编码装置，所述装置包括：第三获取模块，用于获取待编码视频帧；第一确定模块，用于确定与所述待编码视频帧对应的下采样比例；编码模块，用于根据所述原始分辨率和下采样比例对所述待编码视频帧分别进行编码，获取使用原始分辨率编码视频帧的编码数据和使用下采样比例编码视频帧的编码数据；添加模块，用于分别比较使用下采样比例编码得到的重建视频帧和使用原始分辨率编码得到的重建视频帧的失真值大小和根据视频帧类型调整后的率失真值大小，确定最优分辨率，将所述最优分辨率添加至所述编码数据。

本发明的有益效果是：

本发明提出的一种视频编码方法、视频解码方法及装置，通过获取输入视频帧，并使用分辨率预测网络根据输入视频帧输出对应的下采样比例，然后根据下采样比例和原始分辨率对输入视频帧分别进行编码得到与输入视频帧对应的编码数据，分别比较使用下采样比例编码得到的重建视频帧和使用原始分辨率编码得到的重建视频帧的失真值大小和根据视频帧类型调整后的率失真值大小，确定最优分辨率，将所述最优分辨率标识添加至所述编码数据。上述编码方法通过将最优分辨率标识添加至编码数据中，可以在编码过程中为每个输入视频帧灵活地自适应的选择更加适合的分辨率，这样无论是在传输的带宽比较小的情况下，还是在传输的带宽比较大的情况下，对应的峰值信噪比都相对较大，失真相对较小，从而保证了峰值信噪比能够在一个较小的范围内变化，并且峰值信噪比都相对较大，从而实现了避免对视频进行编解码的峰值信噪比波动较大的技术效果，进而解决了相关技术中采用相同分辨率对视频进行编解码导致峰值信噪比波动较大的技术问题，有利于提高在带宽有限下的视频质量。

附图说明

图1为相关技术中编解码方式的峰值信噪比的示意图；

图2为本发明一个实施例中视频编码方法的应用环境图；

图3为本发明一个实施例中视频编码方法对应的编码框架图；

图4为本发明一个实施例中视频解码方法对应的解码框架图；

图5为本发明一个实施例中编码块对应的示意图；

图6是根据本发明实施例的一种可选的视频编码方法的示意图；

图7是根据本发明实施例的一种可选的视频编码方法的应用环境示意图；

图8是根据本发明实施例的一种可选的视频解码方法的示意图；

图9是根据本发明实施例的一种可选的视频解码方法的应用环境示意图；

图10是根据本发明实施例的一种可选的视频解码装置的示意图；

图11是根据本发明实施例的一种可选的视频编码装置的示意图；

图12是根据本发明实施例的一种可选的视频编解码方法的应用场景示意图；

图13是根据本发明实施例的一种可选的电子装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图2为一个实施例中视频编码、视频解码方法的应用环境图。如图2所示，该应用环境包括终端210和服务器220，其中终端210、服务器220通过网络进行通信。终端210具体可以是台式终端或移动终端，移动终端具体可以是手机、平板电脑、笔记本电脑等中的至少一种。服务器220可以用独立的服务器或者是多个服务器组成的服务器集群来实现。视频编码方法、视频解码方法可以在终端210或服务器220中完成。终端210或服务器220可以通过编码器进行视频编码，或者通过解码器进行视频解码。终端210或服务器220也可以通过处理器运行视频编码程序进行视频编码，或者通过处理器运行视频解码程序进行视频解码。服务器220通过输入接口接收到终端210发送的编码数据后，可直接传递至处理器进行解码，也可存储至数据库中等待后续解码。服务器220在通过处理器对原始视频帧编码得到编码数据后，可直接通过输出接口发送至终端210，也可将编码数据存储至数据库中等待后续传递。

图3为一个实施例中提供的视频编码方法对应的编码框架图，本发明实施例提供的视频编码方法可以获取输入视频序列的各个输入视频帧进行编码，得到对应的待编码视频帧。其中，在处理方式决策单元302处，可以对待编码视频进行处理方式决策，得到待编码视频帧对应的处理方式，即通过分辨率预测网络，利用待编码视频帧的空时域相关性，通过卷积神经网络以及循环神经网络，输出待编码视频帧的下采样比例。在处理单元304处，可以根据处理方式对待编码视频帧进行处理，即根据所述下采样比例和原始分辨率对所述待编码视频帧分别进行编码。在第一预测单元306处，可以根据所述下采样比例和原始分辨率对所述待编码视频帧的各个编码块进行帧内预测或者帧间预测，并根据编码块对应的参考块的图像值得到预测值以及对应的运动矢量，将编码块实际值与预测值相减得到预测残差，运动矢量表示编码块相对于参考块的位移。在变换单元308处，将空间域中的预测残差以及矢量信息变换到频率域，并可以对变换系数进行编码。变换的方法可以为离散傅里叶变换或者离散余弦变换等等，矢量信息可以为表示位移的实际运动矢量或者运动矢量差值，运动矢量差值为实际运动矢量与预测运动矢量的差值。

在量化单元310处，将变换后的数据映射成另一个数值，例如可以通过变换后的数据除以量化步长得到一个较小的值。量化参数是量化步长对应的的序号，根据量化参数可以查找到对应的量化步长。量化参数小，则待编码视频帧的大部分的细节都会被保留，对应的码率高。量化参数大，则对应的码率低，但待编码视频帧失真较大、质量不高。例如，在一些视频编码标准中，对于亮度编码而言，量化步长共有52个值，为0～51之间的整数，对于色度编码，量化步长的取值为0～39之间的整数，且量化步长随着量化参数的增加而增加，每当量化参数增加6，量化步长便增加一倍。

第一反量化单元312、第一反变换单元314、第一重建单元316以及参考信息自适应单元318是重建路径对应的单元，利用重建路径的各个单元对使用下采样比例编码的视频帧进行重建得到下采样比例的重建视频帧，利用重建路径的各个单元对使用原始分辨率编码的视频帧进行重建得到原始分辨率的重建视频帧，其中第一反量化单元312进行的步骤是进行量化的逆过程，第一反变换单元314进行的步骤是是变换单元310进行变换的逆过程，第一重建单元316用于将反变换得到的残差数据加上预测数据得到重建视频帧。分别比较使用下采样比例编码得到的重建视频帧和使用原始分辨率编码得到的重建视频帧的失真值大小和根据视频帧类型调整后的根据视频帧类型调整后的率失真值大小，确定最优分辨率。

熵编码单元320用于进行熵编码，根据最优分辨率为下采样比例，则将下采样比例编码数据进行熵编码，若最优分辨率为原始分辨率，则将原始分辨率编码数据进行熵编码，同时将最优分辨率标识加入编码数据中进行熵编码。熵编码为按熵原理进行编码，且不丢失任何信息的数据编码方式，能够利用较小的字符来表达一定的信息。熵编码方法例如可以为香农编码(Shannon)或者哈夫曼编码(Huffman)等。最后通过存储发送单元322存储或者发送编码数据，或者存储并发送编码数据。

图4为一个实施例中提供的视频解码方法对应的解码框架图，本发明实施例提供的视频解码方法可以通过编码数据获取单元400获取待解码视频序列的各个待解码视频帧对应的编码数据，通过熵解码单元402进行熵解码后，得到熵解码数据，第二反量化单元404对熵解码数据进行反量化，得到反量化数据，第二反变换单元406对反量化数据进行反变换，得到反变换的数据，该反变换的数据可以与图3中第一反变换单元314进行反变换后得到的数据是一致的。分辨率信息获取单元408用于获取待解码视频帧对应的最优分辨率标识。第二参考信息自适应单元412用于获取第二重建单元重建得到当前参考帧，根据待解码视频帧的最优分辨率标识对当前参考帧、待解码视频帧的各个待解码块对应的位置信息、当前参考帧的各个参考块对应的位置信息以及运动矢量等参考信息中的至少一个进行自适应处理，根据自适应处理后的信息进行预测。第二预测单元414根据自适应后得到的参考信息获取待解码块对应的参考块，根据参考块的图像值得到与图3中的预测值一致的预测值。第二重建单元410根据预测值以及反变换的数据即预测残差进行重建，得到重建视频帧。第二处理单元416根据待解码视频帧对应的最优分辨率标识对重建视频帧进行处理，得到对应的解码视频帧。播放存储单元418可以对解码视频帧进行播放或者存储，或者进行播放以及存储。

可以理解，上述的编码框架图、解码框架图仅是一种示例，并不构成对本申请方案所应用于的编码方法的限定，具体的编码框架图以及解码框架图可以包括比图中所示更多或更少的单元，或者组合某些单元，或者具有不同的部件单元不知。例如，还可以对重建视频帧进行环路滤波，降低视频帧的方块效应，以提高视频质量。

可以将待编码视频帧划分为多个编码块，编码块的大小可以根据需要进行设置或者计算得到。例如编码块的大小可以均为8*8像素。或者可以通过计算各种编码块的划分方式对应的率失真代价，选择率失真代价小的划分方式进行编码块的划分。如图5所示为一个64*64像素图像块的划分示意图，一个方块代表一个编码块。由图5可知，编码块的大小可以包括32*32像素、16*16像素、8*8像素以及4*4像素。当然，编码块的大小也可是其他大小，例如可以是32*16像素或者是64*64像素。可以理解，在解码时，由于编码块与待解码块是一一对应的，因此待解码块的像素大小也可以包括32*32像素、16*16像素、8*8像素以及4*4像素等。

根据本发明实施例的另一个方面，提供了一种视频编码方法，如图6所示，该方法包括：

S601，获取待编码视频帧；

S602，基于分辨率预测网络得到所述待编码视频帧对应的下采样比例；

S603，根据所述下采样比例和原始分辨率分别对所述待编码视频帧进行编码，从而对应得到第一编码数据和第二编码数据，以及，获得分别基于下采样比例编码得到的第一重建视频帧和基于原始分辨率编码得到的第二重建视频帧；

S604，基于第一或第二重建视频帧的类型调整第二重建视频帧的率失真值从而得到第二率失真值；

S605、基于第一重建视频帧和第二重建视频帧的失真值比较结果，以及，第一重建视频帧的第一率失真值与第二重建视频帧的第二率失真值的比较结果，从而确定最优分辨率；

S606、添加所述最优分辨率标识至对应的第一编码数据或第二编码数据中，从而得到编码数据。

可选地，在本实施例中，上述视频编码方法可以应用于如图7所示的服务器902、服务器702、客户端904和客户端704所构成的硬件环境中。如图9所示，服务器902获取到客户端904采集的待编码视频帧，其中，待编码视频帧通过分辨率预测网络得到下采样比例。采用下采样比例和原始分辨率对待编码视频帧进行编码。分别比较使用下采样比例编码得到的重建视频帧和使用原始分辨率编码得到的重建视频帧的失真值大小和根据视频帧类型调整后的率失真值大小，确定最优分辨率；添加所述最优分辨率标识至编码数据中；服务器902将编码后得到的视频发送给服务器702进行解码。服务器702将解码后的视频发送给客户端704进行播放。

需要说明的是，其中针对一个视频，将要对这个视频进行编码、压缩、解码得到一个新视频，需要为将要得到的新视频设置一个分辨率，即希望新视频具有的分辨率，这个分辨率就是所述的原始分辨率。

另外，需要说明的是，待解码视频帧解码完成后，作为后续待解码视频帧的参考帧。待解码视频帧会记录自己参考了前面已经完成解码的帧中的哪些帧。

可选地，在本实施例中，上述视频编码方法可以但不限于应用于音视频处理的场景中。比如：客户端A与客户端B进行视频通话，客户端A侧和客户端B侧分别采集视频画面，对采集到的视频画面进行编码，将编码后的视频发送给对方，在对方对接收到的视频进行解码，并播放解码后的视频。

可选地，在本实施例中，上述视频编码方法还可以但不限于应用于视频文件的播放、视频直播等场景中。

其中，上述客户端可以但不限于为各种类型的应用，例如，在线教育应用、即时通讯应用、社区空间应用、游戏应用、购物应用、浏览器应用、金融应用、多媒体应用、直播应用等。具体的，可以但不限于应用于在上述即时通讯应用中对音视频进行处理的场景中，或还可以但不限于应用于在上述多媒体应用中对音视频进行处理的场景中，以避免对视频进行编解码的峰值信噪比波动较大。

可见，通过上述步骤，对于视频中的不同帧自适应采用对应的分辨率进行编码，这样无论是在传输的带宽比较小的情况下，还是在传输的带宽比较大的情况下，对应的峰值信噪比都相对较大，失真相对较小，从而保证了峰值信噪比能够在一个较小的范围内变化，并且峰值信噪比都相对较大，从而实现了避免对视频进行编解码的峰值信噪比波动较大的技术效果，进而解决了相关技术中采用相同分辨率对视频进行编解码导致峰值信噪比波动较大的技术问题。

作为一种可选的方案，所述为所述多个视频帧分别确定一个对应的最优分辨率，包括：

S1,通过分辨率预测网络获取所述待编码视频帧的下采样比例；

S2,根据所述下采样比例和原始分辨率对所述待编码视频帧分别进行编码；

S3,分别比较使用下采样比例编码得到的重建视频帧和使用原始分辨率编码得到的重建视频帧的失真值大小和根据视频帧类型调整后的率失真值大小，确定最优分辨率。

作为一种可选的方案，通过分辨率预测网络获取所述待编码视频帧的下采样比例,包括：利用视频帧的空时域相关性，通过卷积神经网络以及循环神经网络对其建模，输出待编码视频帧对应的下采样比例。

可选地，在本实施例中，设计多层的深度神经网络，神经网络每层的滤波器尺寸和数量均经过充分调整以最大化性能。具体实现的细节中，输入端数据经过归一化处理，中间层的激活函数针对本发明中需要输出下采样比例的特性，选用适应于下采样比例的激活函数(如Sigmoid、Tanh函数)，其余层的激活函数仍保持提高收敛速度、防止过拟合(如RELU函数)，梯度下降优化算法选用自适应优化器(如Adam)，经过充分验证，以上各项设置能够最大化网络性能。神经网络为网络的每一层根据特征数量设置不同的feature map数(以七层全连接网络为例，网络节点可为192-300-192-(中间节点)-192-300-192)。

作为一种可选的方案，下采样方法是指具体采用的采样方法，常见的采样方法包括：抽点、直接平均、滤波器、双线性插值、双三次插值、基于CNN(卷积神经网络)的算法，基于统计特性的方法等。不同的采样方法对应的计算复杂度不同。可以根据应用环境自适应地选择下采样方法。

可选地，在本实施例中，输入视频帧对应的下采样方法与当前环境因素有关，比如，与对当前视频的实时要求的高低有关。如果对实时要求比较高的，一般采用计算复杂度低的采样方法，如果对实时性要求不太高的，采用计算复杂度较高的采样方法。下采样方法的计算复杂度越高，相应得到的视频质量越好。在一个实施例中，当前环境因素还包括：机型、CPU占用率、CPU核数、CPU内存等中的至少一种。一般来说，如当前环境因素能够处理的计算复杂度越高，相应选择计算复杂度越高的下采样方法，反之，选择计算复杂度越低的下采样方法，这样有利于在保证视频质量的同时提高编码速度。

作为一种可选的方案，根据所述下采样比例和原始分辨率分别对所述待编码视频帧进行编码，从而对应得到第一编码数据和第二编码数据，以及，获得分别基于下采样比例编码得到的第一重建视频帧和基于原始分辨率编码得到的第二重建视频帧,包括：

S31，根据原始分辨率对所述待编码视频帧进行编码，得到第二重建视频帧以及对应的第二编码数据；

S32，根据所述下采样比例对所述待编码视频帧进行下采样处理，得到第一重建视频帧；

S33，获取所述第一重建帧或所述待编码视频帧的参考帧；

S34，根据所述下采样比例对所述参考帧进行处理得到第一参考帧；

S35，基于第一参考帧对第一重建视频帧进行编码，从而得到第一重建视频帧的第一编码数据。

可选地，在本实施例中，失真值可以选择PSNR,SSIM,VMAF等任意视频质量评价标准进行比较，取决于想要提高视频图像的哪方面质量，例如，想提高视频的主观质量，则可以采用VMAF作为选择最优分辨率的标准。

可选地，在本实施例中，率失真值采用J(s,c,m|QP,λ_m)＝SSD(s,c,m|QP)+λ_mR(s,c,m|QP)公式进行计算，其中QP是宏块的量化参数，λm是拉格朗日乘数，与QP有关，SSD(.)是原始亮度块s与重建块c之间的差值平方和，R(.)是利用模式m进行编码的比特数。

可选地，在本实施例中，率失真值的获取方式可以采用将所有编码块的率失真值相加，也可以使用所有编码块的率失真值平均数代替率失真值进行比较，也可以针对整个视频图像重新计算得到的率失真值。

可选地，在本实施例中，可以在失真值的比较过程以及率失真值的比较过程中加入阈值进行比较，均衡节省比特率和提高视频质量的效果。例如，可以在使用下采样比例编码得到的视频图像的失真值低于使用原始分辨率编解码得到的视频图像的失真值的1.2倍时，选择下采样分辨率作为此视频图像的最优分辨率，在这种实施方式中，可以选择更多的下采样分辨率编码得到的视频帧，节省更多的比特，同时保持比较好的视频质量。

可选地，在本实施例中，率失真值的比较也可以加入阈值，例如，当使用下采样比例编码得到的视频帧的率失真值低于使用原始分辨率编解码得到的视频帧的率失真值的0.9倍时，选择下采样分辨率作为此视频图像的最优分辨率，此种实施方式可以达到节省更多比特的有益结果。

作为一种可选的方案，分别比较使用下采样比例编码得到的重建视频帧和使用原始分辨率编码得到的重建视频帧的失真值大小和根据视频帧类型调整后的率失真值大小，确定最优分辨率,包括：

S1,采用所述下采样比例和原始分辨率对待编码视频帧进行编码，得到所述待编码视频帧对应的已编码数据；

S2,根据失真值大小和率失真值大小确定所述每个视频帧对应的标志位数据，其中，所述标志位数据用于标识所述每个视频帧所对应的最优分辨率；

S3,将所述最优分辨率标志位数据作为语法元素添加到所述每个视频帧对应的已编码数据中。

可选地，在本实施例中，用于指示编码每个视频帧所采用的分辨率的语法元素可以是位于待解码视频帧的固定位置上的一段数据，在该位置上不同的数据值代表了不同的分辨率。可以将代表视频帧对应的分辨率的语法元素添加在该位置上。

可选地，在本实施例中，在语法元素中可以直接用不同的标识值来表示不同的分辨率。比如：分辨率1用00表示，分辨率2用01表示，分辨率3用10表示，分辨率4用11表示。需要说明的是，标识值表示分辨率的方式不仅于此，可以采用各种能够区分分辨率的标识值表示方式来指示不同区域采用的不同分辨率。

可选地，在本实施例中，可以但不限于通过以下方式确定标志位数据：

S1，根据所述每个视频帧对应的分辨率与所述每个视频帧的前一个视频帧对应的分辨率之间的关系确定所述每个视频帧对应的标识值；

S2,将所述每个视频帧所对应的标识值确定为所述标志位数据。

可选地，在本实施例中，当前视频帧对应的标识值可以是用来指示当前视频帧的分辨率与当前视频帧的前一个视频帧的分辨率之间的关系的。根据当前视频帧的分辨率与前一个视频帧的分辨率之间的关系确定出每个视频帧对应的标识值。

作为一种可选的方案，根据所述每个视频帧对应的分辨率与所述每个视频帧的前一个视频帧对应的分辨率之间的关系确定所述每个视频帧对应的标识值，包括：

S1，在所述每个视频帧对应的分辨率与所述每个视频帧的前一个视频帧对应的分辨率相同的情况下，确定所述每个视频帧对应的标识值为第一标识值；

S2，在所述每个视频帧对应的分辨率与所述每个视频帧的前一个视频帧对应的分辨率不同的情况下，确定所述每个视频帧对应的标识值为第二标识值。

可选地，在本实施例中，分辨率之间的关系可以但不限于包括：分辨率相同或者分辨率不同。使用第一标识值来表示分辨率相同，使用第二标识值来表示分辨率不同。例如：使用1来标识分辨率相同，使用0来表示分辨率不同，或者，使用0来表示分辨率相同，使用1来表示分辨率不同。

可选地，在本实施例中，对于每一个帧中的第一个视频帧来说，可以使用标识值来直接表示该视频帧所采用的分辨率。

可选地，在本实施例中，还可以根据所述每个视频帧对应的第一分辨率与所述待编码视频帧的参考视频帧中与的第二分辨率之间的关系，为所述每个视频帧确定标志位数据。

作为一种可选的方案，根据所述每个视频帧对应的第一分辨率与所述待编码视频帧的参考视频帧中的第二分辨率之间的关系，为所述每个视频帧确定标志位数据，包括：

S1，根据所述每个视频帧对应的第一分辨率与所述参考视频帧的第二分辨率之间的关系确定所述每个视频帧对应的标识值；

S2,将所述每个视频帧所对应的标识值确定为标志位数据。

可选地，在本实施例中，分辨率之间的关系可以使用标识值来表示，标识值可以表示分辨率是否相同，分辨率对应的等级之间的差距等。

可选地，在本实施例中，可以将每个视频帧对应的标识值添加到标志位数据的位置上。

作为一种可选的方案，根据所述每个视频帧对应的第一分辨率与所述参考视频帧的第二分辨率之间的关系确定所述每个视频帧对应的标识值，包括：

S1，在所述每个视频帧对应的第一分辨率与所述参考区域对应的第二分辨率相同的情况下，确定所述每个视频帧对应的标识值为第一标识值；

S2,在所述每个视频帧对应的第一分辨率与所述参考视频帧对应的第二分辨率不同的情况下，确定所述每个视频帧对应的标识值为第二标识值。

可选地，在本实施例中，如果每个视频帧的分辨率与参考视频帧的分辨率相同，可以由第一标识值来表示，如果每个视频帧的分辨率与参考视频帧的分辨率不同，可以由第二标识值来表示。例如：1表示二者相同，0表示二者不同。或者，1表示二者不同，0表示二者相同。

根据本发明实施例的一个方面，提供了一种视频解码方法，如图8所示，该方法包括：

S801，获取包括上述编码数据的待解码视频帧；

S802，从所述编码数据中获取对应待解码视频帧的最优分辨率标识，并基于最优分辨率标识得到所述待解码视频帧的解码分辨率；

S803，基于所述解码分辨率对所述待解码视频帧进行解码得到解码视频帧。

可选地，在本实施例中，上述视频解码方法可以应用于如图9所示的服务器702和客户端704所构成的硬件环境中。如图9所示，服务器702获取待解码视频帧，从所述编码数据中获取与所述待解码视频帧对应的最优分辨率标志位数据，其中，所述最优分辨率标志位数据用于标识所述待解码视频帧所对应的解码分辨率，采用解码分辨率对待解码视频帧进行解码。服务器702将解码后得到的视频发送给客户端704进行播放。

可选地，在本实施例中，上述视频解码方法可以但不限于应用于音视频处理的场景中。比如：客户端A与客户端B进行视频通话，客户端A侧和客户端B侧分别采集视频画面，对采集到的视频画面进行编码，将编码后的视频发送给对方，在对方对接收到的视频进行解码，并播放解码后的视频。

可选地，在本实施例中，上述视频解码方法还可以但不限于应用于视频文件的播放、视频直播等场景中。

其中，上述客户端可以但不限于为各种类型的应用，例如，在线教育应用、即时通讯应用、社区空间应用、游戏应用、购物应用、浏览器应用、金融应用、多媒体应用、直播应用等。具体的，可以但不限于应用于在上述即时通讯应用中对音视频进行处理的场景中，或还可以但不限于应用于在上述多媒体应用中对音视频进行处理的场景中，以避免对视频进行编解码的峰值信噪比波动较大。上述仅是一种示例，本实施例中对此不做任何限定。

可见，通过上述步骤，对于视频中不同帧自适应采用对应的分辨率进行编解码，这样无论是在传输的带宽比较小的情况下，还是在传输的带宽比较大的情况下，对应的峰值信噪比都相对较大，失真相对较小，从而保证了峰值信噪比能够在一个较小的范围内变化，并且峰值信噪比都相对较大，从而实现了避免对视频进行编解码的峰值信噪比波动较大的技术效果，进而解决了相关技术中采用相同分辨率对视频进行编解码导致峰值信噪比波动较大的技术问题。

作为一种可选的方案，为所述视频中的不同帧分别确定一个对应的分辨率，包括：

S1，从所述待解码视频帧的语法元素中获取所述待解码视频帧对应的最优分辨率标志位数据，其中，所述标志位数据用于标识所述待解码视频帧所对应的分辨率。

可选地，在本实施例中，每个帧对应的分辨率可以但不限于是由编码端添加在语法元素中传递给解码端的。通过语法元素中的标志位数据来指示视频帧和分辨率之间的对应关系，从而使得解码端使用待解码视频帧对应的分辨率对其进行解码。

可选地，在本实施例中，用于指示编码每个帧所采用的分辨率的语法元素可以是位于待解码视频帧的固定位置上的一段数据，在该位置上不同的数据值代表了不同的分辨率。可以将代表待解码视频帧对应的分辨率的语法元素添加在该位置上。

可选地，在本实施例中，获取待解码视频帧的重建视频帧后；

将待解码视频帧的重建视频帧调整为目标分辨率。

其中，调整为目标分辨率包括：

1)在目标分辨率等于重建视频帧分辨率的情况下，不做调整；

2)在目标分辨率大于重建视频帧分辨率的情况下，将重建视频帧分辨率调整为目标分辨率。

根据本发明实施例的另一个方面，还提供了一种用于实施上述视频解码方法的视频解码装置，如图10所示，该装置包括：

第一获取模块1002，用于获取待解码视频帧对应的编码数据；

第二获取模块1004，最优分辨率获取模块，用于从所述编码数据中获取与所述待解码视频帧对应的解码分辨率；

解码模块1006，用于根据所述待解码视频帧对应的解码分辨率对所述编码数据进行解码，得到对应的解码视频帧。

可选地，所述第二获取模块，用于从所述待解码视频帧的语法元素中获取所述视频帧对应的最优分辨率标志位数据，其中，所述标志位数据用于标识所述每个视频帧所对应的分辨率。

根据本发明实施例的另一个方面，还提供了一种用于实施上述视频编码方法的视频编码装置，如图11所示，该装置包括：

第三获取模块1102，用于获取输入视频帧；

第一确定模块1104，用于确定与所述输入视频帧对应的下采样比例；

编码模块1106，用于根据所述下采样比例和原始分辨率分别对所述输入视频帧进行编码得到所述输入视频帧对应的编码数据；

添加模块1108，用于分别比较使用下采样比例编码得到的重建视频帧和使用原始分辨率编码得到的重建视频帧的失真值大小和根据视频帧类型调整后的率失真值大小，确定最优分辨率，将所述最优分辨率添加至所述编码数据。

可选地，所述第一确定模块用于：

使用分辨率预测网络，所述分辨率预测网络用于利用视频帧的空时域相关性，通过卷积神经网络以及循环神经网络对其建模，输出待编码视频帧对应的下采样比例；

可选地，所述编码模块包括：

编码单元，用于采用所述下采样比例和原始分辨率对所述视频帧进行编码，得到所述每个视频帧的已编码数据；

添加单元，分别比较使用下采样比例编码得到的重建视频帧和使用原始分辨率编码得到的重建视频帧的失真值大小和根据视频帧类型调整后的率失真值大小，确定最优分辨率，将所述标志位数据作为语法元素添加到所述每个视频帧对应的已编码数据中。

如图12所示，在本发明的视频编码过程中，对于视频中的不同帧自适应采用对应的分辨率进行编码，这样无论是在传输的带宽比较小(例如，小于图12中所示的带宽阈值Th)的情况下，还是在传输的带宽比较大(例如，大于图12中所示的带宽阈值Th)的情况下，对应的峰值信噪比都相对较大，失真相对较小。

此外，由于对于视频中的不同帧自适应采用对应的分辨率进行编码，从而不需要在对视频中的帧进行编码时根据不同类型的视频或同一视频的不同帧所对应的交点(如，图1中的交点)来选择对应的分辨率，降低了编码复杂度。

根据本发明实施例的又一个方面，还提供了一种用于实施上述视频编码方法或者视频解码方法的电子设备，如图13所示，该电子设备包括：一个或多个(图中仅示出一个)处理器1302、存储器1304、传感器1306、编码器1308以及传输装置1310，该存储器中存储有计算机程序，该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取待解码视频帧对应的编码数据；

S2，从所述编码数据中获取与所述待解码视频帧对应的最优分辨率标志位数据，其中，所述最优分辨率标志位数据用于标识所述待解码视频帧所对应的解码分辨率；

S3，根据所述解码分辨率对所述待解码视频帧进行解码得到对应的解码视频帧。

可选地，在本实施例中，上述处理器还可以被设置为通过计算机程序执行以下步骤：

S1，获取待编码视频帧；

S2，使用分辨率预测网络，输出待编码视频帧对应的下采样比例；

S3，根据所述下采样比例和原始分辨率对所述待编码视频帧分别进行编码；

S4，分别比较使用下采样比例编码得到的重建视频帧和使用原始分辨率编码得到的重建视频帧的失真值大小和根据视频帧类型调整后的率失真值大小，确定最优分辨率；

S5，添加所述最优分辨率标识至编码数据中。

可选地，本领域普通技术人员可以理解，图13所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图13其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图13中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图13所示不同的配置。

其中，存储器1304可用于存储软件程序以及模块，如本发明实施例中的视频解码方法和装置对应的程序指令/模块，处理器1302通过运行存储在存储器1304内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的目标组件的控制方法。存储器1304可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1304可进一步包括相对于处理器1302远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置1310用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1310包括一个网络适配器(NetworkInterface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1310为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器1304用于存储应用程序。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取待解码视频帧对应的编码数据；

可选地，存储介质还被设置为存储用于执行以下步骤的计算机程序：

S1，获取待编码视频帧；

S5，添加所述最优分辨率标识至编码数据中。

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序，本实施例中对此不再赘述。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频编码方法，其特征在于，包括以下步骤：

获取待编码视频帧；

基于分辨率预测网络得到所述待编码视频帧对应的下采样比例；

根据所述下采样比例和原始分辨率分别对所述待编码视频帧进行编码，从而对应得到第一编码数据和第二编码数据，以及，获得分别基于下采样比例编码得到的第一重建视频帧和基于原始分辨率编码得到的第二重建视频帧；

基于第一或第二重建视频帧的类型调整第二重建视频帧的率失真值从而得到第二率失真值；

基于第一重建视频帧和第二重建视频帧的失真值比较结果，以及，第一重建视频帧的第一率失真值与第二重建视频帧的第二率失真值的比较结果，从而确定最优分辨率；

添加所述最优分辨率标识至对应的第一编码数据或第二编码数据中，从而得到编码数据。

2.根据权利要求1所述的视频编码方法，其特征在于，根据所述下采样比例和原始分辨率分别对所述待编码视频帧进行编码，从而对应得到第一编码数据和第二编码数据，以及，获得分别基于下采样比例编码得到的第一重建视频帧和基于原始分辨率编码得到的第二重建视频帧，包括：

根据所述原始分辨率对所述待编码视频帧进行编码，得到第二重建视频帧以及对应的第二编码数据；

根据所述下采样比例对所述待编码视频帧进行下采样处理，得到第一重建视频帧；

获取所述第一重建视频帧或所述待编码视频帧的参考帧；

根据所述下采样比例对所述参考帧进行处理得到第一参考帧；

根据第一参考帧对第一重建视频进行编码，得到第一编码数据。

3.根据权利要求1所述的视频编码方法，其特征在于，

基于第一或第二重建视频帧的类型调整第二重建视频帧的率失真值从而得到第二率失真值，包括：

若重建视频帧的视频类型为I帧或P帧或被参考的B帧，则将第二重建视频帧的率失真值减小预设第一比例值，若重建视频帧类型为不被参考的B帧，则将第二重建视频帧的率失真值增大预设第二比例值，调整后的率失真值作为第二率失真值。

4.根据权利要求3所述的视频编码方法，其特征在于，基于第一重建视频帧和第二重建视频帧的失真值比较结果，以及，第一重建视频帧的第一率失真值与第二重建视频帧的第二率失真值的比较结果，从而确定最优分辨率，包括：

若第一重建视频帧的失真值小于第二重建视频的失真值，且第一重建视频帧的第一率失真值小于第二重建视频帧的第二率失真值，则最优分辨率为下采样比例，否则，最优分辨率为原始分辨率。

5.根据权利要求4所述的视频编码方法，其特征在于，所述添加所述最优分辨率标识至对应的第一编码数据或第二编码数据中，从而得到编码数据，包括：

若最优分辨率为下采样比例，则将最优分辨率标识添加至第一编码数据中，并将添加最优分辨率标识后的第一编码数据作为编码数据；

若最优分辨率为原始分辨率，则将最优分辨率标识添加至第二编码数据中，并将添加最优分辨率标识后的第二编码数据作为编码数据。

6.根据权利要求1-5任一项所述的视频编码方法，其特征在于，所述分辨率预测网络用于利用待编码视频帧的空时域相关性，通过卷积神经网络以及循环神经网络对待编码视频帧建模，输出待编码视频帧对应的下采样比例。

7.一种视频解码方法，其特征在于，包括：

获取包括权利要求1-6任一项所述的编码数据的待解码视频帧；

从所述编码数据中获取对应待解码视频帧的最优分辨率标识，并基于最优分辨率标识得到所述待解码视频帧的解码分辨率；

基于所述解码分辨率对所述待解码视频帧进行解码得到解码视频帧。

8.根据权利要求7所述的视频解码方法，其特征在于，所述基于所述解码分辨率对所述待解码视频帧进行解码得到解码视频帧，包括：

获取所述待解码视频帧对应的参考帧；

根据所述解码分辨率对所述参考帧进行处理得到第二参考帧；

根据解码分辨率以及第二参考帧对编码数据进行解码，从而得到重建视频帧；

根据原始分辨率对所述重建视频帧进行处理得到解码视频帧。

9.一种视频解码装置，其特征在于，所述装置包括：

第一获取模块，用于获取待解码视频帧对应的编码数据；

第二获取模块，作为最优分辨率获取模块，用于从所述编码数据中获取与所述待解码视频帧对应的解码分辨率；

解码模块，用于根据所述待解码视频帧对应的解码分辨率对所述编码数据进行解码，得到对应的解码视频帧。

10.一种视频编码装置，其特征在于，所述装置包括：

第三获取模块，用于获取待编码视频帧；

第一确定模块，用于确定与所述待编码视频帧对应的下采样比例；

编码模块，用于根据所述原始分辨率和下采样比例对所述待编码视频帧分别进行编码，获取使用原始分辨率编码视频帧的编码数据和使用下采样比例编码视频帧的编码数据；

添加模块，用于分别比较使用下采样比例编码得到的重建视频帧和使用原始分辨率编码得到的重建视频帧的失真值大小和根据视频帧类型调整后的率失真值大小，确定最优分辨率，将所述最优分辨率添加至所述编码数据。