CN117579843A

CN117579843A - 视频编码处理方法及电子设备

Info

Publication number: CN117579843A
Application number: CN202410063472.5A
Authority: CN
Inventors: 胡经川; 陈志文; 吕承飞
Original assignee: Taobao China Software Co Ltd
Current assignee: Taobao China Software Co Ltd
Priority date: 2024-01-17
Filing date: 2024-01-17
Publication date: 2024-02-20
Anticipated expiration: 2044-01-17
Also published as: CN117579843B

Abstract

本申请实施例公开了视频编码处理方法及电子设备，所述方法包括：确定多个视角对应的多份视频内容；以时间点为单位对所述多个视角对应的多个视频帧进行拼接处理，得到由多个组合帧形成的帧序列；其中，对于同一时间点，将该时间点的多个视角对应的多个视频帧划分为多个集合，每个集合中的多个视频帧拼接为一个组合，且使得相邻视角的视频帧位于相邻组合帧的相同位置；利用通用的视频编码器对所述多个组合帧形成的帧序列进行编码，并对所述多个组合帧进行帧间压缩处理。通过本申请实施例，能够通过通用的视频编码器即可获得较高的压缩率，且支持在更多的终端设备中进行的解码播放。

Description

视频编码处理方法及电子设备

技术领域

本申请涉及视频编码技术领域，特别是涉及视频编码处理方法及电子设备。

背景技术

多视角视频（或称为自由视角视频）是一种允许观众从多个不同角度观看的视频技术。随着现代摄影技术、虚拟现实等技术的发展，多视角视频的应用场景日益增多。例如，体育转播场景中，通过多视角视频可以让观众选择不同的视角来观看比赛，例如从球员的视角、观众席的视角或其他特定位置的视角；或者，电影和娱乐场景中，导演可以为观众提供多个视角的选择，为传统的电影或电视节目带来新的观看体验；或者，电子商务场景中，可以让客户从多个角度查看商品，更加直观地了解商品细节，等等。

然而，多视角视频技术在带来这些前所未有的应用场景的同时，也带来了一系列的技术挑战。例如，在分辨率方面：一个常见的多视角视频可能需要数十甚至上百个摄像机来捕捉，如果每个摄像机都录制高清的视频，那么整体的视频数据将是巨大的。假设有36个视角，整体的分辨率将会超过8K甚至16K，这对于大多数的设备来说都是很大的负载；视频码率方面，高分辨率意味着更高的视频码率，这将导致实时传输和流畅播放变得更为困难。普通的720P视频的码率可能是2-5Mbps，但多视角视频的码率会成几十倍增加。视频体积方面，多视角视频中包含了多个摄像机的数据，这导致了视频文件的体积迅速增长。一个小时的多视角视频可能需要数百GB的存储空间。这些技术挑战使得多视角视频的存储、压缩和传输变得尤为困难。

现有技术中，存在一些对多视角视频进行压缩、传输的方案，例如：

方式一，可以对多视角视频进行简单拼接，具体的，可以将同一时间点的所有视角的图像都拼在同一帧里，然后再进行压缩传输。但是，这会导致拼接后的视频分辨率过高，难以实时解码播放，传输时的带宽压力很大。

方式二，通过流媒体方式进行传输，但是，一方面压缩的效率不够理想，另一方面，为了使得客户端能够切换视角，还需要对多视角视频分别进行切片处理之后，再进行流式传输，当用户在某时刻需要从视角A切换到视角B时，可以拉取视角B在对应时间片的数据进行播放；但是，分片的切流延迟比较大，并且，是否能够进行流畅的视角切换还依赖切片的大小，因为必须等上一个切片播完了才能切换下一个视角的下一切片进行播放。

方式三，采用专为多视角视频设计的编解码器进行视频编解码，这种方式提供了更好的压缩性能，但它增加了编码和解码的复杂性，需要更高的计算能力，此外，由于MV-HEVC是相对较新的标准，需要专用的解码器才可以完成解码，因此，不是所有设备都能够支持这种格式，尤其是普通的手机或者电脑等终端设备通常都是无法支持的，即使能够支持，在打开及播放视频的过程中也常常会出现卡顿等现象。

发明内容

本申请提供了视频编码处理方法及电子设备，能够通过通用的视频编码器即可获得较高的压缩率，且支持在更多的终端设备中进行的解码播放。

本申请提供了如下方案：

一种视频编码处理方法，包括：

确定多个视角对应的多份视频内容；

以时间点为单位对所述多个视角对应的多个视频帧进行拼接处理，得到由多个组合帧形成的帧序列；其中，对于同一时间点，将该时间点的多个视角对应的多个视频帧划分为多个集合，每个集合中的多个视频帧拼接为一个组合帧，且使得相邻视角的视频帧位于相邻组合帧的相同位置；

利用通用的视频编码器对所述多个组合帧形成的帧序列进行编码，并对所述多个组合帧进行帧间压缩处理。

其中，每个组合帧的分辨率低于终端设备可支持的最大分辨率。

其中，还包括：

在对多个组合帧形成的帧序列进行编码及帧间压缩处理之后，还对帧序列进行切片处理，以便以切片后得到的片段为单位进行传输，在接收端以片段为单位进行独立的解码播放。

其中，所述对多个组合帧形成的帧序列进行编码时，还包括：

根据每个切片中包括的组合帧的数量，控制帧间编码过程中的关键帧间隔，以便减少同一切片中被编码成关键帧的帧数。

对于关键帧之外的组合帧，通过调低对双向参考帧的判断阈值，增加同一切片中被编码成双向参考帧的帧数。

其中，所述多个视角对应的多份视频内容包括：通过多个相机设备对同一对象或场景进行拍摄得到的多份视频内容，以便在播放端完成解码后通过选择目标视角的方式进行播放，并进行视角切换。

其中，所述多个视角对应的多份视频内容包括：通过将全景视频切分成多个视角得到对应的多份视频内容，以便在播放端完成解码后，通过将多个视角的多份视频内容进行组合还原成全景视频并播放。

一种视频播放方法，包括：

接收视频数据，所述视频数据是通过以时间点为单位对所述多个视角对应的多个视频帧进行拼接处理，得到由多个组合帧形成的帧序列后，通过通用的视频编码器对所述多个组合帧形成的帧序列进行编码，并通过对所述多个组合帧进行帧间压缩处理后生成的，其中，在进行拼接处理时，对于同一时间点，将该时间点的多个视角对应的多个视频帧划分为多个集合，每个集合中的多个视频帧拼接为一个组合帧，且使得相邻视角的视频帧位于相邻组合帧的相同位置，以便对组合帧进行帧间压缩处理；

利用通用的视频解码器对所述视频数据进行解码，以便根据解码得到的多个组合帧中分别包括的多个视角对应的视频帧进行播放。

一种视频编码处理装置，包括：

多视角视频确定单元，用于确定多个视角对应的多份视频内容；

帧重排单元，用于以时间点为单位对所述多个视角对应的多个视频帧进行拼接处理，得到由多个组合帧形成的帧序列；其中，对于同一时间点，将该时间点的多个视角对应的多个视频帧划分为多个集合，每个集合中的多个视频帧拼接为一个组合帧，且使得相邻视角的视频帧位于相邻组合帧的相同位置；

帧间压缩单元，用于利用通用的视频编码器对所述多个组合帧形成的帧序列进行编码，并对所述多个组合帧进行帧间压缩处理。

一种视频播放装置，包括：

数据接收单元，用于接收视频数据，所述视频数据是通过以时间点为单位对所述多个视角对应的多个视频帧进行拼接处理，得到由多个组合帧形成的帧序列后，通过通用的视频编码器对所述多个组合帧形成的帧序列进行编码，并通过对所述多个组合帧进行帧间压缩处理后生成的，其中，在进行拼接处理时，对于同一时间点，将该时间点的多个视角对应的多个视频帧划分为多个集合，每个集合中的多个视频帧拼接为一个组合帧，且使得相邻视角的视频帧位于相邻组合帧的相同位置，以便对组合帧进行帧间压缩处理；

解码单元，用于利用通用的视频解码器对所述视频数据进行解码，以便根据解码得到的多个组合帧中分别包括的多个视角对应的视频帧进行播放。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一项所述的方法的步骤。

一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行前述任一项所述的方法的步骤。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

通过本申请实施例，对于多个视角对应的多份视频内容，可以以时间点为单位对所述多个视角对应的多个视频帧进行拼接处理，得到由多个组合帧形成的帧序列，并且，对于同一时间点，可以将该时间点的多个视角对应的多个视频帧划分为多个集合，每个集合中的多个视频帧拼接为一个组合帧，且使得相邻视角的视频帧位于相邻组合帧的相同位置。之后，可以利用通用的视频编码器对所述多个组合帧形成的帧序列进行编码，并通过对所述多个组合帧进行帧间压缩处理，消除或减少相邻视角的视频帧间的冗余信息。这样，由于对多个视角的视频帧进行了分组拼接，因此，使得拼接后的组合帧的分辨率不至于过高，便于在大部分终端设备中进行实时解码；另外，由于在进行分组拼接时，对分组方式以及排列方式进行了控制，使得相邻视角的视频帧位于相邻组合帧的相同位置，也就是说，使得相邻视角的视频帧位于不同但是相邻的组合帧中，且在不同组合帧中的位置相同，而相邻视角的视频帧之间具有相似度比较高的特点，因此，通过这种方式拼接成的相邻组合帧之间具有比较高的相似度，进而通过通用的帧间压缩算法即可通过消除或减少相邻视角的视频帧间的冗余信息，而获得较高的压缩率。换言之，在本申请实施例中，通过通用的视频编码器即可获得理想的压缩率，相应的，在解码端利用通用的解码器即可完成解码，从而可以在更多的终端设备上得到支持。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的系统架构的示意图；

图2是本申请实施例提供的第一方法的流程图；

图3是本申请实施例提供的帧重排方式的示意图；

图4是本申请实施例提供的第二方法的流程图；

图5是本申请实施例提供的第一装置的示意图；

图6是本申请实施例提供的第二装置的示意图；

图7是本申请实施例提供的电子设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中，针对多视角视频的存储、压缩等问题提供了相应的解决方案。具体的，首先可以对多个视角分别对应的视频内容进行拼接，也即，将同一时间点不同视角对应的视频内容进行拼接，但是，并不是简单地将所有视角的视频内容全部拼接在同一帧中，而是可以对同一时间点的多个视角对应的多个视频帧分为多个集合，将同一集合内的多个视频帧拼接到同一帧中（为便于区分，可以将这种拼接后得到的帧称为“组合帧”），也就是说，同一时间点可以对应多个不同的组合帧，通过这种方式，可以使得每个组合帧的分辨率不至于过高。例如，假设共有36个视角，则可以分成6组，每个组合帧中会包括6个视角在同一时间点对应的视频帧。假设每个视角对应的视频帧的分辨率是720P，则每个组合帧的分辨率为720P×6=4320P，相当于4K分辨率的图像，而现有的大部分终端设备都能够支持对4K分辨率图像的解码，因此，通过这种分组拼接的方式得到的组合帧，可以在更多的终端设备上实现实时解码。

另外，为了能够在编码过程中实现更高的压缩效率，还可以对不同视角对应的多个视频帧的集合划分方式，以及各个视频帧在具体组合帧中的排列方式进行限定。例如，一种方式下，可以使得相邻视角的视频帧位于相邻组合帧的相同位置（对此，后文中会有详细介绍），这样，由于相邻视角的视频帧之间存在大量的冗余信息，而本申请实施例中，将这种相邻视角的视频帧分散到不同但是相邻的组合帧中，并且，位于相邻帧的相同位置，因此，可以使得相邻的组合帧之间，至少在每个位置处的视频帧之间都具有很高的相似度，也即存在大量的冗余信息，这些冗余信息就是在进行帧间编码过程中，可以以更高的压缩比率被压缩优化的对象。因此，在对组合帧进行编码时，就可以通过帧间编码的方式，充分利用相邻视角的视频帧之间的冗余信息，以获得更高的压缩效率。并且，由于这种高压缩率是通过帧间编码技术实现的，而通用的视频编码器就具有帧间编码的能力，因此，利用通用的视频编码器即可实现编码，而不需要依赖专用于多视角编码的编码器，相应的，在播放端利用通用的视频解码器进行解码即可，因此，进一步支持了在更多的终端设备中的解码播放。

也就是说，通过本申请实施例，采用了对多视角的视频帧进行分组拼接的方式，相对于直接将全部视角拼接到同一帧中的方式，可以减少每个组合帧的分辨率，降低终端设备的解码压力；另外，还对不同视角在不同组合帧中的排列方式进行了特殊处理，以使得不同的组合帧之间的内容相似度会比较高，这样，可以通过对组合帧进行帧间压缩的方式来获得较高的压缩率，从而使得通用的编码器即可完成编码过程，相应的，也可以使用通用的解码器来进行解码，这样，可以使得具体的视频可以在多数终端设备中进行解码播放。

从系统架构角度而言，本申请实施例可以在多种信息服务系统中提供多视角视频的相关服务，例如，前文所述的体育赛事的多视角直播，或者电影、娱乐视频的多视角播放，或者，商品信息服务系统中的对商品的多视角展示，等等。参见图1，在上述信息服务系统中，可以在系统的服务端完成对多视角视频的编码过程，在编码的过程中，就可以使用本申请实施例提供的方式，对多个视角的视频帧进行组织，具体可以根据视角的位置关系等，对各个视频帧进行编号，建立索引，每个组合帧内也可以根据不同的块之间的位置关系建立帧内的块索引，然后，对各个视角对应的视频帧进行帧重排，使得相邻视角的视频帧可以位于相邻组合帧的相同位置，以使得每个组合帧的分辨率不至于过高，并且，通过通用的视频编码器（包括HEVC（High Efficiency Video Coding，高效率视频编码）等）的帧间压缩等技术即可获得较高的压缩率。编码完成之后，可以将编码结果存储在服务端，并在用户请求播放时，向用户的客户端进行传输；或者，在直播场景下，也可以进行实时的编码传输，等等。具体在传输时还可以进行切片处理，具体可以是HLS（HTTP Live Streaming，一种流媒体网络传输协议）切片，使得播放端可以以切分出的片段为单位进行独立的解码播放，以此降低播放端的等待时延。

下面对本申请实施例提供的具体实现方案进行详细介绍。

实施例一

首先，该实施例一针对编码过程，提供了一种视频编码处理方法，参见图2，该方法具体可以包括：

S201：确定多个视角对应的多份视频内容。

其中，多个视角对应的多份视频内容可以有多种来源，例如，在一种方式下，具体可以是通过多个相机设备对同一对象或场景进行拍摄得到的多份视频内容，具体可以是通过多个相机对同一商品进行多角度拍摄得到的多份视频内容，或者，还可以是通过多个相机设备对体育赛事场景进行拍摄得到的多份内容，等等。在这种情况下，通过对多视角视频进行编码传输，可以在播放端完成解码后通过由用户选择目标视角的方式进行播放，或者，在默认情况下按照某个主视角进行播放，用户可以根据自己的需求选择切换视角，等等。

或者，对于虚拟现实等场景，可能会预先通过建模等方式生成全景视频，以使得用户能够从多角度对虚拟场景进行查看，等等。此时，如果直接对这种全景视频进行编码传输，则涉及到的码率等也是很高的，并且，客户端的解码压力可能也会比较大。在这种情况下，可以利用本申请实施例的方式来实现，首先，就可以将360度的全景视频拆分为多个视角分别对应的视频内容，将这些视角对应的视频内容就可以作为本申请实施例中所述的多个视角对应的多份视频内容，后续则可以利用本申请实施例提供的方式进行编码传输，在终端侧则可以在完成解码之后，将得到的多个视角的视频帧重新进行组合并实现对360度全景视频的还原并展示。

当然，在实际应用中，还可以包括其他方式或者其他场景下获得的多视角对应的多份视频内容，这里不再一一列举。

S202：以时间点为单位对所述多个视角对应的多个视频帧进行拼接处理，得到由多个组合帧形成的帧序列；其中，对于同一时间点，将该时间点的多个视角对应的多个视频帧划分为多个集合，每个集合中的多个视频帧拼接为一个组合帧，且使得相邻视角的视频帧位于相邻组合帧的相同位置。

在确定出多个视角对应的多份视频内容后，可以以时间点为单位对所述多个视角对应的多个视频帧进行拼接处理，也即，对同一时间点对应的多视角的多个视频帧进行拼接，但是，在本申请实施例中，并不是直接将所有视角的视频帧全部拼接在同一个组合帧中，而是可以对多个视角进行分组，使得同一组合帧中仅包括部分视角的视频帧即可。其中，具体在进行分组时，可以根据具体视角的数量、每个视角下单个视频帧的分辨率以及终端设备可支持的最大分辨率等信息，来确定出需要分成多少个组，以及每组包括多少个视角，以使得每个组合帧的分辨率低于终端设备可支持的最大分辨率。例如，假设共有36个视角，每个视角的视频帧的分辨率为720P，目前市面上大部分终端设备通常能够支持4K分辨率的实时解码，此时，就可以将上述36个视角分成6组，每个组合帧中会包括6个视角在同一时间点对应的视频帧，每个组合帧的分辨率为720P×6=4320P，与一般4K图像的分辨率接近，因此，大部分的终端设备可以实现对这种分辨率的图像帧的实时解码。

其中，在确定出具体的分组数之后，还可以确定视角的分组方式以及在具体组合帧中的排列方式。具体的分组方式以及排列方式可以有多种，例如，在最简单的方式下，可以是第1到6视角为一组，第7到12视角为一组，等等，在具体的组合帧中，可以划分为3×2（三排两列）的块，各个视角可以在这些块中按编号顺序排列，等等。但是，考虑到不同视角在同一时间点拍摄到的视频帧在内容上往往具有比较高的相似度，尤其是相邻视角，两者之间的相似度会更高，从信息编码角度而言，这种相邻视角之间存在的高度相似的内容中会存在大量的冗余信息，在编码的过程中是属于可以被压缩的内容。也就是说，冗余信息的存在有利于提升编码的压缩效率，因此，在编码过程中，如果能够充分利用到这种冗余信息，则对于提升压缩效率会有很大的帮助。

其中，在视频编码过程中，具体的信息压缩技术可以分为帧内压缩与帧间压缩两种，帧内压缩是在空域（空间XY轴上）进行压缩，压缩过程中主要参考本帧数据之间的相似性；而帧间压缩则是利用视频序列中不同视频帧之间的帧间冗余，例如前后帧间的相似性，通过预测方法来减少数据量。通常，相对于帧内压缩而言，帧间压缩通常可以获得更高的压缩率。

但是，如果按照前述例子中的视角分组以及排列方式，则具有最高冗余度的相邻视角的视频帧是在同一组合帧中，因此，在对组合帧进行压缩时，只能在帧内压缩过程中使用到这种冗余信息，而无法在帧间编码过程中得到充分利用。

为此，在本申请实施例中，还提供更优的视角分组以及排列方式，具体的，可以使得相邻视角的视频帧位于相邻组合帧的相同位置，也就是说，相邻视角的视频帧会被分到不同但是相邻的组中，并且，会位于相邻组合帧的相同位置。

例如，假设共有36个视角，被分为6个组，每个组内有6个视角的视频帧，也即，每6个视角的视频帧组成一个组合帧。如图3所示，假设每个组合帧中包括3×2个块，每个块用于放置一个视角的视频帧，每个块的位置编号分别为0，1，2，3，4，5；另外假设36个视角分别用A1、A2、A3……A36来表示。则通过图3所示可以看出，视角A1、A2、A3、A4、A5、A6位于组合帧1至6的第0号位置，视角A7、A8、A9、A10、A11、A12位于组合帧1至6的第1号位置，以此类推。也就是说，A1、A7、A13、A19、A25、A31这些视角为第一组，拼接成组各帧1；A2、A8、A14、A20、A26、A32为第二组，拼接成组合帧2，以此类推。可见，每个组合帧内，视角的编号之间形成等差数列，视角编号之间的差值就是分组的数量，在该例子中为6。通过这种方式，可以使得相邻的组合帧之间，在同样位置处，视角也是相邻的，这就使得相邻组各帧之间在相同位置处的图像内容会具有很高的相似度，在进行帧间压缩编码时，就能够充分利用到相邻视角之间由于内容相似度较高而产生的冗余信息，从而有利于获得较高的压缩率。

当然，上述例子中仅示出了其中一个时间点上各个视角的视频帧拼接情况，其他时间点上各个视角的视频帧也可以按照上述方式进行分组及排列。这样，每个时间点都可以拼接出6个组合帧。各个时间点分别按照上述方式完成拼接后，可以将得到的组合帧形成帧序列，例如，如果将各个组合帧表示为“组合帧mn”，其中，m代表时间点的编号，n代表同一时间点对应的各个组合帧的编号，则形成的帧序列可以是：（组合帧11，组合帧12，组合帧13，组合帧14，组合帧15，组合帧16，组合帧21，组合帧22，组合帧23，组合帧24，组合帧25，组合帧26，组合帧31，组合帧32……）。

S203：利用通用的视频编码器对所述多个组合帧形成的帧序列进行编码，并对所述多个组合帧进行帧间压缩处理。

在得到上述有多个组合帧形成的帧序列之后，可以对这种帧序列进行视频编码，在本申请实施例中，可以使用通用的视频编码器对这种帧序列进行编码。例如，通用的视频编码器可以包括HEVC编码器，等等。

在编码的过程中，可以进行帧间压缩处理，其中，由于按照前述S202中所述的方式对不同视角的视频帧进行了分组以及重排，使得相邻视角的视频帧会位于相邻组合帧的相同位置处，因此，在进行帧间压缩时，可以充分利用相邻视角的视频帧之间存在的冗余信息，获得更高的压缩率。

具体实现时，在对多个组合帧形成的帧序列进行编码及帧间压缩处理之后，还可以对帧序列进行切片处理，以便以切片后得到的片段为单位进行传输，在接收端则可以以片段为单位进行独立的解码播放。这样，接收到只需要收到第一个片段即可进行解码播放，而不需要等待所有的帧序列全部传输完成，因此，可以缩短等待延迟。

其中，具体的切片时长可以根据实际需求而定，如果切片越小，则接收端的延迟会越小。例如，每个切片的时长可以为1S，或者也可以是0.5S，等等。其中，在本申请实施例中，由于对多个视角的视频帧进行了分组拼接处理，因此，在确定出切片时长之后，每个切片中需要包括的组合帧的数量可以根据播放端的播放帧率而定。例如，仍然以36个视角并分为6组为例，每个时间点对应6个组合帧，另外假设播放端的播放帧率是30帧/S，在对组合帧进行分片处理时的分片时长为1S，则每个片段中需要包含30×36/6=180个组合帧。也就是说，每个片段中包括的组合帧需要满足播放端在1S的时长内所需播放的帧数，其中，播放端具体在播放时，是需要将组合帧进行解码，从中选择某个视角对应的视频帧，并进行播放，并且，播放端在1S内播放的30帧通常是同一视角下的30个视频帧，而具体对哪个视角进行播放都是可能的，因此，在对组合帧进行切片时，如果每个片段为1S，就需要使得同一个片段中每个视角都存在30个视频帧。如果视角数量是36，则视频帧的数量为30×36个，由于这些视频帧进行了分组，拼接成了组合帧，因此，组合帧的数量就是30×36/6=180。当然，在上述假设条件不变的情况下，如果将分片时长改为0.5S，则每个片段中包括90个组合帧即可，等等。

另外，如果进行了上述分片传输，则在进行帧间编码时，还可以通过控制其中的关键帧及双向参考帧的数量，来进一步提升压缩率。具体的，编码器将多张图像进行编码后生产成一段一段的 GOP ( Group of Pictures ) ，解码器在播放时则是读取一段一段的GOP 进行解码后读取画面再渲染显示。GOP是一组连续的画面，由一张 I 帧和数张 B / P帧组成，是视频图像编码器和解码器存取的基本单位，它的排列顺序将会一直重复到影像结束。其中，I 帧是内部编码帧（也称为关键帧），P帧是前向预测帧（前向参考帧），B 帧是双向内插帧（双向参考帧）。具体的，I 帧通常是一个完整的画面，而 P 帧和 B 帧记录的是相对于 I 帧的变化，其中， P帧和B帧中没有完整的画面数据，P帧中只有与前一帧的画面差别的数据，B帧记录的是本帧与前后帧的差别。其中，B帧所需记录的信息量比较少，因此，通常具有更高的压缩率。如果一个GOP中包括的I帧越少、B帧越多，则整体上的压缩率会比较高。

在实际应用中，具体哪些帧会被编码为I帧或者P帧、B帧等，通常是由编码器根据算法来确定的，而在本申请实施例中，为了进一步控制视频的压缩率，还可以通过对编码器进行干预，来减少I帧的数量，增加B帧的数量。具体实现时，可以根据每个切片中包括的组合帧的数量，控制帧间编码过程中的关键帧间隔，以便减少同一切片中被编码成关键帧的帧数。例如，假设每个切片中包括180个组合帧，则可以将关键帧间隔设为180帧，也即，使得同一切片中仅有一帧会被编码为I帧。另外，对于关键帧之外的组合帧，还可以通过调低对双向参考帧的判断阈值，来增加同一切片中被编码成双向参考帧的帧数。也就是说，对于B帧而言，编码器通常会通过计算当前帧与前后帧之间的相似度，并与某个阈值进行比较之后，确定当前帧是否可以被编码为B帧，在本申请实施例中，可以将该阈值调低，则可以将更多的帧编码为B帧，以提升压缩率。

这里需要说明的是，由于P帧、B帧的解码依赖于I帧，而B帧的解码会依赖于前一帧及后一帧，因此，理论上而言，如果I帧数量较少，B帧的数量比较多，虽然在压缩率上会有更好的表现，但是，在解码时可能会影响图像质量。但是，在本申请实施例中，由于对多视角的视频帧进行了分组拼接，并将相邻视角的视频帧位于相邻组合帧的相同位置，因此，使得每两个相邻组合帧之间都会具有相似度比较高的特点，因此，即使通过上述方式控制了I帧以及B帧的数量，通常也不会影响解码端的图像质量。具体的，经测试，本申请实施例提供的方案与简单拼接后进行编码的方案相比，分辨率、码率都得到了明显降低，PSNR（PeakSignal-to-Noise Ratio，峰值信噪比，表示信号最大可能功率和影响它的表示精度的破坏性噪声功率的比值，是衡量图像质量的指标之一）反而得到了提升，具体可以如表1所示：

表1

当然，在实际应用中，如果需要更高的画面质量，则也可以适当增加I帧的数量，减少B帧的数量，例如，每个分片中可以包括2个或者更多的I帧，等等。

总之，通过本申请实施例，对于多个视角对应的多份视频内容，可以以时间点为单位对所述多个视角对应的多个视频帧进行拼接处理，得到由多个组合帧形成的帧序列，并且，对于同一时间点，将该时间点的多个视角对应的多个视频帧划分为多个集合，每个集合中的多个视频帧拼接为一个组合帧，且使得相邻视角的视频帧位于相邻组合帧的相同位置。之后，可以利用通用的视频编码器对所述多个组合帧形成的帧序列进行编码，并通过对所述多个组合帧进行帧间压缩处理，消除或减少相邻视角的视频帧间的冗余信息。这样，由于对多个视角的视频帧进行了分组拼接，因此，使得拼接后的组合帧的分辨率不至于过高，便于在大部分终端设备中进行实时解码；另外，由于在进行分组拼接时，对分组方式以及排列方式进行了控制，使得相邻视角的视频帧位于相邻组合帧的相同位置，也就是说，使得相邻视角的视频帧位于不同但是相邻的组合帧中，且在不同组合帧中的位置相同，而相邻视角的视频帧之间具有相似度比较高的特点，因此，通过这种方式拼接成的相邻组合帧之间具有比较高的相似度，进而通过通用的帧间压缩算法即可通过消除或减少相邻视角的视频帧间的冗余信息，而获得较高的压缩率。换言之，在本申请实施例中，通过通用的视频编码器即可获得理想的压缩率，相应的，在解码端利用通用的解码器即可完成解码，从而可以在更多的终端设备上得到支持。

实施例二

该实施例二是针对解码过程，提供了一种视频播放方法，参见图4，该方法可以包括：

S401：接收视频数据，所述视频数据是通过以时间点为单位对所述多个视角对应的多个视频帧进行拼接处理，得到由多个组合帧形成的帧序列后，通过通用的视频编码器对所述多个组合帧形成的帧序列进行编码，并通过对所述多个组合帧进行帧间压缩处理后生成的，其中，在进行拼接处理时，对于同一时间点，将该时间点的多个视角对应的多个视频帧划分为多个集合，每个集合中的多个视频帧拼接为一个组合帧，且使得相邻视角的视频帧位于相邻组合帧的相同位置，以便对组合帧进行帧间压缩处理；

S402：利用通用的视频解码器对所述视频数据进行解码，以便根据解码得到的多个组合帧中分别包括的多个视角对应的视频帧进行播放。

关于该实施例二中的未详述部分，可以参见实施例一以及本说明书其他部分的记载，这里不再赘述。

需要说明的是，本申请实施例中可能会涉及到对用户数据的使用，在实际应用中，可以在符合所在国的适用法律法规要求的情况下（例如，用户明确同意，对用户切实通知，等），在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。

与实施例一相对应，本申请实施例还提供了一种视频编码处理装置，参见图5，该装置可以包括：

多视角视频确定单元501，用于确定多个视角对应的多份视频内容；

帧重排单元502，用于以时间点为单位对所述多个视角对应的多个视频帧进行拼接处理，得到由多个组合帧形成的帧序列；其中，对于同一时间点，将该时间点的多个视角对应的多个视频帧划分为多个集合，每个集合中的多个视频帧拼接为一个组合帧，且使得相邻视角的视频帧位于相邻组合帧的相同位置；

帧间压缩单元503，用于利用通用的视频编码器对所述多个组合帧形成的帧序列进行编码，并对所述多个组合帧进行帧间压缩处理。

具体实现时，该装置还可以包括：

分片处理单元，用于在对多个组合帧形成的帧序列进行编码及帧间压缩处理之后，还对帧序列进行切片处理，以便以切片后得到的片段为单位进行传输，在接收端以片段为单位进行独立的解码播放。

具体的，还可以包括：

关键帧数量控制单元，用于根据每个切片中包括的组合帧的数量，控制帧间编码过程中的关键帧间隔，以便减少同一切片中被编码成关键帧的帧数。

或者，双向参考帧数量控制单元，用于对于关键帧之外的组合帧，通过调低对双向参考帧的判断阈值，增加同一切片中被编码成双向参考帧的帧数。

具体的，所述多个视角对应的多份视频内容包括：通过多个相机设备对同一对象或场景进行拍摄得到的多份视频内容，以便在播放端完成解码后通过选择目标视角的方式进行播放，并进行视角切换。

或者，所述多个视角对应的多份视频内容包括：通过将全景视频切分成多个视角得到对应的多份视频内容，以便在播放端完成解码后，通过将多个视角的多份视频内容进行组合还原成全景视频并播放。

与实施例二相对应，本申请实施例还提供了一种视频播放装置，参见图6，该装置可以包括：

数据接收单元601，用于接收视频数据，所述视频数据是通过以时间点为单位对所述多个视角对应的多个视频帧进行拼接处理，得到由多个组合帧形成的帧序列后，通过通用的视频编码器对所述多个组合帧形成的帧序列进行编码，并通过对所述多个组合帧进行帧间压缩处理后生成的，其中，在进行拼接处理时，对于同一时间点，将该时间点的多个视角对应的多个视频帧划分为多个集合，每个集合中的多个视频帧拼接为一个组合帧，且使得相邻视角的视频帧位于相邻组合帧的相同位置，以便对组合帧进行帧间压缩处理；

解码单元602，用于利用通用的视频解码器对所述视频数据进行解码，以便根据解码得到的多个组合帧中分别包括的多个视角对应的视频帧进行播放。

另外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

以及一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。

其中，图7示例性的展示出了电子设备的架构，具体可以包括处理器710，视频显示适配器711，磁盘驱动器712，输入/输出接口713，网络接口714，以及存储器720。上述处理器710、视频显示适配器711、磁盘驱动器712、输入/输出接口713、网络接口714，与存储器720之间可以通过通信总线730进行通信连接。

其中，处理器710可以采用通用的CPU（Central Processing Unit，处理器）、微处理器、应用专用集成电路（Application Specific Integrated Circuit，ASIC）、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器720可以采用ROM（Read Only Memory，只读存储器）、RAM（Random AccessMemory，随机存取存储器）、静态存储设备，动态存储设备等形式实现。存储器720可以存储用于控制电子设备700运行的操作系统721，用于控制电子设备700的低级别操作的基本输入输出系统(BIOS)。另外，还可以存储网页浏览器723，数据存储管理系统724，以及视频编码处理系统725等等。上述视频编码处理系统725就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器720中，并由处理器710来调用执行。

输入/输出接口713用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中（图中未示出），也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口714用于连接通信模块（图中未示出），以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信。

总线730包括一通路，在设备的各个组件（例如处理器710、视频显示适配器711、磁盘驱动器712、输入/输出接口713、网络接口714，与存储器720）之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器710、视频显示适配器711、磁盘驱动器712、输入/输出接口713、网络接口714，存储器720，总线730等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的视频编码处理方法及电子设备，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频编码处理方法，其特征在于，包括：

确定多个视角对应的多份视频内容；

2.根据权利要求1所述的方法，其特征在于，

每个组合帧的分辨率低于终端设备可支持的最大分辨率。

3.根据权利要求1所述的方法，其特征在于，还包括：

4.根据权利要求3所述的方法，其特征在于，

所述对多个组合帧形成的帧序列进行编码时，还包括：

5.根据权利要求3所述的方法，其特征在于，

所述对多个组合帧形成的帧序列进行编码时，还包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，

所述多个视角对应的多份视频内容包括：通过多个相机设备对同一对象或场景进行拍摄得到的多份视频内容，以便在播放端完成解码后通过选择目标视角的方式进行播放，并进行视角切换。

7.根据权利要求1至5任一项所述的方法，其特征在于，

所述多个视角对应的多份视频内容包括：通过将全景视频切分成多个视角得到对应的多份视频内容，以便在播放端完成解码后，通过将多个视角的多份视频内容进行组合还原成全景视频并播放。

8.一种视频播放方法，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至8任一项所述的方法的步骤。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求1至8任一项所述的方法的步骤。