CN116761002A

CN116761002A - 视频编码方法、虚拟现实直播方法、装置、设备及介质

Info

Publication number: CN116761002A
Application number: CN202310810654.XA
Authority: CN
Inventors: 林煜
Original assignee: Guangzhou Cubesili Information Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2023-07-03
Filing date: 2023-07-03
Publication date: 2023-09-15

Abstract

本申请涉及视频编码技术领域，提出一种视频编码方法、虚拟现实直播方法、装置、电子设备以及存储介质，该方法包括：获取视频帧图像；将所述视频帧图像划分为若干个视频图像区域；从每个所述视频图像区域的第一行编码树单元行开始，并行对每一行所述编码树单元行进行处理，获得每一行所述编码树单元行中每个所述编码树单元的第一处理结果，从每个所述视频图像区域的第一行编码树单元行开始，逐行对每个所述编码树单元的第一处理结果进行处理，获得所述视频帧图像中每个所述编码树单元的二进制比特流；本申请通过对每个视频图像区域进行并行编码，并且对每个视频图像区域内的每行编码树单元行进行并行编码，从而提高了视频编码效率。

Description

视频编码方法、虚拟现实直播方法、装置、设备及介质

技术领域

本申请实施例涉及视频编码技术领域以及网络直播技术领域，尤其涉及一种视频编码方法、虚拟现实直播方法、装置、电子设备以及存储介质。

背景技术

视频编码是指通过特定的压缩技术，将某个视频格式的文件转换成另一种视频格式文件，从而有利于视频数据的存储和传输。

随着元宇宙和虚拟现实(Virtual Reality，简称VR)的兴起，4K、8K这种大分辨率的视频编码需求日趋迫切。例如，在虚拟现实直播中，VR视频具有超高的分辨率(例如8K)和帧率(例如每秒60帧)。

然而，目前的视频编码技术编码效率低，无法实现超高分辨率的视频在视频编码后具备高帧率。

发明内容

本申请实施例提供了一种视频编码方法、虚拟现实直播方法、装置、电子设备以及存储介质，提高了视频编码效率。该技术方案如下：

第一方面，本申请实施例提供了一种视频编码方法，包括步骤：

获取视频帧图像；

将视频帧图像划分为若干个视频图像区域；其中，每个视频图像区域包括若干行编码树单元行，每行编码树单元行包括若干个编码树单元；

从每个视频图像区域的第一行编码树单元行开始，并行对每一行编码树单元行进行处理，获得每一行编码树单元行中每个编码树单元的第一处理结果，其中，第一处理结果包括每个编码树单元的的预测系数、变换系数以及量化系数的其中一种；

从每个视频图像区域的第一行编码树单元行开始，逐行对每个编码树单元的第一处理结果进行处理，获得视频帧图像中每个编码树单元的二进制比特流；其中，在第一处理结果为预测系数时，逐行对每个编码树单元的预测系数进行变换、量化以及熵编码操作处理；在第一处理结果为变换系数时，逐行对每个编码树单元的变换系数进行量化以及熵编码操作处理；在第一处理结果为量化系数时，逐行对每个编码树单元的量化系数进行熵编码操作处理。

第二方面，本申请实施例提供了一种虚拟现实直播方法，方法包括如下步骤：

获取主播的虚拟现实全景视频数据；其中，虚拟现实全景视频数据包括若干虚拟现实全景视频帧图像；

将虚拟现实全景视频帧图像划分为若干个视角区域图像，将每个视角区域图像划分为若干个视频图像区域；

采用上述的视频编码方法，对若干个视频图像区域进行编码，获得每个视角区域图像的二进制比特流；

响应于观众客户端的视频流获取请求，确定观众客户端对应观众的观看视角，根据观看视角，从若干个视角区域图像的二进制比特流中，获得观看视角对应的视角区域图像的二进制比特流；

将观看视角对应的视角区域图像的二进制比特流发送至观众客户端，以使观众客户端对观看视角对应的视角区域图像的二进制比特流进行解码以及渲染，显示观看视角对应的视角区域图像。

第三方面，本申请实施例提供了一种视频编码装置，包括：

图像获取模块，用于获取视频帧图像；

图像区域划分模块，用于将视频帧图像划分为若干个视频图像区域；其中，每个视频图像区域包括若干行编码树单元行，每行编码树单元行包括若干个编码树单元；

第一处理结果获得模块，用于从每个视频图像区域的第一行编码树单元行开始，并行对每一行编码树单元行进行处理，获得每一行编码树单元行中每个编码树单元的第一处理结果，其中，第一处理结果包括每个编码树单元的的预测系数、变换系数以及量化系数的其中一种；

比特流获得模块，用于从每个视频图像区域的第一行编码树单元行开始，逐行对每个编码树单元的第一处理结果进行处理，获得视频帧图像中每个编码树单元的二进制比特流；其中，在第一处理结果为预测系数时，逐行对每个编码树单元的预测系数进行变换、量化以及熵编码操作处理；在第一处理结果为变换系数时，逐行对每个编码树单元的变换系数进行量化以及熵编码操作处理；在第一处理结果为量化系数时，逐行对每个编码树单元的量化系数进行熵编码操作处理。

第四方面，本申请实施例提供一种虚拟现实直播装置，包括：

视频数据获取模块，用于获取主播的虚拟现实全景视频数据；其中，虚拟现实全景视频数据包括若干虚拟现实全景视频帧图像；

区域图像划分模块，用于将每个虚拟现实全景视频帧图像划分为若干个视角区域图像，将每个视角区域图像划分为若干个视频图像区域；

图像块编码模块，用于采用上述的视频编码方法，对若干个视频图像区域进行编码，获得每个视角区域图像的二进制比特流；

视频流请求模块，用于响应于观众客户端的视频流获取请求，确定观众客户端对应观众的观看视角，根据观看视角，从若干个视角区域图像的二进制比特流中，获得观看视角对应的视角区域图像的二进制比特流；

比特流发送模块，用于将观看视角对应的视角区域图像的二进制比特流发送至观众客户端，以使观众客户端对观看视角对应的视角区域图像的二进制比特流进行解码以及渲染，显示观看视角对应的视角区域图像。

第五方面，本申请实施例提供了一种计算机设备，处理器、存储器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如第一方面或第二方面方法的步骤。

第六方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现如第一方面或第二方面方法的步骤。

本申请实施例通过获取视频帧图像；将视频帧图像划分为若干个视频图像区域；其中，每个视频图像区域包括若干行编码树单元行，每行编码树单元行包括若干个编码树单元；从每个视频图像区域的第一行编码树单元行开始，并行对每一行编码树单元行进行处理，获得每一行编码树单元行中每个编码树单元的第一处理结果，其中，第一处理结果包括每个编码树单元的的预测系数、变换系数以及量化系数的其中一种；从每个视频图像区域的第一行编码树单元行开始，逐行对每个编码树单元的第一处理结果进行处理，获得视频帧图像中每个编码树单元的二进制比特流；其中，在第一处理结果为预测系数时，逐行对每个编码树单元的预测系数进行变换、量化以及熵编码操作处理；在第一处理结果为变换系数时，逐行对每个编码树单元的变换系数进行量化以及熵编码操作处理；在第一处理结果为量化系数时，逐行对每个编码树单元的量化系数进行熵编码操作处理。本申请通过对每个视频图像区域进行并行编码，并且对每个视频图像区域内的每行编码树单元行进行并行编码，从而提高了视频编码效率。

为了更好地理解和实施，下面结合附图详细说明本申请的技术方案。

附图说明

图1为本申请实施例提供的视频编码方法的应用场景示意图；

图2为本申请第一实施例提供的视频编码方法的流程示意图；

图3为本申请第二实施例提供的虚拟现实直播方法的流程示意图；

图4为本申请第三实施例提供的视频编码装置的结构示意图；

图5为本申请第四实施例提供的虚拟现实直播装置的结构示意图；

图6为本申请第五实施例提供的电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本领域技术人员可以理解，本申请所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他诸如个人计算机、平板电脑之类的通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(PersonalCommunications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本申请所称的“服务端”、“客户端”、“服务节点”等名称所指向的硬件，本质上是具备个人计算机等效能力的计算机设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。

需要指出的是，本申请所称的“服务端”这一概念，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本申请的网络部署方式的实施方式。

本申请提供的视频编码方法可以用于任意分辨率的视频编码。具体可以视频编码方法用于元宇宙、虚拟现实游戏以及虚拟现实直播等应用场景，本申请实施例以应用于虚拟现实直播为例进行说明。

请参阅图1，图1为本申请实施例提供的视频编码方法的应用场景示意图，该应用场景包括本申请实施例提供的主播客户端101、服务端102和观众客户端103，主播客户端101与观众客户端103通过服务端102进行交互。

其中，主播客户端101是指发送网络直播视频的一端，通常来说是网络直播中主播(即，直播主播用户)所采用的客户端。

观众客户端103是指接收和观看网络直播视频的一端，通常来说是网络直播中观看视频的观众(即，直播观众用户)所采用的客户端。

主播客户端101和观众客户端103所指向的硬件，本质上是指计算机设备，具体地，如图1所示，其可以是智能手机、智能交互平板和个人计算机等类型的计算机设备。主播客户端101和观众客户端103均可以通过公知的网络接入方式接入互联网，与服务端102建立数据通信链路。

服务端102作为一个业务服务器，其可以负责进一步连接起相关音频数据服务器、视频流服务器以及其他提供相关支持的服务器等，以此构成逻辑上相关联的服务机群，来为相关的终端设备，例如图1中所示的主播客户端101和观众客户端103提供服务。

本申请实施例中，主播客户端101与观众客户端103可以加入同一个直播间(即直播频道)，上述的直播间是指依靠互联网技术实现的一种聊天室，通常具备音视频播控功能。主播用户通过主播客户端101在直播间内进行直播，观众客户端103的观众可以登录服务端102进入直播间观看上直播。

在直播间内，主播与观众之间可通过语音、视频、文字等公知的线上交互方式来实现互动，普通是主播用户以音视频流的形式为观众表演节目，并且在互动过程中还可产生资源交互行为，例如观众客户端103对同一直播间的主播客户端101赠送虚拟礼物。当然，直播间的应用形态并不局限于在线娱乐，也可推广到其他相关场景中，例如：用户配对互动场景、视频会议场景、在线教学场景、产品推介销售场景以及其他任何需要类似互动的场景中。

具体地，观众观看直播的过程如下：观众可以点击访问安装在观众客户端103上的直播应用程序，并选择进入任意一个直播间，触发观众客户端103为该观众加载直播间界面，该直播间界面内包括若干交互组件，通过加载这些交互组件可以使观众在直播间内观看直播，并进行多种线上互动。

目前，在虚拟现实直播中，主播客户端采集主播的虚拟现实全景视频数据，需要将虚拟现实全景视频数据进行视频编码，将编码后的虚拟现实全景视频流发送至服务器，由服务器分发至各个观众客户端，以供观众观看虚拟现实直播。

然而，虚拟现实全景视频数据由于超高分辨率，因此数据量极其庞大。目前的视频编码技术编码效率低，无法实现超高分辨率的视频在视频编码后具备高帧率。而较低的视频帧率，会导致用户在观看虚拟直播时产生卡顿、不流畅的感觉，影响用户体验。

请参阅图2，图2为本申请第一实施例提供的视频编码方法的流程示意图，该方法包括如下步骤：

S10：获取视频帧图像。

其中，视频帧图像为待编码视频的各帧图像。待编码视频可以是各种视频格式的视频，视频帧图像通常表示为二维点阵，每个点表示一个像素，每个像素包括YUV数据。

S20：将视频帧图像划分为若干个视频图像区域；其中，每个视频图像区域包括若干行编码树单元行，每行编码树单元行包括若干个编码树单元。

其中，每个编码树单元(Coding Tree Unit，简称CTU)内包含1个亮度(Luma)编码树区块(CTB)与2个色度(Chroma)编码树区块(CTB)，以及记录额外信息的语法元素。每个编码树单元大小可以是64*64，即每个编码树单元包括64*64个像素点。

在本申请实施例中，每个视频图像区域互不重叠，每个视频图像区域的大小可以不同。每个视频图像区域为一个瓦片(TILE)，每个瓦片包括若干行编码树单元行，每行编码树单元行包括若干个编码树单元。例如，瓦片包括5个编码树单元行，每行编码树单元行包括10个编码树单元，则该瓦片的大小为320*640。

S30：从每个视频图像区域的第一行编码树单元行开始，并行对每一行编码树单元行进行处理，获得每一行编码树单元行中每个编码树单元的第一处理结果，其中，第一处理结果包括每个编码树单元的的预测系数、变换系数以及量化系数的其中一种。

其中，对每个编码树单元进行预测处理，获得每个编码树单元的的预测系数。预测处理主要采用帧内预测(intra prediction)和帧间预测(inter prediction)两种预测方法。帧内预测是利用同一视频帧内相邻像素的空间相关性，由已编码像素值来预测其相邻像素值，以达到减少信息量的目的。帧间预测是利用相邻视频帧的帧内相关性，由已编码视频帧的像素值来预测当前帧的像素值，以达到减少信息量的目的。

对每个编码树单元进行预测以及变换处理，获得每个编码树单元的的变换系数。变换处理是将信号从空域变换到频域，以去除空间信号的相关性。信号为待编码像素值与预测值求差所得的残差数据。空域的信号通过变换转换为频域信号，变换后的信号称为变换系数。变换系数包括低频系数、中频系数和高频系数，其能量主要集中在低频系数上。

对每个编码树单元进行预测、变换以及量化处理，获得每个编码树单元的的变换系数。量化处理是将变换系数除以某一个整数，获得量化系数，分为均匀量化和非均匀量化。变换系数中能量小的系数(例如中频系数、高频系数)可通过量化去除。

在本申请实施例中，可以对每一行编码树单元行中每个编码树单元进行并行预测处理，获得每个编码树单元的的预测系数。可以对每一行编码树单元行中每个编码树单元进行并行预测和变换处理，获得每个编码树单元的的变换系数。可以对每一行编码树单元行中每个编码树单元进行并行预测、变换以及量化处理，获得每个编码树单元的的量化系数。

S40：从每个视频图像区域的第一行编码树单元行开始，逐行对每个编码树单元的第一处理结果进行处理，获得视频帧图像中每个编码树单元的二进制比特流；其中，在第一处理结果为预测系数时，逐行对每个编码树单元的预测系数进行变换、量化以及熵编码操作处理；在第一处理结果为变换系数时，逐行对每个编码树单元的变换系数进行量化以及熵编码操作处理；在第一处理结果为量化系数时，逐行对每个编码树单元的量化系数进行熵编码操作处理。

其中，熵编码操作处理是对量化系数进行进一步的压缩编码，达到去除统计冗余的目的。熵编码是无损编码，熵编码的输出是视频编码过程的最终输出，即二进制比特流。

在本申请实施例中，由于是将视频帧图像划分为若干个TILE，基于TILE的编码协议，每个TILE对应一个独立的熵编码器。因此，在进行熵编码操作处理时，需要逐行对每个编码树单元进行处理，即在当前行编码树单元行处理完后，才可以进行下一行编码树单元行的处理。

具体地，可以将预测操作与变换、量化以及熵编码这三个操作进行分离，对每个编码树单元进行并行预测，获得预测系数。对每个编码树单元进行逐行变换、量化以及熵编码操作，获得二进制比特流。也可以将预测、变换这两个操作与量化以及熵编码这两个操作进行分离，对每个编码树单元进行并行预测以及变换，获得变换系数。对每个编码树单元进行逐行量化以及熵编码操作，获得二进制比特流。也可以将预测、变换以及量化这三个操作与熵编码操作进行分离，对每个编码树单元进行并行预测、变换以及量化，获得量化系数。对每个编码树单元进行逐行熵编码操作，获得二进制比特流。

应用本申请实施例，通过获取视频帧图像；将视频帧图像划分为若干个视频图像区域；其中，每个视频图像区域包括若干行编码树单元行，每行编码树单元行包括若干个编码树单元；从每个视频图像区域的第一行编码树单元行开始，并行对每一行编码树单元行进行处理，获得每一行编码树单元行中每个编码树单元的第一处理结果，其中，第一处理结果包括每个编码树单元的的预测系数、变换系数以及量化系数的其中一种；从每个视频图像区域的第一行编码树单元行开始，逐行对每个编码树单元的第一处理结果进行处理，获得视频帧图像中每个编码树单元的二进制比特流；其中，在第一处理结果为预测系数时，逐行对每个编码树单元的预测系数进行变换、量化以及熵编码操作处理；在第一处理结果为变换系数时，逐行对每个编码树单元的变换系数进行量化以及熵编码操作处理；在第一处理结果为量化系数时，逐行对每个编码树单元的量化系数进行熵编码操作处理。本申请通过对每个视频图像区域进行并行编码，并且对每个视频图像区域内的每行编码树单元行进行并行编码，从而提高了视频编码效率。

在一个可选的实施例中，步骤S30，包括步骤S301～S303，具体如下：

S301：从每个视频图像区域的第一行编码树单元行开始，对第一行编码树单元行中每个编码树单元进行处理，获得第一行编码树单元行中每个编码树单元的第一处理结果；

S302：对剩余行编码树单元行中每个编码树单元进行处理时，获取上一行编码树单元行中位于剩余行编码树单元行中当前编码树单元的正上方位置以及右上方位置对应的编码树单元的第一处理结果；

S303：根据当前编码树单元的正上方位置以及右上方位置对应的编码树单元的第一处理结果，对剩余行编码树单元行中当前编码树单元进行处理，获得剩余行编码树单元行中当前编码树单元的第一处理结果。

在本申请实施例中，首先对第一行编码树单元行中每个编码树单元进行处理，获得第一行编码树单元行中每个编码树单元的的预测系数、变换系数以及量化系数的其中一种。在对第二行编码树单元行中每个编码树单元进行处理时，具体地，在对第二行编码树单元行中每个编码树单元进行预测操作时，第二行编码树单元行中每个编码树单元需要依赖第一行编码树单元行中编码树单元的第一处理结果。在对第二行编码树单元行中当前CTU进行帧内预测时，会去参考当前CTU的正上方以及右上方的CTU重建后的值。CTU重建后的值是指对CTU的第一处理结果进行反量化、反变换、预测补偿以及滤波操作后获得的值。例如，第一行编码树单元行包括CTU1～CTU10，第二行编码树单元行包括CTU11～CTU20，则对CTU11进行预测操作时，需要获取CTU1和CTU2的第一处理结果，对CTU12进行预测操作时，需要获取CTU2和CTU3的第一处理结果。因此，在对每一行编码树单元行中每个编码树单元进行并行处理时，当前行编码树单元行比上一行编码树单元行要延迟两个编码树单元。具体地，第二行编码树单元行比第一行编码树单元行要延迟两个编码树单元，第三行编码树单元行比第二行编码树单元行要延迟两个编码树单元，......。

在对每一行编码树单元行进行并行处理时，通过剩余行编码树单元行比上一行编码树单元行延迟两个编码树单元，可以自动快捷地获得视频帧图像中每个编码树单元的第一处理结果。

在一个可选的实施例中，步骤S40，包括步骤S401～S402，具体如下：

S401：通过熵编码器对每个视频图像区域的第一行编码树单元行中第一个编码树单元进行熵编码状态初始化，每个视频图像区域的剩余编码树单元对应的熵编码状态均继承初始化的熵编码状态；

S402：根据初始化的熵编码状态，逐行对每个编码树单元的第一处理结果进行处理，获得视频帧图像中每个编码树单元的二进制比特流；其中，在第一处理结果为预测系数时，逐行对每个编码树单元的预测系数进行变换、量化以及熵编码操作处理；在第一处理结果为变换系数时，逐行对每个编码树单元的变换系数进行量化以及熵编码操作处理；在第一处理结果为量化系数时，逐行对每个编码树单元的量化系数进行熵编码操作处理。

其中，熵编码器内置有各个熵编码方法，每个熵编码方法对应有熵编码状态。熵编码方法包括但不限于香农编码、哈夫曼编码和算术编码。继承熵编码状态，是指对熵编码状态进行拷贝。

在本申请实施例中，熵编码器采用自适应二进制算术编码(Context AdaptiveBinary Arithmetic Coding，简称CABAC)方法，对应的熵编码状态为CABAC状态。具体地，CABAC状态为一个128bit的数据。

通过给每个编码树单元设置熵编码状态，通过熵编码状态对每个编码树单元的第一处理结果进行逐行处理，可以自动快捷地获得每个编码树单元的二进制比特流。

请参阅图3，为本申请第二实施例提供的虚拟现实直播方法的流程示意图，可以由主播客户端作为执行体，该方法包括如下步骤：

S100：获取主播的虚拟现实全景视频数据；其中，虚拟现实全景视频数据包括若干虚拟现实全景视频帧图像。

其中，通过主播端的VR全景拍摄设备，采集主播的虚拟现实全景视频数据。具体地，VR全景拍摄设备包括但不限于VR全景摄像机、VR全景相机以及VR全景摄像头。

S200：将虚拟现实全景视频帧图像划分为若干个视角区域图像，将每个视角区域图像划分为若干个视频图像区域；

S300：采用上述的视频编码方法，对若干个视频图像区域进行编码，获得每个视角区域图像的二进制比特流。

在本申请实施例中，将虚拟现实全景视频帧图像划分为若干个视角区域图像，对每个视角区域图像单独进行视频编码，获得每个视角区域图像的二进制比特流，将每个视角区域图像的二进制比特流按照Tile协议规范合并成一路视频流，并存储至服务器。其中，一路视频流中每帧视频图像的数据包含有若干个分片，每个分片代表一个视角区域图像的二进制比特流。由于视角区域图像对分辨率小于虚拟现实全景视频帧图像的分辨率，因此，对视角区域图像进行视频编码，速度更快。

S400：响应于观众客户端的视频流获取请求，确定观众客户端对应观众的观看视角，根据观看视角，从若干个视角区域图像的二进制比特流中，获得观看视角对应的视角区域图像的二进制比特流；

S500：将观看视角对应的视角区域图像的二进制比特流发送至观众客户端，以使观众客户端对观看视角对应的视角区域图像的二进制比特流进行解码以及渲染，显示观看视角对应的视角区域图像。

其中，用户在观看虚拟现实直播时，用户只能看到一定视角区域内的画面内容。

在本申请实施例中，响应于观众客户端的视频流获取请求，服务器对观众的人脸图像进行视角跟踪，以确定观众的观看视角。根据预设的视角与视角区域的映射关系，确定观看视角对应的视角区域。服务器查询获得观看视角对应的视角区域图像的二进制比特流，下发至观众客户端，以供观众观看虚拟现实直播。

根据用户的观看视角，确定视角区域，拉取视角区域的二进制比特流进行解码渲染，无需拉取整个虚拟现实直播视频的视频流，从而大大节省了观众端的下行码率和解码端的计算资源。

在一个可选的实施例中，如果观众端支持360度全景视频播放，那么可以直接将虚拟现实全景视频帧图像按照上述视频编码方法进行编码，获得一路视频流。将该一路视频流存储至服务器，并由服务器转发至观众端，以供观众观看虚拟现实直播。

在一个可选的实施例中，步骤S200，包括步骤S210，具体如下：

S210：根据观众的不同观看视角，将虚拟现实全景视频帧图像划分为若干个视角区域图像。

在本申请实施例中，虚拟现实全景视频的视角范围为360°×180°，360°是水平视角，180°是垂直视角。若观众的观看视角在视角范围90°×90°内，将虚拟现实全景视频帧图像划分为4个90°×90°的视角区域。若观众的观看视角在视角范围180°×90°内，将虚拟现实全景视频帧图像划分为2个180°×90°的视角区域。通过观众的不同观看视角，可以自动快捷地获得视角区域图像。

在一个可选的实施例中，视角区域图像包括但不限于前向视角区域图像、后向视角区域图像、头部视角区域图像以及底部视角区域图像。

在本申请实施例中，将虚拟现实全景视频帧图像均匀划分为4个90°×90°的视角区域，获得前向视角区域图像、后向视角区域图像、头部视角区域图像以及底部视角区域图像。其中，每个视角区域对应一定数量的TILE。在视频编码时，每个视角区域内可以跨Tile进行帧间预测，从而极大消除冗余，提升压缩率。

在一个可选的实施例中，步骤S300，包括步骤S310，具体如下：

S310：遍历每个所述虚拟现实全景视频帧图像的每个所述视频图像区域，在对当前虚拟现实全景视频帧图像的当前视频图像区域进行帧间预测时，将所述当前虚拟现实全景视频帧图像的上一虚拟现实全景视频帧图像中与所述当前视频图像区域位于同一视角区域图像的剩余视频图像区域的重建帧作为参考帧，获得每个所述视角区域图像的二进制比特流。

其中，重建帧将已编码完成的帧进行重建，以重建帧作为后续帧间预测的参考，称为参考帧。重建过程包括反量化、反变换、预测补偿以及滤波操作。

在本申请实施例中，在对每个视频图像区域进行编码时，每个视频图像区域可以跨Tile进行帧间预测。具体地，编码跨Tile是指通过修改编码器限制运动矢量(MotionVector，简称MV)的搜索范围，使得各个Tile能够独立编解码。在进行帧间预测时，当前视角区域图像的视频图像区域(Tile)只能参考参考帧的当前视角区域图像内的像素，不能参考其他视角区域图像内的像素。以前向视角区域图像包括视频图像区域Tile8～Tile11，后向视角区域图像包括视频图像区域(Tile 4～Tile7)为例进行说明，属于同一视角区域图像(Tile8～Tile11)的MV可以跨Tile，属于不同视角区域图像的MV不可以跨Tile。也即，Tile8的MV搜索范围可以扩大到Tile9、Tile10以及Tile11，但不可以搜索Tile4、Tile5、Tile6以及Tile7，从而让同一视角区域图像内的像素可以尽量参考，提升画质，同时不影响观看端分区观看时的独立解码播放。

请参阅图4，为本申请第三实施例提供的视频编码装置的结构示意图。该装置可以通过软件、硬件或两者的结合实现成为计算机设备的全部或一部分。该装置5包括：

图像获取模块51，用于获取视频帧图像；

图像区域划分模块52，用于将视频帧图像划分为若干个视频图像区域；其中，每个视频图像区域包括若干行编码树单元行，每行编码树单元行包括若干个编码树单元；

第一处理结果获得模块53，用于从每个视频图像区域的第一行编码树单元行开始，并行对每一行编码树单元行进行处理，获得每一行编码树单元行中每个编码树单元的第一处理结果，其中，第一处理结果包括每个编码树单元的的预测系数、变换系数以及量化系数的其中一种；

比特流获得模块54，用于从每个视频图像区域的第一行编码树单元行开始，逐行对每个编码树单元的第一处理结果进行处理，获得视频帧图像中每个编码树单元的二进制比特流；其中，在第一处理结果为预测系数时，逐行对每个编码树单元的预测系数进行变换、量化以及熵编码操作处理；在第一处理结果为变换系数时，逐行对每个编码树单元的变换系数进行量化以及熵编码操作处理；在第一处理结果为量化系数时，逐行对每个编码树单元的量化系数进行熵编码操作处理。

需要说明的是，上述实施例提供的视频编码装置在执行视频编码方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分为不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频编码装置与视频编码方法属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

请参阅图5，为本申请第四实施例提供的虚拟现实直播装置的结构示意图。该装置可以通过软件、硬件或两者的结合实现成为计算机设备的全部或一部分。该装置6包括：

视频数据获取模块61，用于获取主播的虚拟现实全景视频数据；其中，虚拟现实全景视频数据包括若干虚拟现实全景视频帧图像；

区域图像划分模块62，用于将每个虚拟现实全景视频帧图像划分为若干个视角区域图像，将每个视角区域图像划分为若干个视频图像区域；

图像块编码模块63，用于采用上述的视频编码方法，对若干个视频图像区域进行编码，获得每个视角区域图像的二进制比特流；

视频流请求模块64，用于响应于观众客户端的视频流获取请求，确定观众客户端对应观众的观看视角，根据观看视角，从若干个视角区域图像的二进制比特流中，获得观看视角对应的视角区域图像的二进制比特流；

比特流发送模块65，用于将观看视角对应的视角区域图像的二进制比特流发送至观众客户端，以使观众客户端对观看视角对应的视角区域图像的二进制比特流进行解码以及渲染，显示观看视角对应的视角区域图像。

需要说明的是，上述实施例提供的虚拟现实直播装置在执行虚拟现实直播方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分为不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的虚拟现实装置与虚拟现实方法属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

请参阅图6，为本申请第五实施例提供的电子设备的结构示意图。如图6所示，该计算机设备21可以包括：处理器210、存储器211以及存储在该存储器211并可以在该处理器210上运行的计算机程序212，例如：视频编码程序或虚拟现实直播程序；该处理器210执行该计算机程序212时实现上述实施例中的步骤。

其中，该处理器210可以包括一个或多个处理核心。处理器210利用各种接口和线路连接计算机设备21内的各个部分，通过运行或执行存储在存储器211内的指令、程序、代码集或指令集，以及调用存储器211内的数据，执行计算机设备21的各种功能和处理数据，可选的，处理器210可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programble LogicArray，PLA)中的至少一个硬件形式来实现。处理器210可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器210中，单独通过一块芯片进行实现。

其中，存储器211可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器211包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器211可用于存储指令、程序、代码、代码集或指令集。存储器211可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控指令等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器211可选的还可以是至少一个位于远离前述处理器210的存储装置。

本申请实施例还提供了一种计算机存储介质，该计算机存储介质可以存储有多条指令，该指令适用于由处理器加载并执行上述实施例的方法步骤，具体执行过程可以参见上述实施例的具体说明，在此不进行赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

本发明并不局限于上述实施方式，如果对本发明的各种改动或变形不脱离本发明的精神和范围，倘若这些改动和变形属于本发明的权利要求和等同技术范围之内，则本发明也意图包含这些改动和变形。

Claims

1.一种视频编码方法，其特征在于，包括如下步骤：

获取视频帧图像；

将所述视频帧图像划分为若干个视频图像区域；其中，每个所述视频图像区域包括若干行编码树单元行，每行所述编码树单元行包括若干个编码树单元；

从每个所述视频图像区域的第一行编码树单元行开始，并行对每一行所述编码树单元行进行处理，获得每一行所述编码树单元行中每个所述编码树单元的第一处理结果，其中，所述第一处理结果包括每个所述编码树单元的的预测系数、变换系数以及量化系数的其中一种；

从每个所述视频图像区域的第一行编码树单元行开始，逐行对每个所述编码树单元的第一处理结果进行处理，获得所述视频帧图像中每个所述编码树单元的二进制比特流；其中，在所述第一处理结果为预测系数时，逐行对每个所述编码树单元的预测系数进行变换、量化以及熵编码操作处理；在所述第一处理结果为变换系数时，逐行对每个所述编码树单元的变换系数进行量化以及熵编码操作处理；在所述第一处理结果为量化系数时，逐行对每个所述编码树单元的量化系数进行熵编码操作处理。

2.根据权利要求1所述的视频编码方法，其特征在于：

所述从每个所述视频图像区域的第一行编码树单元行开始，并行对每一行所述编码树单元行进行处理，获得每一行所述编码树单元行中每个所述编码树单元的第一处理结果的步骤，包括：

从每个所述视频图像区域的第一行编码树单元行开始，对所述第一行编码树单元行中每个所述编码树单元进行处理，获得所述第一行所述编码树单元行中每个所述编码树单元的第一处理结果；

对剩余行编码树单元行中每个所述编码树单元进行处理时，获取上一行编码树单元行中位于所述剩余行编码树单元行中当前编码树单元的正上方位置以及右上方位置对应的编码树单元的第一处理结果；

根据所述当前编码树单元的正上方位置以及右上方位置对应的编码树单元的第一处理结果，对所述剩余行编码树单元行中所述当前编码树单元进行处理，获得所述剩余行编码树单元行中所述当前编码树单元的第一处理结果。

3.根据权利要求1所述的视频编码方法，其特征在于：

所述从每个所述视频图像区域的第一行编码树单元行开始，逐行对每个所述编码树单元的第一处理结果进行处理，获得所述视频帧图像中每个所述编码树单元的二进制比特流的步骤，包括：

通过熵编码器对每个所述视频图像区域的第一行编码树单元行中第一个编码树单元进行熵编码状态初始化，每个所述视频图像区域的剩余编码树单元对应的熵编码状态均继承初始化的熵编码状态；

根据所述初始化的熵编码状态，逐行对每个所述编码树单元的第一处理结果进行处理，获得所述视频帧图像中每个所述编码树单元的二进制比特流；其中，在所述第一处理结果为预测系数时，逐行对每个所述编码树单元的预测系数进行变换、量化以及熵编码操作处理；在所述第一处理结果为变换系数时，逐行对每个所述编码树单元的变换系数进行量化以及熵编码操作处理；在所述第一处理结果为量化系数时，逐行对每个所述编码树单元的量化系数进行熵编码操作处理。

4.一种虚拟现实直播方法，其特征在于，包括如下步骤：

获取主播的虚拟现实全景视频数据；其中，所述虚拟现实全景视频数据包括若干虚拟现实全景视频帧图像；

将每个所述虚拟现实全景视频帧图像划分为若干个视角区域图像，将每个所述视角区域图像划分为若干个视频图像区域；

采用权利要求1至3任意一项所述的视频编码方法，对若干个所述视频图像区域进行编码，获得每个所述视角区域图像的二进制比特流；

响应于观众客户端的视频流获取请求，确定所述观众客户端对应观众的观看视角，根据所述观看视角，从若干个所述视角区域图像的二进制比特流中，获得所述观看视角对应的视角区域图像的二进制比特流；

将所述观看视角对应的视角区域图像的二进制比特流发送至所述观众客户端，以使所述观众客户端对所述观看视角对应的视角区域图像的二进制比特流进行解码以及渲染，显示所述观看视角对应的视角区域图像。

5.根据权利要求4所述的虚拟现实直播方法，其特征在于：

所述采用权利要求1至3任意一项所述的视频编码方法，对若干个所述视频图像区域进行编码，获得每个所述视角区域图像的二进制比特流的步骤，包括：

遍历每个所述虚拟现实全景视频帧图像的每个所述视频图像区域，在对当前虚拟现实全景视频帧图像的当前视频图像区域进行帧间预测时，将所述当前虚拟现实全景视频帧图像的上一虚拟现实全景视频帧图像中与所述当前视频图像区域位于同一视角区域图像的剩余视频图像区域的重建帧作为参考帧，获得每个所述视角区域图像的二进制比特流。

6.根据权利要求4所述的虚拟现实直播方法，其特征在于：

所述将所述虚拟现实全景视频帧图像划分为若干个视角区域图像的步骤，包括：

根据观众的不同观看视角，将所述虚拟现实全景视频帧图像划分为若干个视角区域图像。

7.根据权利要求4所述的虚拟现实直播方法，其特征在于：

所述视角区域图像包括但不限于前向视角区域图像、后向视角区域图像、头部视角区域图像以及底部视角区域图像。

8.一种视频编码装置，其特征在于，包括：

图像获取模块，用于获取视频帧图像；

图像区域划分模块，用于将所述视频帧图像划分为若干个视频图像区域；其中，每个所述视频图像区域包括若干行编码树单元行，每行所述编码树单元行包括若干个编码树单元；

第一处理结果获得模块，用于从每个所述视频图像区域的第一行编码树单元行开始，并行对每一行所述编码树单元行进行处理，获得每一行所述编码树单元行中每个所述编码树单元的第一处理结果，其中，所述第一处理结果包括每个所述编码树单元的的预测系数、变换系数以及量化系数的其中一种；

比特流获得模块，用于从每个所述视频图像区域的第一行编码树单元行开始，逐行对每个所述编码树单元的第一处理结果进行处理，获得所述视频帧图像中每个所述编码树单元的二进制比特流；其中，在所述第一处理结果为预测系数时，逐行对每个所述编码树单元的预测系数进行变换、量化以及熵编码操作处理；在所述第一处理结果为变换系数时，逐行对每个所述编码树单元的变换系数进行量化以及熵编码操作处理；在所述第一处理结果为量化系数时，逐行对每个所述编码树单元的量化系数进行熵编码操作处理。

9.一种虚拟现实直播装置，其特征在于，包括：

视频数据获取模块，用于获取主播的虚拟现实全景视频数据；其中，所述虚拟现实全景视频数据包括若干虚拟现实全景视频帧图像；

区域图像划分模块，用于将每个所述虚拟现实全景视频帧图像划分为若干个视角区域图像，将每个所述视角区域图像划分为若干个视频图像区域；

图像块编码模块，用于采用权利要求1至3任意一项所述的视频编码方法，对若干个所述视频图像区域进行编码，获得每个所述视角区域图像的二进制比特流；

视频流请求模块，用于响应于观众客户端的视频流获取请求，确定所述观众客户端对应观众的观看视角，根据所述观看视角，从若干个所述视角区域图像的二进制比特流中，获得所述观看视角对应的视角区域图像的二进制比特流；

比特流发送模块，用于将所述观看视角对应的视角区域图像的二进制比特流发送至所述观众客户端，以使所述观众客户端对所述观看视角对应的视角区域图像的二进制比特流进行解码以及渲染，显示所述观看视角对应的视角区域图像。

10.一种电子设备，包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述方法的步骤。

11.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述方法的步骤。