CN116708863A

CN116708863A - 直播视频编码方法、视频直播方法、设备及存储介质

Info

Publication number: CN116708863A
Application number: CN202310783465.8A
Authority: CN
Inventors: 陈科
Original assignee: Guangzhou Cubesili Information Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2023-06-28
Filing date: 2023-06-28
Publication date: 2023-09-05

Abstract

本申请涉及一种直播视频编码方法、视频直播方法、设备及存储介质，所述直播视频编码方法，包括以下步骤：将原始视频帧划分为核心视频块和非核心视频块，根据预设的下采样参数，对所述非核心视频块进行下采样；将所述核心视频块和下采样后的非核心视频块重组得到图像分辨率更小的重组视频帧并进行编码得到编码视频帧；将所述编码视频帧发送至直播播放端，使所述直播播放端解码所述编码视频帧并根据与所述下采样参数对应的上采样参数，对解码得到的所述重组视频帧中的非核心视频块进行上采样，得到显示视频帧。能够使得直播视频播放设备流畅的解码，并且播放的直播视频仍具有良好画面效果，有效提升直播观看体验。

Description

直播视频编码方法、视频直播方法、设备及存储介质

技术领域

本申请涉及视频直播技术领域，特别是涉及一种直播视频编码方法、视频直播方法、设备及存储介质。

背景技术

网络直播是指主播通过网络直播平台在网络上向观众分享直播音视频流的技术。网络直播是一种新的网络业态，它体现的是互联网开放、共享的特征，让每个普通人都能有机会在网络上展现自己的才华。

全景视频直播能够使观众看到更丰富的直播场景，能够看到主播周围的环境。但是相较于一般的视频直播，全景视频的分辨率通常较大，一般为4K以上。然而作为直播观众端的大部分移动设备支持解码的分辨率通常较小，一般仅支持对2K级别。因此在进行全景视频直播时，由于直播观众端解码能力有限而不能流畅的进行直播视频的解码，常常导致直播观众端播放直播的全景视频时存在明显的卡顿，影响了观众的观看体验。对此，一般的技术方案采用降低分辨率的编码方法进行编码，但是这种方案使得直播观众端最终的显示画面清晰度不高，总体画面效果也不好。

发明内容

基于此，本申请的目的在于，提供一种直播视频编码方法，使直播观众端能够流畅的解码全景直播视频，并且播放的全景直播视频仍具有良好画面效果，从而有效提升直播观看体验。

本申请实施例提供了一种直播视频编码方法，包括以下步骤：

获取原始视频帧；

将所述原始视频帧划分为核心视频块和非核心视频块，根据预设的下采样参数，对所述非核心视频块进行下采样，得到下采样的非核心视频块；

将所述核心视频块和所述下采样的非核心视频块重组得到重组视频帧；

编码所述重组视频帧得到编码视频帧；

将所述编码视频帧发送至直播播放端，使所述直播播放端解码所述编码视频帧得到所述重组视频帧，并根据与所述下采样参数对应的上采样参数，对解码得到的所述重组视频帧中的非核心视频块进行上采样，得到显示视频帧。

本申请实施例还提供了一种视频直播方法，包括以下步骤：

第一直播端获取原始视频帧；

所述第一直播端将所述原始视频帧划分为核心视频块和非核心视频块，根据预设的下采样参数，对所述非核心视频块进行下采样，得到下采样的非核心视频块；

所述第一直播端将所述核心视频块和所述下采样的非核心视频块重组得到重组视频帧；

所述第一直播端编码所述重组视频帧得到编码视频帧；

所述第一直播端将所述编码视频帧发送至第二直播端；

所述第二直播端接收所述编码视频帧；

所述第二直播端解码所述编码视频帧得到所述重组视频帧；

所述第二直播端根据与所述下采样参数对应的上采样参数，对解码得到的所述重组视频帧中的非核心视频块进行上采样，得到显示视频帧。

本申请实施例还提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中的计算机程序，所述计算机程序在被所述处理器运行时实现如上述实施例任意一项所述的方法的步骤。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述实施例任意一项所述的方法。

本申请实施例所述的直播视频编码方法以及视频直播方法，在直播的过程中，将原始视频帧划分为核心视频块和非核心视频块，根据预设的下采样参数，对所述非核心视频块进行下采样，得到下采样的非核心视频块；将所述核心视频块和所述下采样的非核心视频块重组为重组视频帧，使重组得到的重组视频帧的图像分辨率相较于原始视频帧的图像分辨率得到显著降低，能够适应直播端的解码能力，之后才对重组视频帧进行编码得到编码视频帧；将所述编码视频帧发送至直播端，直播端对编码视频帧进行解码得到所述重组视频帧后，根据与所述下采样参数对应的上采样参数，对解码得到的所述重组视频帧中的非核心视频块进行上采样，从而可以得到与原始视频帧的图像分辨率一致的显示视频帧进行渲染显示。能够使编码的视频帧的图像分辨率适应直播视频播放设备的解码能力从而能够在直播视频播放设备中流畅的解码，并且播放的直播视频仍具有良好画面效果，有效提升直播观看体验。

为了更好地理解和实施，下面结合附图详细说明本申请。

附图说明

图1为本申请实施例的视频直播方法的应用场景示意图；

图2为本申请实施例的视频直播方法的流程示意图；

图3为本申请实施例中将原始视频帧划分为若干视频块的示意图；

图4为本申请实施例中将各个视频块进行重组得到重组视频帧的示意图；

图5为本申请实施例的计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本领域技术人员可以理解，本申请所使用的“客户端”、“终端”、“终端设备”、“智能设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他诸如个人计算机、平板电脑之类的通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(PersonalCommunications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(GlobalPositioningSystem，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”、“智能设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”、“智能设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile InternetDevice，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本申请所称的“服务器”、“客户端”、“服务节点”、“智能设备”等名称所指向的硬件，本质上是具备个人计算机等效能力的计算机设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。

需要指出的是，本申请所称的“服务器”这一概念，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本申请的网络部署方式的实施方式。

请参考图1，图1为本实施例提供的视频直播方法的应用场景示意图，该应用场景包括主播客户端101、服务器102和观众客户端103，主播客户端101与观众客户端103通过服务器102进行交互。

其中，主播客户端101是指发送网络直播视频的一端，通常来说是网络直播中主播(即，直播主播用户)所采用的客户端。

观众客户端103是指接收和观看网络直播视频的一端，通常来说是网络直播中观看视频的观众(即，直播观众用户)所采用的客户端。

所述主播客户端101和所述观众客户端103所指向的硬件，本质上是指计算机设备，具体地，如图1所示，其可以是智能手机、智能交互平板和个人计算机等类型的计算机设备。主播客户端101和观众客户端103均可以通过公知的网络接入方式接入互联网，与服务器102建立数据通信链路。

服务器102作为一个业务服务器，其可以负责进一步连接起相关音频数据服务器、视频流服务器以及其他提供相关支持的服务器等，以此构成逻辑上相关联的服务机群，来为相关的终端设备，例如图1中所示的主播客户端101和观众客户端103提供服务。

本申请实施例中，主播客户端101与观众客户端103可以加入同一个直播间(即直播频道)，上述的直播间是指依靠互联网技术实现的一种聊天室，通常具备音视频播控功能。主播用户通过主播客户端101在直播间内进行直播，观众客户端103的观众可以登录服务器102进入直播间观看上直播。

在直播间内，主播与观众之间可通过语音、视频、文字等公知的线上交互方式来实现互动，一般是主播用户以音视频流的形式为观众表演节目，并且在互动过程中还可产生经济交易行为。当然，直播间的应用形态并不局限于在线娱乐，也可推广到其他相关场景中，例如：用户配对互动场景、视频会议场景、连麦直播场景、产品推介销售场景以及其他任何需要类似互动的场景中。

具体地，观众观看直播的过程如下：观众可以点击访问安装在观众客户端103上的直播应用程序，并选择进入任意一个直播间，触发观众客户端103为该观众加载直播间界面，该直播间界面内包括若干交互组件，通过加载这些交互组件可以使观众在直播间内观看直播，并进行多种线上互动。

请参考图2，本申请实施例公开了一种视频直播方法，包括以下步骤：

S101：第一直播端获取原始视频帧；

S102：所述第一直播端将所述原始视频帧划分为核心视频块和非核心视频块，根据预设的下采样参数，对所述非核心视频块进行下采样，得到下采样的非核心视频块；

S103：所述第一直播端将所述核心视频块和所述下采样的非核心视频块重组得到重组视频帧；

S104：所述第一直播端编码所述重组视频帧得到编码视频帧；

S105：所述第一直播端将所述编码视频帧发送至第二直播端；

S106：所述第二直播端接收所述编码视频帧；

S107：所述第二直播端解码所述编码视频帧得到所述重组视频帧；

S108：所述第二直播端根据与所述下采样参数对应的上采样参数，对解码得到的所述重组视频帧中的非核心视频块进行上采样，得到显示视频帧。

本申请实施例所述的视频直播方法，在直播的过程中，第一直播端将原始视频帧划分为核心视频块和非核心视频块，根据预设的下采样参数，对所述非核心视频块进行下采样，得到下采样的非核心视频块；将所述核心视频块和所述下采样的非核心视频块重组为重组视频帧，使重组得到的重组视频帧的图像分辨率相较于原始视频帧的图像分辨率得到显著降低，能够适应第二直播端的解码能力，之后才对重组视频帧进行编码得到编码视频帧；将所述编码视频帧发送至第二直播端，第二直播端对编码视频帧进行解码得到所述重组视频帧后，根据与所述下采样参数对应的上采样参数，对解码得到的所述重组视频帧中的非核心视频块进行上采样，从而可以得到与原始视频帧的图像分辨率一致的显示视频帧用于渲染显示。通过本申请实施例所述的视频直播方法，能够使编码的视频帧的图像分辨率适应直播视频播放设备的解码能力从而能够在直播视频播放设备中流畅的解码，并且播放的直播视频仍具有良好画面效果，有效提升直播观看体验。

其中，所述第一直播端是用于对直播视频进行编码的智能设备，其可以为直播客户端，也可以为服务器。所述直播客户端是指进行直播或观看直播的客户端，例如主播客户端或观众客户端。当所述第一直播端为直播客户端时，其可以包括主播客户端和/或观众客户端。

所述第二直播端是用于解码并播放直播视频的智能设备，其可以是观众客户端，也可以是主播客户端。

在一个实施例中，所述第一直播端为主播客户端，所述第二直播端为观众客户端。在主播进行视频直播过程中，所述主播客户端采集直播视频并执行上述步骤S101-S103得到重组视频帧，并进行编码得到编码视频帧，将编码视频帧发送至服务器，通过服务器再发送给观众客户端。

在另一个实施例中，所述第一直播端为服务器，所述第二直播端为观众客户端。所述服务器接收主播客户端和/或观众客户端发送的视频流，解析获取原始视频帧之后，执行上述步骤S101-S103得到重组视频帧，并进行编码得到编码视频帧，再将编码视频帧直接发送给观众客户端。

下面主要以所述第一直播端为主播客户端，所述第二直播端为观众客户端的情况进行说明，对于另一种所述第一直播端为服务器，所述第二直播端为观众客户端的情况，其工作原理类似，不再赘述。

对于步骤S101，第一直播端获取原始视频帧。

所述原始视频帧是指原始的图像分辨率的视频帧。其中，所述原始的图像分辨率是相对于重组视频帧的图像分辨率而言，在本实施例中，所述原始视频帧通过步骤S102-S103重组为图像分辨率更低的重组视频帧，即所述原始的图像分辨率相对重组视频帧的图像分辨率更高。

在本申请实施例中，所述原始的图像分辨率一般相对于第二直播端支持的解码分辨率较大，具体在全景视频直播的场景中，所述原始视频帧的图像分辨率一般为4K或以上，而第二直播端例如一般的移动设备，支持的解码分辨率则低于所述原始的图像分辨率，一般仅为2K级别。

其中，所述图像分辨率用于衡量图像中存储的信息量，一般以每英寸图像内有多少个像素点来进行衡量。需要说明，图像分辨率的表示方式有多种，为了便于说明，在不同的场景下可以采用不同的表示方式，例如其可以表示成每一个方向上的像素数量比如640x480(即宽方向具有640像素点，高方向具有480像素点)，又例如其也可以表示成“每英寸像素”(pixels per inch，ppi)以及图像的宽度和高度，比如72ppi和8x6英寸。不同的表示方式并不影响图像分辨率的实质意义，本实施例为了便于进行说明，采用以下表示方式对视频帧的图像分辨率进行说明，即以宽和高方向上的像素点数量表示图像分辨率，例如图像的宽方向上的像素点数量为100，高方向的像素点数量为50，则图像分辨率为100x50。故在图像显示器的显示分辨率为定值的情况下，图像分辨率的大小对应着图像显示的尺寸大小，例如图像分辨率为100x50的图像的显示尺寸，是图像分辨率为50x50的图像的显示尺寸的两倍。

本领域的技术人员知晓，为方便进行说明，一般皆以图像显示器的显示分辨率为定值作为前提，在这一前提下，便可以以图像尺寸大小来表达图像分辨率大小，即在本实施例中提及图像尺寸大即是说明图像分辨率大，图像尺寸小即是说明图像分辨率小，同理在对图像进行下采样以降低图像的图像分辨率时，可以称为对图像进行缩小，在对图像进行上采样以提高图像的图像分辨率时，可以称为对图像进行放大。

对于步骤S102，所述第一直播端将所述原始视频帧划分为核心视频块和非核心视频块，根据预设的下采样参数，对所述非核心视频块进行下采样，得到下采样的非核心视频块。

本步骤将所述原始视频帧划分为若干视频块，包括核心视频块和非核心视频块，其中核心视频块是视频帧中核心的区域，相反，非核心视频块则是视频帧中并非核心的区域。具体可以是根据视频帧的各个区域是否受人的视觉关注从而衡量哪些区域为核心的区域，或者也可以是基于预设的规则确定视频帧的某些区域为核心区域。

本步骤对所述原始视频帧的非核心视频块进行下采样。

所述下采样也称为降采样，或者在本实施例中也可以称为缩小图像，其能够降低图像的图像分辨率。一般而言，下采样是通过将图像划分为若干像素块，每个像素块包括邻近的多个像素点，再将每一个像素块合并为一个像素点，从而使得图像的像素点数量减少，图像分辨率减小，相应的，图像尺寸变小。例如对于图像分辨率为100x50的图像，在高和宽分别以5为单位将像素点进行划分，可以将图像划分为200块大小为5x5的像素块，将每个像素块合并为一个像素点(具体可以是取每个像素块内像素点的像素参数的平均值作为该像素块合并后的像素点的像素参数值)，从而最终得到的图像的图像分辨率大小仅为20x10，图像的尺寸缩小。

所述下采样参数是用于确定图像下采样的程度的参数，或者也可以称是用于确定图像缩小的比例的参数。以上述例子进行说明，对于图像分辨率为100x50的图像，下采样后的图像分辨率为20x10，此处可以认为下采样后的图像分辨率是根据原来的图像分辨率中的宽100和高50分别除以5得到，因而下采样参数为除数5；此处也可以认为下采样后的图像分辨率是根据原来的图像分辨率中的宽100和高50分别乘以0.2得到，因而下采样参数为乘数0.2。可见，基于不同的计算角度，下采样参数的具体表达形式可能具有多种，但是其作用效果都是相同的，都是用于确定图像下采样的程度，或者说是用于确定图像缩小的比例。

本步骤中，可以是通过训练的神经网络对视频帧的核心视频块和非核心视频块进行识别划分，也可以是根据预设的视频块划分坐标进行划分，还可以是其他的方法进行划分。

在一个实施例中，所述将所述原始视频帧划分为核心视频块和非核心视频块的步骤包括：

通过ROI区域识别模型识别所述原始视频帧中的ROI区域，将所述原始视频帧中的ROI区域划分为核心视频块，将所述原始视频帧中的非ROI区域划分为非核心视频块。

本实施例通过ROI区域识别模型所述原始视频帧中的ROI区域，并将ROI区域划分为核心视频块，非ROI区域则划分为非核心视频块。其中，ROI区域识别模型是训练得到的用于识别视频帧的ROI区域(即人的主观视觉感兴趣的区域)的模型。

在另一个实施例中，所述将所述原始视频帧划分为核心视频块和非核心视频块的步骤包括：

根据预设的视频块划分坐标，将所述原始视频帧划分为核心视频块和非核心视频块。

本实施例是根据预设的视频块划分坐标，直接对所述原始视频帧进行划分为核心视频块和非核心视频块，例如预设的视频块划分坐标可以是将视频帧划分为九宫格，其中位于中间的视频块为核心视频块，其它视频块为非核心视频块。

进一步地，对于非核心视频块还可以再进行划分，并且可以划分为多个等级，对于不同的等级的非核心视频块采用不同的下采样参数进行下采样。

在一个实施例中，所述第一直播端将所述原始视频帧划分为核心视频块和非核心视频块，根据预设的下采样参数，对所述非核心视频块进行下采样，得到下采样的非核心视频块的步骤包括：

所述第一直播端将所述非核心视频块划分为至少两个等级的非核心视频块，其中，不同等级对应不同的下采样参数；根据预设的各个等级的下采样参数，分别对各个等级的非核心视频块进行下采样，得到下采样的非核心视频块；

所述所述第二直播端根据与所述下采样参数对应的上采样参数，对解码得到的所述重组视频帧中的非核心视频块进行上采样，得到显示视频帧的步骤包括：

所述第二直播端根据与所述各个等级的下采样参数对应的各个等级的上采样参数，分别对解码得到的所述重组视频帧中的各个等级的非核心视频块进行上采样，得到显示视频帧。

本实施例对非核心视频块进一步划分为至少两个等级的非核心视频块，从而对不同等级的非核心视频块进行不同的下采样，例如对于视频帧的非核心视频块中，相对次要的视频块以及相对不重要的视频块可以分别划分为不同的两个等级，其中对于相对次要的视频块可以进行较小程度的下采样或者说进行较小比例的缩小，对于相对不重要的视频块则进行较大程度的下采样或者说进行较大比例的缩小。具体在一个实施例中，将所述非核心视频块划分为第一等级和第二等级的非核心视频块，对于第一等级的非核心视频块采用第一等级的下采样参数进行下采样，对于第二等级的非核心视频块采用第二等级的下采样参数进行下采样。

以下以一个具体例子对本步骤进行说明。

请参考图3、图4，图3给出了将原始视频帧划分为若干视频块的示意图，图4给出了在非核心视频块下采样之后，将各个视频块进行重组得到重组视频帧的示意图。在本例子中，所述原始视频帧的图像分辨率为3840x1920；将所述原始视频帧划分为以下视频块(x，y，w，h)：

A(0，0，1440，480)、B(1440，0，960，480)、C(2400，0，1440，480)、D(0，480，1440，960)、E(1440，480，960，960)、F(2400，480，1440，960)、G(0，1440，1440，480)、H(1440，1440，960，480)、I(2400，1440，1440，480)；

其中，x、y分别为视频块左上角的像素点相对于坐标原点的横轴坐标和纵轴坐标，w、h为视频块在横轴方向的像素点数量和在纵轴方向的像素点数量；其中以所述原始视频帧的左上角的像素点为坐标原点；其中，每个视频块的图像分辨率即为w x h，例如视频块A的图像分辨率为1440x480。

进一步地，本例子将视频块E(1440，480，960，960)确定为核心视频块，其它视频块为非核心视频块。并且又将其他视频块中的视频块B、视频块D、视频块F、视频块H划分为第一等级，以及将视频块A、视频块C、视频块G、视频块I划分为第二等级。

本例子中预设的第一等级的下采样参数为乘数0.5，第二等级的下采样参数为乘数0.25。

根据第一等级的下采样参数分别对视频块B、视频块D、视频块F、视频块H进行下采样，得到下采样后的视频块的大小(w，h)为：B(480，240)、D(720，480)、F(720，480)、H(480，240)；

根据第二等级的下采样参数分别对视频块A、视频块C、视频块G、视频块I进行下采样，得到下采样后的视频块的大小(w，h)为：A(360，120)、C(360，120)、G(360，120)、I(360，120)。

对于步骤S103，所述第一直播端对步骤S102划分得到的核心视频块以及经过下采样的非核心视频块进行重组得到重组视频帧。其中，所述重组是指将视频块拼接为一帧视频帧，具体是根据各个视频块的尺寸大小(对应于图像分辨率的大小)进行规划，使得重组得到的重组视频帧的尺寸尽可能的小即图像分辨率尽可能小。

请继续参考图3、图4的例子。具体的，图4是按以下坐标信息(x，y)将视频块E以及下采样后的视频块A、视频块B、视频块C、视频块D、视频块F、视频块G、视频块H和视频块I，重组得到重组视频帧：A(960，960)、B(0，960)、C(1320，960)、D(960，0)、E(0，0)、F(960，480)、G(960，1080)、H(480，960)、I(1320，1080)。

本步骤中，重组之后得到的重组视频帧的尺寸大小(即图像分辨率大小)将小于所述原始视频帧，其图像分辨率能够适应所述第二直播端的解码能力，能够被所述第二直播端进行流畅的解码。需要说明，为达到重组视频帧的大小小于原始视频帧这一目的，对视频块进行重组的方式具有多种可能，对此本申请并不限定。优选采用使重组视频帧的图像分辨率尽可能的小的重组方式，具体可以采用相关的规划算法来确定视频块重组的最优方式，或者也可以基于预设的重组规则来确定重组方式。

在一个实施例中，所述第一直播端将所述原始视频帧划分为核心视频块和非核心视频块的步骤中，划分的核心视频块的数量为1且其图像分辨率小于2K，并且所述对非核心视频块进行下采样的步骤中满足以下条件，即各个下采样后的非核心视频块能够与所述核心视频块重组得到图像分辨率小于或等于2K的重组视频帧。从而在对视频块进行重组时，能够重组为图像分辨率小于或等于2K的重组视频帧，能够适应大部分移动设备的解码能力。

在其他实施例中，所述第一直播端将所述原始视频帧划分为核心视频块和非核心视频块的步骤中，划分的核心视频块的数量大于1，则该步骤满足以下条件即各个核心视频块的图像分辨率之和小于2K，并且所述对非核心视频块进行下采样的步骤中满足以下条件，即各个下采样后的非核心视频块能够与所述核心视频块重组得到图像分辨率小于或等于2K的重组视频帧。同理，从而最终可以重组为图像分辨率小于或等于2K的重组视频帧，能够适应大部分移动设备的解码能力。

对于步骤S104，所述第一直播端编码所述重组视频帧得到编码视频帧。

本步骤对重组视频帧进行视频编码，其中对于采用的视频编解码技术并不限制，例如可以采用MPEG-1、MPEG-2、MPEG-4、H.264、HEVC以及AVS等视频编解码技术。进一步地，本步骤还可以是采用ROI视频编解码技术。ROI视频编解码技术能够进一步识别重组视频帧的ROI区域，并进一步地对重组视频帧的ROI区域和非ROI区域进行不同权重的压缩，以降低视频传输的码率和占用的带宽。

对于步骤S105，所述第一直播端将所述编码视频帧发送至第二直播端。

具体的，在一个实施例中，所述第一直播端为主播客户端，其将所述编码视频帧发送给服务器，并通过服务器发送给所述第二直播端。

在另一个实施例中，所述第一直播端为服务器，则其可以直接将所述编码视频帧发送给所述第二直播端。

对于步骤S106，所述第二直播端接收所述编码视频帧。

对于步骤S107，所述第二直播端解码所述编码视频帧得到所述重组视频帧。

本步骤中，所述第二直播端采用与所述第一直播端对应的视频编解码技术进行解码，由于上述步骤中得到的所述重组视频帧的图像分辨率能够适应所述第二直播端的解码能力，从而所述第二直播端对编码视频帧能够流畅的进行解码。

对于步骤S108，所述第二直播端根据与所述下采样参数对应的上采样参数，对解码得到的所述重组视频帧中的非核心视频块进行上采样，得到显示视频帧。进而，所述第二直播端可以将显示视频帧在显示界面中进行渲染，显示直播视频画面。

其中，所述上采样是对图像进行放大，其一般采用内插值的方法，即在原图像的基础上在像素点之间采用合适的插值算法插入新的像素点，将图像的像素点数量扩大，从而使得图像分辨率变大(尺寸变大)。同理，所述上采样参数是用于确定图像上采样的程度的参数，或者也可以称是用于确定图像放大的比例的参数。

本步骤中，所述第二直播端需要参考所述第一直播端将原始视频帧转换为重组视频帧的过程，将解码得到的重组视频帧进行还原。其中，还原是指将各个视频块按照原始视频帧中的位置进行重组，并且其中的非核心视频块经过上采样为原始视频帧中的尺寸。

具体的，所述第二直播端可以是预先设置了与所述第一直播端对应的相关参数，例如预先设置了与所述下采样参数对应的上采样参数，例如还可以预先设置了原始视频帧的各个视频块的位置信息以及重组视频帧中各个视频块的位置信息(对应的，所述第一直播端也是根据预设的规则和参数执行步骤S102-S103，例如预设了视频块划分规则、视频块重组规则以及下采样参数)。从而根据相关的参数，对解码得到的重组视频帧中的非核心视频块进行确定，并对非核心视频块进行上采样、还原为原始视频帧中的尺寸大小，再按各个视频块在原始视频帧中的位置信息对各个视频块进行重组，最终得到与原始视频帧的图像分辨率一致(即尺寸一致)的显示视频帧。当然，所述显示视频帧中还原的非核心视频块，将具有一定的失真，其显示的清晰度不如核心视频块。

在其他实施例中，所述第一直播端与所述第二直播端也可以不预设对应的规则和参数。所述第一直播端可以根据不同情况对原始视频帧进行不同方式的划分，以及确定对应的下采样参数，并根据不同的情况采用不同的重组方式对各个视频块进行重组，而不是基于预设设置的规则和参数对原始视频帧进行划分并对非核心视频块下采样以及对各个视频块重组。相应的，为了使所述第二直播端能够对解码得到的重组视频帧进行还原，所述第一直播端将相关的参数发送给所述第二直播端。

具体在一个实施例中，步骤S105所述第一直播端将所述编码视频帧发送至第二直播端，包括：

所述第一直播端将所述编码视频帧、所述预设的下采样参数、所述核心视频块和所述非核心视频块分别在所述原始视频帧中的原始位置信息，以及所述核心视频块和所述下采样的非核心视频块分别在所述重组视频帧中的重组位置信息发送至所述第二直播端；

步骤S108所述第二直播端根据与所述下采样参数对应的上采样参数，对解码得到的所述重组视频帧中的非核心视频块进行上采样，得到显示视频帧，包括：

所述第二直播端根据所述重组位置信息确定解码得到的所述重组视频帧中的核心视频块和非核心视频块，以及根据与所述下采样参数对应的上采样参数，对所述非核心视频块进行上采样，并根据所述原始位置信息将经过上采样的所述非核心视频块与所述核心视频块重组得到显示视频帧。

本实施例中，所述第一直播端在将所述原始视频帧划分为核心视频块和非核心视频块时，记录所述核心视频块和所述非核心视频块分别在所述原始视频帧中的原始位置信息，以及在将所述核心视频块和所述下采样的非核心视频块重组得到重组视频帧时，记录所述核心视频块和所述下采样的非核心视频块分别在所述重组视频帧中的重组位置信息；从而将所述编码视频帧、所述预设的下采样参数、所述核心视频块和所述非核心视频块分别在所述原始视频帧中的原始位置信息，以及所述核心视频块和所述下采样的非核心视频块分别在所述重组视频帧中的重组位置信息发送至所述第二直播端，使所述第二直播端能够对解码得到的重组视频帧进行还原重组得到显示视频帧。具体的，当所述第一直播端为主播客户端时，所述第一直播端先将所述编码视频帧、所述预设的下采样参数、所述原始位置信息以及所述重组位置信息发送至服务器，并通过服务器发送给所述第二直播端；当所述第一直播端为服务器时，所述第一直播端将所述编码视频帧、所述预设的下采样参数、所述原始位置信息以及所述重组位置信息直接发送至所述第二直播端。

进一步的，在一个实施例中，步骤S105所述第一直播端将所述编码视频帧发送至第二直播端，包括：

当所述第一直播端为主播客户端时，所述第一直播端通过服务器将所述编码视频帧发送至所述第二直播端，其中，所述服务器将所述编码视频帧以及预设标识信息发送至所述第二直播端，并且在接收到所述第二直播端返回的编码信息请求指令时，将所述预设的下采样参数、所述核心视频块和所述非核心视频块分别在所述原始视频帧中的原始位置信息，以及所述核心视频块和所述下采样的非核心视频块分别在所述重组视频帧中的重组位置信息发送至所述第二直播端；

或，当所述第一直播端为服务器时，所述第一直播端直接将所述编码视频帧以及预设标识信息发送至所述第二直播端，并且在接收到所述第二直播端返回的编码信息请求指令时，将所述预设的下采样参数、所述核心视频块和所述非核心视频块分别在所述原始视频帧中的原始位置信息，以及所述核心视频块和所述下采样的非核心视频块分别在所述重组视频帧中的重组位置信息发送至所述第二直播端；

步骤S106所述第二直播端接收所述编码视频帧，包括：

所述第二直播端接收所述编码视频帧，当检测到所述预设标识信息时，向所述服务器发送所述编码信息请求指令。

本实施例中，所述第二直播端若未检测到所述预设标识信息，则执行一般的视频解码方法，即在解码得到视频帧之后直接进行渲染显示，而当检测到所述预设标识信息时，则向服务器发送编码信息请求指令，从而获取所述预设的下采样参数、所述核心视频块和所述非核心视频块分别在所述原始视频帧中的原始位置信息，以及所述核心视频块和所述下采样的非核心视频块分别在所述重组视频帧中的重组位置信息，并根据获取的参数和信息将解码得到的重组视频帧进行还原得到显示视频帧，再将所述显示视频帧进行渲染显示。

本申请实施例还公开了一种直播视频编码方法，包括以下步骤：

获取原始视频帧；

编码所述重组视频帧得到编码视频帧；

本实施例所述直播视频编码方法的执行主体可以为直播客户端，也可以为服务器。需要说明，所述直播视频编码方法是与上述实施例所述视频直播方法属于同一发明构思，其体现实现过程详见上述实施例，这里不再赘述。其中，所述直播播放端对应于上述实施例所述第二直播端，其是用于解码并播放直播视频的智能设备，可以是观众客户端，也可以是主播客户端。

请参考图5，本申请实施例还公开了一种计算机设备301，包括存储器302、处理器303以及存储在所述存储器302中的计算机程序304；所述处理器303执行所述计算机程序304时实现如上述任一项实施例所述的方法的步骤。

其中，该处理器303可以包括一个或多个处理核心。处理器303利用各种接口和线路连接计算机设备301内的各个部分，通过运行或执行存储在存储器302内的指令、程序、代码集或指令集，以及调用存储器302内的数据，执行计算机设备301的各种功能和处理数据，可选的，处理器303可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programble LogicArray，PLA)中的至少一个硬件形式来实现。处理器303可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器303中，单独通过一块芯片进行实现。

其中，存储器302可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器302包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器302可用于存储指令、程序、代码、代码集或指令集。存储器302可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控指令等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器302可选的还可以是至少一个位于远离前述处理器303的存储装置。

本申请实施例还公开了一种计算机可读存储介质，其上存储有计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任一项实施例所述的方法。即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。而前述的存储介质包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，则本申请也意图包含这些改动和变形。

Claims

1.一种直播视频编码方法，其特征在于，包括以下步骤：

获取原始视频帧；

编码所述重组视频帧得到编码视频帧；

2.根据权利要求1所述的直播视频编码方法，其特征在于，所述将所述编码视频帧发送至直播播放端，使所述直播播放端解码所述编码视频帧得到所述重组视频帧，并根据与所述下采样参数对应的上采样参数，对解码得到的所述重组视频帧中的非核心视频块进行上采样，得到显示视频帧的步骤包括：

将所述编码视频帧、所述预设的下采样参数、所述核心视频块和所述非核心视频块分别在所述原始视频帧中的原始位置信息，以及所述核心视频块和所述下采样的非核心视频块分别在所述重组视频帧中的重组位置信息发送至直播播放端，使所述直播播放端解码所述编码视频帧得到所述重组视频帧，并根据所述重组位置信息确定解码得到的所述重组视频帧中的核心视频块和非核心视频块，以及根据与所述下采样参数对应的上采样参数，对所述非核心视频块进行上采样，并根据所述原始位置信息将经过上采样的所述非核心视频块与所述核心视频块重组得到显示视频帧。

3.根据权利要求1所述的直播视频编码方法，其特征在于，所述将所述原始视频帧划分为核心视频块和非核心视频块的步骤包括：

通过ROI区域识别模型识别所述原始视频帧中的ROI区域，将所述原始视频帧中的ROI区域划分为核心视频块，将所述原始视频帧中的非ROI区域划分为非核心视频块；

或，根据预设的视频块划分坐标，将所述原始视频帧划分为核心视频块和非核心视频块。

4.根据权利要求1-3任意一项所述的直播视频编码方法，其特征在于，所述将所述原始视频帧划分为核心视频块和非核心视频块，根据预设的下采样参数，对所述非核心视频块进行下采样，得到下采样的非核心视频块的步骤包括：

将所述非核心视频块划分为至少两个等级的非核心视频块，其中，不同等级对应不同的下采样参数；根据预设的各个等级的下采样参数，分别对各个等级的非核心视频块进行下采样，得到下采样的非核心视频块；

所述根据与所述下采样参数对应的上采样参数，对解码得到的所述重组视频帧中的非核心视频块进行上采样，得到显示视频帧的步骤包括：

根据与所述各个等级的下采样参数对应的各个等级的上采样参数，分别对解码得到的所述重组视频帧中的各个等级的非核心视频块进行上采样，得到显示视频帧。

5.一种视频直播方法，其特征在于，包括以下步骤：

第一直播端获取原始视频帧；

所述第一直播端编码所述重组视频帧得到编码视频帧；

所述第一直播端将所述编码视频帧发送至第二直播端；

所述第二直播端接收所述编码视频帧；

所述第二直播端解码所述编码视频帧得到所述重组视频帧；

6.根据权利要求5所述的视频直播方法，其特征在于，所述第一直播端将所述编码视频帧发送至第二直播端的步骤包括：

所述第一直播端将所述编码视频帧、所述预设的下采样参数、所述核心视频块和所述非核心视频块分别在所述原始视频帧中的原始位置信息，以及所述核心视频块和所述下采样的非核心视频块分别在所述重组视频帧中的重组位置信息发送至第二直播端；

所述第二直播端根据与所述下采样参数对应的上采样参数，对解码得到的所述重组视频帧中的非核心视频块进行上采样，得到显示视频帧的步骤包括：

7.根据权利要求6所述的视频直播方法，其特征在于，所述第一直播端将所述编码视频帧发送至第二直播端的步骤包括：

所述第一直播端将所述编码视频帧以及预设标识信息发送至第二直播端，并且在接收到所述第二直播端返回的编码信息请求指令时，将所述预设的下采样参数、所述核心视频块和所述非核心视频块分别在所述原始视频帧中的原始位置信息，以及所述核心视频块和所述下采样的非核心视频块分别在所述重组视频帧中的重组位置信息发送至所述第二直播端；

所述第二直播端接收所述编码视频帧的步骤包括：

所述第二直播端接收所述编码视频帧，当检测到所述预设标识信息时，向所述第一直播端发送所述编码信息请求指令。

8.根据权利要求5-7任意一项所述的视频直播方法，其特征在于，所述第一直播端将所述原始视频帧划分为核心视频块和非核心视频块，根据预设的下采样参数，对所述非核心视频块进行下采样，得到下采样的非核心视频块的步骤包括：

9.一种计算机设备，其特征在于，包括存储器、处理器以及存储在所述存储器中的计算机程序，所述计算机程序在被所述处理器运行时实现如权利要求1至8任意一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至8任意一项所述的方法。