CN110087081B

CN110087081B - 视频编码方法、装置、服务器及存储介质

Info

Publication number: CN110087081B
Application number: CN201910366624.8A
Authority: CN
Inventors: 魏雪; 杨卫; 王赐烺; 于博睿; 刘志伟; 杨广东; 黄耿星; 曾铖
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-05-05
Filing date: 2019-05-05
Publication date: 2021-08-06
Anticipated expiration: 2039-05-05
Also published as: CN110087081A

Abstract

本发明公开了一种视频编码方法、装置、服务器及存储介质，属于视频编码领域。本发明提供了一种通过自学习的方式，自动化地找到满足需求的感兴趣区域数据，进而采用该感兴趣区域数据来进行感兴趣区域编码的方法。通过分别采用普通的视频编码方式以及感兴趣区域编码方式，对同一视频进行编码，根据两路视频流，来确定出期望的感兴趣区域数据，当需要向终端发送视频流时，则使用该感兴趣区域数据来进行感兴趣区域编码。通过感兴趣区域编码的方式可以节省传输视频流总共占用的网络传输带宽，并且相对于依据用户经验设置感兴趣区域数据的方式来说，可以极大地提高感兴趣区域数据的精确度。

Description

视频编码方法、装置、服务器及存储介质

技术领域

本发明涉及视频编码领域，特别涉及一种视频编码方法、装置、服务器及存储介质。

背景技术

视频编码方式是一种指通过压缩的方式，将某个视频格式的文件转换成另一种视频格式文件的技术。

相关技术中，视频编码的过程包括：服务器得到待编码的目标视频后，对于目标视频中的视频帧，服务器会对整个视频帧采用相同的编码参数进行视频编码，即视频帧中各个区域对应的编码参数都是相同的，比如具有相同的清晰度等。通过进行视频编码，服务器可以将视频转换为视频流，服务器可以向终端发送视频流。

采用上述方法进行视频编码时，服务器向终端传输视频流的过程中，视频流占用的网络传输带宽较大。

发明内容

本发明实施例提供了一种视频编码方法、装置、服务器及存储介质，能够解决相关技术中视频流占用的网络传输带宽较大的问题。所述技术方案如下：

一方面，提供了一种视频编码方法，所述方法包括：

对目标视频进行视频编码，得到第一视频流；

采用感兴趣区域数据，对所述目标视频进行感兴趣区域编码，得到第二视频流，所述感兴趣区域数据用于指示所述目标视频中的感兴趣区域、所述感兴趣区域对应的编码参数以及所述感兴趣区域之外的其他区域对应的编码参数；

基于所述感兴趣区域数据、所述第一视频流以及所述第二视频流，获取目标感兴趣区域数据；

采用所述目标感兴趣区域数据，对所述目标视频进行感兴趣区域编码，得到第三视频流，向终端发送所述第三视频流。

另一方面，提供了一种视频编码装置，所述装置包括：

编码模块，用于对目标视频进行视频编码，得到第一视频流；

所述编码模块，还用于采用感兴趣区域数据，对所述目标视频进行感兴趣区域编码，得到第二视频流，所述感兴趣区域数据用于指示所述目标视频中的感兴趣区域、所述感兴趣区域对应的编码参数以及所述感兴趣区域之外的其他区域对应的编码参数；

获取模块，用于基于所述感兴趣区域数据、所述第一视频流以及所述第二视频流，获取目标感兴趣区域数据；

所述编码模块，还用于采用所述目标感兴趣区域数据，对所述目标视频进行感兴趣区域编码，得到第三视频流；

发送模块，用于向终端发送所述第三视频流。

另一方面，提供了一种服务器，所述服务器包括一个或多个处理器和一个或多个易失性或非易失性存储器，所述一个或多个易失性或非易失性存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现上述视频编码方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述视频编码方法。

本发明实施例提供的技术方案带来的有益效果至少可以包括：

本实施例提供的方法，提供了一种通过自学习的方式，自动化地找到满足需求的感兴趣区域数据，进而采用该感兴趣区域数据来进行感兴趣区域编码的方法。通过分别采用普通的视频编码方式以及感兴趣区域编码方式，对同一视频进行编码，根据两路视频流，来确定出期望的感兴趣区域数据，当需要向终端发送视频流时，则使用该感兴趣区域数据来进行感兴趣区域编码。一方面，由于感兴趣区域编码的方式会采用不同的编码参数，分别对视频中的感兴趣区域以及非感兴趣区域进行编码，能够避免对非感兴趣区域采用高图像质量的编码方式进行编码时会占用的网络传输带宽，从而节省传输视频流总共占用的网络传输带宽，并且，可以避免感兴趣区域的图像质量受到影响，保证视频的播放效果。另一方面，相对于依据用户经验，设置人为拟定的感兴趣区域数据的方式来说，可以极大地提高感兴趣区域数据的精确度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频编码方法的实施环境的架构图；

图2是本发明实施例提供的一种视频编码方法的流程图；

图3是本发明实施例提供的一种视频编码方法的流程图；

图4是本发明实施例提供的一种视频编码系统的架构图；

图5是本发明实施例提供的一种视频编码方法的流程图；

图6是本发明实施例提供的一种视频编码装置的结构示意图；

图7是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

首先，对本申请实施例涉及的一些名词进行解释：

感兴趣区域(region of interest，ROI)：人类视觉系统在处理较为复杂的场景时，会将视觉注意力集中在场景中的少数几个对象，并优先处理注意力集中的对象，此过程称为视觉注意过程，而视觉注意力集中的对象在场景中构成的区域即为感兴趣区域。在图像或视频帧中，通常以方框、源、椭圆、不规则多边形等形式，来表示感兴趣区域。

视频编码：一种对视频中连续的视频帧进行编码的技术。视频编码主要是通过消除连续视频帧之间的时域冗余信息，来实现压缩视频的功能。

感兴趣区域编码：区别于普通的视频编码技术，感兴趣区域编码是一种能够根据需求进行智能编码的技术。在视频帧中，有些区域无关紧要，例如天空、草地等，普通的编码技术会对整个视频帧采用相同的编码参数进行编码并传输，这样就对网络带宽以及视频存储带来了很大的压力。而感兴趣区域编码技术能够解决这一问题。具体地，感兴趣区域编码技术会对视频帧中的感兴趣区域进行无损或接近无损的压缩编码，而对视频帧中的感兴趣区域之外的区域进行有损压缩，例如降低感兴趣区域之外的区域的码率以及图像质量，比如说按照标准清晰度对感兴趣区域之外的区域进行视频压缩，甚至不传输感兴趣区域之外的区域的视频帧，如此，可以极大地降低传输视频流所需占用的网络带宽，减少视频存储所需占用的存储空间。并且，由于感兴趣区域能够得以高质量编码，可以避免感兴趣区域的清晰度受到影响。

码率：也称视频传输码率、带宽消耗量或吞吐量，是单位时间内传输的比特的数量。码率通常使用比特率来表示，单位为比特每秒。

虚拟场景：应用程序在终端上运行或显示的虚拟的场景，虚拟场景可以是对真实世界的仿真场景，也可以是半仿真半虚构的场景，还可以是纯虚构的场景。虚拟场景能够提供一个多媒体的虚拟世界，用户可通过操作设备或操作界面对虚拟场景中可操作的虚拟对象进行控制，以虚拟对象的视角观察虚拟场景中的物体、人物、风景等虚拟物，或通过虚拟对象和虚拟场景中的物体、人物、风景等虚拟物或者其他虚拟对象等进行互动，例如，通过操作一个虚拟士兵对目标敌军进行攻击等。虚拟场景可以是二维虚拟场景、2.5维虚拟场景和三维虚拟场景中的任意一种。可选地，该虚拟场景用于进行至少两个虚拟对象之间的虚拟场景对战。比如，虚拟场景用于至少两个虚拟对象之间使用虚拟机械进行对战。虚拟场景通常由终端等计算机设备中的应用程序生成，基于终端中的硬件(例如屏幕)进行展示。

云游戏：是一种让游戏运行在云端，终端无需下载、安装以及更新客户端的技术。在运行云游戏的过程中，由服务器运行游戏程序的主体，例如运行游戏画面渲染以及游戏处理逻辑。而终端根据用户的输入操作，将操作指令发送给服务器，服务器根据操作指令，生成游戏画面，对游戏画面进行渲染，将得到的每帧游戏画面进行音视频编码，得到游戏视频流，通过网络将游戏视频流传输给终端，终端对游戏视频流进行音视频解码后，可以显示每帧游戏画面。通过云游戏技术，生成游戏画面的过程可以由在终端上执行转换为在服务器上执行，从而避免为了让终端实现生成游戏画面的功能，为终端购买价格昂贵的处理器所带来的高额成本。并且，渲染游戏画面的过程也可以由在终端上执行转换为在服务器上执行，从而避免为了让终端实现渲染游戏画面的功能，为终端购买价格昂贵的显卡所带来的高额成本。并且，也避免了终端下载容量庞大的游戏安装文件产生的网络传输开销，以及在终端上存储游戏安装文件所占用的较大存储空间。通常来讲，基于云游戏技术，终端在网络连接良好、具有基础的视频解压能力的情况下，即可进行游戏，从而在实现游戏功能的基础上，极大地降低了成本。

第一人称射击类游戏(first-person shooting game，FPS):是指以玩家的视角来进行射击的游戏，能让用户身临其境的体验游戏带来的视觉冲击，从而增强游戏的主动性和真实感。

角色扮演游戏(role-playing game，RPG)：是指玩家扮演一个角色，在一个写实或虚构世界中活动的游戏。

结构相似性(structural similarity index，SSIM)：是一种衡量两幅图像相似度的指标，可以使用结构相似性来获取压缩后的图像和原图之间的相似度。结构相似性的取值范围为从0到1，结构相似性越大，表示两个图像越相似，如果两个图像完全相同，结构相似性的值等于1。

峰值信噪比(peak signal to noise ratio，PSNR)：是一种用于表示压缩后的图像和原图相比质量的好坏的指标。峰值信噪比越大，表示图像在压缩后失真越小。

H.264视频编码标准：又称为动态图像专家组-4(Moving Picture ExpertsGroup，MPEG-4)第10部分，是由国际电信联盟电信标准分局(TelecommunicationStandardization Sector，ITU-T)的视频编码专家组和国际标准化组织(InternationalOrganization for Standardization，ISO)/国际电工委员会(Internationalelectrotechnical Commission，IEC)动态图像专家组联合组成的联合视频组提出的高度压缩数字视频编解码器标准。

H.265视频编码标准：又称为高效率视频编码，是在H.264视频编码标准之后所制定的新的视频编码标准。

图1是本发明实施例提供的一种视频编码方法的实施环境的架构图。该实施例包括服务器101以及终端102。服务器101与终端102可以通过通信网络连接。该服务器101可以是一个服务器、多个服务器或者是云计算中心。例如，该服务器101可以提供为云计算集群，云计算集群中的每个服务器可以用于执行下述方法实施例中相同或不同的步骤，通过将相同或不同的步骤分散在不同的服务器上执行，可以减少单个服务器所需执行的计算量。终端102可以是智能手机、平板电脑或者电子书阅读器等移动终端；或者，终端也可以是笔记本电脑或者固定式计算机的个人计算机设备。

服务器101可以用于对视频进行感兴趣区域编码后，将得到的视频流发送给终端，终端可以对视频流进行解码后，显示视频画面。在一些可能的实施例中，应用于云游戏的场景下，服务器101可以为终端102提供云游戏的服务，服务器101可以运行云游戏的程序，终端102可以接收操作指令，将操作指令发送至服务器102，服务器可以根据该操作指令，基于云游戏的程序生成云游戏的每帧游戏画面，对每帧游戏画面进行渲染，对渲染后的游戏画面进行感兴趣区域编码后，得到游戏视频流，将游戏视频流发送至终端102，终端102可以对游戏视频流进行解码，在屏幕中显示云游戏的游戏画面。

图2是本发明实施例提供的一种视频编码方法的流程图。该实施例以执行主体为服务器为例进行说明，参见图2，该方法包括：

步骤201、服务器对目标视频进行视频编码，得到第一视频流。

目标视频为待编码的视频，目标视频可以包括多个连续的视频帧。目标视频可以包括游戏视频、赛事视频、直播视频、电竞视频等。服务器可以用于为终端提供视频，例如应用在游戏场景，服务器可以用于为终端提供游戏视频，又如应用在直播场景，服务器可以用于从主播端接收直播视频，将直播视频提供给终端。第一视频流是指对目标视频进行视频编码后得到的视频流，例如，如果目标视频为云游戏的视频，第一视频流可以为云游戏视频流，第一视频流的每个视频帧可以为云游戏的游戏画面。

其中，步骤201中采用的视频编码方式为感兴趣区域编码之外的编码方式，例如可以是传统的视频编码方式。

关于获取目标视频的方式，服务器可以预先存储目标视频，也可以实时录制视频。例如，服务器可以录制直播，得到直播视频。又如，服务器可以在运行游戏的过程中，捕获游戏的每帧游戏画面，从而录制得到游戏视频。

步骤201中采用的视频编码参数可以称为原始编码参数，该视频编码参数可以在服务器中预先进行配置。作为示例，服务器可以接收输入的配置指令，从配置指令中，获取云游戏视频的视频编码参数。

步骤202、服务器采用感兴趣区域数据，对目标视频进行感兴趣区域编码，得到第二视频流。

感兴趣区域数据用于指示目标视频中感兴趣区域、感兴趣区域对应的编码参数以及感兴趣区域之外的其他区域对应的编码参数。其中，感兴趣区域可以包括感兴趣区域的位置以及感兴趣区域的大小中的至少一项。感兴趣区域的位置可以通过感兴趣区域的坐标表示，感兴趣区域的大小可以小于或等于视频帧的大小。感兴趣区域之外的其他区域可以称为非感兴趣区域，感兴趣区域对应的编码参数可以与感兴趣区域之外的其他区域对应的编码参数不同，例如，感兴趣区域对应的编码参数的清晰度可以高于感兴趣区域之外的其他区域对应的编码参数的清晰度。第二视频流是指对目标视频进行感兴趣区域编码后得到的视频流。

步骤202中采用的感兴趣区域数据的数量可以是一个或多个。在一些可能的实施例中，服务器可以预先存储多个感兴趣区域数据，采用多个感兴趣区域数据中的每个ROI数据，分别对目标视频进行感兴趣区域编码，得到多个第二视频流，以便后续过程中从多个感兴趣区域数据中选取满足需求的目标感兴趣区域数据。其中，多个感兴趣区域数据可以包括感兴趣区域数据的取值范围中的每个感兴趣区域数据，如此，通过采用感兴趣区域数据的取值范围的所有感兴趣区域数据对目标视频分别进行感兴趣区域编码，能够以穷举的方式，找到目标感兴趣区域数据。另外，多个感兴趣区域数据也可以是感兴趣区域数据的取值范围中的若干感兴趣区域数据，如此，能够以枚举的方式，找到目标感兴趣区域数据。在另一些可能的实施例中，服务器可以预先存储初始感兴趣区域数据，采用初始感兴趣区域数据对目标视频进行感兴趣区域编码，得到第二视频流，以便后续过程中对初始感兴趣区域数据进行调整后，得到满足需求的目标感兴趣区域数据。其中，该初始感兴趣区域数据中感兴趣区域的位置可以和目标视频的视频帧重合，感兴趣区域的大小和目标视频的视频帧的大小相同。

步骤202中采用的感兴趣区域数据可以由用户自定义设置。例如，用户可以在服务器中输入感兴趣区域数据，服务器可以根据输入操作，接收输入的感兴趣区域数据。其中，该输入的感兴趣区域数据可以为多个感兴趣区域数据，也可以是初始感兴趣区域数据。如此，可以结合专家经验，来找到感兴趣区域数据。

其中，步骤202中采用的感兴趣区域数据中的感兴趣区域可以由图像学习的方式得到，例如，可以基于视觉注意模型，从视频帧中，提取感兴趣区域的位置和大小。又如，可以通过摄像头，采集用户的视线在视频帧上的注视点，将注视点作为感兴趣区域。

需要说明的一点是，服务器可以采用任一种感兴趣区域编码方式对目标视频进行感兴趣区域编码。具体来说，可以采用软件的方式、硬件的方式或软件与硬件结合的方式，对目标视频进行感兴趣区域编码。例如，服务器可以基于H.264视频编码标准，对目标视频进行感兴趣区域编码。又如，可以基于H.265视频编码标准，对目标视频进行感兴趣区域编码。另外，基于硬件的感兴趣区域编码方式包括而不限于Nvidia(一个人工智能计算公司)、AMD(超威半导体公司)、Intel(英特尔)等硬件厂商提供的硬件编码方案。

步骤203、服务器基于感兴趣区域数据、第一视频流以及第二视频流，获取目标感兴趣区域数据。

目标感兴趣区域数据是指基于感兴趣区域数据以及两路视频流，得到的满足要求的感兴趣区域数据。在一些可能的实施例中，步骤201至步骤203可以在线下执行，可以作为测试的步骤，以得到目标感兴趣区域数据，而目标感兴趣区域数据可以用于在现网运行时进行感兴趣区域编码，以便在现网中利用预先测试得到的目标感兴趣区域数据。

在一些可能的实施例中，步骤203可以包括下述步骤一至步骤二：

步骤一、服务器对第一视频流与第二视频流进行对比，得到对比结果。

普通的视频编码方式得到的第一视频流可以视为参考的基准，服务器以其为基准进行对比，能够判定感兴趣区域编码得到的第二视频流的图像质量下降的程度，以及感兴趣区域编码得到的第二视频流节省带宽的程度。如此，可以通过对比结果，来判定感兴趣区域数据是否合适，最终找到期望的目标感兴趣区域数据。

在一些可能的实施例中，步骤一具体可以包括下述方式(1)至方式(2)中的至少一项。

方式(1)服务器对第一视频流的图像质量与第二视频流的图像质量进行对比，得到第一对比结果。

第一对比结果用于表示第一视频流的图像质量与第二视频流的图像质量之间的差异。例如，第一对比结果可以表示第二视频流相对于第一视频流来说，图像质量下降的幅度。比如说，第一对比结果越大，表示第二视频流相对于第一视频流来说，图像质量下降的幅度越大。

在一些可能的实施例中，服务器在得到第一视频流以及第二视频流后，可以对第一视频流进行解码及渲染，得到第一视频；对第二视频流进行解码及渲染，得到第二视频，对第一视频与第二视频流中相同帧号的视频帧的图像质量进行对比，得到第一对比结果。其中，第一视频可以视为从第一视频流还原得到的视频，第一视频是指对第一视频流进行解码及渲染得到的视频。第二视频可以视为从第二视频流还原得到的视频，第二视频是指对第二视频流进行解码及渲染得到的视频。

作为示例，服务器可以获取第一视频的第一视频帧与第二视频的第二视频帧之间的结构相似性，作为第一对比结果。其中，第一视频帧的帧号与第二视频帧的帧号相同，帧号用于标识视频帧在视频中的位置。例如，第一视频帧可以是第一视频中的第k个帧，第二视频帧可以也是第二视频中的第k个帧，k为正整数。其中，服务器可以获取第一视频的每个第一视频帧与第二视频的每个第二视频帧之间的结构相似性，得到多个结构相似性，对多个结构相似性求平均，作为第一对比结果；服务器也可以获取第一视频中某一目标帧号的第一视频帧与第二视频的该目标帧号的第二视频帧之间的结构相似性，作为第一对比结果。

作为示例，服务器可以获取第一视频的第一视频帧与第二视频的第二视频帧之间的峰值信噪比，作为第一对比结果。

当然，结构相似性的方式以及峰值信噪比的方式仅是示例，服务器也可以采用其他图像质量评估方式，来对第一视频流的图像质量与第二视频流的图像质量进行对比。例如，服务器可以建立视频类型与图像质量对比方式之间的对应关系，可以根据目标视频的视频类型，从视频类型与图像质量对比方式之间的对应关系中，获取目标视频对应的图像质量对比方式，采用目标视频对应的图像质量对比方式，来对第一视频流的图像质量与第二视频流的图像质量进行对比。

方式(2)服务器对第一视频流的码率与第二视频流的码率进行对比，得到第二对比结果。

第二对比结果用于表示第一视频流的码率与第二视频流的码率之间的差异，而由于码率通常可以表示带宽，所以第二对比结果也可以表示传输第一视频流占用的带宽与传输第二视频流占用的带宽之间的差异。例如，第二对比结果可以表示第二视频流相对于第一视频流来说，码率下降的幅度，即第二视频流相对于第一视频流来说，带宽节省的幅度。比如说，第二对比结果越大，表示第二视频流相对于第一视频流来说，码率下降的幅度越大，即带宽节省的幅度越大。

在一些可能的实施例中，服务器可以获取第一视频的第一视频帧的大小与第二视频的第二视频帧的大小，根据第一视频帧的大小与第二视频帧的大小，获取第二对比结果。例如，可以获取第一视频帧的大小与第二视频帧的大小之间的差，作为第二对比结果。又如，可以获取第二视频帧的大小与第一视频帧的大小之间的比例，作为第二对比结果。作为示例，服务器可以获取第一视频的第m个视频帧以及第二视频的第m个视频帧的大小，不妨假设第一视频的第m个视频帧的大小为20兆(Megabyte，M)，第二视频的第m个视频帧的大小为5M，则第二对比结果可以为两个视频帧的大小之差，即15M，也可以为两个视频帧的大小之间的比值，即25％。其中，视频帧的大小可以为传输视频帧所需占用的网络传输带宽，m为正整数。

步骤二、服务器基于对比结果以及感兴趣区域数据，获取目标感兴趣区域数据。

在一些可能的实施例中，服务器可以根据对比结果，对感兴趣区域数据进行调整，将调整后的感兴趣区域数据作为目标感兴趣区域数据。

具体来说，第一对比结果可以表示感兴趣区域编码对图像质量的影响，第二对比结果可以表示感兴趣区域编码对带宽的影响，那么服务器根据第一对比结果以及第二对比结果，能够在图像质量与带宽之间寻找一个平衡点，即图像质量的下降幅度不至于过大，并且带宽的节省率能够满足需求的感兴趣区域数据，将该感兴趣区域数据作为目标感兴趣区域数据。

对感兴趣区域数据进行调整的方式包括而不限于下述两种实现方式：

实现方式一、服务器可以对感兴趣区域数据进行多次调整，每当调整一次感兴趣区域数据，则采用调整后的感兴趣区域数据，再次执行上述步骤202，并得到第一对比结果以及第二对比结果，判断第一对比结果是否大于第一阈值且第二对比结果大于第二阈值，如果第一对比结果不大于第一阈值且第二对比结果大于第二阈值，表明在当前的感兴趣区域数据下，采用感兴趣区域编码时图像质量没有发生显著下降，且带宽节省率已经满足要求，则停止调整，将当前的感兴趣区域数据作为目标感兴趣区域数据。

作为示例，服务器可以首先采用初始感兴趣区域数据对目标视频进行感兴趣区域编码，判断第一对比结果是否大于第一阈值且第二对比结果大于第二阈值，当第一对比结果不大于第一阈值且第二对比结果不大于第二阈值时，对初始感兴趣区域数据进行调整，例如缩小感兴趣区域的大小；之后，采用调整后的感兴趣区域数据再次执行步骤202并再次进行判断，以此类推，直到第一对比结果不大于第一阈值且第二对比结果大于第二阈值时停止调整。

实现方式二、服务器可以对感兴趣区域数据在感兴趣区域数据的取值范围内进行多次调整，每当调整一次感兴趣区域数据，则采用调整后的感兴趣区域数据，再次执行上述步骤202，并得到第一对比结果以及第二对比结果，记录当前的感兴趣区域数据、第一对比结果与第二对比结果之间的对应关系，直至采用取值范围内的最后一个感兴趣区域数据进行感兴趣区域编码后，得到最后一个感兴趣区域数据、第一对比结果与第二对比结果之间的对应关系为止。之后，可以根据每个感兴趣区域数据对应的第一对比结果以及第二对比结果，从感兴趣区域数据的取值范围内，选择目标感兴趣区域数据。

作为示例，具体来说，服务器可以首先采用初始感兴趣区域数据对目标视频进行感兴趣区域编码，记录初始感兴趣区域数据对应的第一对比结果以及第二对比结果，对初始感兴趣区域数据进行调整之后，再次执行步骤202，并再次记录调整后的感兴趣区域数据对应的第一对比结果以及第二对比结果，以此类推，直到遍历了感兴趣区域数据的取值范围的每个感兴趣区域数据为止。

其中，调整感兴趣区域数据可以包括调整感兴趣区域、感兴趣区域对应的编码参数以及感兴趣区域之外的其他区域对应的编码参数。关于调整感兴趣区域的过程，作为示例，服务器可以按照从四周到中心的方向，缩小感兴趣区域，直至第一对比结果大于第一阈值时，将上一次调整得到的感兴趣区域作为目标感兴趣区域数据中的感兴趣区域。在一些可能的实施例中，可以先通过调整感兴趣区域，找到目标感兴趣区域数据中的感兴趣区域，在保持感兴趣区域为该感兴趣区域的过程中，调整感兴趣区域对应的编码参数以及感兴趣区域之外的其他区域对应的编码参数，从而找到目标感兴趣区域数据中的感兴趣区域对应的编码参数以及感兴趣区域之外的其他区域对应的编码参数。

在一些可能的实施例中，服务器可以预先存储多个感兴趣区域数据，可以基于多个感兴趣区域数据重复执行步骤202，并重复执行获取对比结果的步骤，即，服务器可以采用多个感兴趣区域数据中的每个感兴趣区域数据对目标视频进行感兴趣区域编码，得到多个第二视频流，该多个第二视频流中的每个第二视频流和每个感兴趣区域数据一一对应。服务器可以对第一视频流与多个第二视频流中的每个第二视频流进行对比，得到多个对比结果，每个对比结果和每个第二视频流一一对应。服务器可以根据多个感兴趣区域数据中每个感兴趣区域数据对应的对比结果，从多个感兴趣区域数据中选择目标感兴趣区域数据。

作为示例，服务器可以从多个感兴趣区域数据中，选取第一对比结果小于第一阈值的感兴趣区域数据，这些感兴趣区域数据可以视为图像质量未发生显著性下降的感兴趣区域数据。之后，服务器可以对第一对比结果小于第一阈值的感兴趣区域数据进行排序，从排序结果中选取第二对比结果最大的感兴趣区域数据，作为目标感兴趣区域数据。如此，目标感兴趣区域数据在能够保证图像质量不至于过差的前提下，带宽节省率达到最大。

在一些可能的实施例中，对于不同类型的视频来说，在获取目标感兴趣区域数据的过程中，第一对比结果对应的权重与第二对比结果对应的权重可以不同，从而结合用户对该类型的视频的具体需求，来在图像质量与带宽之间找到平衡。具体来说，获取目标感兴趣区域数据的过程可以包括下述(1)至(2)：

(1)根据目标视频的类型，从视频的类型与对比结果的权重之间的对应关系中，获取第一对比结果对应的第一权重以及第二对比结果对应的第二权重。

第一权重是指第一对比结果对应的权重，第二权重是指第二对比结果对应的权重。例如，针对那些对画面的图像质量要求更高的视频来说，第一权重可以高于第二权重。又如，针对那些播放的流畅程度要求更高的视频来说，第二权重可以高于第一权重。

(2)根据感兴趣区域数据、第一对比结果、第二对比结果、第一权重以及第二权重，获取目标感兴趣区域数据。

例如，可以根据第一权重以及第二权重，对第一对比结果对应的第一阈值以及第二对比结果对应的第二阈值进行调整。比如说，如果目标视频的第一权重高于第二权重，则可以增加第一阈值，降低第二阈值，如果目标视频的第一权重低于第二权重，则可以降低第一阈值，增加第二阈值。

可选地，服务器得到目标视频的目标感兴趣区域数据后，可以将目标视频的标识与目标感兴趣区域数据之间的对应关系存入数据库，从而通过数据库来维护目标视频对应的目标感兴趣区域数据。当服务器接收到查询指令时，服务器可以根据目标视频的标识，查询到对应的目标感兴趣区域数据。

步骤204、服务器采用目标感兴趣区域数据，对目标视频进行感兴趣区域编码，得到第三视频流，向终端发送第三视频流。

第三视频流是指对目标视频采用目标感兴趣区域数据进行感兴趣区域编码后得到的视频流。在一些可能的实施例中，第三视频流可以是在线时实时向终端推送的视频流，例如可以是在线直播时向终端推送的直播流，又如可以是在线游戏时向终端推送的游戏视频流。

以上述视频编码方法应用于云游戏的场景为例，下面通过图3实施例描述云游戏的视频编码的流程。需要说明的一点是，图3实施例着重描述与图2实施例的区别之处，与图2实施例同理的内容还请参见图2实施例，在图3实施例中不做赘述。

图3是本发明实施例提供的一种视频编码方法的流程图。该实施例以执行主体为服务器为例进行说明，参见图3，该方法包括：

步骤301、服务器对云游戏视频进行视频编码，得到第一游戏视频流。

云游戏视频包括云游戏的多帧游戏画面。例如，云游戏视频中的每帧游戏画面可以为虚拟场景，虚拟场景可以包括虚拟对象，该虚拟对象可以是虚拟物体、虚拟任务以及虚拟场景中的一种。服务器可以用于为终端提供云游戏服务，服务器可以称为云游戏平台。第一游戏视频流是指对云游戏视频进行视频编码后得到的视频流，第一游戏视频流属于上述步骤201提及的第一视频流。其中，步骤301中采用的视频编码方式为感兴趣区域编码之外的编码方式，例如可以是传统的视频编码方式。

在一个示例性实施例中，服务器可以启动云游戏，在运行云游戏的过程中，服务器可以捕获云游戏的每帧游戏画面，服务器可以采用视频编码参数，对云游戏视频的每帧游戏画面进行视频编码，得到该第一游戏视频流。

步骤302、服务器采用感兴趣区域数据，对云游戏视频进行感兴趣区域编码，得到第二游戏视频流。

感兴趣区域数据用于指示云游戏视频中感兴趣区域、感兴趣区域对应的编码参数以及感兴趣区域之外的其他区域对应的编码参数。例如，云游戏视频中的感兴趣区域可以用于界定虚拟场景中虚拟对象所处的范围，比如说，感兴趣区域可以是虚拟人物所处的区域。第二游戏视频流是指对云游戏视频进行感兴趣区域编码后得到的视频流，第二游戏视频流属于上述步骤201提及的第二视频流。

步骤302中的感兴趣区域数据的数量可以是一个或多个，例如可以是感兴趣区域数据的取值范围的多个感兴趣区域数据，又如可以是初始感兴趣区域数据。在一种可能的实现中，服务器可以存储云游戏的类型与初始感兴趣区域数据之间的对应关系，根据云游戏的类型，从云游戏类型与初始感兴趣区域数据之间的对应关系，获取云游戏的类型对应的初始感兴趣区域数据，采用该云游戏的类型对应的初始感兴趣区域数据，对云游戏视频进行感兴趣区域编码。如此，可以为不同的云游戏设置不同的初始感兴趣区域数据，提高了灵活性，保证初始感兴趣区域数据可以和云游戏视频匹配，从而通过准确的初始感兴趣区域数据，提高找到目标感兴趣区域数据的速度和效率。

步骤303、服务器基于感兴趣区域数据、第一游戏视频流以及第二游戏视频流，获取目标感兴趣区域数据。

在一些可能的实施例中，步骤303可以包括下述步骤一至步骤二：

步骤一、服务器对第一游戏视频流与第二游戏视频流进行对比，得到对比结果。

方式(1)服务器对第一游戏视频流的图像质量与第二游戏视频流的图像质量进行对比，得到第一对比结果。

第一对比结果用于表示第一游戏视频流的图像质量与第二游戏视频流的图像质量之间的差异。例如，第一对比结果可以表示第二游戏视频流相对于第一游戏视频流来说，图像质量下降的幅度。

在一些可能的实施例中，服务器在得到第一游戏视频流以及第二游戏视频流后，可以对第一游戏视频流进行解码及渲染，得到第一游戏视频；对第二游戏视频流进行解码及渲染，得到第二游戏视频，对第一游戏视频与第二游戏视频流中相同帧号的视频帧的图像质量进行对比，得到第一对比结果。

作为示例，服务器可以获取第一游戏视频的第一视频帧与第二游戏视频的第二视频帧之间的结构相似性，作为第一对比结果。作为示例，服务器可以获取第一游戏视频的第一视频帧与第二游戏视频的第二视频帧之间的峰值信噪比，作为第一对比结果。

方式(2)服务器对第一游戏视频流的码率与第二游戏视频流的码率进行对比，得到第二对比结果。

第二对比结果用于表示第一游戏视频流的码率与第二游戏视频流的码率之间的差异。在一些可能的实施例中，服务器可以获取第一游戏视频的第一视频帧的大小与第二游戏视频的第二视频帧的大小，根据第一视频帧的大小与第二视频帧的大小，获取第二对比结果。

在一些可能的实施例中，服务器可以根据对比结果，对感兴趣区域数据进行调整，将调整后的感兴趣区域数据作为目标感兴趣区域数据。在另一些可能的实施例中，服务器可以根据多个感兴趣区域数据中每个感兴趣区域数据对应的对比结果，从多个感兴趣区域数据中选择目标感兴趣区域数据。

在一些可能的实施例中，获取目标感兴趣区域数据的过程可以包括下述(1)至(2)：

(1)根据云游戏的类型，从云游戏的类型与对比结果的权重之间的对应关系中，获取第一对比结果对应的第一权重以及第二对比结果对应的第二权重。

云游戏的类型可以包括RPG类型、FPS类型等，当然还可以包括其他类型，例如第三人称射击类游戏。第一权重是指第一对比结果对应的权重，第二权重是指第二对比结果对应的权重。例如，针对那些对画面的图像质量要求更高的云游戏来说，第一权重可以高于第二权重。比如说，对于RPG类型的云游戏来说，第一权重可以高于第二权重。又如，针对那些播放的流畅程度要求更高的云游戏来说，第二权重可以高于第一权重。比如说，对于FPS类型的云游戏来说，第二权重可以高于第一权重。

通过上述步骤301至步骤303，可以在云游戏上线前，以自学习的方式进行系统训练，得到这款云游戏的ROI区域和编码参数，从而自动化的产生指定云游戏的ROI区域和编码参数。

步骤304、服务器采用目标感兴趣区域数据，对云游戏视频进行感兴趣区域编码，得到第三游戏视频流，向终端发送第三游戏视频流。

第三游戏视频流是指对游戏视频采用目标感兴趣区域数据进行感兴趣区域编码后得到的视频流。在一些可能的实施例中，可以在云游戏平台中上线某一款游戏之前，通过执行上述步骤301至步骤303，来训练得到这款游戏的感兴趣区域数据，在现网运行该游戏时，采用预先得到的感兴趣区域数据进行感兴趣区域编码，再推送这款游戏的游戏视频流，从而极大地降低运行该游戏时所需占用的传输带宽。

本实施例提供的方法，提供了一种在云游戏的场景下，通过自学习的方式，自动化地找到云游戏的感兴趣区域数据，进而采用该感兴趣区域数据来进行感兴趣区域编码的方法。通过分别采用普通的视频编码方式以及感兴趣区域编码方式，对同一款云游戏的游戏视频进行编码，根据两路视频流，来确定出期望的感兴趣区域数据，在运行云游戏的过程中需要向终端发送游戏视频流时，则使用该感兴趣区域数据来进行感兴趣区域编码。一方面，由于感兴趣区域编码的方式会采用不同的编码参数，分别对游戏视频中的感兴趣区域以及非感兴趣区域进行编码，能够避免对非感兴趣区域采用高图像质量的编码方式进行编码时会占用的网络传输带宽，从而节省传输视频流总共占用的网络传输带宽，并且，可以避免感兴趣区域的图像质量受到影响，保证视频的播放效果。另一方面，相对于依据用户经验，设置人为拟定的感兴趣区域数据的方式来说，可以极大地提高感兴趣区域数据的精确度。

参见图4，结合上述图3实施例，本实施例提供了一种视频编码系统，该视频编码系统可以提供为自学习系统，即，可以无需用户人工拟定感兴趣区域数据，而是基于同一视频在两种编码方式下的视频流，以自学习的方式，来自动地找到满足需求的目标感兴趣区域数据。

如图4所示，该视频编码系统可以包括配置服务、云游戏服务、视频流评价服务以及质量码率权衡服务。

配置服务包括原始参数配置模块以及ROI参数配置模块。原始参数配置模块用于保存传统的视频编码模式下的配置的编码参数。ROI参数配置模块用于保存感兴趣区域模式下的感兴趣区域数据，即感兴趣区域、感兴趣区域对应的编码参数、非感兴趣区域对应的编码参数。其中，非感兴趣区域对应的编码参数可以根据原始参数配置模块中的编码参数修正得到。

云游戏服务包括编码模块，云游戏服务会在启动游戏，实时捕获游戏画面后，将每帧游戏画面输入到编码模块，编码模块可以从配置服务中，获取编码参数以及感兴趣区域数据，分别根据编码参数以及感兴趣区域数据，对每帧游戏画面进行编码，得到两个视频流，将两个视频流输入视频流评价服务。

视频流评价服务包括解码模块、渲染模块、图像质量评价模块以及图像码率评价模块，解码模块用于对云游戏服务的视频流进行解码，渲染模块用于对云游戏服务的视频流进行渲染，得到视频图像，图像质量评价模块用于对两种编码方式对应的两个视频流的图像质量进行评价，图像码率评价模块用于对两种编码方式对应的两个视频流的码率进行评价。

质量码率权衡服务包括图像质量对比模块、权衡模块以及图像码率对比模块，图像质量对比模块用于对比两个视频流的图像质量，图像码率对比模块用于对比两个视频流的码率，权衡模块用于根据图像质量对比模块的对比结果以及图像码率对比模块的对比结果，经过调节后，得到新的感兴趣区域数据，将新的感兴趣区域数据配置到感兴趣区域参数配置模块中。

参见图5，结合上述图3实施例以及图4实施例，本实施例提供了上述自学习系统的工作流程图。该自学习系统可以首先启动游戏，然后截取游戏的每帧游戏画面，获取原始参数配置模块的视频编码参数，以及感兴趣区域参数配置模块的感兴趣区域数据；采用视频编码参数对每帧游戏画面进行编码，再进行解码和渲染；采用感兴趣区域数据对每帧游戏画面进行编码，再进行解码和渲染；对两种视频的视频帧的图像质量进行对比，并对两种视频的视频帧的大小进行对比，通过对比，可以判断是否需要调整感兴趣区域数据，如果不需要调整感兴趣区域数据，可以将当前的感兴趣区域数据作为目标感兴趣区域数据，如果需要调整感兴趣区域数据，则调整感兴趣区域以及感兴趣区域对应的编码参数，重复执行感兴趣区域编码以及对比的步骤。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图6是本发明实施例提供的一种视频编码装置的结构示意图，该装置包括：

编码模块601，用于对目标视频进行视频编码，得到第一视频流。

编码模块601，还用于采用感兴趣区域数据，对目标视频进行感兴趣区域编码，得到第二视频流，感兴趣区域数据用于指示目标视频中的感兴趣区域、感兴趣区域对应的编码参数以及感兴趣区域之外的其他区域对应的编码参数。

获取模块602，用于基于感兴趣区域数据、第一视频流以及第二视频流，获取目标感兴趣区域数据。

编码模块601，还用于采用目标感兴趣区域数据，对目标视频进行感兴趣区域编码，得到第三视频流。

发送模块603，用于向终端发送第三视频流。

在一种可能的实现中，获取模块602，包括：

对比子模块，用于对第一视频流与第二视频流进行对比，得到对比结果；

获取子模块，用于基于对比结果以及感兴趣区域数据，获取目标感兴趣区域数据。

在一种可能的实现中，对比子模块，用于执行下述至少一项：

对第一视频流的图像质量与第二视频流的图像质量进行对比，得到第一对比结果；

对第一视频流的码率与第二视频流的码率进行对比，得到第二对比结果。

在一种可能的实现中，装置还包括：

解码及渲染模块，用于对第一视频流进行解码及渲染，得到第一视频；对第二视频流进行解码及渲染，得到第二视频；

对比子模块，用于执行下述任意一项：

获取第一视频的第一视频帧与第二视频的第二视频帧之间的结构相似性，作为第一对比结果，第一视频帧的帧号与第二视频帧的帧号相同；

获取第一视频的第一视频帧与第二视频的第二视频帧之间的峰值信噪比，作为第一对比结果，第一视频帧的帧号与第二视频帧的帧号相同。

在一种可能的实现中，获取子模块，用于：根据目标视频的类型，从视频的类型与对比结果的权重之间的对应关系中，获取第一对比结果对应的第一权重以及第二对比结果对应的第二权重；根据感兴趣区域数据、第一对比结果、第二对比结果、第一权重以及第二权重，获取目标感兴趣区域数据。

在一种可能的实现中，获取子模块，用于执行下述任意一项：根据对比结果，对感兴趣区域数据进行调整，将调整后的感兴趣区域数据作为目标感兴趣区域数据；根据多个感兴趣区域数据中每个感兴趣区域数据对应的对比结果，从多个感兴趣区域数据中选择目标感兴趣区域数据。

在一种可能的实现中，装置应用于服务器，服务器用于为终端提供云游戏的服务，目标视频为云游戏视频，云游戏视频包括云游戏的多帧游戏画面。

需要说明的是：上述实施例提供的视频编码装置在对视频进行编码时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频编码装置与视频编码方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7是本发明实施例提供的一种服务器的结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)701和一个或一个以上的存储器702，其中，存储器702中存储有至少一条指令，至少一条指令由处理器701加载并执行以实现上述各个方法实施例提供的视频编码方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由服务器中的处理器执行以完成上述实施例中的视频编码方法。例如，计算机可读存储介质可以是只读存储器(Read-Only Memory，简称：ROM)、随机存取存储器(RandomAccess Memory，简称：RAM)、只读光盘(Compact Disc Read-Only Memory，简称：CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频编码方法，其特征在于，所述方法包括：

对目标视频进行视频编码，得到第一视频流；

对所述第一视频流与所述第二视频流进行对比，得到对比结果；

基于所述对比结果以及所述感兴趣区域数据，获取所述目标感兴趣区域数据；

2.根据权利要求1所述的方法，其特征在于，所述对所述第一视频流与所述第二视频流进行对比，得到对比结果，包括下述至少一项：

对所述第一视频流的图像质量与所述第二视频流的图像质量进行对比，得到第一对比结果；

对所述第一视频流的码率与所述第二视频流的码率进行对比，得到第二对比结果。

3.根据权利要求2所述的方法，其特征在于，所述对所述第一视频流与所述第二视频流进行对比之前，所述方法还包括：

对所述第一视频流进行解码及渲染，得到第一视频；

对所述第二视频流进行解码及渲染，得到第二视频；

所述对所述第一视频流的图像质量与所述第二视频流的图像质量进行对比，得到第一对比结果，包括下述任意一项：

获取所述第一视频的第一视频帧与所述第二视频的第二视频帧之间的结构相似性，作为所述第一对比结果，所述第一视频帧的帧号与所述第二视频帧的帧号相同；

获取所述第一视频的第一视频帧与所述第二视频的第二视频帧之间的峰值信噪比，作为所述第一对比结果，所述第一视频帧的帧号与所述第二视频帧的帧号相同。

4.根据权利要求2所述的方法，其特征在于，所述基于所述对比结果以及所述感兴趣区域数据，获取所述目标感兴趣区域数据，包括：

根据所述目标视频的类型，从视频的类型与对比结果的权重之间的对应关系中，获取所述第一对比结果对应的第一权重以及所述第二对比结果对应的第二权重；

根据所述感兴趣区域数据、所述第一对比结果、所述第二对比结果、所述第一权重以及所述第二权重，获取目标感兴趣区域数据。

5.根据权利要求1所述的方法，其特征在于，所述基于所述对比结果以及所述感兴趣区域数据，获取所述目标感兴趣区域数据，包括下述任意一项：

根据所述对比结果，对所述感兴趣区域数据进行调整，将调整后的感兴趣区域数据作为所述目标感兴趣区域数据；

根据多个感兴趣区域数据中每个感兴趣区域数据对应的对比结果，从所述多个感兴趣区域数据中选择所述目标感兴趣区域数据。

6.根据权利要求1至5中任意一项所述的方法，其特征在于，所述方法应用于服务器，所述服务器用于为所述终端提供云游戏的服务，所述目标视频为云游戏视频，所述云游戏视频包括所述云游戏的多帧游戏画面。

7.一种视频编码装置，其特征在于，所述装置包括：

获取模块，用于对所述第一视频流与所述第二视频流进行对比，得到对比结果；基于所述对比结果以及所述感兴趣区域数据，获取所述目标感兴趣区域数据；

发送模块，用于向终端发送所述第三视频流。

8.一种服务器，其特征在于，所述服务器包括一个或多个处理器和一个或多个易失性或非易失性存储器，所述一个或多个易失性或非易失性存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求6任一项所述的视频编码方法。

9.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求6任一项所述的视频编码方法。