CN111479112B

CN111479112B - 一种视频编码方法、装置、设备和存储介质

Info

Publication number: CN111479112B
Application number: CN202010579431.3A
Authority: CN
Inventors: 万双; 杨衍东
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2020-11-03
Anticipated expiration: 2040-06-23
Also published as: CN111479112A

Abstract

本申请实施例公开了一种视频编码方法、装置、设备和存储介质，当需要进行视频编码时，服务器获取待编码的目标视频帧序列，针对目标视频帧序列中的每个目标视频帧图像，确定出目标视频帧图像中的感兴趣区域。对目标视频帧图像中感兴趣区域的图像块和非感兴趣区域的图像块的初始量化参数值进行调整，得到目标量化参数值，使得属于感兴趣区域的图像块的目标量化参数值小于属于非感兴趣区域的图像块的目标量化参数值。这样，在依据目标量化参数值对目标视频帧序列进行编码得到视频流的过程中，为感兴趣区域分配较多的码率，保证清晰度，为非感兴趣区域分配较少的码率，降低视频编码产生的流量，从而降低视频流占用的网络传输带宽，提高传输效率。

Description

一种视频编码方法、装置、设备和存储介质

技术领域

本申请涉及数据处理领域，特别是涉及一种视频编码方法、装置、设备和存储介质。

背景技术

视频编码是指对视频通过消除连续视频帧之间的时域冗余信息，来实现压缩视频的功能，从而将某个视频格式的文件转换成另一种视频格式文件的技术。

相关技术中，服务器在得到待编码视频后，针对待编码视频中的每个视频帧图像，服务器利用确定出的编码参数对整个视频帧图像进行视频编码，将视频转换为视频流，服务器可以向终端发送视频流。

随着对视频清晰度要求的不断提升，采用上述方法进行视频编码时，其视频编码产生的流量过高，服务器向终端传输视频流的过程中，视频流占用的网络传输带宽较大。

发明内容

为了解决上述技术问题，本申请提供了一种视频编码方法、装置、设备和存储介质，根据感兴趣区域和非感兴趣区域采用不同的量化参数值进行视频编码，在保证视频清晰度的同时，降低了视频编码产生的流量，从而在服务器向终端传输视频流的过程中，降低视频流占用的网络传输带宽，提高传输效率。

本申请实施例公开了如下技术方案：

一方面，本申请实施例提供一种视频编码方法，所述方法包括：

获取待编码的目标视频帧序列，所述目标视频帧序列包括若干个目标视频帧图像；

针对目标视频帧序列中的每个目标视频帧图像，确定所述目标视频帧图像中的感兴趣区域；

获取所述目标视频帧图像中的感兴趣区域的图像块和非感兴趣区域的图像块的初始量化参数值，所述非感兴趣区域为所述目标视频帧图像中除所述感兴趣区域之外的区域，所述初始量化参数值表征预先设置的对所述目标视频帧序列进行视频编码所使用的量化参数；

对所述目标视频帧图像中的感兴趣区域的图像块和非感兴趣区域的图像块的初始量化参数值进行调整，得到所述感兴趣区域的图像块的目标量化参数值和属于非感兴趣区域的图像块的目标量化参数值；属于所述感兴趣区域的图像块的目标量化参数值小于属于非感兴趣区域的图像块的目标量化参数值；

根据每个所述目标视频帧图像中图像块对应的目标量化参数值，对所述目标视频帧序列进行视频编码得到视频流。

另一方面，本申请实施例提供一种视频编码装置，所述装置包括获取单元、确定单元、调整单元和编码单元：

所述获取单元，用于获取待编码的目标视频帧序列；

所述确定单元，用于针对目标视频帧序列中的每个目标视频帧图像，确定所述目标视频帧图像中的感兴趣区域；

所述获取单元，还用于获取所述目标视频帧图像中的感兴趣区域的图像块和非感兴趣区域的图像块的初始量化参数值，所述非感兴趣区域为所述目标视频帧图像中除所述感兴趣区域之外的区域，所述初始量化参数值表征预先设置的对所述目标视频帧序列进行视频编码所使用的量化参数；

所述调整单元，用于对所述目标视频帧图像中的感兴趣区域的图像块和非感兴趣区域的图像块的初始量化参数值进行调整，得到所述感兴趣区域的图像块的目标量化参数值和属于非感兴趣区域的图像块的目标量化参数值；属于所述感兴趣区域的图像块的目标量化参数值小于属于非感兴趣区域的图像块的目标量化参数值；

所述编码单元，用于根据每个所述目标视频帧图像中图像块对应的目标量化参数，对所述目标视频帧序列进行视频编码得到视频流。

另一方面，本申请实施例提供一种用于视频编码的设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行前述所述的视频编码方法。

另一方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行前述所述的视频编码方法。

由上述技术方案可以看出，当需要进行视频编码时，获取待编码的目标视频帧序列，针对目标视频帧序列中的每个目标视频帧图像，确定出目标视频帧图像中的感兴趣区域。由于感兴趣区域通常是用户比较关注的区域，为了保证其清晰度，可以为其分配较多的码率，而其余区域即非感兴趣区域，用户可能并不关注，为了降低视频编码产生的流量，可以为非感兴趣区域分配较少的码率。基于此，在确定出感兴趣区域后，可以对目标视频帧图像中感兴趣区域的图像块和非感兴趣区域的图像块的初始量化参数值进行调整，得到感兴趣区域的图像块的目标量化参数值和属于非感兴趣区域的图像块的目标量化参数值，使得属于感兴趣区域的图像块的目标量化参数值小于属于非感兴趣区域的图像块的目标量化参数值。这样，在依据目标量化参数值对目标视频帧序列进行编码得到视频流的过程中，可以为感兴趣区域分配较多的码率，保证清晰度，为非感兴趣区域分配较少的码率，降低视频编码产生的流量。可见，本申请根据感兴趣区域和非感兴趣区域采用不同的量化参数值进行视频编码，在保证视频清晰度的同时，降低了视频编码产生的流量，从而在服务器向终端传输视频流的过程中，降低视频流占用的网络传输带宽，提高传输效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频编码方法的应用场景示意图；

图2为本申请实施例提供的一种服务器的硬件结构图；

图3为本申请实施例提供的一种终端设备的硬件结构图；

图4为本申请实施例提供的一种视频编码方法的流程图；

图5为本申请实施例提供的一种实现视频编码方法的基本架构示意图；

图6为本申请实施例提供的一种目标视频帧图像的示意图；

图7为本申请实施例提供的通过调整得到目标量化参数值的流程图；

图8为本申请实施例提供的一种实现视频编码方法的基本架构示意图；

图9为本申请实施例提供的VGG 16的网络结构示意图；

图10a为本申请实施例提供的采集训练数据的过程示意图；

图10b为本申请实施例提供的眼动仪采集凝视的位置示意图；

图10c为本申请实施例提供的一种感兴趣区域预测模型的训练方法的流程图；

图11a为本申请实施例提供的一种感兴趣区域预测模型训练的系统架构图；

图11b为本申请实施例提供的一种感兴趣区域预测模型训练的系统架构图；

图12为本申请实施例提供的一种确定重点感兴趣区域的流程图；

图13为本申请实施例提供的针对不同游戏采集的热点图；

图14为本申请实施例提供的一种视频编码的方法的时序图；

图15为本申请实施例提供的一种视频编码装置的结构图；

图16为本申请实施例提供的一种服务器的结构图；

图17为本申请实施例提供的一种终端设备的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

为了解决相关技术中存在的技术问题，本申请实施例提供一种视频编码方法，根据感兴趣区域和非感兴趣区域采用不同的量化参数值进行视频编码，使得属于感兴趣区域的图像块的目标量化参数值小于属于非感兴趣区域的图像块的目标量化参数值。这样，在保证视频清晰度的同时，降低了视频编码产生的流量，从而在服务器向终端传输视频流的过程中，降低视频流占用的网络传输带宽，提高传输效率。

本申请实施例所提供的方法涉及到云技术领域，例如涉及云应用，比较典型的可以涉及云游戏（Cloud gaming）又可称为游戏点播（gaming on demand），是一种以云计算技术为基础的在线游戏技术。云游戏技术使图形处理与数据运算能力相对有限的轻端设备（thin client）能运行高品质游戏。在云游戏场景下，游戏并不在玩家游戏终端，而是在云端服务器中运行，并由云端服务器将游戏场景渲染为视频音频流，通过网络传输给玩家游戏终端。玩家游戏终端无需拥有强大的图形运算与数据处理能力，仅需拥有基本的流媒体播放能力与获取玩家输入指令并发送给云端服务器的能力即可。当然，也可以涉及其他在云端服务器运行的云应用，本实施例对此不做限定。

本申请实施例还可以涉及人工智能领域，人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，可以涉及的人工智能技术包括计算机视觉（图像）和机器学习等方向。计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。

例如，本申请实施例可以通过计算机视觉技术中的视频处理（video processing)技术进行视频编码，通过图像语义理解中的图像特征提取（Image feature extraction）技术可以进行特征提取等。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括深度学习（Deep Learning）等技术，深度学习包括人工神经网络（artificial neuralnetwork），例如卷积神经网络(Convolutional Neural Network，CNN)、循环神经网络（Recurrent Neural Network，RNN）、深度神经网络（Deep neural network，DNN）等。

在本实施例中，可以利用机器学习训练感兴趣区域预测模型，以利用感兴趣区域预测模型对待处理目标视频帧序列中的每帧视频帧图像进行感兴趣区域预测。

在一些情况下，确定感兴趣区域的方式还可以通过预先存储的感兴趣区域列表确定感兴趣区域，感兴趣区域列表可以通过区块链的形式进行存储。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链（Blockchain），本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性（防伪）和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成（账户管理）、密钥管理以及用户真实身份和区块链地址对应关系维护（权限管理）等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置（风控审计）；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理（接口适配），然后通过共识算法将业务信息加密（共识管理），在加密之后完整一致的传输至共享账本上（网络通信），并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上（合约注册），根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

平台产品服务层提供典型应用的基本能力和实现框架，开发人员可以基于这些基本能力，叠加业务的特性，完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。

为了便于理解本申请的技术方案，下面结合实际应用场景，对本申请实施例提供的视频编码方法进行介绍。

参见图1，图1为本申请实施例提供的视频编码方法的应用场景示意图。该应用场景中包括服务器101和终端设备102，终端设备102以及服务器101可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在一种可能的实现方式中，终端设备102和服务器101可以通过传输控制协议（Transmission Control Protocol，TCP）或用户数据报协议（User Datagram Protocol，UDP）建立连接。

服务器101可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备102可以是智能手机、平板电脑、笔记本电脑、个人计算机（Personal Computer，PC）、游戏机、电视等设备，但并不局限于此。

服务器101可以运行应用程序，在服务器101上渲染出目标视频帧图像，并将目标视频帧图像利用本申请实施例提供的方法编码成视频流，再通过网络传输到终端设备102，从而为终端设备102提供视频。终端设备102仅需要支持网络、视频解码和显示等功能。其中，该视频可以是游戏视频、赛事视频、直播视频、电竞视频等。例如应用在云游戏场景，服务器101可以用于为终端设备102提供游戏视频，又如应用在直播场景，服务器101可以用于从主播端接收直播视频，将直播视频提供给其他终端设备102。

在需要对视频进行编码时，服务器101可以获取待编码的目标视频帧序列，待编码的目标视频帧序列是服务器101运行应用程序时，需要在终端设备102上展示的视频所对应的目标视频帧序列，目标视频帧序列中包括若干个目标视频帧图像。

针对目标视频帧序列中的每个目标视频帧图像，服务器101可以确定目标视频帧图像中的感兴趣区域(Region Of Interest，ROI)，人类视觉系统在处理较为复杂的场景时，会将视觉注意力集中在场景中的少数几个对象，并优先处理注意力集中的对象，此过程称为视觉注意过程，而视觉注意力集中的对象在场景中构成的区域即为感兴趣区域。

由于感兴趣区域通常是用户比较关注的区域，为了保证其清晰度，可以为其分配较多的码率，而其余区域即非感兴趣区域，用户可能并不关注，为了降低视频编码产生的流量，可以为非感兴趣区域分配较少的码率。码率，也称视频传输码率、带宽消耗量或吞吐量，是单位时间内传输的比特的数量。码率通常使用比特率来表示，单位为比特每秒。

基于此，服务器101在确定出感兴趣区域后，可以根据感兴趣区域，对获取到的目标视频帧图像中感兴趣区域的图像块和非感兴趣区域的图像块的初始量化参数（Quantization Parameter，QP）值进行调整，得到感兴趣区域的图像块和非感兴趣区域的图像块的目标量化参数值，使得属于感兴趣区域的图像块的目标量化参数值小于属于非感兴趣区域的图像块的目标量化参数值。这样，服务器在依据目标量化参数值对目标视频帧序列进行视频编码得到视频流的过程中，可以为感兴趣区域分配较多的码率，保证清晰度，为非感兴趣区域分配较少的码率，降低视频编码产生的流量。

本申请实施例所涉及的服务器101的硬件结构图可以参见图2所示，包括中央处理器（central processing unit，CPU）201、图形处理器（Graphics Processing Unit，GPU）202、内存模块203和网络模块204。其中，CPU 201用于执行本申请实施例提供的视频编码方法；GPU 202用于渲染图像，得到目标视频帧图像；内存模块203用于存储应用程序过程中所产生的数据；网络模块204用于与终端设备102建立通信连接。

终端设备102的硬件结构图可以参见图3所示，包括中央处理器（centralprocessing unit，CPU）301、图形处理器（Graphics Processing Unit，GPU）302、内存模块303、网络模块304、显示模块305和操控模块306。其中，CPU 301对接收到的视频流进行视频解码等处理；GPU 302用于渲染图像，以便将渲染图像通过显示模块305在终端设备102上进行显示；内存模块303用于存储数据，网络模块304用于与服务器101建立通信连接；操控模块306用于接收控制指令，根据控制指令执行相应操作，例如在云游戏场景中，操控模块306可以根据控制指令控制游戏中的游戏角色执行动作。

通过上述介绍，本申请实施例提供的视频编码方法可以应用于多种场景，接下来，将主要以云游戏场景为例，结合附图对本申请实施例提供的视频编码方法进行介绍。

参见图4，图4示出了一种视频编码方法的流程图，所述方法包括：

S401、获取待编码的目标视频帧序列。

当在服务器侧运行应用程序时，服务器可以对待编码的目标视频帧序列进行编码，目标视频帧序列包括若干个目标视频帧图像，从而生成视频流发送至终端设备，终端设备对该视频流进行视频解码，并将视频解码后得到的视频帧图像进行渲染，在终端设备上进行显示。

以云游戏场景为例，本申请实施例所提供的方法实现的基本架构可以参见图5所示，当服务器运行游戏时，服务器可以获取待编码的目标视频帧序列，对目标视频帧序列进行视频编码得到视频流，然后将视频流序列化，发送至终端设备。终端设备可以对接收到的视频流进行反序列化，并送入视频解码器进行视频解码，得到目标视频帧图像，该目标视频帧图像可以是YUV视频图像（一种颜色编码方法得到的视频图像），并渲染该目标视频帧图像在终端设备的显示屏上，使得终端设备可以向用户显示目标视频帧图像。当然，用户可以在终端设备上触发控制指令，以对所看到的目标视频帧图像中的对象进行控制，该控制指令被序列化后，发送至服务器，服务器对序列化后的控制指令进行反序列化，得到控制指令，从而根据控制指令运行游戏。其中，控制指令可以是用户通过键盘、鼠标、手柄、触控等方式触发的。

S402、针对目标视频帧序列中的每个目标视频帧图像，确定所述目标视频帧图像中的感兴趣区域。

服务器在对目标视频帧序列进行视频编码的过程中，由于视频编码后得到的视频流需要发送至终端设备，为了降低视频流在传输过程中占用的网络传输带宽，提高传输效率，避免终端设备浪费过多流量，本实施例可以降低视频编码产生的流量。

在复杂的场景中例如目标视频帧图像中，一些区域可能是用户比较关注的区域即感兴趣区域，而一些区域用户可能并不关注即非感兴趣区域。对于感兴趣区域，由于用户比较关注，故可以保证其清晰度，为其分配较多的码率，而非感兴趣区域，用户可能并不关注，为了降低视频编码产生的流量，可以为非感兴趣区域分配较少的码率。

基于此，本申请实施例中服务器可以针对目标视频帧序列中的每个目标视频帧图像，确定目标视频帧图像中的感兴趣区域，从而对每个目标视频帧图像，根据其上图像块所属区域的不同（属于感兴趣区域或非感兴趣区域）分配不同的量化参数值进行视频编码。

在一些可能的实施例中，感兴趣区域可以包括预测得到的感兴趣区域、统计得到的感兴趣区域和手动设置的固定区域中一种或多种组合。不同感兴趣区域的确定方法有所不同，后续将对不同感兴趣区域的确定方法进行详细介绍，此处不再赘述。

通常情况下，感兴趣区域为目标视频帧图像中目标对象所在的区域，不同场景中目标视频帧图像中的目标对象不同，例如在游戏场景中，目标对象可以包括游戏角色（参见图6中601所示的角色1和602所示的角色2）、非玩家角色（Non-Player Character，NPC）、地图、视野中所包括的对象、控件（参见图6中603所示，包括“回城”、“恢复”、“伤害”、“解控”、“控制”等控件）、文字部分等。又如，在直播场景中，目标对象可以是被拍摄对象、文字部分等。

以云游戏场景为例，针对图6所示的目标视频帧图像，通过S402确定出的感兴趣区域可以参见图6中黑色实线框所标识的区域。

S403、获取所述目标视频帧图像中的感兴趣区域的图像块和非感兴趣区域的图像块的初始量化参数值。

其中，非感兴趣区域为目标视频帧图像中除感兴趣区域之外的区域，初始量化参数值表征预先设置的对所述目标视频帧序列进行视频编码所使用的量化参数。初始量化参数值可以预先设置为某一数值，本实施例对该数值的取值不做限定。

初始量化参数值是确定各图像块的目标量化参数值的基础，后续可以以初始量化参数值为基准、通过调大或调小的方式得到目标量化参数值，便于快速得到各图像块的目标量化参数值。

S404、对所述目标视频帧图像中的感兴趣区域的图像块和非感兴趣区域的图像块的初始量化参数值进行调整，得到所述感兴趣区域的图像块的目标量化参数值和属于非感兴趣区域的图像块的目标量化参数值。

服务器在对图像块的初始量化参数进行调整时，可以根据图像块是否属于感兴趣区域对初始量化参数值进行调整。若某个图像块属于感兴趣区域，则为了保证感兴趣区域的清晰度，在视频编码时可以针对感兴趣区域使用较低的量化参数（QP）值，即对该图像块的初始量化参数值进行调整，得到较低的QP值作为目标量化参数值，分配较多的码率，提升清晰度。若某个图像块不属于感兴趣区域（即属于非感兴趣区域），则为了降低视频编码所使用的流量，在视频编码时可以针对非感兴趣区域使用较高的量化参数（QP）值，即对该图像块的初始量化参数值进行调整，得到较高的QP值作为目标量化参数值，分配较少的码率，降低清晰度，以便降低视频编码所使用的流量。此时，属于感兴趣区域的图像块的目标量化参数值小于属于非感兴趣区域的图像块的目标量化参数值。

以图6所示的目标视频帧图像为例，该目标视频帧图像可以包括多个图像块，如图6中多条灰色直线所划分得到的矩形框块。其中，黑色实线框所标识的区域为感兴趣区域，则属于该区域的图像块与其他图像块相比，使用较低的QP值作为目标量化参数值。

在一种可能的实施例中， S403的实现方式可以是：服务器确定目标视频帧图像中感兴趣区域的图像块和非感兴趣区域的图像块的权值，图像块的权值可以体现出图像块的感兴趣程度，权值越大感兴趣程度越大，则其对应的QP值越小，清晰度越高；权值越小感兴趣程度越小，则其对应的QP值越大，清晰度越低。然后，根据图像块的权值对感兴趣区域的图像块和非感兴趣区域的图像块的初始量化参数值进行调整，得到目标量化参数值。

例如，目标视频帧图像中包括10个图像块，编号分别是1、2、3……、10。在确定出感兴趣区域后，若确定编号为1、2、3、4的图像块属于感兴趣区域，则可以为编号为1、2、3、4的图像块赋予较高的权值，为其余图像块赋予较低的权值，此时，编号为1、2、3、4的图像块的权值高于其余图像块的权值，从而根据权值对编号为1、2、3、4的图像块的初始量化参数值进行调整得到较小的QP值作为目标量化参数值，对其余图像块的初始量化参数值进行调整得到较大的QP值作为目标量化参数值。

由于感兴趣区域可以包括预测得到的感兴趣区域、统计得到的感兴趣区域和预设的固定区域中一种或多种组合。当感兴趣区域包括其中任一种时，感兴趣区域的权值相同，即感兴趣区域所对应的所有图像块可以采用相同的第一QP值作为目标量化参数值，非感兴趣区域所对应的所有图像块可以采用相同的第二QP值作为目标量化参数值，其中，第一QP值小于第二QP值。

当感兴趣区域包括多种组合时，不同感兴趣区域可以设置对应的权重，不同感兴趣区域的权重可以相同，也可以不同。在通过上述多种方式得到对应的感兴趣区域后，可以根据图像块属于多种感兴趣区域的情况，对图像块所属感兴趣区域的权重进行加权，得到每个图像块的权值。

如图7所示，在游戏运行后，针对获取到的目标视频帧图像，确定出的感兴趣区域包括预测得到的感兴趣区域（参见图7中S701）、统计得到的感兴趣区域（参见图7中S702）和预设的固定区域（参见图7中S703）。那么，可以根据感兴趣区域确定目标视频帧图像中的图像块的权值（参见图7中S704），根据图像块的权值对初始量化参数值进行调整，得到目标量化参数值（参见图7中S705）。

若三种感兴趣区域对应的权重都是1，目标视频帧图像中包括10个图像块，编号分别是1、2、3……、10。其中，编号为1和2的图像块既属于预测得到的感兴趣区域，也属于统计得到的感兴趣区域，还属于预设的固定区域，则编号为1和2的图像块的权值为3；编号为3和4的图像块属于预测得到的感兴趣区域，则编号为3和4的图像块的权值为1；编号为5的图像块属于预设的固定区域，则编号为5的图像块的权值为1；其余为非感兴趣区域，其权值小于1。这样，根据权值对图像块的初始量化参数值进行调整，得到目标量化参数值时，属于感兴趣区域的图像块的目标量化参数值小于属于非感兴趣区域的图像块的目标量化参数值。同时，编号为1和2的图像块的目标量化参数值小于编号为3、4、5的图像块的目标量化参数值。

S405、根据每个所述目标视频帧图像中图像块对应的目标量化参数值，对所述目标视频帧序列进行视频编码得到视频流。

通过上述方法，可以得到每个目标视频帧图像中每个图像块的目标量化参数值，一个目标视频帧图像对应的目标量化参数值包括该目标视频帧图像中所有图像块的目标量化参数值，可以通过矩阵表示。

其中，视频编码可以采用不同的编码格式，常见的编码格式例如可以包括H.264、H.265、VP8、VP9等编码格式。H.264又称动态图像专家组-4 (Moving Picture Experts G ro u p ，M P E G - 4) 第1 0部分；H.265又称高效率视频编码，是在H .264视频编码标准之后所制定的新的视频编码标准；VP8是一种高质量视频编码格式，VP9是VP8的后续版本。

服务器得到视频流后，可以将视频流发送给终端设备，终端设备对视频流进行视频解码，得到目标视频帧图像，渲染在终端设备的显示屏上进行显示。

通过本申请实施例的方法，可以在保证感兴趣区域的清晰度的情况下，降低了视频流占用的网络传输带宽，提高传输效率。以服务器运行某一游戏为例，通过相关技术中的视频编码方法，服务器会对整个视频帧图像采用相同的编码参数进行视频编码，即视频帧中各个区域对应的编码参数都是相同的，为了保证清晰度要求，其视频编码产生的流量过高，服务器向终端传输视频流的过程中，得到的视频流占用的网络传输带宽为5.268Mb/s。而通过本申请实施例提供的视频编码方法，可以保证感兴趣区域的清晰度，尽量降低非感兴趣区域的码流，得到的视频流占用的网络传输带宽为3.374Mb/s。但是，二者所得到的视频帧图像中感兴趣区域的清晰度基本一致。

本申请实施例提供了多种感兴趣区域，下面将对不同感兴趣区域的确定方法进行详细介绍。

在一种可能的实施例中，感兴趣区域可以是预测得到的感兴趣区域，即在应用程序运行过程中，实时预测目标视频帧图像的感兴趣区域。具体的，通过感兴趣区域预测模型确定感兴趣区域，实现视频编码方法的基本架构可以参见图8所示，服务器在得到目标视频帧序列后，可以将目标视频帧序列中所包括的目标视频帧图像输入至感兴趣区域预测模型，通过感兴趣区域预测模型对目标视频帧图像进行预测，得到感兴趣位置，例如通过感兴趣区域预测模型对目标视频帧图像进行特征提取，得到对应的特征图，特征图表征目标视频帧图像中每个位置的特征。然后根据特征图确定目标视频帧图像中每个位置属于感兴趣位置的概率，感兴趣位置为目标视频帧图像中被关注的位置。概率越大，表明该位置越有可能属于感兴趣位置，故确定概率满足预设条件的感兴趣位置在目标视频帧图像上所位于的目标图像块，将目标图像块确定为感兴趣区域。其中，预设条件可以是概率达到某一阈值，或，概率按照从大到小的方式进行排序，位于前N位。

感兴趣区域预测模型可以基于深度学习的神经网络模型进行训练和预测，感兴趣区域预测模型例如可以是视觉几何组网络（Visual Geometry Group Network 16，VGG16）、识别区域的CNN(Regions-CNN，RCNN)、快速RCNN（Fast-RCNN）或者Faster-RCNN（Faster-RCNN是在Fast-RCNN基础上提高预测效率的模型）等模型，本实施例以VGG16为例进行说明。

VGG 16的网络结构可以参见图9所示，包括卷积层+修正线性单元（RectifiedLinear Unit，ReLU）、最大池化层（max pooling）、全连接层+ ReLU、逻辑回归层（softmax），图9中未标识的结构为卷积层+ ReLU，其余结构均在图中标识。

通过图9所示的感兴趣区域预测模型预测感兴趣区域的过程：输入的目标视频帧图像的尺寸为N×N×3（N例如为224），经64个通道为3的3×3的卷积核，步长为1，padding=same填充，卷积两次，再经ReLU激活，输出的尺寸为N×N×64；经max pooling，滤波器为2×2，步长为2，图像尺寸减半，池化后的尺寸为(N/2)×(N/2)×64；经128个3×3的卷积核，两次卷积和ReLU激活，尺寸为(N/2)×(N/2)×128；经max pooling池化，尺寸变为(N/4)×(N/4)×128；经256个3×3的卷积核，三次卷积和ReLU激活，尺寸为(N/4)×(N/4)×256；经maxpooling池化，尺寸变为(N/8)×(N/8)×256；经512个3×3的卷积核，三次卷积和ReLU激活，尺寸为(N/8)×(N/8)×512；经max pooling池化，尺寸变为(N/16)×(N/16)×512；经512个3×3的卷积核，三次卷积和ReLU激活，尺寸为(N/16)×(N/16)×512；经过max pooling池化，尺寸变为(N/32)×(N/32)×512；将数据拉平成向量，变成一维；再经过两层1×1×4096以及一层1×1×1000的全连接层，经ReLU激活，最后通过softmax输出1000个预测结果，该预测结果可以为目标视频帧图像中每个图像块属于感兴趣区域的概率。

感兴趣区域预测模型是应用程序的产品发布之前预先训练得到的，感兴趣区域预测模型的训练方式可以是：在运行应用程序的过程中，采集历史视频帧图像，历史视频帧图像表示的是在应用程序的产品发布之前运行应用程序得到的图像。确定历史视频帧图像上的感兴趣位置，然后将历史视频帧图像和对应的感兴趣位置输入至感兴趣区域预测模型，从而利用历史视频帧图像和对应的感兴趣位置对感兴趣区域预测模型进行训练，调整感兴趣区域预测模型的模型参数，直到感兴趣区域预测模型输出的预测位置与感兴趣位置的误差在预设范围内，得到训练好的感兴趣区域预测模型。

其中，感兴趣位置可以是用户的凝视位置，凝视位置可以是凝视时间超过某一阈值的位置。此时，以游戏场景为例，感兴趣区域预测模型的训练过程可以包括采集训练数据和训练两个过程。采集训练数据的过程可以参见图10a所示。运行游戏，在终端设备的显示屏上显示游戏画面，即历史视频帧图像，同时记录游戏的名字。通过眼动仪（例如TOBII）采集凝视的位置（参见图10a中S1001），其中，眼动仪采集凝视的位置示意图可以参见图10b所示，用户凝视在显示屏上的位置P（px，py）。确定凝视时间是否超过时间T（参见图10a中S1002），若是，确定该位置为凝视位置（参见图10a中S1003），截取该历史视频帧图像（参见图10a中S1004）。保存该历史视频帧图像S和对应的凝视位置（参见图10a中S1005），若否，则丢弃该位置（参见图10a中S1006）。

若一共保存M组历史视频帧图像S和对应的凝视位置（px，py），则获取M组历史视频帧图像S和对应的凝视位置（参见图10c中S1001），利用该M组历史视频帧图像S和对应的凝视位置对感兴趣区域预测模型进行训练（参见图10c中S1002）。此时，终端设备的硬件结构还可以包括眼动检测模块307，用于获取凝视位置，如图3所示。

在训练过程中，可以将M组数据分为N组和M-N组，N组数据中的历史视频帧图像S输入至感兴趣区域预测模型中，每个历史视频帧图像S对应的凝视位置作为输出，可利用类似随机梯度下降的方法，训练感兴趣区域预测模型。使N组数据的历史视频帧图像S经过感兴趣区域预测模型后，对应的输出可以映射为（px，py）。使用M-N组数据，对感兴趣区域预测模型的准确度进行测试，确保误差收敛在预设范围内（参见图10c中S1003），确定感兴趣区域预测模型的模型参数，得到感兴趣区域模型（参见图10c中S1004）。其中，X方向误差 XW=Epx– px，Epx为预测得到的凝视位置的横坐标，px为眼动仪采集得到的凝视位置的横坐标；Y方向误差 YW=Epy – py，Epy为预测得到的凝视位置的纵坐标，py为眼动仪采集得到的凝视位置的纵坐标。

在一些可能的实施例中，历史视频帧图像S和对应的凝视位置可以存储在感兴趣区域列表（ROI list）中，此时，在训练感兴趣区域预测模型时，可以从ROI list中读取该M组历史视频帧图像S和对应的凝视位置。

需要说明的是，在对感兴趣区域预测模型进行训练过程中，运行游戏的可以是服务器，也可以是终端设备，即执行感兴趣区域预测模型进行训练过程的可以是服务器或终端设备。若由服务器运行游戏，则感兴趣区域预测模型训练的系统架构图可以参见图11a所示，此时，输入至感兴趣区域预测模型的历史视频帧图像是服务器运行游戏产生的；若由服务器运行游戏，则感兴趣区域预测模型训练的系统架构图可以参见图11b所示，此时，输入至感兴趣区域预测模型的历史视频帧图像是终端设备运行游戏产生的。

需要说明的是，在一些情况下，用户可能触发一些控制指令，这些控制指令所针对的历史视频帧图像上的控制位置通常是用户所关注的，例如控制指令为控制图6中601所示的角色1执行动作，此时，控制位置为角色1所在的位置，则角色1所在的位置为感兴趣位置。而控制位置可能是凝视位置，也可能不是凝视位置，因此，为了进一步提高感兴趣位置确定的准确性，避免遗漏一些感兴趣位置，在确定历史视频帧图像上的感兴趣位置时，可以通过眼动仪确定历史视频帧图像上的凝视位置，并根据控制指令确定历史视频帧图像上的控制位置，进而根据凝视位置和控制位置确定感兴趣位置，以便通过控制位置对感兴趣位置进行补充，更加准确的确定历史视频帧图像上的感兴趣位置，进而提高模型训练的准确性。

在一种可能的实施例中，感兴趣区域可以是统计得到的感兴趣区域。统计得到的感兴趣区域可以预先存储在感兴趣区域列表（ROI list）中，感兴趣区域列表中包括不同历史视频帧图像对应的感兴趣区域，当需要确定感兴趣区域时，可以获取预先存储的感兴趣区域列表，根据感兴趣区域列表，确定目标视频帧图像对应的感兴趣区域。

为了确定感兴趣区域列表，可以运行应用程序，在运行应用程序过程中，采集历史视频帧图像，通过眼动仪确定历史视频帧图像上的凝视位置，将凝视位置在历史视频帧图像上位于的图像块确定为历史视频帧图像的感兴趣区域，从而根据历史视频帧图像的感兴趣区域确定感兴趣区域列表。通过眼动仪采集凝视位置确定感兴趣区域列表的过程，与图10a所示的采集训练数据的过程类似，但是，感兴趣区域列表的确定过程中，图10a中S1004保存历史视频帧图像S和对应的凝视位置实际上是将历史视频帧图像S和对应的凝视位置存储在ROI list中。其余步骤并没有改变，此处不再赘述。

在根据兴趣区域确定感兴趣区域列表之后，用户对不同感兴趣区域的感兴趣程度可能有所不同，有些感兴趣区域可能是用户经常会关注的区域，即重点感兴趣区域，而有些感兴趣区域可能仅是用户偶然关注的区域。因此，在一些可能的实施例中，可以根据感兴趣区域列表，确定预设时间内历史视频帧图像中每个图像块被确定为感兴趣区域的次数，次数越多，说明用户对该感兴趣区域越关注，该感兴趣区域可能是重点感兴趣区域。因此，将历史视频帧图像中次数满足预设阈值的图像块，确定为历史视频帧图像中的重点感兴趣区域。

在一些情况下，次数的量级可能不统一，为了便于后续比较不同图像块被确定为感兴趣区域的次数，可以对次数进行归一化处理，再根据归一化处理后的结果确定重点感兴趣区域。

例如图12所示，获取感兴趣区域列表（参见图12中S1201所示），遍历感兴趣区域列表中的感兴趣区域（参见图12中S1202所示），确定是否遍历结束（参见图12中S1203所示），若否，将某个图像块被确定为感兴趣区域的次数加1（参见图12中S1204所示）。若是，则对每个图像块被确定为感兴趣区域的次数进行归一化处理（参见图12中S1205所示），根据归一化处理后的结果确定重点感兴趣区域（参见图12中S1206所示）。

其中，在应用程序运行的整个过程中，每个图像块被确定为感兴趣区域的次数可以通过热点图表示。以游戏场景为例，用户玩一局游戏的过程中，得到的热点图如图13所示，图13中（a）和（b）分别表示不同游戏1和游戏2所对应的热点图。在热点图中，纵坐标表示图像块被确定为感兴趣区域的次数，图像块所对应的条状图越高，表示该图像块被确定为感兴趣区域的次数越多，越可能是重点感兴趣区域。水平面上所包括的两个方向的坐标用于标识图像块的位置。

在确定出重点感兴趣区域后，若需要确定目标视频帧图像中的感兴趣区域，可以将目标视频帧图像中位于重点感兴趣区域的图像块，确定为目标视频帧图像中的感兴趣区域。

在一种可能的实施例中，感兴趣区域可以是手动设置的固定区域。在目标视频帧图像中，存在一些区域不随视频帧图像的变化而改变，其所处的位置固定不变，例如用户界面(User Interface，UI)，参见图6所示的各个控件，又如某些文字部分等，而这些区域同时也是用户感兴趣的区域。因此，可以根据用户的选定操作选定这些固定区域作为感兴趣区域，只要目标视频帧图像中包括这些固定区域，就可以将其确定为目标视频帧图像中的感兴趣区域。

需要说明的是，若S402中确定出的感兴趣区域包括手动设置的固定区域，那么，服务器在进行视频编码时，可以将该感兴趣区域单独进行编码，并单独传输至终端设备，在终端设备上再进行合成，得到目标视频帧图像在终端设备上进行显示。若多个目标视频帧图像上的感兴趣区域为手动设置的固定区域，通过上述方法，无需每个目标视频帧图像都包括手动设置的固定区域，降低了视频编码产生的流量。

接下来，将结合实际应用场景，对本申请实施例提供的视频编码方法进行介绍。该应用场景为云游戏场景，当用户打开游戏时，服务器运行该游戏，服务器需要获取待编码的目标视频帧序列，对目标视频帧序列进行视频编码得到视频流，然后将视频流发送至终端设备并显示。然而，由于当前云游戏视频编码产生的码流较大，服务器向终端设备发送视频流所占用的网络传输带宽较大，进而导致游戏延迟比较严重。另外，为了尽可能的降低码流，将以牺牲云游戏整体画质为代价，进而导致云游戏画质比普通游戏差。

为此，本申请实施例提供一种视频编码方法，可以在保证云游戏画质的同时，降低视频流占用的网络传输带宽，减小游戏延迟。服务器运行该游戏后，服务器所执行的视频编码的方法的时序图可以参见图14所示：

S1401、服务器通过图像获取功能获取多个目标视频帧图像。

S1402、服务器根据手动设置的固定区域确定感兴趣区域。

S1403、服务器根据感兴趣区域列表确定感兴趣区域。

S1404、服务器根据感兴趣区域预测模型预测感兴趣区域。

S1405、服务器根据上述三种感兴趣区域通过视频编码器确定每个图像块的权值。

S1406、服务器通过视频编码器根据图像块的权值，确定图像块的目标量化参数值。

S1407、服务器根据目标量化参数值进行视频编码得到视频流。

需要说明的是，在一些情况下，为了避免传输过程中网络带宽突然降低，服务器在根据S1406确定出目标量化参数值后，可以根据预估网络带宽进行率失真计算，从而根据实际网络带宽调整得到一个更加符合传输要求的量化参数值，根据调整后的量化参数值进行视频编码。

S1408、服务器向终端设备发送该视频流。

基于前述实施例提供的视频编码方法，本实施例提供一种视频编码装置，参见图15，所述装置包括获取单元1501、确定单元1502、调整单元1503和编码单元1504：

所述获取单元1501，用于获取待编码的目标视频帧序列；

所述确定单元1502，用于针对目标视频帧序列中的每个目标视频帧图像，确定所述目标视频帧图像中的感兴趣区域；

所述获取单元1501，还用于获取所述目标视频帧图像中的感兴趣区域的图像块和非感兴趣区域的图像块的初始量化参数值，所述非感兴趣区域为所述目标视频帧图像中除所述感兴趣区域之外的区域，所述初始量化参数值表征预先设置的对所述目标视频帧序列进行视频编码所使用的量化参数；

所述调整单元1503，用于对所述目标视频帧图像中的感兴趣区域的图像块和非感兴趣区域的图像块的初始量化参数值进行调整，得到所述感兴趣区域的图像块的目标量化参数值和属于非感兴趣区域的图像块的目标量化参数值；属于所述感兴趣区域的图像块的目标量化参数值小于属于非感兴趣区域的图像块的目标量化参数值；

所述编码单元1504，用于根据每个所述目标视频帧图像中图像块对应的目标量化参数，对所述目标视频帧序列进行视频编码得到视频流。

在一种可能的实现方式中，所述确定单元1502，用于：

通过感兴趣区域预测模型对所述目标视频帧图像进行特征提取，得到对应的特征图，所述特征图表征所述目标视频帧图像中每个位置的特征；

根据所述特征图确定所述目标视频帧图像中每个位置属于感兴趣位置的概率，所述感兴趣位置为所述目标视频帧图像中被关注的位置；

确定所述概率满足预设条件的感兴趣位置在所述目标视频帧图像上所位于的目标图像块，将所述目标图像块确定为所述感兴趣区域。

在一种可能的实现方式中，所述装置还包括训练单元：

所述训练单元，用于采集历史视频帧图像；确定所述历史视频帧图像上的感兴趣位置；通过所述历史视频帧图像和所述感兴趣位置对所述感兴趣区域预测模型进行训练；调整所述感兴趣区域预测模型的模型参数，直到感兴趣区域预测模型输出的预测位置与所述感兴趣位置的误差在预设范围内，得到训练好的感兴趣区域预测模型。

在一种可能的实现方式中，所述训练单元，用于：

通过眼动仪确定所述历史视频帧图像上的凝视位置；

根据控制指令确定所述历史视频帧图像上的控制位置；

根据所述凝视位置和所述控制位置确定所述感兴趣位置。

在一种可能的实现方式中，所述确定单元1502，用于：

获取预先存储的感兴趣区域列表，所述感兴趣区域列表中包括不同历史视频帧图像对应的感兴趣区域；

根据所述感兴趣区域列表，确定所述目标视频帧图像对应的感兴趣区域。

在一种可能的实现方式中，所述确定单元1502，还用于：

采集历史视频帧图像；

通过眼动仪确定所述历史视频帧图像上的凝视位置；

将所述凝视位置在所述历史视频帧图像上位于的图像块确定为所述历史视频帧图像的感兴趣区域；

根据所述历史视频帧图像的感兴趣区域确定所述感兴趣区域列表。

在一种可能的实现方式中，所述确定单元1502，还用于：

根据所述感兴趣区域列表，确定预设时间内所述历史视频帧图像中每个图像块被确定为感兴趣区域的次数；

将所述历史视频帧图像中所述次数满足预设阈值的图像块，确定为所述历史视频帧图像中的重点感兴趣区域；

所述确定单元1502根据所述感兴趣区域列表，确定所述目标视频帧图像对应的感兴趣区域，包括：

将所述目标视频帧图像中位于所述重点感兴趣区域的图像块，确定为所述目标视频帧图像中的感兴趣区域。

在一种可能的实现方式中，所述感兴趣区域是预先根据选定操作选定的固定区域。

在一种可能的实现方式中，所述调整单元1503，用于：

确定所述目标视频帧图像中所述感兴趣区域的图像块和所述非感兴趣区域的图像块的权值；

根据所述权值对所述感兴趣区域的图像块和所述非感兴趣区域的图像块的初始量化参数值进行调整，得到所述感兴趣区域的图像块和属于所述非感兴趣区域的图像块的目标量化参数值。

本申请实施例还提供了一种用于视频编码的设备，该设备可以是服务器，图16为本申请实施例提供的服务器1600的结构图，服务器1600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（Central Processing Units，简称CPU）1622（例如，一个或一个以上处理器）和存储器1632，一个或一个以上存储应用程序1642或数据1644的存储介质1630（例如一个或一个以上海量存储设备）。其中，存储器1632和存储介质1630可以是短暂存储或持久存储。存储在存储介质1630的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1622可以设置为与存储介质1630通信，在服务器1600上执行存储介质1630中的一系列指令操作。

服务器1600还可以包括一个或一个以上电源1626，一个或一个以上有线或无线网络接口1650，一个或一个以上输入输出接口1658，和/或，一个或一个以上操作系统1641，例如Windows ServerTM，Mac OS ×TM，Uni×TM, Linu×TM，FreeBSDTM等等。

在本申请实施例中，该服务器所包括的中央处理器1622还具有以下功能：

对所述目标视频帧图像中的感兴趣区域的图像块和非感兴趣区域的图像块的初始量化参数值进行调整，得到所述感兴趣区域的图像块的目标量化参数值和属于非感兴趣区域的图像块的目标量化参数值；

属于所述感兴趣区域的图像块的目标量化参数值小于属于非感兴趣区域的图像块的目标量化参数值；

其中，CPU 1622可以相当于图2中CPU 201，存储器1632可以相当于图2中内存模块203，有线或无线网络接口1650可以相当于图2中网络模块204。

本申请实施例还涉及一种终端设备，下面将从硬件实体化的角度对本申请实施例提供的终端设备进行介绍。

参见图17，图17是本申请实施例提供的终端设备的结构示意图。如图17所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。以终端设备为智能手机为例：

图17示出的是与本申请实施例提供的终端相关的智能手机的部分结构的框图。参考图17，智能手机包括：射频（英文全称：Radio Frequency，英文缩写：RF）电路1710、存储器1720、输入单元1730、显示单元1740、传感器1750、音频电路1760、无线保真（英文全称：wireless fidelity，英文缩写：WiFi）模块1770、处理器1780、以及电源1790等部件。本领域技术人员可以理解，图17中示出的智能手机结构并不构成对智能手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器1720可用于存储软件程序以及模块，处理器1780通过运行存储在存储器1720的软件程序以及模块，从而执行智能手机的各种功能应用以及数据处理。存储器1720可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据智能手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器1720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1780是智能手机的控制中心，利用各种接口和线路连接整个智能手机的各个部分，通过运行或执行存储在存储器1720内的软件程序和/或模块，以及调用存储在存储器1720内的数据，执行智能手机的各种功能和处理数据，从而对智能手机进行整体监控。可选的，处理器1780可包括一个或多个处理单元；优选的，处理器1780可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1780中。

上述实施例中由终端设备所执行的步骤可以基于该图17所示的终端设备结构实现。

其中，处理器1780可以相当于图3中CPU 301，存储器1720可以相当于图3中内存模块303，无线保真模块1770可以相当于图3中网络模块304，显示单元1740可以相当于图3中显示模块305，输入单元1730可以相当于图3中操控模块306。

本申请实施例还提供一种计算机可读存储介质，用于存储程序代码，该程序代码用于执行前述各个实施例所述的一种视频编码方法中的任意一种实施方式。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个（项）”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项（个）或复数项（个）的任意组合。例如，a，b或c中的至少一项（个），可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，简称ROM）、随机存取存储器（Random Access Memory，简称RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种云游戏的视频编码方法，其特征在于，所述方法由服务器执行，所述服务器用于运行云游戏应用程序，所述云游戏应用程序在运行过程中产生目标视频帧序列，所述方法包括：

针对目标视频帧序列中的每个目标视频帧图像，确定所述目标视频帧图像中的感兴趣区域；所述感兴趣区域包括预测得到的感兴趣区域、统计得到的感兴趣区域和预先根据选定操作选定的固定区域作为感兴趣区域的组合；预测得到的感兴趣区域是指通过感兴趣区域预测模型对所述目标视频帧图像进行预测得到的；统计得到的感兴趣区域是指根据预先存储的感兴趣区域列表确定的重点感兴趣区域；上述三种感兴趣区域分别对应一个权重；

所述预测得到的感兴趣区域通过以下步骤确定：

确定所述概率满足预设条件的感兴趣位置在所述目标视频帧图像上所位于的目标图像块，将所述目标图像块确定为所述感兴趣区域；

对所述目标视频帧图像中的感兴趣区域的图像块和非感兴趣区域的图像块的初始量化参数值进行调整，得到所述感兴趣区域的图像块的目标量化参数值和属于非感兴趣区域的图像块的目标量化参数值，包括：

根据图像块是否属于上述三种感兴趣区域的情况，对图像块所属感兴趣区域的权重进行加权，得到所述感兴趣区域中每个图像块的权值；以及确定所述非感兴趣区域的图像块的权值；

根据每个图像块的权值对所述感兴趣区域的图像块和所述非感兴趣区域的图像块的初始量化参数值进行调整，得到所述感兴趣区域的图像块的目标量化参数值和属于所述非感兴趣区域的图像块的目标量化参数值；

根据每个所述目标视频帧图像中图像块对应的目标量化参数值，对所述目标视频帧序列进行视频编码得到视频流，并向终端设备发送所述视频流，以便所述终端设备根据所述视频流进行显示。

2.根据权利要求1所述的方法，其特征在于，所述感兴趣区域预测模型通过以下步骤训练得到：

采集历史视频帧图像；

确定所述历史视频帧图像上的感兴趣位置；

通过所述历史视频帧图像和所述历史视频帧图像上的感兴趣位置对所述感兴趣区域预测模型进行训练；

调整所述感兴趣区域预测模型的模型参数，直到感兴趣区域预测模型输出的预测位置与所述历史视频帧图像上的感兴趣位置的误差在预设范围内，得到训练好的感兴趣区域预测模型。

3.根据权利要求2所述的方法，其特征在于，确定所述历史视频帧图像上的感兴趣位置，包括：

通过眼动仪确定所述历史视频帧图像上的凝视位置；

根据控制指令确定所述历史视频帧图像上的控制位置；

根据所述凝视位置和所述控制位置确定所述历史视频帧图像上的感兴趣位置。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

采集历史视频帧图像；

通过眼动仪确定所述历史视频帧图像上的凝视位置；

5.根据权利要求4所述的方法，其特征在于，所述重点感兴趣区域的确定方式包括：

根据所述感兴趣区域列表，确定所述目标视频帧图像对应的感兴趣区域，包括：

6.一种云游戏的视频编码装置，其特征在于，所述装置部署在服务器上，所述服务器用于运行云游戏应用程序，所述云游戏应用程序在运行过程中产生目标视频帧序列，所述装置包括获取单元、确定单元、调整单元和编码单元：

所述获取单元，用于获取待编码的目标视频帧序列；

所述确定单元，用于针对目标视频帧序列中的每个目标视频帧图像，确定所述目标视频帧图像中的感兴趣区域；所述感兴趣区域包括预测得到的感兴趣区域、统计得到的感兴趣区域和预先根据选定操作选定的固定区域作为感兴趣区域的组合；预测得到的感兴趣区域是指通过感兴趣区域预测模型对所述目标视频帧图像进行预测得到的；统计得到的感兴趣区域是指根据预先存储的感兴趣区域列表确定的重点感兴趣区域；上述三种感兴趣区域分别对应一个权重；

确定所述预测得到的感兴趣区域时，所述确定单元具体用于通过感兴趣区域预测模型对所述目标视频帧图像进行特征提取，得到对应的特征图，所述特征图表征所述目标视频帧图像中每个位置的特征；

所述调整单元具体用于根据图像块是否属于上述三种感兴趣区域的情况，对图像块所属感兴趣区域的权重进行加权，得到所述感兴趣区域中每个图像块的权值；以及确定所述非感兴趣区域的图像块的权值；

所述编码单元，用于根据每个所述目标视频帧图像中图像块对应的目标量化参数，对所述目标视频帧序列进行视频编码得到视频流，并向终端设备发送所述视频流，以便所述终端设备根据所述视频流进行显示。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括训练单元：

所述训练单元，用于采集历史视频帧图像；确定所述历史视频帧图像上的感兴趣位置；通过所述历史视频帧图像和所述历史视频帧图像上的感兴趣位置对所述感兴趣区域预测模型进行训练；调整所述感兴趣区域预测模型的模型参数，直到感兴趣区域预测模型输出的预测位置与所述历史视频帧图像上的感兴趣位置的误差在预设范围内，得到训练好的感兴趣区域预测模型。

8.根据权利要求7所述的装置，其特征在于，所述训练单元，用于：

通过眼动仪确定所述历史视频帧图像上的凝视位置；

根据控制指令确定所述历史视频帧图像上的控制位置；

9.一种用于视频编码的设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-5任一项所述的视频编码方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-5任一项所述的视频编码方法。