CN111193928A

CN111193928A - 用于传递视频中的感兴趣区域信息的方法和设备

Info

Publication number: CN111193928A
Application number: CN201911030731.XA
Authority: CN
Inventors: 范志兴
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2020-05-22
Anticipated expiration: 2039-10-28
Also published as: CN111193928B

Abstract

本文描述了一种用于传递视频中的感兴趣区域信息的方法，包括：从所述视频的第一视频帧中确定感兴趣区域信息；响应于存在作为所述第一视频帧的前一视频帧的第二视频帧，则确定所述第一视频帧的感兴趣区域信息与所述第二视频帧的感兴趣区域信息间的残差作为感兴趣区域残差掩码；对所述感兴趣区域残差掩码进行压缩；对所述压缩后的感兴趣区域残差掩码与所述第一视频帧的编码视频数据进行补充增强信息封装，以得到第一封装视频帧；以及传递所述第一封装视频帧。

Description

用于传递视频中的感兴趣区域信息的方法和设备

技术领域

本公开涉及视频处理的技术领域，具体地涉及用于传递视频中的感兴趣区域信息的方法和设备，以及用于在视频的渲染画面上提供辅助信息的方法和设备。

背景技术

近些年来，视频播放或渲染技术得到了极大发展，尤其是在互联网视频播放或渲染技术领域中更是如此。为了体现视频的交互性和趣味性，出现了各种视频编辑技术，例如弹幕叠加、图标叠加、动画叠加、字幕叠加等等。在实施这些技术时，希望弹幕、图标、动画、字幕等在显示时能避开用户感兴趣的区域，使得感兴趣区域（ROI）（例如，人脸）仍然能够被清晰地观看，从而不会影响视频渲染时的用户观看体验。

通常，使用一个比特表示视频画面中的一个像素是否属于感兴趣区域，以形成该视频画面的感兴趣区域（ROI）信息。而且，ROI信息通常都是按照一张张画面存储的，这导致在传递ROI信息时（例如在将ROI信息从编码端传递到解码端时）需要的带宽显著增加。例如，如果视频画面的分辨率为1920x1080，则每一帧画面需要1920x1080/8字节的数据量表示ROI信息，这导致额外增加的带宽，其大小为1920*1080*帧率。

发明内容

签于此，本公开提供了用于传递视频中的感兴趣区域信息的方法和设备，以及用于在视频的渲染画面上提供辅助信息的方法和设备，期望克服上面提到的部分或全部缺陷以及其它可能的缺陷。

根据本公开的第一方面，提供了一种用于传递视频中的感兴趣区域信息的方法，包括：从所述视频的第一视频帧中确定感兴趣区域信息；响应于存在作为所述第一视频帧的前一视频帧的第二视频帧，则确定所述第一视频帧的感兴趣区域信息与所述第二视频帧的感兴趣区域信息间的残差作为感兴趣区域残差掩码；对所述感兴趣区域残差掩码进行压缩；对所述压缩后的感兴趣区域残差掩码与所述第一视频帧的编码视频数据进行补充增强信息封装，以得到第一封装视频帧；以及传递所述第一封装视频帧。

在一些实施例中，所述视频的每个视频帧中的每个像素具有灰度分量。

在一些实施例中，从所述视频的第一视频帧中确定感兴趣区域信息，包括：基于所述第一视频帧中的所有像素的灰度分量来确定感兴趣区域；以及基于所述确定的感兴趣区域来确定所述感兴趣区域信息。

在一些实施例中，基于所述确定的感兴趣区域来确定所述感兴趣区域信息包括：以像素块为单位来基于所述确定的感兴趣区域确定所述感兴趣区域信息。

在一些实施例中，所述方法还包括：响应于不存在作为所述第一视频帧的前一视频帧的第二视频帧，则确定所述第一视频帧的感兴趣区域信息为所述感兴趣区域残差掩码。

在一些实施例中，确定所述第一视频帧的感兴趣区域信息与所述第二视频帧的感兴趣区域信息间的残差包括：对所述第一视频帧的感兴趣区域信息与所述第二视频帧的感兴趣区域信息进行异或操作来确定所述残差。

在一些实施例中，对所述感兴趣区域残差掩码进行压缩包括：采用Bzip2技术对所述感兴趣区域残差掩码进行压缩。

在一些实施例中，所述第一视频帧的编码视频数据包括对所述第一视频帧进行H.264或者H.265编码而得到编码视频数据。

在一些实施例中，传递所述第一封装视频帧包括：传递所述第一封装视频帧到视频客户端进行渲染。

根据本公开的第二方面，提供了一种用于在视频的渲染画面上提供辅助信息的方法，包括：获取根据所述本公开的第一方面描述的方法传递的第一封装视频帧；从所述第一封装视频帧中获取所述第一封装视频帧的感兴趣区域信息；获取所述第一封装视频帧对应的辅助信息；在对所述第一封装视频帧中的编码视频数据进行渲染的同时，在所述编码视频数据的渲染画面上提供所述辅助信息，并且将所述辅助信息中与所述感兴趣区域信息表示的感兴趣区域对应的辅助信息设置为透明的。

在一些实施例中，从所述第一封装视频帧中获取所述第一封装视频帧的感兴趣区域信息包括：从所述第一封装视频帧中获取压缩后的感兴趣区域残差掩码；对所述压缩后的感兴趣区域残差掩码解压缩以得到未压缩的感兴趣区域残差掩码；响应于存在第二封装视频帧作为所述第一封装视频帧的前一封装视频帧，则确定所述未压缩的感兴趣区域残差掩码与所述第二封装视频帧的未压缩的感兴趣区域残差掩码的残差作为所述第一封装视频帧的感兴趣区域信息。

在一些实施例中，所述辅助信息包括弹幕、动画、图标和字幕中的一个或多个。

根据本公开的第三方面，提供了一种用于传递视频中的感兴趣区域信息的设备，包括：第一确定模块，被配置成从所述视频的第一视频帧中确定感兴趣区域信息；第二确定模块，被配置成：响应于存在作为所述第一视频帧的前一视频帧的第二视频帧，则确定所述第一视频帧的感兴趣区域信息与所述第二视频帧的感兴趣区域信息间的残差作为感兴趣区域残差掩码；压缩模块，被配置成对所述感兴趣区域残差掩码进行压缩；封装模块，被配置成对所述压缩后的感兴趣区域残差掩码与所述第一视频帧的编码视频数据进行补充增强信息封装，以得到第一封装视频帧；传递模块，被配置成传递所述第一封装视频帧。

在一些实施例中，第一确定模块被配置成：基于所述第一视频帧中的所有像素的灰度分量来确定感兴趣区域；以及基于所述确定的感兴趣区域来确定所述感兴趣区域信息。

在一些实施例中，第二确定模块还被配置成：响应于不存在作为所述第一视频帧的前一视频帧的第二视频帧，则确定所述第一视频帧的感兴趣区域信息为所述感兴趣区域残差掩码。

根据本公开的第四方面，提供了一种一种用于在视频帧的渲染画面上提供辅助信息的设备，包括：第一获取模块，被配置成获取从根据本公开的第三方面所述的用于传递视频中的感兴趣区域信息的设备传递的第一封装视频帧；第二获取模块，被配置成从所述第一封装视频帧中获取所述第一封装视频帧的感兴趣区域信息；第三获取模块，被配置成获取所述第一封装视频帧对应的辅助信息；信息提供模块，被配置成在对所述第一封装视频帧中的编码视频数据进行渲染的同时，在所述编码视频数据的渲染画面上提供所述辅助信息，并且将所述辅助信息中与所述感兴趣区域信息表示的感兴趣区域对应的辅助信息设置为透明的。

根据本公开的第五方面，提供了一种计算设备，包括处理器；以及存储器，配置为在其上存储有计算机可执行指令，当计算机可执行指令被处理器执行时执行如上面所述的任意方法。

根据本公开的第六方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，当所述计算机可执行指令被执行时，执行如上面所述的任意方法。

通过本公开要求保护的用于传递视频中的感兴趣区域信息的方法和设备，提供了一种新颖的处理和传递感兴趣区域信息的方案。在该方案中，通过确定当前帧和前一帧的感兴趣区域信息的残差掩码来减少信息数据的数量，并且通过对残差掩码进行压缩以更进一步地减少数据量，使得能够大幅减少在传递感兴趣区域信息时需要额外增加的带宽。在此基础上，本公开还提供了一种新颖的在视频帧的渲染画面上提供辅助信息的技术方案，能够在渲染画面上实施弹幕、图标、动画、字幕等，同时使得它们在显示时能避开用户感兴趣的区域，从而不会影响视频渲染时的用户观看体验。

根据下文描述的实施例，本公开的这些和其它优点将变得清楚，并且参考下文描述的实施例来阐明本公开的这些和其它优点。

附图说明

现在将更详细并且参考附图来描述本公开的实施例，其中：

图1图示了根据本公开的实施例的应用环境的示意图；

图2图示了根据本公开的一个实施例的用于传递视频中的感兴趣区域信息的方法的示意流程图；

图3图示了根据本公开的一个实施例的一个视频帧的ROI信息的示意性表示；

图4图示了根据本公开的一个实施例的计算两个视频帧的感兴趣区域信息间的残差的示意图；

图5图示了根据本公开的一个实施例的封装视频帧的示意图；

图6图示了根据本公开的一个实施例的用于在视频的渲染画面上提供辅助信息的方法的示意流程图；

图7图示了根据本公开的一个实施例的渲染所述封装视频帧的示例性用户界面；

图8图示了根据本公开的一个实施例的用于传递视频中的感兴趣区域信息的设备的示例性结构框图;

图9图示了根据本公开的一个实施例的用于在视频的渲染画面上提供辅助信息的设备的示例性结构框图；以及

图10图示了一个示例系统，其包括代表可以实现本文描述的各种技术的一个或多个系统和/或设备的示例计算设备。

具体实施方式

下面的说明提供用于充分理解和实施本公开的各种实施例的特定细节。本领域的技术人员应当理解，本公开的技术方案可以在没有这些细节中的一些的情况下被实施。在某些情况下，并没有示出或详细描述一些熟知的结构和功能，以避免不必要地使对本公开的实施例的描述模糊不清。在本公开中使用的术语以其最宽泛的合理方式来理解，即使其是结合本公开的特定实施例被使用的。

首先，对本申请实施例中涉及的部分用语进行说明，以便于本领域技术人员理解：

H.264：由ITU-T视频编码专家组（VCEG）和ISO/IEC动态图像专家组（MPEG）联合组成的联合视频组（JVT，Joint Video Team）提出的高度压缩数字视频编解码器标准;

ROI：ROI, region of interest，感兴趣区域；

Bzip2: 是一个基于Burrows-Wheeler 变换的无损压缩软件，压缩效果比传统的LZ77/LZ78压缩算法来得好，它广泛存在于UNIX && LINUX的许多发行版本中；

区域增强：对图像的某一块区域进行锐化，提升对比度，亮度处理；

智能弹幕：在直播/点播画面中，当弹幕滚动过ROI区域的时候，自动的将弹幕文字隐藏起来，保证ROI区域仍然能清晰的看见;

YUV：是一种颜色编码方法，常使用在各个视频处理组件中，“Y”表示灰度，也就是灰阶值；“U”和“V”表示的则是色度，作用是描述影像色彩及饱和度，用于指定像素的颜色。

图1图示了根据本公开的一个实施例的应用环境100的示意图。如图1所示，该应用环境100包括服务器110和终端120，所述服务器110和终端120通过网络130通信地耦合。服务器110可用于获取视频的第一视频帧，从所述第一视频帧中确定感兴趣区域信息，以及在存在作为所述第一视频帧的前一视频帧的第二视频帧的情况下确定所述第一视频帧的感兴趣区域信息与所述第二视频帧的感兴趣区域信息间的残差作为感兴趣区域残差掩码。接着，服务器可以对所述感兴趣区域残差掩码进行压缩；并且对所述压缩后的感兴趣区域残差掩码与所述第一视频帧的编码视频数据进行SEI（补充增强信息（SupplementalEnhancement Information）封装以得到第一封装视频帧。最后，服务器110可以将所述第一封装视频帧传递到终端120，以便在终端120（例如通过其上的视频客户端）上进行渲染。

可选地，所述应用环境100还可以包括通过网络130通信地耦合到服务器110的终端140。服务器110还可以将所述第一封装视频帧传递到终端140以便在终端140（例如通过其上的视频客户端）上进行渲染。

可选地，终端140可以被配置成向服务器推送视频，服务器可以从推送的视频中获取所述第一视频帧。终端120可以从服务器拉取视频进行渲染，服务器响应于终端120的拉取将所述第一封装视频帧传递到终端120。作为示例，终端140可以利用RTMP（Real TimeMessaging Protocol（实时消息传输协议））向服务器推送视频，服务器可以利用RTMP、Flv(Flash Video，一种新兴的主要用于视频分享的视频格式)和HLS（HTTP Live Streaming（苹果公司基于 HTTP 的流媒体传输协议））等向终端120传递视频。

作为示例，所述服务器110可以是服务器集群、云服务器等。所述终端120、140例如可以是移动终端、个人计算机、台式计算机、多屏幕计算机、膝上型计算机、上网本等的计算机类设备。所述网络130例如可以是广域网（WAN）、局域网（LAN）、无线网络、公用电话网、内联网以及本领域的技术人员熟知的任何其它类型的网络。

应当指出，本文所述的第一视频帧并不是指所述视频中的起始帧，而是可以指视频中的任意一帧。本文中的术语“第一”和“第二”的使用仅仅是为了区分不同的视频帧，而不对这些视频帧在视频中的位置或者顺序进行限定。

图2图示了根据本公开的一个实施例的用于传递视频中的感兴趣区域信息的方法200的示意图。如图2所示，所述方法200包括如下步骤。

在步骤201，从所述视频的第一视频帧中确定感兴趣区域信息。所述视频例如可以是如上面所述的终端140向服务器110推送的视频或者可以是服务器110上存储的视频。在一些实施例中，所述视频中的每个视频帧中的每个像素具有灰度分量。例如，所述第一视频帧可以是YUV格式的视频帧。

在一些实施例中，可以首先基于所述第一视频帧中的所有像素的灰度分量来确定感兴趣区域，然后基于所述确定的感兴趣区域来确定所述感兴趣区域信息，当然这不是限制性的，任何用于提取图像的感兴趣区域信息的技术都被设想。作为示例，可以将其灰度值大于或等于预设灰度阈值的所有像素形成的区域确定感兴趣区域。典型地，可以使用一个比特表示一个视频帧的感兴趣区域中的一个像素，因此所述第一视频帧中的所有像素对应的所有比特构成所述第一视频帧的感兴趣区域（ROI）信息。

作为用于提取图像的感兴趣区域信息的技术的另一示例，可以利用经训练的神经网络来提取视频帧的感兴趣区域信息。例如，首先可以获取包括标记出感兴趣区域（例如，人脸区域）的图像的图像训练集，并且利用所述图像训练集对所述神经网络进行训练，以得到所述经训练的神经网络。然后，可以利用所述经训练的神经网络提取所述视频帧的提取感兴趣区域，从而得到所述视频帧的感兴趣区域信息。这里所述的神经网络例如可以是卷积神经网络等等，这不是限制性的。

作为示例，图3示出了根据本公开的一个实施例的一个视频帧的ROI信息的示意表示。如图3所示，可以使用值为1的比特来表示所述视频帧中的对应的像素属于感兴趣区域，用值为0的比特来表示所述视频帧中的对应的像素不属于感兴趣区域，因此所有值为1的比特对应的像素区域即为所述视频帧的感兴趣区域，当然这种表示方式不是限制性的。在一些实施例中，可以以像素块为单位来基于所述确定的感兴趣区域确定所述感兴趣区域信息。例如，可以用值为1的比特来表示对应的像素块（例如，大小为8*8的像素块）属于感兴趣区域，用值为0的比特来表示对应的像素块不属于感兴趣区域。以这种方式，可以减少ROI信息的数据量，从而减小传递ROI信息需要的带宽。

在步骤202，确定是否存在作为所述第一视频帧的前一视频帧的第二视频帧。并且，如果在步骤202确定存在所述第二视频帧，则在步骤203确定所述第一视频帧的感兴趣区域信息与所述第二视频帧的感兴趣区域信息间的残差作为感兴趣区域残差掩码。作为示例，可以对所述第一视频帧的感兴趣区域信息与第二视频帧的感兴趣区域信息进行异或操作来确定所述残差。

作为示例，图4图示了计算两个视频帧的感兴趣区域信息间的残差的示意图。作为示例，在图4中，通过对上文所述的所述第一视频帧的感兴趣区域信息401与所述第二视频帧的感兴趣区域信息402进行异或操作而得到残差403，以作为感兴趣区域残差掩码。异或（xor）是一种数学运算，主要应用于逻辑运算，其运算法则为：如果a、b两个值不相同，则它们的异或结果为1；而如果a、b两个值相同，则它们的异或结果为0。通过上述异或操作，使得感兴趣区域残差掩码中包括的值为1的比特的数量大幅减少，这是因为所述第一视频帧与前一视频帧（即，第二视频帧）具有很大的相似性。

在步骤204，对所述感兴趣区域残差掩码进行压缩。在一些实施例中，可以例如采用Bzip2技术对所述感兴趣区域残差掩码进行压缩，当然这不是限制性，任何合适的压缩算法都被设想。Bzip2技术能够进行高质量的数据压缩，能够把普通的数据文件压缩10%至15%，对于具有高重复率的数据文件压缩率会更高，此外压缩的速度和解压的效率都非常高，而且支持大多数压缩格式，包括tar、gzip 等等。由于感兴趣区域残差掩码中包括大量的重复信息（例如，大量的值为0的比特），通过对所述感兴趣区域残差掩码进行压缩，能够大大减小感兴趣区域残差掩码的数据量，从而减小传递时需要额外增加的带宽。

在步骤205，对所述压缩后的感兴趣区域残差掩码与所述第一视频帧的编码视频数据进行SEI封装，以得到第一封装视频帧。所述第一视频帧的编码视频数据例如可以是通过对所述第一视频帧进行H.264或者H.265编码而得到编码视频数据，当然这不是限制性的，其它类型的编码视频数据也被设想。

SEI即补充增强信息（Supplemental Enhancement Information），它提供了向视频码流中加入额外信息的方法，是一种H.264/H.265视频帧传输单元。SEI具有如下基本特征：并非解码过程的必须选项；可能对解码过程（容错、纠错）有帮助集成在视频码流中。也就是说，视频编码器在输出视频码流的时候，可以不提供SEI信息。同时在视频的传输过程、解封装、解码这些环节，都可能因为某种原因丢弃SEI内容，但在视频内容的生成端和传输过程中，是可以插入SEI信息的。这些插入的信息和其他视频内容一同经过传输链路到达消费端或视频客户端。

在一种实施例中，SEI传输单元的格式如下所示：

其中，大小字段为可变字节，不包含0x80 结束字节的大小，但包括方法字段的字节的大小；方法字段表示数据保存方式，值1表示未压缩，值2表示 bzip2压缩，值3表示zip压缩；使用未注册的用户数据作为帧类型，其值为5。上表中所述ROI残差掩码字段可用于存储上面所描述的压缩后的感兴趣区域残差掩码。

可选地，当ROI残差掩码字段中出现0x000000或者0x000001时，可以插入例如0x03进行防竞争处理，这是因为通常H.264或者H.265中的视频NALU（Network Abstract LayerUnit, 网络抽象层单元）通常以0x000000或者0x000001开始。然后例如视频客户端的解码器在传输单元内部检测到0x0000 03的序列时，将0x03丢弃，恢复原始数据。

图5图示了示例性的一个封装视频帧500。如图5所示，所述封装视频帧包括SEI部分502和编码视频数据部分502，其中SEI部分502表示上面的SEI传输单元，编码视频数据部分502包括上面描述的第一视频帧的编码视频数据。可选地，所述编码视频数据部分502例如可以是H.264或者H.265中的视频NALU，其包括所述上面描述的第一视频帧的编码视频数据。视频NALU中包括用以识别其包括SEI传输单元的字段，解码器可以通过该字段的值来确定其包括SEI传输单元并获取其中的信息。以这种方式，通过SEI信息透传ROI残差掩码，不会对标准视频（例如，H.264或者H.265标准视频）带来任何影响，编解码器无感知，因此不需要对现有的编解码器进行改进即可应用本发明的实施例中所述的方法。

在步骤206, 传递所述第一封装视频帧。作为示例，可以响应于终端或者其上的视频客户端的拉取将所述第一封装视频帧传递到所述终端或视频客户端。可选地，还可以将所述第一封装视频帧传递到存储器（例如，云存储）中。由于通过对所述感兴趣区域残差掩码进行压缩，感兴趣区域残差掩码的数据量被大大减少，因此此处传递所述第一封装视频帧所需的带宽也被大幅减小。

可选地，所述方法200还可以包括步骤207。在步骤207，如果在步骤202确定不存在作为所述第一视频帧的前一视频帧的第二视频帧，则直接将所述第一视频帧的感兴趣区域信息确定为所述感兴趣区域残差掩码，以便在步骤204对所述感兴趣区域残差掩码进行压缩。

图6图示了根据本公开的一个实施例的用于在视频的渲染画面上提供辅助信息的方法600的流程图。作为示例，所述方法600可以例如被实施在终端上或者实施在运行在终端上的客户端（例如，视频客户端）上。如图6所示，所述方法包括如下步骤。

在步骤601，获取封装视频帧，所述封装视频帧为参照上面描述的方法200传递的第一封装视频帧。作为示例，H.264或者H.265中的视频NALU中包括nal_unit_type字段，该字段的值（例如，其值为6时）可以用于识别其包括SEI传输单元。因此可以通过所述的字段的值来识别出所述封装视频帧。

在步骤602，从所述第一封装视频帧中获取所述第一封装视频帧的感兴趣区域信息。作为示例，可以首先从所述第一封装视频帧中获取压缩后的感兴趣区域残差掩码，所述压缩后的感兴趣区域残差掩码例如可以从所述第一封装视频帧的SEI传输单元中的ROI残差掩码字段获得，ROI残差掩码字段参见上面所述的SEI传输单元的格式。然后，可以对所述压缩后的感兴趣区域残差掩码解压缩以得到未压缩的感兴趣区域残差掩码。作为示例，同样可以例如采用Bzip2技术对所述压缩后的感兴趣区域残差掩码进行解压缩，当然这不是限制性。响应于存在第二封装视频帧作为所述第一封装视频帧的前一封装视频帧，则确定所述未压缩的感兴趣区域残差掩码与所述第二封装视频帧的未压缩的感兴趣区域残差掩码的残差作为所述第一封装视频帧的感兴趣区域信息。所述未压缩的感兴趣区域残差掩码与所述第二封装视频帧的未压缩的感兴趣区域残差掩码的残差同样可以通过对所述未压缩的感兴趣区域残差掩码与所述第二封装视频帧的未压缩的感兴趣区域残差掩码进行异或操作来得到。

在步骤603，获取所述第一封装视频帧对应的辅助信息。所述辅助信息例如可以是弹幕、动画、图标和字幕等中的一个或多个，这并不是限制性的。所述辅助信息例如可以借助于时间戳与所述第一封装视频帧对应。作为示例，可以从如图1所示的服务器101（例如，视频服务器）或者从其它单独的服务器（例如，专用于存储所述辅助信息的服务器）获取所述辅助信息。

在步骤604，在对所述第一封装视频帧中的编码视频数据进行渲染的同时，在所述编码视频数据的渲染画面上提供所述辅助信息，并且将所述辅助信息中与所述感兴趣信息表示的感兴趣区域对应的辅助信息设置为透明的。作为示例，图7图示了例如在终端上的视频客户端上渲染所述第一封装视频帧的编码视频数据时的用户界面。在图7中，视频画面中的人物所在区域为感兴趣区域，视频中的辅助信息为弹幕。从图7可见，在所述感兴趣区域弹幕都是透明的，即对于观看视频的用户不可见，使得不会影响用户对感兴趣区域内容的观看。此外，由于视频客户端具有了感兴趣区域的信息，也可以对感兴趣区域实现区域增强，以改变感兴趣区域的亮度、对比度等等。

图8图示了根据本公开的一个实施例的用于传递视频中的感兴趣区域信息的设备800的示例性结构框图。作为示例，该设备800可以为上面参照图1描述的服务器110或者服务器110中的构件，当然这不是限制性的。如图8所示，所述设备800包括第一确定模块801，第二确定模块802，压缩模块803，封装模块804，以及传递模块805。

第一确定模块801可以被配置成从所述视频的第一视频帧中确定感兴趣区域信息。所述视频例如可以是如上面所述的终端140向服务器110推送的视频或者可以是服务器110上本地存储的视频。

在一些实施例中，所述第一视频帧中的每个像素具有灰度分量。例如，所述第一视频帧可以是YUV格式的视频帧。在这种情况下，第一确定模块801可以被配置成基于所述第一视频帧中的所有像素的灰度分量来确定感兴趣区域；以及基于所述确定的感兴趣区域来确定所述感兴趣区域信息。

第二确定模块802可以被配置成：响应于存在作为针对所述第一视频帧的前一视频帧的第二视频帧，则确定所述第一视频帧的感兴趣区域信息与第二视频帧的感兴趣区域信息间的残差作为感兴趣区域残差掩码。作为示例，第二确定模块802可以对所述第一视频帧的感兴趣区域信息与所述第二视频帧的感兴趣区域信息进行异或操作来确定所述残差。

在一些实施例中，第二确定模块802还可以被配置成响应于不存在作为针对所述视频帧的前一视频帧的第二视频帧，则确定所述第一视频帧的感兴趣区域信息为所述感兴趣区域残差掩码。

压缩模块803可以被配置成对所述感兴趣区域残差掩码进行压缩。在一些实施例中，可以例如采用Bzip2技术对所述感兴趣区域残差掩码进行压缩，当然这不是限制性，任何合适的压缩算法都被设想。由于感兴趣区域残差掩码中包括大量的重复信息，通过对所述感兴趣区域残差掩码进行压缩，能够大大减小感兴趣区域残差掩码的数据量，从而减小传递时需要额外增加的带宽。

封装模块804可以被配置成对所述压缩后的感兴趣区域残差掩码与所述第一视频帧的编码视频数据进行SEI封装，以得到第一封装视频帧。所述第一视频帧的编码视频数据例如可以是通过对所述第一视频帧进行H.264或者H.265编码而得到编码视频数据，当然这不是限制性的，其它类型的编码也被数据也被设想。关于SEI封装的技术细节可以参照上面方法实施例中描述的，封装视频帧的示例如图5所示。

传递模块805可以被配置成传递所述第一封装视频帧。作为示例，传递模块805可以响应于终端或者其上的视频客户端的拉取将所述第一封装视频帧传递到所述终端或视频客户端。可选地，传递模块805还可以将所述第一封装视频帧传递到存储器（例如，云存储）中。由于通过对所述感兴趣区域残差掩码进行压缩，感兴趣区域残差掩码的数据量被大大减小，因此此处传递所述第一封装视频帧所需的带宽也被大幅减小。

图9图示了根据本公开的一个实施例的用于在视频的渲染画面上提供辅助信息的设备900的示例性结构框图。作为示例，该用于在视频的渲染画面上提供辅助信息的设备900可以为上面参照图1描述的终端120、140或者终端120、140中的构件，当然这不是限制性的。如图9所示，所述设备900包括第一获取模块901、第二获取模块902、第三获取模块903以及信息提供模块904。

第一获取模块901可以被配置成获取封装视频帧，所述封装视频帧为上面描述的用于传递视频中的感兴趣区域信息的设备800传递的第一封装视频帧。作为示例，第一获取模块可以通过视频NALU中包括的用以识别其包括SEI传输单元的字段来识别出所述第一封装视频帧。

第二获取模块902可以被配置成从所述第一封装视频帧中获取所述第一封装视频帧的感兴趣区域信息。作为示例，第二获取模块可以首先从所述第一封装视频帧中获取压缩后的感兴趣区域残差掩码，所述压缩后的感兴趣区域残差掩码例如可以从所述第一封装视频帧的SEI传输单元中的ROI残差掩码字段获得，ROI残差掩码字段参见上面所述的SEI传输单元的格式。然后，第二获取模块可以对所述压缩后的感兴趣区域残差掩码解压缩以得到未压缩的感兴趣区域残差掩码。作为示例，同样可以例如采用Bzip2技术对所述压缩后的感兴趣区域残差掩码进行解压缩，当然这不是限制性。响应于存在第二封装视频帧作为所述第一封装视频帧的前一封装视频帧，第二获取模块可以确定所述未压缩的感兴趣区域残差掩码与所述第二封装视频帧的未压缩的感兴趣区域残差掩码的残差作为所述第一封装视频帧的感兴趣区域信息。

第三获取模块903可以被配置成获取所述第一封装视频帧对应的辅助信息。所述辅助信息例如可以是弹幕、动画、图标和字幕等中的一个或多个，这并不是限制性的。所述辅助信息例如可以通过时间戳与所述第一封装视频帧对应。作为示例，第三获取模块可以从如图1所示的服务器101（例如，视频服务器）或者从其它单独的服务器（例如，专用于存储所述辅助信息的服务器）获取所述辅助信息。

信息提供模块904可以被配置成在对所述第一封装视频帧中的编码视频数据进行渲染的同时，在所述编码视频数据的渲染画面上提供所述辅助信息，并且将所述辅助信息中与所述感兴趣信息表示的感兴趣区域对应的辅助信息设置为透明的。如图7所示，视频画面中的人物所在区域为感兴趣区域，视频中的辅助信息为弹幕。从图7可见，在所述感兴趣区域弹幕都是透明的，即对于观看视频的用户不可见，使得不会影响用户对感兴趣区域内容的观看。

图10图示了示例系统1000，其包括代表可以实现本文描述的各种技术的一个或多个系统和/或设备的示例计算设备1010。计算设备1010可以是例如服务提供商的服务器、与服务器相关联的设备、片上系统、和/或任何其它合适的计算设备或计算系统。上面关于图8描述的用于传递视频中的感兴趣区域信息的设备800以及用于在视频的渲染画面上提供辅助信息的设备900均可以采取计算设备1010的形式。替换地，用于传递视频中的感兴趣区域信息的设备800或者用于在视频的渲染画面上提供辅助信息的设备900可以以ROI信息应用1016的形式被实现为计算机程序。

如图示的示例计算设备1010包括彼此通信耦合的处理系统1011、一个或多个计算机可读介质1012以及一个或多个I / O接口1013。尽管未示出，但是计算设备1010还可以包括系统总线或其他数据和命令传送系统，其将各种组件彼此耦合。系统总线可以包括不同总线结构的任何一个或组合，所述总线结构诸如存储器总线或存储器控制器、外围总线、通用串行总线、和/或利用各种总线架构中的任何一种的处理器或局部总线。还构思了各种其他示例，诸如控制和数据线。

处理系统1011代表使用硬件执行一个或多个操作的功能。因此，处理系统1011被图示为包括可被配置为处理器、功能块等的硬件元件1014。这可以包括在硬件中实现为专用集成电路或使用一个或多个半导体形成的其它逻辑器件。硬件元件1014不受其形成的材料或其中采用的处理机构的限制。例如，处理器可以由（多个）半导体和/或晶体管（例如，电子集成电路（IC））组成。在这样的上下文中，处理器可执行指令可以是电子可执行指令。

计算机可读介质1012被图示为包括存储器/存储装置1015。存储器/存储装置1015表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储装置1015可以包括易失性介质（诸如随机存取存储器（RAM））和/或非易失性介质（诸如只读存储器（ROM）、闪存、光盘、磁盘等）。存储器/存储装置1015可以包括固定介质（例如，RAM、ROM、固定硬盘驱动器等）以及可移动介质（例如，闪存、可移动硬盘驱动器、光盘等）。计算机可读介质1012可以以下面进一步描述的各种其他方式进行配置。

一个或多个I/O接口1013代表允许用户向计算设备1010输入命令和信息并且可选地还允许使用各种输入/输出设备将信息呈现给用户和/或其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备（例如，鼠标）、麦克风（例如，用于语音输入）、扫描仪、触摸功能（例如，被配置为检测物理触摸的容性或其他传感器）、相机（例如，可以采用可见或不可见的波长（诸如红外频率）将不涉及触摸的运动检测为手势）等等。输出设备的示例包括显示设备（例如，监视器或投影仪）、扬声器、打印机、网卡、触觉响应设备等。因此，计算设备1010可以以下面进一步描述的各种方式进行配置以支持用户交互。

计算设备1010还包括ROI信息应用1016。ROI信息应用1016可以例如是图8描述的用于传递视频中的感兴趣区域信息的设备800的软件实例或是图9描述的用于在视频的渲染画面上提供辅助信息的设备900的软件实例，并且与计算设备1010中的其他元件相组合地实现本文描述的技术。

本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。一般地，这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文所使用的术语“模块”，“功能”和“组件”一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的，意味着这些技术可以在具有各种处理器的各种计算平台上实现。

所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备1010访问的各种介质。作为示例而非限制，计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。

与单纯的信号传输、载波或信号本身相反，“计算机可读存储介质”是指能够持久存储信息的介质和/或设备，和/或有形的存储装置。因此，计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息（诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据）的方法或技术实现的存储设备之类的硬件。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘（DVD）或其他光学存储装置、硬盘、盒式磁带、磁带，磁盘存储装置或其他磁存储设备，或其他存储设备、有形介质或适于存储期望信息并可以由计算机访问的制品。

“计算机可读信号介质”是指被配置为诸如经由网络将指令发送到计算设备1010的硬件的信号承载介质。信号介质典型地可以将计算机可读指令、数据结构、程序模块或其他数据体现在诸如载波、数据信号或其它传输机制的调制数据信号中。信号介质还包括任何信息传递介质。术语“调制数据信号”是指以这样的方式对信号中的信息进行编码来设置或改变其特征中的一个或多个的信号。作为示例而非限制，通信介质包括诸如有线网络或直接连线的有线介质以及诸如声、RF、红外和其它无线介质的无线介质。

如前所述，硬件元件1014和计算机可读介质1012代表以硬件形式实现的指令、模块、可编程器件逻辑和/或固定器件逻辑，其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上系统、专用集成电路（ASIC）、现场可编程门阵列（FPGA）、复杂可编程逻辑器件（CPLD）以及硅中的其它实现或其他硬件设备的组件。在这种上下文中，硬件元件可以作为执行由硬件元件所体现的指令、模块和/或逻辑所定义的程序任务的处理设备，以及用于存储用于执行的指令的硬件设备，例如，先前描述的计算机可读存储介质。

前述的组合也可以用于实现本文所述的各种技术和模块。因此，可以将软件、硬件或程序模块和其它程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件1014体现的一个或多个指令和/或逻辑。计算设备1010可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。因此，例如通过使用处理系统的计算机可读存储介质和/或硬件元件1014，可以至少部分地以硬件来实现将模块实现为可由计算设备1010作为软件执行的模块。指令和/或功能可以由一个或多个制品（例如，一个或多个计算设备1010和/或处理系统1011）可执行/可操作以实现本文所述的技术、模块和示例。

在各种实施方式中，计算设备1010可以采用各种不同的配置。例如，计算设备1010可以被实现为包括个人计算机、台式计算机、多屏幕计算机、膝上型计算机、上网本等的计算机类设备。计算设备1010还可以被实现为包括诸如移动电话、便携式音乐播放器、便携式游戏设备、平板计算机、多屏幕计算机等移动设备的移动装置类设备。计算设备1010还可以实现为电视类设备，其包括具有或连接到休闲观看环境中的一般地较大屏幕的设备。这些设备包括电视、机顶盒、游戏机等。

本文描述的技术可以由计算设备1010的这些各种配置来支持，并且不限于本文所描述的技术的具体示例。功能还可以通过使用分布式系统、诸如通过如下所述的平台1022而在“云”1020上全部或部分地实现。

云1020包括和/或代表用于资源1024的平台1022。平台1022抽象云1020的硬件（例如，服务器）和软件资源的底层功能。资源1024可以包括在远离计算设备1010的服务器上执行计算机处理时可以使用的应用和/或数据。资源1024还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。

平台1022可以抽象资源和功能以将计算设备1010与其他计算设备连接。平台1022还可以用于抽象资源的分级以提供遇到的对于经由平台1022实现的资源1024的需求的相应水平的分级。因此，在互连设备实施例中，本文描述的功能的实现可以分布在整个系统1000内。例如，功能可以部分地在计算设备1010上以及通过抽象云1020的功能的平台1022来实现。

应当理解，为清楚起见，参考不同的功能单元对本公开的实施例进行了描述。然而，将明显的是，在不偏离本公开的情况下，每个功能单元的功能性可以被实施在单个单元中、实施在多个单元中或作为其它功能单元的一部分被实施。例如，被说明成由单个单元执行的功能性可以由多个不同的单元来执行。因此，对特定功能单元的参考仅被视为对用于提供所描述的功能性的适当单元的参考，而不是表明严格的逻辑或物理结构或组织。因此，本公开可以被实施在单个单元中，或者可以在物理上和功能上被分布在不同的单元和电路之间。

将理解的是，尽管第一、第二、第三等术语在本文中可以用来描述各种设备、元件、部件或部分，但是这些设备、元件、部件或部分不应当由这些术语限制。这些术语仅用来将一个设备、元件、部件或部分与另一个设备、元件、部件或部分相区分。

尽管已经结合一些实施例描述了本公开，但是其不旨在被限于在本文中所阐述的特定形式。相反，本公开的范围仅由所附权利要求来限制。附加地，尽管单独的特征可以被包括在不同的权利要求中，但是这些可以可能地被有利地组合，并且包括在不同权利要求中不暗示特征的组合不是可行的和/或有利的。特征在权利要求中的次序不暗示特征必须以其工作的任何特定次序。此外，在权利要求中，词“包括”不排除其它元件，并且不定冠词“一”或“一个”不排除多个。权利要求中的附图标记仅作为明确的例子被提供，不应该被解释为以任何方式限制权利要求的范围。

Claims

1.一种用于传递视频中的感兴趣区域信息的方法，包括：

从所述视频的第一视频帧中确定感兴趣区域信息；

响应于存在作为所述第一视频帧的前一视频帧的第二视频帧，则确定所述第一视频帧的感兴趣区域信息与所述第二视频帧的感兴趣区域信息间的残差作为感兴趣区域残差掩码；

对所述感兴趣区域残差掩码进行压缩；

对所述压缩后的感兴趣区域残差掩码与所述第一视频帧的编码视频数据进行补充增强信息封装，以得到第一封装视频帧；以及

传递所述第一封装视频帧。

2.根据权利要求1所述的方法，其中，所述视频的每个视频帧中的每个像素具有灰度分量。

3.根据权利要求2所述的方法，其中，从所述视频的第一视频帧中确定感兴趣区域信息，包括：

基于所述第一视频帧中的所有像素的灰度分量来确定感兴趣区域；以及

基于所述确定的感兴趣区域来确定所述感兴趣区域信息。

4.根据权利要求3所述的方法，其中，基于所述确定的感兴趣区域来确定所述感兴趣区域信息包括：

以像素块为单位来基于所述确定的感兴趣区域确定所述感兴趣区域信息。

5.根据权利要求1所述的方法，还包括：

响应于不存在作为所述第一视频帧的前一视频帧的第二视频帧，则确定所述第一视频帧的感兴趣区域信息为所述感兴趣区域残差掩码。

6.根据权利要求1所述的方法，其中，确定所述第一视频帧的感兴趣区域信息与所述第二视频帧的感兴趣区域信息间的残差包括：

对所述第一视频帧的感兴趣区域信息与所述第二视频帧的感兴趣区域信息进行异或操作来确定所述残差。

7.根据权利要求1所述的方法，其中，所述第一视频帧的编码视频数据包括对所述第一视频帧进行H.264或者H.265编码而得到编码视频数据。

8.根据权利要求1所述的方法，其中，传递所述第一封装视频帧包括：

传递所述第一封装视频帧到视频客户端进行渲染。

9.一种用于在视频的渲染画面上提供辅助信息的方法，包括：

获取根据权利要求1中的方法传递的第一封装视频帧；

从所述第一封装视频帧中获取所述第一封装视频帧的感兴趣区域信息；

获取所述第一封装视频帧对应的辅助信息；

在对所述第一封装视频帧中的编码视频数据进行渲染的同时，在所述编码视频数据的渲染画面上提供所述辅助信息，并且将所述辅助信息中与所述感兴趣区域信息表示的感兴趣区域对应的辅助信息设置为透明的。

10.根据权利要求9所述的方法，其中，从所述第一封装视频帧中获取所述第一封装视频帧的感兴趣区域信息包括：

从所述第一封装视频帧中获取压缩后的感兴趣区域残差掩码；

对所述压缩后的感兴趣区域残差掩码解压缩以得到未压缩的感兴趣区域残差掩码；

响应于存在第二封装视频帧作为所述第一封装视频帧的前一封装视频帧，则确定所述未压缩的感兴趣区域残差掩码与所述第二封装视频帧的未压缩的感兴趣区域残差掩码的残差作为所述第一封装视频帧的感兴趣区域信息。

11.根据权利要求9所述的方法，所述辅助信息包括弹幕、动画、图标和字幕中的一个或多个。

12.一种用于传递视频中的感兴趣区域信息的设备，包括：

第一确定模块，被配置成从所述视频的第一视频帧中确定感兴趣区域信息；

第二确定模块，被配置成：响应于存在作为所述第一视频帧的前一视频帧的第二视频帧，则确定所述第一视频帧的感兴趣区域信息与所述第二视频帧的感兴趣区域信息间的残差作为感兴趣区域残差掩码；

压缩模块，被配置成对所述感兴趣区域残差掩码进行压缩；

封装模块，被配置成对所述压缩后的感兴趣区域残差掩码与所述第一视频帧的编码视频数据进行补充增强信息封装，以得到第一封装视频帧；

传递模块，被配置成传递所述第一封装视频帧。

13.一种用于在视频帧的渲染画面上提供辅助信息的设备，包括：

第一获取模块，被配置成获取从根据权利要求12所述的用于传递视频中的感兴趣区域信息的设备传递的第一封装视频帧；

第二获取模块，被配置成从所述第一封装视频帧中获取所述第一封装视频帧的感兴趣区域信息；

第三获取模块，被配置成获取所述第一封装视频帧对应的辅助信息；

信息提供模块，被配置成在对所述第一封装视频帧中的编码视频数据进行渲染的同时，在所述编码视频数据的渲染画面上提供所述辅助信息，并且将所述辅助信息中与所述感兴趣区域信息表示的感兴趣区域对应的辅助信息设置为透明的。

14.一种计算设备，包括

处理器；以及

存储器，配置为在其上存储有计算机可执行指令，当计算机可执行指令被处理器执行时执行如权利要求1-11中的任一项所述的方法。

15.一种计算机可读存储介质，其存储有计算机可执行指令，当所述计算机可执行指令被执行时，执行如权利要求1-11中的任一项所述的方法。