CN108713322B

CN108713322B - 用于准备视频内容和回放经编码的内容的方法、装置

Info

Publication number: CN108713322B
Application number: CN201780014868.9A
Authority: CN
Inventors: 吉尔·麦克唐纳·博伊斯
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2016-04-01
Filing date: 2017-01-13
Publication date: 2021-07-16
Anticipated expiration: 2037-01-13
Also published as: US10629166B2; CN108713322A; US20170287443A1; WO2017171975A1

Abstract

描述了具有可选标记覆盖辅助图片的视频。在一个示例中，通过以下操作来准备视频内容：标识视频帧的序列中的对象；生成标记覆盖视频帧，标记覆盖视频帧在与所标识的对象的位置相关的位置中具有标记的可见表示；生成覆盖标签帧，以指示与标记覆盖帧的标记相对应的像素位置；在经编码的视频序列中编码视频帧、标记覆盖视频帧、和覆盖标签帧。

Description

用于准备视频内容和回放经编码的内容的方法、装置

技术领域

本说明书涉及视频编码和解码领域，并且更具体地涉及可以由观看者选择的标记覆盖(tag overlay)。

背景技术

在视频呈现中，附加信息通常作为覆盖与视频一起呈现。这类覆盖被用于电视、科学观察、监视和许多其他领域。常见覆盖提供体育比分和统计数据，新闻滚动条，用于标识运动员、演讲者、屏幕上的对象的图例，或视频的一些其他背景或上下文信息。通常，覆盖是在制作或后期制作阶段添加的，并且是视频的一部分。它们无法被观看者删除、更改或添加。

标识静止或移动对象的存在和位置的视觉标记被内置于许多视频编辑工具中。一些视频编辑工具甚至具有运动跟踪功能，这种功能允许将标记图形添加到视频以跟随移动对象的位置。在编辑器对视频中的对象进行标记之后，可以使用运动跟踪软件来跟随该对象。然后，标记图形被合成到视频内容上，并且无论何时播放合成视频，都将看到标记图形。

已经开发了可选覆盖作为观看者可以选择打开和关闭的覆盖。针对那些希望看到视频的更多部分(而没有可选覆盖遮挡屏幕的一部分)的观看者，这可能是有益的。为允许关闭覆盖，覆盖与视频数据被分开呈现。覆盖可以通过单独的传输信道被发送，或作为嵌入式元数据被单独发送。在接收器(例如，机顶盒或显示器)处使用附加渲染能力，以从元数据渲染像素表示。制作工作流程针对可选覆盖进行修改，来以单独的格式(例如，元数据)渲染覆盖。

附图说明

通过示例的方式而不通过附图中的限制的方式示出了这里描述的材料。为了说明的简单性和清楚性，附图中示出的元不一定是按比例绘制的。例如，为了清楚起见，一些元件的尺寸可能相对于其他元件被夸大。

图1是根据实施例的具有对象标记器的示例内容准备单元的框图示。

图2是根据实施例的具有覆盖选择接口的内容回放单元的示例的框图示。

图3是根据实施例的具有用于指示标识的对象的边界框的视频帧的图示。

图4是根据实施例的由对象标记器创建的覆盖帧的图示。

图5是根据实施例的由对象标记器创建的替代覆盖帧的图示。

图6是根据实施例的其中叠加有一个可选标记覆盖的图3的视频帧的图示。

图7是根据实施例的其中叠加有两个可选标记覆盖的图3的视频帧的图示。

图8是根据实施例的编码具有可选标记覆盖的视频的处理流程图。

图9是根据实施例的解码视频并且选择标记覆盖的处理流程图。

图10是根据实施例的计算设备视频编码和解码的框图。

具体实施方式

如本文所述，观看者能够在观看视频的同时控制移动和静止对象的视频标记覆盖的显示。标识移动对象的存在和位置的视觉标记可以与视频内容相关联，并且被显示为视频内容上的覆盖。当在编码和发送视频之前将视觉标记覆盖到视频内容上时，视觉标记将始终被显示，在不期望视觉标记时，这可能使观看者烦恼。本文描述的技术和系统允许观看者选择是否在观看期间显示各个视觉标记。

在一些实施例中，视频内容准备单元检测并跟踪视频内容中的移动对象，并且创建包括与视频内容帧中呈现的每个被跟踪的移动对象相对应的视觉标记的覆盖。覆盖辅助图片(例如，(由ITU-T国际电信联盟的视频编码专家组颁布的)高效视频编码(HEVC)版本2标准中支持的那些图片)被用来编码覆盖，其中每个单独的被跟踪的对象被表示为单独的覆盖元素。

回放单元解码并显示内容视频，并且向观看者提供用户界面以供选择显示哪些(如果有的话)被跟踪的对象的视觉标记(通过仅显示与选择的被跟踪的对象相关联的覆盖元素)。类似的技术可以应用于其他类似的编码系统，包括来自ITU-T的HEVC和H.265的变型和进一步发展等。

图1是示例内容准备单元的框图。内容准备单元102准备视频，该视频然后被发送到回放单元202。存储或分发网络302将视频从准备单元传送到回放单元。内容准备单元102包括视频分析模块104、标记器模块 106、和视频编码器108。内容准备单元可以是专业视频编辑工作站或网络或更小更方便的设备(从个人计算机到摄像机，再到便携式智能电话)。内容准备单元还可以被托管在供提供要编辑的视频的用户远程访问的服务器上。

在该示例中，内容准备单元创建视频比特流110，该视频比特流110 包括内容视频的表示和具有与被跟踪的对象相对应的视觉标记的覆盖的表示。如下面更详细描述并在图2中示出的，回放单元202接收并处理视频比特流，并且基于用于选择覆盖的用户界面，将内容视频与对应于作为辅助图片的所选择的视觉标记的覆盖的区域合成，以显示合成视频。

在内容准备单元102处接收内容视频120。该视频可以被存储在大容量存储设备中以供稍后的后续处理，或直接从相机被接收。视频分析模块 104分析接收到的内容视频以标识一个或多个对象，并且在整个视频中跟踪这些对象。对象标识模块112标识感兴趣的对象并且在视频的帧中跟踪它们。初始对象标识可以通过连接到对象标识模块的图形用户界面(GUI) 116由用户来控制，或者对象标识可以是自动的。

例如，如果使用GUI，则用户可以使用鼠标在帧中的对象周围绘制轮廓。然后，对象标识模块112可以自动标识该对象的边界，并且当该对象在序列中的其他帧中移动时跟踪该对象。当被跟踪的对象是人时，则可以使用面部识别来标识人。针对一些跟踪系统，先前对人的图像进行了训练。该训练用于在视频序列的帧中持续标识该人。

对象标识模块112被连接到视频分析104。针对内容视频中的每个帧，对象标识模块确定每个被跟踪的对象是否存在，并且如果对象存在，则对象标识模块确定相应帧中的对象的位置。被跟踪的对象可以由用户或操作者通过UI 116选择，或可以跟踪所有标识的对象。位置可以被标识为由边界框的四个角位置标识的简单矩形边界框。替代地，利用对象或对象轮廓的每像素或每块指示，位置可以更精确。这些操作在视频分析模块104中完成，视频分析模块104具有内容视频120和任意对象标识信息112作为输入。视频分析模块104输出当前正被跟踪的每个对象的位置数据。

针对每个被跟踪的对象，可见标记表示118被输入到标记器模块106。该标记可以是将在整个视频序列中是静态的显示名称或图标，或可以是移动图标(例如，旋转徽标)。可见标记还可以随移动对象动态地改变，例如，(随内容视频的每个帧更新的)对象的整个形状或对象的移动轮廓的标识。

在标记器模块106中，生成标记覆盖视频帧，该标记覆盖视频帧包括针对每个被跟踪的对象和(当该对象存在于帧中时)针对每个帧的标记的可见表示。可见表示在每个帧中被放置在跟踪对象的位置。标记的位置基于来自分析模块104的位置输入。例如，人的姓名或图标可以显示在与该人相对应的被跟踪的对象附近的位置。标记覆盖帧针对每个帧改变，以使得标记在每个帧中与人或与任意其他被跟踪的对象一起移动。标记的位置由在视频分析单元中确定的被跟踪的对象位置来确定，可能具有偏移，以使得标记位于被跟踪的对象附近但不位于其顶部，或在轮廓的情况下，位于与对象本身相同的位置。来自视频分析的运动跟踪基于对象的运动来逐帧调整标记覆盖的位置。这允许每个覆盖帧与视频序列中的相应主要图片帧组合。

可见表示由视觉标记生成器114提供。该标记生成器可以通过GUI 116从操作者或编辑者接收标记。替代地，标记可以由对象标识112生成。对象的标识可以用于特定类别的对象，或类别中的特定个体。换句话说，对象标识符可以将特定对象标识为运动队成员或更具体地标识为Jane。

标记器106还生成覆盖标签帧，该覆盖标签帧指示哪个覆盖元素(如果有的话)表示标记覆盖视频帧中的每个像素。针对每个覆盖帧可以存在覆盖标签帧。覆盖标签帧允许用户标识标记以及选择和取消选择标记，如下面更详细地描述的。

在一些实施例中，覆盖标签帧对应于使用覆盖信息补充增强信息 (SEI)消息的HEVC版本2(IUT-T H.265)辅助图片中使用的格式。在HEVC版本2中，覆盖信息SEI消息用于描述包括覆盖内容和覆盖标签 (以及可选地，覆盖α)的辅助图片的内容。覆盖可以包括多个覆盖元素。 SEI消息包括每个覆盖的名称，以及每个覆盖元素的名称。覆盖标签帧用于标识覆盖内容帧的哪些像素对应于哪个覆盖元素。某些亮度范围内的像素值对应于特定覆盖元素。例如，亮度值10到20可以对应于第一元素，并且亮度值20到30可以对应于第二元素。

标记覆盖视频帧中的位置对应于内容视频中的位置。标记覆盖视频帧和覆盖标签可以具有与内容视频相同的分辨率，或可以具有更小的分辨率并且使用缩放因子和/或缩放参考偏移(如HEVC版本2中所定义的)来提供内容视频中的相应位置。缩放参考偏移可以与包括所有覆盖元素的边界矩形一起使用以创建较小的帧，其中四个参数用于指示较小的帧与全尺寸帧之间的左偏移、上偏移、右偏移和下偏移。与内容视频帧相比减小覆盖和覆盖标签帧的大小具有降低针对覆盖帧的辅助图片的编码和解码复杂度的益处。

使用视频编码器108将内容视频120、标记覆盖122和覆盖标签124 层编码为伴随每个视频帧的辅助图片。视频编码器接收这些组分，然后将它们组合成单个输出编码视频流110。视频流可以被存储302在网络中心中，并且然后被流式传输(stream)、广播、或多播到观看者以供在远程回放单元202上消费。替代地，视频流可以被本地存储以供在本地回放单元202上进行本地回放。

在一些实施例中，视频编码器是HEVC版本2编码器，并且编码的视频可以被包括在单个比特流内。该比特流可以被发送或存储，直到由播放器单元进行访问。原始内容视频被编码成一系列主要图片。使用传统分层编码工具在一个或多个层中对主要图片进行编码以表示原始内容视频。来自标记器106的标记覆盖和覆盖标签帧被编码为辅助图片层。辅助图片可以在可缩放层中被编码，其中每个辅助图片具有与用于主要图片的层不同的layer_id(层标识符)。每个主要图片可以有许多辅助图片。可以使用来自相同辅助图片类型的其他辅助图片层的层间预测来对辅助图片进行可缩放编码。辅助图片可以包括覆盖图片，该覆盖图片是覆盖主要图片中的样本的样本。辅助图片还可以包括覆盖布局图片，该覆盖布局图片指示在由覆盖布局图片指示的位置处存在来自一个或多个覆盖图片的覆盖样本。

如果HEVC或类似类型的编码器被用作视频编码器110，则可以使用覆盖信息SEI消息来指示存在包括一个或多个覆盖元素的覆盖，并且提供关于覆盖和覆盖元素的名称信息。

回放单元202包括视频解码器204、视频合成器206、和覆盖选择器接口208。在播放器单元202的视频解码器204中，接收到的经编码视频 110是从网络或本地存储装置302接收的。该视频被解码为帧序列的主要图片226和帧序列的辅助图片224。可以通过来自HEVC视频的SEI消息来标识辅助图片。回放单元可以是机顶盒、智能电视机或任意其他期望类型的媒体播放器。

视频解码器接收SEI消息，并且从消息中提取关于覆盖的信息220。该信息通过覆盖选择器接口208被呈现给观看者。覆盖选择器接口被连接到显示器212和用户输入设备。这些可以组合成某种GUI 214。显示器可以是用于渲染解码的内容视频的相同显示器214，或它可以是单独的控制接口。

使用从SEI消息提取的或以某种其他方式携带的信息，观看者可以单独选择要显示或不显示的覆盖元素。GUI 214可以用于呈现覆盖和覆盖元素的名称和描述。通过在覆盖选择器处选择这些覆盖元素，观看者选择应该和不应该显示哪些相应的对象标记。

解码器将主要图片226作为内容视频232发送到合成器206。解码器还将辅助图片发送到解码器。这些辅助图片中的一些辅助图片可以不被取消选择并且形成被发送到显示器212的最终合成视频图像210的一部分。可以存在从解码器发送到合成器的许多附加辅助图片。

在内容准备单元中，编辑器可以使得一些覆盖可选而其他覆盖不可选。一些覆盖可以用于使用颜色、阴影、背景等正确地呈现内容视频。其他覆盖可以用于来源、标识、信用、或其他不应移除的信息。还有其他覆盖可以用于可选信息、标记或增强。观看者被提供有选项，用于仅选择那些可选的覆盖。从一个角度来看，观看者从可供选择的覆盖中选择期望的覆盖。从另一个角度来看，观看者从可可供选择的覆盖中选择将不会被显示的覆盖。在许多情况下，可能存在用户无法移除的覆盖，这取决于视频如何被构造。

如果选择至少一个覆盖元素238以进行显示，则将来自覆盖选择器接口的选择信息222提供给视频解码器和合成器。选择的覆盖层228和相应覆盖标签层230在解码器处被解码为辅助图片224。辅助图片与主要图片一起从解码器被发送，并且合成器模块将覆盖合成到主内容解码视频，以产生合成图片的视频序列以供在显示器上观看。

覆盖标签的选择可以在观看期间实时完成，并且各个覆盖可以独立地打开和关闭。覆盖标签与覆盖帧一起被用来在合成模块中选择是否显示针对单个被跟踪的对象的标记。只有与选择的覆盖元素相对应的标记覆盖视频的那些像素被包括在合成视频中，如由该帧的覆盖标签中的相应位置的亮度值所确定的。

图3是体育比赛的视频序列的帧的图示，其中四个不同的人在球后跑过运动场。可以在以下示例中考虑这样的视频序列，其中母亲捕捉她的两个女儿Laura和Jane正在进行的运动的视频等。然后使用视频编辑器应用，其包括例如上面关于图1描述的内容准备单元。

使用先前的Laura和Jane的图片作为输入，可以分析视频以标识 Laura和Jane存在于其中的帧。她们的位置被跟踪。Laura和Jane的徽标名称标记可以被创建或从存储它们的存储器中被获取。徽标名称标记可以被存储为GIF图像或任意各种其他格式，并且被输入到标记器模块。内容准备单元创建在整个游戏中在女孩附近显示Laura和Jane的适当徽标名称标记的标记覆盖视频。

还创建了覆盖标签视频，其定义徽标名称标记的位置的像素亮度。例如，Laura的名称标记的位置可以具有15的像素亮度值，并且Jane的徽标名称标记的位置具有25的像素亮度。位置随着Laura和Jane逐帧移动在每个帧中都会发生变化。然后使用HEVC版本2或任意其他适当的编码器对内容、标记覆盖、和覆盖标签视频进行编码，其中标记覆盖和覆盖标签视频被编码为辅助图片。所有层和覆盖信息SEI消息都被包括在输出比特流中。

覆盖信息SEI消息指示覆盖中包括两个覆盖元素，并且覆盖元素名称是“Laura”和“Jane”。母亲后来将比特流文件通过电子邮件发送给孩子的祖父母。

在稍后的时间，祖父母观看视频。视频播放器包括播放器单元，并且提供指示存在针对“Laura”和“Jane”的标记覆盖的用户界面。祖父母使用播放器单元中的视频解码器观看视频，最初没有选择显示任何标记覆盖。在视频播放中途，他们不确定哪个运动员是Jane，因此他们使用用户界面来指示他们想要显示针对Jane的标记覆盖。播放器单元解码标记覆盖和覆盖元素层。合成器使用覆盖标签帧中像素的亮度值来确定哪些像素位置对应于针对Jane的覆盖元素，并且将标记覆盖帧与内容视频混合以创建显示覆盖在内容视频上的Jane的徽标名称标记的视频。在稍后播放视频中，祖父母然后决定也显示针对Laura的标记覆盖，所以他们使用界面也选择 Laura。

一旦祖父母知道哪些运动员是Jane和Laura，他们就会发现徽标名称标记的存在让人分心，所以过了一会儿，当他们继续观看视频时，他们使用用户界面取消选择Jane和Laura的标记覆盖的显示。

图3是体育运动序列的静止帧的图示，其中边界框304、306指示由视频分析模块确定的Laura和Jane的位置。

图4是由标记器创建的覆盖帧的图示，该覆盖帧包括针对Laura和 Jane的图标314、316。图标位于图3的帧中所标识的人的位置附近。当图标跟踪两个运动员或任意其他适当的跟踪对象的移动时，视频序列中的下一帧的覆盖帧可以具有处于另一位置的图标。通过将两个帧彼此重叠，可以将图标直接集成到运动的帧中，因为覆盖帧确定图标的位置。注意，编码器可以极大地压缩该帧，因为大多数像素没有信息。

图5是图4的覆盖帧的不同版本的图示。在该示例中，两个图标324、 326是小得多的图像328的一部分，图像328只够大到包括两个图标。缩放参考偏移被用来定义较小图像在较大帧中的位置。参考偏移利用由以下各项指示的四个方向来对较小覆盖帧328进行编码：即，从帧的左边缘开始的左偏移332、从较大帧的下边缘开始的下偏移334、从帧的右边缘开始的右偏移336、以及从帧的上边缘开始的上偏移338。当运动员移动时，可以针对视频序列的每个连续帧修改这些偏移。在两个被跟踪的对象更近或更远的情况下，可以修改较小图像328以适应两个对象(在这种情况下，两个运动员)之间的距离。提供图4和5作为对覆盖帧进行编码的示例，并且本文的实施例不限于此。

图6是运动的相同帧的图示，其中已经选择了可选覆盖Jane并且还没有选择针对Laura的可选覆盖。该示例示出了在祖父母选择仅显示针对 Jane的标记时显示的内容。

图7是运动的相同帧的图示，其中已经选择了两个覆盖。这是在祖父母选择同时显示针对Jane和Laura的标记时显示的内容的示例。

如本文所述的内容准备单元可以被用来结合面部识别和面部跟踪功能为视频编辑软件和组件提供新的用户可控视频标记覆盖特征。回放单元可以组合媒体解码器和视频播放器，其从本地或远程存储的视频中进行提取。针对基于web的视频服务，内容开发者可以提供若干不同的覆盖，并且然后允许观看者决定在所观看的视频上呈现哪个覆盖。

图8是如本文所述的用于利用运动跟踪覆盖来编码视频的处理流程图。在801处，在视频帧的序列中标识一个或多个对象。存在许多不同的方式来标识对象。面部识别可以被用来标识已经存储在系统中的已知的人。操作者或编辑者可以选择人或对象，并且然后对象跟踪模块可以在视频序列的所有帧中跟随该对象。

在802处，生成具有标记的可见表示的标记覆盖视频帧。标记可以使用预定模板被机器生成，或由操作者生成。标记可以是图像的形式(例如， GIF或位图)或是某种其他格式。可以以辅助图片的形式来生成标记覆盖视频帧。辅助图片具有标记的表示以及对标记的位置的指示。标记的位置与所标识的对象的位置有关。标记可以直接位于对象上方，或可以在任意方向中以任意期望量的偏移位于对象旁边。当对象在连续帧中移动时，基于跟踪在每个连续帧之后修改标记覆盖视频帧。通过这种方式，标记在整个视频序列中跟随对象。

在803处，生成覆盖标签帧以指示标记覆盖帧的标记。在804处，还可以可选地生成描述标记的信息消息(例如，补充增强信息消息)以组合至经编码的视频。

在805处，所有这些都被编码在一起。视频帧、标记覆盖视频帧、覆盖标签帧、和信息消息(如果存在的话)被组合至经编码的视频序列。可以存在许多标记覆盖帧和覆盖标签帧。然后可以在806处存储、或分发、或存储和分发经编码的视频。

图9是如本文所述的用于解码具有可选覆盖的视频的处理流程图。在 902处，将接收到的经编码的视频序列解码为主要图片和辅助图片。

在904处，向观看者呈现关于辅助图片的信息。辅助图片具有覆盖和覆盖标签。覆盖标签向观看者提供了决定应当显示哪些覆盖以及不应当显示哪些覆盖的机会。用户然后可以通过GUI或一些其他途径选择或取消选择要显示的标记。

可以使用信息消息来帮助观看者选择。经编码的视频可以包括关于标记覆盖的信息消息，在这种情况下，解码器解码描述辅助图片(具体地，任意可选标记)的信息消息。然后向观看者呈现来自该消息的信息，以供在选择要显示或不显示的标记时使用。信息可以包括各个标记(例如，覆盖元素)的名称和描述。

在906处，从观看者接收对与被呈现以供选择的标记覆盖相对应的一个或多个可选标记的选择。在908处，响应于接收到该选择，标识对应于所选择的覆盖的标记覆盖辅助图片的区域。区域可以仅是如图5中的示例示出的整个图片或帧的一小部分，或可以是大得多的部分。在910处，将主要图片与标记覆盖辅助图片的所选区域而不与被取消选择的辅助图片合成，以产生具有选择的标记的合成视频。在912处，将合成视频发送到视频显示器以供观看。如上所述，所选择的标记将在显示的视频中被示出。

图10是根据一个实现方式的计算设备100的框图。计算设备100容纳系统板2。板2可以包括多个组件，包括但不限于处理器4和至少一个通信包6。通信包被耦合到一个或多个天线16。处理器4被物理地和电气地耦合到板2。

取决于其应用，计算设备100可以包括可以或可以不被物理地和电气地耦合到板2的其他组件。这些其他组件包括但不限于：易失性存储器 (例如，DRAM)8、非易失性存储器(例如，ROM)9、闪存(未示出)、图形处理器12、数字信号处理器(未示出)、加密处理器(未示出)、芯片组14、天线16、显示器18(例如，触摸屏显示器)、触摸屏控制器20、电池22、音频编解码器(未示出)、视频编解码器(未示出)、功率放大器24、全球定位系统(GPS)设备26、罗盘28、加速度计(未示出)、陀螺仪(未示出)、扬声器30、相机32、灯33、麦克风阵列34、以及大容量存储设备(例如，硬盘驱动器)10、光盘(CD)(未示出)、数字通用光盘(DVD)(未示出)等。这些组件可以被连接到系统板2、被安装到系统板、或者与任何其他组件相组合。

通信包6实现无线和/或有线通信，以向计算设备100传输数据和从计算设备100传输数据。术语“无线”及其衍生词可以用于描述可以通过非固态介质来使用经调制的电磁辐射传送数据的电路、设备、系统、方法、技术、通信信道等。该术语不暗示相关联的设备不包含任何线缆，但在一些实施例中它们可能不包含任何线缆。通信包6可以实现多种无线或有线标准或协议中的任何一种，包括但不限于：Wi-Fi(IEEE 802.11系列)、WiMAX(IEEE802.16系列)、IEEE 802.20、长期演进(LTE)、Ev-DO、 HSPA+、HSDPA+、HSUPA+、EDGE、GSM、GPRS、CDMA、TDMA、 DECT、蓝牙、其以太网衍生物、以及被指定为3G、4G、5G及更高版本的任何其他无线和有线协议。计算设备100可以包括多个通信包6。例如，第一通信包6可以专用于较短距离无线通信，例如，Wi-Fi和蓝牙，并且第二通信包6可以专用于较长距离无线通信，例如，GPS、EDGE、GPRS、 CDMA、WiMAX、LTE、Ev-DO等。

相机32捕获视频作为如本文所述的帧的序列。图像传感器可以使用图像处理芯片3的资源来读取值，并且还可以执行曝光控制、快门调制、格式转换、编码和解码、降噪和3D映射等。处理器4被耦合到图像处理芯片，并且图形CPU 12可选地被耦合到处理器，以执行本文针对内容准备单元描述的一些或全部处理。类似地，视频回放单元和GUI可以使用具有处理器和可选图形CPU的类似架构来渲染来自存储器的视频、通过通信芯片接收到的视频、或来自存储器的视频和通过通信芯片接收到的视频。

在各种实现方式中，计算设备100可以是眼镜、膝上型计算机、上网本、笔记本、超极本、智能电话、平板计算机、个人数字助理(PDA)、超移动PC、移动电话、台式计算机、服务器、机顶盒、娱乐控制单元、数码相机、便携式音乐播放器、或数字视频录像机。计算设备可以是固定的、便携式的或可穿戴的。在进一步的实现方式中，计算设备100可以是处理数据的任何其他电子设备。

实施例可以被实现为一个或多个存储器芯片、控制器、中央处理单元 (CPU)、使用主板互连的微芯片或集成电路、专用集成电路(ASIC)、和/或现场可编程门阵列(FPGA)的一部分。

对“一个实施例”、“实施例”、“示例实施例”、“各种实施例”等的引用指示被如此描述的(一个或多个)实施例可以包括特定特征、结构或特性，但不是每个实施例都必须包括这些特定特征、结构或特性。此外，一些实施例可以具有针对其他实施例所描述的一些、全部特征，或没有这些特征。

在以下描述和权利要求中，可以使用术语“耦合”及其派生词。“耦合”用于指示两个或更多个元件彼此协作或交互，但它们可以具有或可以不具有介于它们之间的物理或电子组件。

如权利要求中所使用的，除非另有说明，否则使用序数形容词“第一”、“第二”、“第三”等来描述共同的元件仅指示所涉及的相同元件的不同实例，并且不意味着暗示所描述的元件在时间上、空间上、排序上、或以任何其他方式必须按照给定的顺序。

附图和前述描述给出了实施例的示例。本领域技术人员将理解，所描述的元件中的一个或多个可以被良好地组合成单个功能元件。替代地，某些元件可以被分成多个功能元件。可以将来自一个实施例的元件添加到另一实施例。例如，本文描述的处理的顺序可以被改变，并且不限于本文描述的方式。此外，任何流程图的动作都不需要按照所示的顺序来实现；也不一定需要执行所有动作。此外，不依赖于其他动作的那些动作可以与其他动作并行执行。实施例的范围决不受这些具体实施例的限制。无论是否在说明书中明确给出，诸如结构、尺寸和材料使用的差异之类的许多变化是可能的。实施例的范围至少与以下权利要求所给出的范围一样广泛。

以下示例涉及另外的实施例。不同实施例的各种特征可以与所包括的一些特征以及未包括的其他特征进行不同地组合以适合各种不同的应用。一些实施例涉及一种方法，包括：标识视频帧的序列中的对象；生成标记覆盖视频帧，所述标记覆盖视频帧在与所标识的对象的位置相关的位置中具有标记的可见表示；生成覆盖标签帧，以指示与标记覆盖帧的标记相对应的像素位置；以及在经编码的视频序列中编码视频帧、标记覆盖视频帧、和覆盖标签帧。

另外的实施例包括在序列的所述帧中跟踪所标识的对象，并且基于跟踪来修改标记覆盖视频帧。

另外的实施例包括接收要跟踪的对象的用户标识，并且其中，跟踪所标识的对象包括跟踪由用户标识的对象。

在另外的实施例中，标识对象包括使用面部识别来标识已知的人。

在另外的实施例中，生成标记覆盖帧包括确定标识的对象的位置，将标记与标识的对象相关联，以及基于标识的对象的位置来确定标记的位置。

在另外的实施例中，确定标记的位置包括向所标识的对象的位置添加偏移。

在另外的实施例中，标记覆盖视频帧包括辅助图片，辅助图片包括标记的表示。

另外的实施例包括生成描述标记的信息消息，并且其中，编码包括在经编码的视频序列中编码信息消息。

一些实施例涉及一种装置，包括：视频对象标识模块，用于标识视频帧的序列中的对象；标记器，用于生成标记覆盖视频帧和覆盖标签帧，标记覆盖视频帧在与所标识的对象的位置相关的位置中具有标记的可见表示，并且覆盖标签帧指示与标记覆盖帧的标记相对应的像素位置；视频编码器，用于在经编码的视频序列中编码视频帧、标记覆盖视频帧、和覆盖标签帧。

在另外的实施例中，对象标识模块在序列的所有帧中跟踪标识的对象，并且其中，标记器基于跟踪来修改标记覆盖视频帧。

另外的实施例包括用户界面，用于接收要跟踪的对象的用户标识，并且其中，对象标识模块通过跟踪由用户标识的对象来跟踪所标识的对象。

一些实施例涉及一种方法，包括：将接收到的经编码的视频序列解码为主要图片和辅助图片，辅助图片包括标记覆盖帧和覆盖标签帧，覆盖标签帧分别与标记覆盖帧相关联并且具有与相关联的标记覆盖帧的标记相对应的值；向观看者呈现关于标记覆盖视频帧和覆盖标签帧的信息；接收来自观看者的对标记的选择；根据与所选择的标记相对应的覆盖标签帧值来标识标记覆盖帧的区域；将主要图片与包括标记覆盖帧的所标识的区域的辅助图片合成，以产生具有所选择的标记的合成视频；以及向显示器发送合成视频。

在另外的实施例中，呈现信息包括呈现标记和来自覆盖标签帧的标记标签。

另外的实施例包括解码描述辅助图片的信息消息，并且向观看者呈现信息消息以供在选择标记时使用。

在另外的实施例中，信息消息具有覆盖标签帧的名称和描述。

另外的实施例包括：接收对要包括在合成视频中的第二标记的选择；标识与选择的第二标记相对应的标记覆盖帧的区域，其中，合成包括将主要图片与包括对应于第二标记的标记覆盖帧的所标识的区域的辅助图片合成。

另外的实施例包括在视频显示器上呈现合成视频和所选择的标记。

一些实施例涉及一种回放系统，包括：视频解码器，被耦合到视频存储网络，用于接收经编码的视频序列，并且将接收到的经编码的视频序列解码为主要图片和辅助图片，辅助图片包括标记覆盖帧和覆盖标签帧，覆盖标签帧分别与标记覆盖帧相关联并且具有与相关联的标记覆盖帧的标记相对应的值；覆盖选择器接口，用于向观看者呈现关于标记覆盖视频帧和覆盖标签帧的信息，并且接收来自观看者的对标记的选择；根据与所选择的标记相对应的覆盖标签帧值来标识标记覆盖帧的区域；将主要图片与包括标记覆盖帧的标识的区域的辅助图片合成，以产生具有所选择的标记的合成视频；并且向显示器发送合成视频。

在另外的实施例中，覆盖选择器接口呈现标记和来自覆盖标签帧的标记标签。

在另外的实施例中，视频解码器还解码描述辅助图片的、具有覆盖标签帧的名称和描述的信息消息，并且其中，覆盖选择器接口向观看者呈现信息消息以供在选择标记时使用。

一些实施例涉及一种计算机可读介质，其上存储有指令，用于执行上述实施例的任一个或多个操作。

一些实施例涉及一种设备，包括用于执行上述实施例的任一个或多个操作的装置。

Claims

1.一种用于准备视频内容的方法，包括：

标识视频帧的序列中的第一对象和第二对象；

生成标记覆盖视频帧的序列，所述标记覆盖视频帧的序列(i)在与所标识的第一对象的位置相关的位置中具有第一标记的可见表示并且(ii)在与所标识的第二对象的位置相关的位置中具有第二标记的可见表示，其中所述标记覆盖视频帧的序列中的多个标记覆盖视频帧中的每一者包括所述第一标记、所述第二标记、以及所述第一标记和所述第二标记之间的间隔；

在所述视频帧的序列中跟踪所标识的第一对象和所标识的第二对象；

基于所述跟踪来修改与所述标记覆盖视频帧的序列中的一个或多个标记覆盖视频帧相关联的偏移；

基于所述第一标记和所述第二标记之间的所述间隔的大小的变化来修改一个或多个标记覆盖视频帧的大小，而不修改所述第一标记或所述第二标记中至少一者的大小；

生成覆盖标签帧的序列，以指示与所述标记覆盖视频帧的序列中的标记相对应的像素位置；以及

将所述视频帧的序列、所述标记覆盖视频帧的序列、和所述覆盖标签帧的序列编码在经编码的视频序列中。

2.根据权利要求1所述的方法，还包括接收要跟踪的对象的用户标识，并且其中，跟踪所标识的对象包括跟踪由用户标识的对象。

3.根据权利要求1所述的方法，其中，标识对象包括使用面部识别来标识已知的人。

4.根据权利要求1所述的方法，其中，生成所述标记覆盖视频帧的序列包括：

确定所标识的第一对象和第二对象的位置；

将所述第一标记与所标识的第一对象相关联并且将所述第二标记与所标识的第二对象相关联；以及

基于所标识的第一对象和第二的位置来确定所述第一标记和所述第二标记的位置。

5.根据权利要求4所述的方法，其中，确定标记的位置包括向所标识的第一对象和第二对象的位置添加所述偏移。

6.根据权利要求1所述的方法，其中，所述标记覆盖视频帧包括辅助图片，所述辅助图片包括所述第一标记和/或所述第二标记的表示。

7.根据权利要求1所述的方法，还包括生成描述所述标记的信息消息，并且其中，编码包括在所述经编码的视频序列中编码所述信息消息。

8.一种用于准备视频内容的装置，包括：

视频对象标识模块，用于标识并跟踪视频帧的序列中的第一对象和第二对象；

标记器，用于生成标记覆盖视频帧的序列，所述标记覆盖视频帧的序列(i)在与所标识的第一对象的位置相关的第一位置中具有第一标记的可见表示并且(ii)在与所标识的第二对象的位置相关的第二位置中具有第二标记的可见表示，其中所述标记器还用于生成覆盖标签帧以指示与所述标记覆盖视频帧中的所述第一标记和所述第二标记相对应的像素位置，并且所述标记器还用于基于所述第一标记和所述第二标记之间的间隔来修改一个或多个标记覆盖视频帧的大小，而不修改所述第一标记或所述第二标记中至少一者的大小；

视频编码器，用于将所述视频帧、所述标记覆盖视频帧、和所述覆盖标签帧编码在经编码的视频序列中。

9.根据权利要求8所述的装置，还包括用户界面，用于接收要跟踪的对象的用户标识，其中，所述对象标识模块通过跟踪由用户标识的对象来跟踪所标识的对象。

10.一种用于回放经编码的内容的方法，包括：

将接收到的经编码的视频序列解码为主要图片和辅助图片，所述辅助图片包括标记覆盖视频帧和覆盖标签帧，所述覆盖标签帧分别与标记覆盖视频帧相关联并且具有与相关联的标记覆盖视频帧的标记相对应的值，其中所述覆盖标签帧包括关于以下项的信息：(i)相应的标记覆盖视频帧相对于所述主要图片的帧的第一边缘的第一偏移以及(ii)所述相应的标记覆盖视频帧相对于所述主要图片的帧的第二边缘的第二偏移，其中标记覆盖视频帧的序列具有第一标签、第二标签、以及所述第一标签和所述第二标签之间的间隔的可见表示，并且其中一个或多个标记覆盖视频帧的大小基于所述第一标签和所述第二标签之间的所述间隔的变化而变化，而无需所述第一标记或所述第二标记中至少一者发生变化；

向观看者呈现关于标记覆盖视频帧和覆盖标签帧的信息；

接收来自所述观看者的对标记的选择；

根据与所选择的标记相对应的覆盖标签帧值来标识所述标记覆盖视频帧的区域；

将所述主要图片与包括所述标记覆盖视频帧的所标识的区域的辅助图片合成，以产生具有所选择的标记的合成视频；以及

向显示器发送所述合成视频。

11.根据权利要求10所述的方法，其中，呈现信息包括呈现标记和来自所述覆盖标签帧的标记标签。

12.根据权利要求10所述的方法，还包括解码描述所述辅助图片的信息消息，并且向所述观看者呈现所述信息消息以供在选择标记时使用。

13.根据权利要求12所述的方法，其中，所述信息消息具有所述覆盖标签帧的名称和描述。

14.根据权利要求10所述的方法，还包括：

接收对要包括在所述合成视频中的标记的选择；

标识与所选择的标记相对应的标记覆盖视频帧的区域，

其中，合成包括将所述主要图片与包括与所选择的标记相对应的所述标记覆盖视频帧的所标识的区域的辅助图片合成。

15.根据权利要求10所述的方法，还包括在视频显示器上呈现所述合成视频和所选择的标记。

16.一种回放系统，包括：

视频解码器，被耦合到视频存储网络，用于接收经编码的视频序列，并且将接收到的经编码的视频序列解码为主要图片和辅助图片，所述辅助图片包括标记覆盖视频帧和覆盖标签帧，所述覆盖标签帧分别与标记覆盖视频帧相关联并且具有与相关联的标记覆盖视频帧的标记相对应的值，其中多个标记覆盖视频帧具有第一标签、第二标签、以及所述第一标签和所述第二标签之间的间隔的可见表示，并且其中一个或多个标记覆盖视频帧的大小基于所述第一标签和所述第二标签之间的所述间隔的变化而变化，而无需所述第一标记或所述第二标记中至少一者发生变化；

覆盖选择器接口，用于向观看者呈现关于标记覆盖视频帧和覆盖标签帧的信息，并且接收来自所述观看者的对标记的选择；

根据与所选择的标记相对应的覆盖标签帧值来标识所述标记覆盖视频帧的区域，其中覆盖标签帧至少使用第一偏移和第二偏移来定义所述标记覆盖视频帧相对于所述主要图片的框架的位置；

将所述主要图片与包括所述标记覆盖视频帧的标识的区域的辅助图片合成，以产生具有所选择的标记的合成视频；并且

向显示器发送所述合成视频。

17.根据权利要求16所述的系统，其中，所述覆盖选择器接口呈现标记和来自所述覆盖标签帧的标记标签。

18.根据权利要求16所述的系统，其中，视频解码器还解码描述所述辅助图片的、具有所述覆盖标签帧的名称和描述的信息消息，并且其中，所述覆盖选择器接口向所述观看者呈现所述信息消息以供在选择标记时使用。

19.一种机器可读存储介质，其上存储有指令，所述指令在被执行时使得设备的一个或多个处理器执行根据权利要求1-7中任一项所述的方法。

20.一种用于准备视频内容的设备，包括用于执行根据权利要求1-7中任一项所述的方法的装置。

21.一种机器可读存储介质，其上存储有指令，所述指令在被执行时使得设备的一个或多个处理器执行根据权利要求10-15中任一项所述的方法。

22.一种用于回放经编码的内容的设备，包括用于执行根据权利要求10-15中任一项所述的方法的装置。