CN114501127A

CN114501127A - 在多画面视频中插入数字内容

Info

Publication number: CN114501127A
Application number: CN202011261202.3A
Authority: CN
Inventors: 阳杰; 张祺; 孙国胜; 张高远
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2022-05-13
Anticipated expiration: 2040-11-12
Also published as: WO2022103471A1; CN114501127B; EP4245038A1; US20230388563A1

Abstract

本公开提供了用于在多画面视频中插入数字内容的方法和装置。所述多画面视频可以包含多个画面。可以识别所述多个画面中的至少一个目标区域。可以确定所要插入的至少一项数字内容。可以通过将所述至少一项数字内容添加到所述至少一个目标区域中，来更新所述多画面视频。

Description

在多画面视频中插入数字内容

背景技术

随着数字设备、视频处理技术、网络技术等的发展，人们能够方便地在网络上观看各种类型的视频。在本文中，视频可以广泛地指能够在用户的终端设备上呈现的各种视觉内容，例如，电影、视频新闻、综艺节目、视频演讲、游戏界面、在线教育视频等等。视频提供方可以通过各种方式在网络上提供视频，例如，流媒体、视频文件等。在一些情况下，可以在视频中插入特定的数字内容，使得观看者不仅能够观看到视频，还能够观看到所插入的数字内容。

发明内容

提供本发明内容以便介绍一组概念，这组概念将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征，也不旨在用于限制所保护主题的范围。

本公开的实施例提出了用于在多画面视频中插入数字内容的方法和装置。所述多画面视频可以包含多个画面。可以识别所述多个画面中的至少一个目标区域。可以确定所要插入的至少一项数字内容。可以通过将所述至少一项数字内容添加到所述至少一个目标区域中，来更新所述多画面视频。

应当注意，以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式，并且本公开旨在包括所有这些方面和其等同变换。

附图说明

以下将结合附图描述所公开的多个方面，这些附图被提供用以说明而非限制所公开的多个方面。

图1示出了根据实施例的示例性视频服务网络架构。

图2示出了根据实施例的提供附加有数字内容的多画面视频的示例性过程。

图3示出了根据实施例的在多画面视频中插入数字内容的示例性过程。

图4示出了根据实施例的在多画面视频中插入数字内容的示例性过程。

图5示出了根据实施例的在多画面视频中插入数字内容的实例。

图6示出了根据实施例的用于在多画面视频中插入数字内容的示例性方法的流程图。

图7示出了根据实施例的用于在多画面视频中插入数字内容的示例性装置。

图8示出了根据实施例的用于在多画面视频中插入数字内容的示例性装置。

具体实施方式

现在将参考多种示例性实施方式来讨论本公开。应当理解，这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例，而并非教导对本公开的范围的任何限制。

存在一些现有的在视频中插入数字内容的方式。一种现有方式可以独立于视频帧来提供数字内容，例如，以前贴(pre-roll)、中贴(mid-roll)或后贴(post-roll)方式来播放单独的数字内容帧。另一种现有方式可以在视频帧的画面之上以悬浮式方式来提供数字内容，例如，通过使得数字内容悬浮在视频中的部分画面之上来播放数字内容。这些现有的在视频中插入数字内容的方式仅能以有限的呈现效果来随着视频一起提供数字内容。此外，这些现有方式将会不同程度地影响视频观看者的观看体验，例如，占用了额外的时间、遮挡了观看视线等。

本公开的实施例提出了在视频中插入数字内容的改进方式，特别地，提出了在多画面(multi-view)视频中有效地插入数字内容的机制。

在本文中，多画面视频可以广泛地指视频帧包括多个画面的视频，例如，包含两个或更多个画面的视频。多画面视频中的每个画面对应于一个视频流。相应地，多画面视频可以是通过对多个视频流进行合并而形成的。每个视频流可以在多画面视频中的相应画面内进行呈现，从而，多画面视频可以实现在多个画面中对多个视频流的同时呈现。

多画面视频可以包含两个画面，在这种情况下其也可以被称为双画面视频。一种示例性的双画面视频为直播流媒体(live streaming)视频。例如，一些流媒体平台所提供的流媒体视频可以包含用于呈现流媒体内容视频的流媒体画面和用于呈现主播视频的主播画面。以游戏流媒体视频为例，其可以包含用于呈现游戏视频的游戏画面以及用于呈现游戏玩家视频的游戏玩家画面。以在线教育流媒体视频为例，其可以包含用于呈现课程内容视频的课程画面以及用于呈现教师视频的教师画面。在一些情况下，双画面视频中的两个画面可能具有不同的大小，相应地，可以将占有屏幕中较大区域的画面称为主画面，而将占有屏幕中较小区域的画面称为辅画面。例如，在游戏流媒体视频中，游戏画面通常占有屏幕中较大的区域，因此可以作为主画面，而游戏玩家画面通常占有屏幕中较小的区域，因此可以作为辅画面。在一些情况下，双画面视频中的两个画面也可能具有相同或近似的大小。例如，在涉及两个辩论方的辩论视频中，可能存在与两个辩论方分别对应的两个相同大小的画面，以用于分别呈现两个辩论者的特写视频，这两个视频可以是在时间上同步的。

多画面视频可以包含三个或更多个画面。以新闻评论视频为例，假设主持人同时远程地采访两个嘉宾，则该视频可以包含与主持人、第一嘉宾和第二嘉宾分别对应的三个画面，这三个画面分别呈现主持人视频、第一嘉宾视频和第二嘉宾视频。在不同的情况下，多画面视频中包含的三个或更多个画面可以具有彼此相同或不同的大小。

应当理解，本公开实施例所涉及的多画面视频并不局限于以上的示例，而是可以涵盖在任何应用场景下的、包含任意数量画面的多画面视频。此外，本公开实施例中的多画面视频可以是直播视频或者预先录制的视频。

在本文中，数字内容可以广泛地指意图与多画面视频一起呈现的用于各种目的的内容，例如商业信息、公益公告等。数字内容的格式可以包括图像、视频、动画等。本公开的实施例并不受到数字内容的任何特定目的以及任何具体格式的限制。

在一个方面，本公开的实施例可以从多画面视频所包含的多个画面中识别将要添加数字内容的目标区域。目标区域可以是所检测到的四边形区域、在所检测到的平面区域内创建的四边形区域等。目标区域可以是参考预先指定的标记区域来确定的，或者是自动检测或创建的。

在一个方面，本公开的实施例可以通过将数字内容添加到目标区域中，来更新多画面视频，从而获得经更新的多画面视频。可以通过沉浸式、悬浮式等方式来将数字内容添加到目标区域中。在一种实现方式中，可以基于所识别的目标区域和所确定的数字内容来生成配置信息，该配置信息可以进而用于执行渲染以更新多画面视频。

在一个方面，本公开的实施例可以针对不同的观看者而选择和提供相应的数字内容。例如，可以基于特定观看者的简档来选择针对该观看者的特定数字内容。

通过本公开的实施例，数字内容可以自然流畅地融合到多画面视频内，从而避免占用额外时间、遮挡观看视线等问题，并且实现更好的观看体验。由于数字内容可以被更有效地添加到多画面视频中，因此可以吸引观看者的更多关注、实现更好的数字内容推送效果等。

应当理解，尽管以下讨论的多个部分以包含游戏画面和主播画面的游戏流媒体视频为例，但是本公开的实施例并不局限于此，而是可以类似地应用于任何其它应用场景的、包含任意数量画面的多画面视频。

图1示出了根据实施例的示例性视频服务网络架构102和104。这些架构可以向观看者提供附加有数字内容的多画面视频。

在架构102中，各种网络实体可以直接地或通过网络进行互联。视频服务平台110可以指能够在网络上向观看者提供各种视频服务的网站、服务器等。视频服务可以包括例如向观看者提供多画面视频。示例性地，视频服务平台110可以是直播流媒体平台，该直播流媒体平台可以提供多画面视频，多画面视频可以包括例如用于呈现流媒体内容视频的流媒体画面、用于呈现主播视频的主播画面、等等。例如，该直播流媒体平台可以是直播游戏流媒体网站，其可以在多画面视频的游戏画面中呈现游戏玩家正在玩的游戏视频，而在游戏玩家画面中呈现游戏玩家的同步视频。从而，该多画面视频的观看者既可以观看到关于游戏内容的视频，也可以观看到游戏玩家在玩游戏期间的视频。应当理解，视频服务平台110可以向观看者提供包括两个或更多个画面的多画面视频。仍然以直播游戏流媒体网站为例，该网站所提供的多画面视频不仅可以包括游戏画面和游戏玩家画面，还可以包括其它画面，例如，用于呈现评论员视频的评论员画面等。

视频服务平台110可以从视频源120处获得将要向观看者提供的多画面视频。视频源120可以代表能够向视频服务平台110提供多画面视频的各种网络实体。例如，视频源120可以是视频内容创作者的终端设备，其中，该视频内容创造者在创作或录制了视频之后，可以通过该终端设备产生混合了所创作的视频、创作者自身视频等的多画面视频，并且将多画面视频上传到视频服务平台110。例如，视频源120可以是视频供给平台，该视频供给平台可以通过各种方式收集或产生多画面视频，并且将这些多画面视频提供给视频服务平台110。应当理解，尽管视频源120被示为独立于视频服务平台110，但是视频源120也可以在功能上被全部或部分地包含到视频服务平台110中。例如，假设视频源120是视频内容创作者的终端设备，该创作者可以将所创作的视频、创作者视频等单独地提供给视频服务平台110而不在该终端设备上生成多画面视频，替代地，由视频服务平台110基于所接收到的创作的视频、创作者视频等来产生多画面视频。例如，视频服务平台110本身可以供给视频，即，视频服务平台还可以作为视频源以产生多画面视频。

视频服务平台110可以包括数字内容插入处理单元112，以用于实施与在多画面视频中插入数字内容相关的处理。在一种情况下，数字内容插入处理单元112可以在视频服务平台110将要提供给观看者的原始多画面视频中识别目标区域，例如，在多画面视频所包含的多个画面中识别目标区域。目标区域指示了在多画面视频中将要插入数字内容的位置。在一种情况下，数字内容插入处理单元112可以从例如数字内容提供方130处获得候选数字内容，并且从候选数字内容中确定将要插入的数字内容。数字内容提供方130可以指能够提供数字内容的各种网络实体，例如，由数字内容的创建者、拥有者、运营者等操作的终端设备、网络平台等。在一种情况下，数字内容插入处理单元112可以基于所识别的目标区域和所确定的数字内容来生成配置信息，该配置信息指示将要添加什么数字内容以及如何向目标区域中添加数字内容。应当理解，在不同的实现方式中，数字内容插入处理单元112可以支持以上描述的部分或全部功能。

由视频服务平台110所提供的视频服务可以包括基于配置信息来将数字内容添加到目标区域中以更新多画面视频，经更新的多画面视频是附加有数字内容的多画面视频。在一种情况下，视频服务平台110可以直接基于配置信息来执行平台侧渲染以更新多画面视频，并且将经更新的多画面视频提供给观看者的终端设备。在一种情况下，视频服务平台110可以将原始多画面视频和配置信息发送给观看者的终端设备并且触发基于配置信息的终端侧渲染，以便在观看者的终端设备上更新多画面视频。

假设观看者150通过终端设备140向视频服务平台110请求感兴趣的多画面视频。终端设备140可以是能够访问网络上的服务器或网站并且呈现多媒体内容的任何类型的电子计算设备，例如，智能电话、台式计算机、笔记本电脑、平板电脑、AI终端、智能电视等。终端设备140可以包括视频服务客户端/浏览器142。视频服务客户端可以与视频服务平台110一起协作以便向观看者150提供视频服务。例如，视频服务客户端可以是在终端设备140上安装的专用于与视频服务平台110交互以提供视频服务的软件或应用程序。相应地，视频服务客户端可以在逻辑上视为是视频服务平台的一部分。可选地，观看者150也可以通过终端设备140上的浏览器来获得视频服务。例如，通过该浏览器，观看者150可以访问视频服务平台110并且观看所获得的多画面视频。相应地，当通过该浏览器访问视频服务平台时，视频服务平台可以调用该浏览器所提供的功能和处理能力，以便共同向观看者提供视频服务。根据本公开的实施例，客户端/浏览器142可以支持与在多画面视频中插入数字内容相关的处理。在一种情况下，客户端/浏览器142可以从视频服务平台110处接收观看者所请求的原始多画面视频，并且从原始多画面视频中识别目标区域。在一种情况下，客户端/浏览器142可以基于由目标区域和数字内容所形成的配置信息来执行终端侧渲染，以便获得附加有数字内容的经更新的多画面视频，并且将其播放给观看者150。在一种情况下，如果视频服务平台110向终端设备140提供附加有数字内容的经更新的多画面视频，则客户端/浏览器142可以直接将该经更新的多画面视频播放给观看者150。应当理解，在不同的实现方式中，客户端/浏览器142可以支持以上描述的部分或全部功能。

在架构102下，可以以不同的实现方式来向观看者提供附加有数字内容的多画面视频。在这些实现方式中，架构102中的各个网络实体可以包括更多或更少的与在多画面视频中插入数字内容相关的功能。

在一种实现方式中，在视频服务平台110确定了观看者150所请求的原始多画面视频后，视频服务平台110可以将该原始多画面视频发送给终端设备140上的客户端/浏览器142。客户端/浏览器142可以从原始多画面视频中识别目标区域。视频服务平台110中的数字内容插入处理单元112可以确定将要插入的数字内容，并且将所确定的数字内容发送给客户端/浏览器142。客户端/浏览器142可以利用所识别的目标区域和所接收的数字内容来生成配置信息并且基于配置信息来执行终端侧渲染，以便获得附加有数字内容的经更新的多画面视频，并且将其播放给观看者150。

在一种实现方式中，在视频服务平台110确定了观看者150所请求的原始多画面视频后，数字内容插入处理单元112可以从原始多画面视频中识别目标区域。数字内容插入处理单元112还可以确定将要插入的数字内容。视频服务平台110可以将所识别的目标区域和所确定的数字内容作为配置信息而发送给终端设备140上的客户端/浏览器142。客户端/浏览器142可以基于所接收的配置信息来执行终端侧渲染，以便获得附加有数字内容的经更新的多画面视频，并且将其播放给观看者150。

在一种实现方式中，在视频服务平台110确定了观看者150所请求的原始多画面视频后，数字内容插入处理单元112可以从原始多画面视频中识别目标区域，并且确定将要插入的数字内容。视频服务平台110可以利用所识别的目标区域和所确定的数字内容来生成配置信息并且基于配置信息来执行平台侧渲染，以便获得附加有数字内容的经更新的多画面视频。视频服务平台110可以将经更新的多画面视频发送给终端设备140上的客户端/浏览器142，以便客户端/浏览器142将经更新的多画面视频播放给观看者150。

应当理解，架构102所包括的所有网络实体都是示例性的，根据实际的应用场景和需求，架构102可以包括更多或更少的网络实体，并且可以对这些网络实体进行任意方式的组合和分割。此外，尽管在架构102中仅示出了一个终端设备140，但是也可能存在不同数量的终端设备通过网络连接到视频服务平台110。此外，尽管数字内容提供方130被示为单个网络实体，但是其也可以代表能够提供数字内容的多个网络实体。

应当理解，尽管在架构102中数字内容插入处理单元112被包含在视频服务平台110内以用于实施与在多画面视频中插入数字内容相关的处理，但是数字内容插入处理单元112也可以是独立于视频服务平台110的单独网络实体。例如，如架构104所示，数字内容插入处理平台114可以实施与在多画面视频中插入数字内容相关的处理。数字内容插入处理平台114可以实现与架构102中的数字内容插入处理单元112相类似的功能，但其是独立于视频服务平台110的网络实体。在架构104中，视频服务平台110可以与数字内容插入处理平台114进行协作或者调用数字内容插入处理平台114的功能和处理能力，以便实现在多画面视频中的数字内容插入以及向观看者提供附加有数字内容的多画面视频。数字内容插入处理平台114可以经由视频服务平台110与终端设备140通信，或者直接与终端设备140通信。与以上结合数字内容插入处理单元112的讨论类似，在不同的实现方式中，数字内容插入处理平台114可以执行与在多画面视频中插入数字内容相关的更多或更少功能。例如，数字内容插入处理平台114可以针对从视频服务平台110处获得的原始多画面视频来确定所要插入的数字内容，并且将所确定的数字内容发送给视频服务平台110、或者经由视频服务平台110或直接地发送给客户端/浏览器142。例如，数字内容插入处理平台114可以针对从视频服务平台110处获得的原始多画面视频来识别目标区域并且确定所要插入的数字内容，并且将所识别的目标区域和所确定的数字内容发送给视频服务平台110、或者经由视频服务平台110或直接地发送给客户端/浏览器142。应当理解，架构104中的其它网络实体及其操作可以与架构102中的网络实体及其操作类似。此外，应当理解，在采用独立的数字内容插入处理平台114的情况下，数字内容插入处理平台114也可以直接从视频源120处获得原始视频，并且执行与在多画面视频中插入数字内容相关的上述处理，以便产生经更新的多画面视频。

图2示出了根据实施例的提供附加有数字内容的多画面视频的示例性过程200。通过过程200，可以响应于观看者对多画面视频的请求，向观看者提供附加有数字内容的多画面视频。

在210处，可以从例如视频服务平台的用户处接收多画面视频请求。以直播游戏流媒体网站为例，用户可能希望观看某个玩家对特定游戏的直播，因此该用户可以向直播游戏流媒体平台请求对应的游戏流媒体视频。该用户也作为该游戏流媒体视频的观看者。

在220处，可以识别所请求的多画面视频中的一个或多个目标区域。例如，可以识别该多画面视频所包含的多个画面中的目标区域。以游戏流媒体视频为例，可以识别该游戏流媒体视频所包含的游戏画面和主播画面中的目标区域。在一种实现方式中，目标区域具有特定的时间跨度，例如，目标区域出现在多个连续的帧内。因此，在220处所确定的目标区域可以指在多画面视频中的一组帧内的目标区域。即，对于在一组特定的帧内所识别的某个目标区域，可以在播放该组帧期间在该目标区域中添加并呈现数字内容。

目标区域可以是多画面视频中适合添加数字内容的各种区域。在一种实现方式中，在220处对目标区域的识别可以包括在多画面视频中检测已有的四边形区域，以作为目标区域。多画面视频可能包括一些具有明确边界的四边形区域，例如广告牌、画框、屏幕等，这些四边形区域可以作为用于呈现数字内容的目标区域。在一种实现方式中，在220处对目标区域的识别可以包括在多画面视频中检测平面区域，并且在所检测到的平面区域中创建四边形区域，以作为目标区域。平面区域可以广泛地指例如画面中的空白区域、稳定区域等。空白区域可以指不包含对象或仅包含不显著的对象的区域，例如，空白背景等，而稳定区域可以指其中的对象不产生明显相对运动的区域，例如，足球场中没有出现足球运动员而仅呈现草地的部分场地区域、体育馆的看台区域等。可以根据预定的标准来在平面区域中创建作为目标区域的四边形区域，例如，可以在平面区域中创建尽可能大的四边形区域以作为目标区域、可以在平面区域中创建具有预定大小的四边形区域以作为目标区域、等等。此外，所创建的四边形区域可以具有与平面区域相同或类似的倾斜度、视角等。应当理解，尽管以上部分及本公开的其它部分提及了目标区域的形状是四边形的，但是目标区域也可以具有任何其它适合呈现对应数字内容的形状，例如，圆形、三角形、其它预定形状等。此外，可选地，当在220处识别出多个目标区域时，可以根据预定的标准来对这些目标区域进行排序，例如，基于面积、位置、倾斜度等进行排序。然后，可以自动地或人为地从这些目标区域中选择后续将要实际使用的目标区域。

在一些实现方式中，可以实施特别针对多画面视频的目标区域识别策略。例如，可以在至少考虑观看者对多画面视频中的不同画面的关注度的情况下，对从多画面视频中的不同画面内识别的目标区域设置不同的权重，并且从加权的目标区域中选择后续将要实际使用的目标区域。以包括主画面和辅画面的双画面视频为例，由于主画面占有屏幕中较大的区域，而辅画面占有屏幕中较小的区域，因此，在主画面内识别的目标区域通常具有比在辅画面内识别的目标区域更大的面积。然而，考虑到观看者可能对辅画面给予与主画面相当的关注度，因此，在辅画面内的较小目标区域中提供数字内容同样是重要的和有意义的。基于上述原因，在识别目标区域期间，当对在主画面和辅画面内识别的目标区域进行排序时，可以对在主画面内识别的目标区域和在辅画面内识别的目标区域分别设置各自的预定权重，以便更均衡地考虑在不同画面内识别的目标区域的重要性。由此，即便仅在辅画面内识别出较小的目标区域，该目标区域也仍然有机会被选择作为后续将要实际使用的目标区域之一。此外，在一些实现方式中，可以对在辅画面内识别的不同目标区域设置不同的权重。假设在辅画面中呈现主播的视频，则在主播身上识别的目标区域可以具有比在辅画面内的其它部分中识别的目标区域更高的权重，这是因为相对于辅画面内的其它部分，观看者可能对主播的图像给予更高的关注度。与以上关于包括主画面和辅画面的双画面视频的示例类似，对于包括三个或更多个具有大小差异的画面的多画面视频，可以为在不同画面内识别的目标区域分别设置各自的预定权重，以便均衡地考虑在不同画面内识别的目标区域的重要性。此外，应当理解，对于包括具有相同或近似大小的两个或更多个画面的多画面视频，也可以在至少考虑观看者对不同画面的关注度的情况下来对从不同画面内识别的目标区域设置不同的权重。以包含与记者和被采访人分别对应的、具有相同大小的两个画面的采访视频为例，由于观看者通常会对被采访人给予更多关注，因此可以为从被采访人的画面内识别的目标区域设置更高的权重。本公开的实施例并不局限于以上讨论的示例性目标区域识别策略，而是可以涵盖任何其他针对多画面视频的目标区域识别策略。

在230处，可以确定所要插入的数字内容。例如，可以从数字内容提供方所提供的候选数字内容中选择数字内容。在一种实现方式中，可以首先获得请求多画面视频的用户(如观看者)的简档(profile)，并且至少基于观看者的简档来选择数字内容。在一种实现方式中，可以针对不同的目标区域确定不同的数字内容。在一种实现方式中，可以至少基于目标区域的面积、位置、朝向等属性来选择匹配的数字内容。在一种实现方式中，数字内容提供方所提供的候选数字内容可以是基于各种标准来排序的，因此，可以至少基于候选数字内容的排序来选择数字内容。

在240处，可以通过将所确定的数字内容添加到对应的所识别的目标区域中，来更新多画面视频。在一种实现方式中，可以利用数字内容来覆盖目标区域中的原始内容，以便在目标区域中呈现数字内容。所述覆盖可以采用例如完全覆盖、半透明覆盖等各种方式，其中，完全覆盖导致在目标区域中只呈现数字内容而原始内容不可见，半透明覆盖导致在目标区域中同时呈现数字内容和原始内容，但是数字内容的显示更为清晰。在一种实现方式中，可以以沉浸式方式来将数字内容添加到目标区域中，使得数字内容在视觉上就像原本存在于多画面视频中的元素，并由此使得数字内容看起来更为自然流畅。例如，可以通过采用与目标区域中的原始内容相类似的视角、倾斜度、亮度等来呈现数字内容，以实现沉浸式的数字内容添加。在一种实现方式中，可以简单地以悬浮式方式来将数字内容添加到目标区域中，使得数字内容在视觉上呈现在目标区域之上。

在250处，可以向观看者提供经更新的多画面视频。从而，可以在观看者的终端设备上显示经更新的多画面视频。

应当理解，过程200中的所有操作及其顺序都是示例性的，取决于实际的应用场景和需求，可以对过程200中的操作进行任意的添加、删除、修改等。例如，在数字内容是独立于目标区域来确定的情况下，可以在220处的对目标区域的识别之前执行在230处的对数字内容的确定。例如，在识别出多个目标区域的情况下，可以针对每个目标区域单独地确定和添加对应的数字内容。此外，可选地，通过过程200所确定和插入的数字内容可以随着时间而变化。针对同样的多画面视频，可能在不同的时间确定不同的数字内容，从而导致在不同的时间向观看者提供附加有不同数字内容的多画面视频。例如，从数字内容提供方处获得的候选数字内容可能随着时间而更新，从而导致将在不同的时间处确定出不同的数字内容。

图3示出了根据实施例的在多画面视频中插入数字内容的示例性过程300。过程300可以被执行用于在多画面视频310中插入数字内容。过程300可以被视为是图2的过程200中的操作220、230、240等的示例性实现。

多画面视频310可以是例如观看者向视频服务平台所请求的。

在320处，可以识别所请求的多画面视频中的一个或多个目标区域。在320处的处理可以被视为是在图2中的220处的处理的示例性实现。

在一种实现方式中，在320处，可以参考预先指定的标记区域来识别目标区域。在一些情况下，多画面视频的提供方，例如，创作者、拥有者、运营者等，可能预先在多画面视频中的特定帧内指定至少一个标记区域，以作为可以用于添加数字内容的目标区域的候选。标记区域可以是视频中已有的四边形区域、在平面区域中创建的四边形区域等。以游戏流媒体视频为例，视频提供者可能在某个帧内预先指定了主播画面中的标记区域，例如，主播身上的胸牌、主播身后的相框等，视频提供者还可能在某个帧内预先指定了游戏画面中的标记区域，例如，游戏画面中出现的广告牌、屏幕、汽车车身等。在识别目标区域期间，可以在与指定了标记区域的帧相邻的多个连续帧内跟踪所指定的标记区域。可以通过任何已知的目标跟踪技术来执行对标记区域的跟踪。可以基于跟踪的结果来确定是否在所跟踪的一组帧内将标记区域确定为目标区域。例如，如果标记区域在多画面视频中的持续时间达到了预定阈值，即，存在足够的时间来在该区域中呈现数字内容，则可以将该标记区域作为目标区域。此外，跟踪的结果还可以用于在后续处理中引导将数字内容添加到在相应的一组帧内所跟踪到的目标区域。

在一种实现方式中，在320处，可以自动地检测多画面视频中的候选区域，以从候选区域中确定目标区域。以游戏流媒体视频为例，可以检测该游戏流媒体视频所包含的游戏画面和主播画面中的候选区域。候选区域可以是视频中已有的四边形区域、在平面区域中创建的四边形区域等。假设在某个帧内检测到候选区域，则可以在与该帧相邻的多个连续帧内跟踪该候选区域。跟踪的结果可以用于确定是否在所跟踪的一组帧内将该候选区域确定为目标区域，以及在后续处理中引导将数字内容添加到在相应的一组帧内所跟踪到的目标区域。

应当理解，可选地，以上基于标记区域的方式和自动检测候选区域的方式可以组合在一起，以确定可供选择的目标区域集合，并且可以基于预定的标准来从该目标区域集合中选择将要在后续处理中采用的目标区域。

在330处，可以确定所要插入的数字内容。在330处的处理可以对应于在图2中的230处的处理。

在识别出目标区域并且确定了数字内容后，过程300可以通过将所确定的数字内容添加到对应的所识别的目标区域中，来更新多画面视频。示例性地，过程300可以利用配置信息以及基于配置信息的渲染过程来获得经更新的多画面视频。

在340处，可以至少基于所识别的目标区域和所确定的数字内容来生成配置信息。该配置信息可以用于将数字内容添加到目标区域中。例如，该配置信息可以指示将要在哪个目标区域中添加数字内容以及将要添加什么数字内容。

在生成了配置信息后，可以利用配置信息来进行渲染以更新多画面视频。在一种实现方式中，过程300可以在352处执行平台侧渲染。例如，可以在视频服务平台处基于配置信息来执行平台侧渲染以获得经更新的多画面视频360。在一种实现方式中，过程300可以在354处执行终端侧渲染354。在一种情况下，如果配置信息是在视频服务平台或数字内容插入处理平台处生成的，则原始多画面视频和配置信息可以被发送给观看者的终端设备，从而触发在终端设备处基于配置信息来执行终端侧渲染，以获得经更新的多画面视频360。在一种情况下，如果目标区域是在终端设备处识别的，则终端设备可以基于所识别的目标区域和所接收的数字内容来生成配置信息，并且基于该配置信息来执行终端侧渲染，以获得经更新的多画面视频360。示例性地，可以由终端设备上的例如客户端、浏览器等来执行终端侧渲染。

在执行平台侧渲染的情况下，视频服务平台可以将所获得的经更新的多画面视频360提供给观看者的终端设备，从而，经更新的多画面视频360可以在终端设备上播放给观看者。在执行终端侧渲染的情况下，在终端设备处所获得的经更新的多画面视频360可以直接播放给观看者。

图4示出了根据实施例的在多画面视频中插入数字内容的示例性过程400。过程400可以被视为是对图3中的过程300的改进，其可以实现对不同观看者的个性化的数字内容播放。

多画面视频410可以是例如观看者向视频服务平台所请求的。

在420处，可以识别所请求的多画面视频中的一个或多个目标区域。在420处的处理可以对应于在图3中的320处的处理。

根据过程400，确定数字内容的过程可以是至少基于观看者的简档的，从而可以针对不同的观看者而选择不同的数字内容。在本文中，观看者的简档可以指关于观看者的各种信息，例如，性别、年龄、喜好、观看历史等。在430处，可以获得请求了多画面视频410的观看者的简档。可以通过各种方式来获得该观看者的简档。例如，当观看者访问视频服务平台时，观看者可能是通过特定的账号进行登录的，视频服务平台可以利用与该账号相关联的个人信息、历史使用记录等来生成该观看者的简档。在440处，可以至少基于观看者的简档来选择对应于该观看者的数字内容。例如，如果该观看者是经常观看足球比赛的年轻男性，则所选择的数字内容可以涉及适合于年轻男性的运动产品推荐，如，男款足球鞋等。由于不同的观看者具有各自的简档，从而即使对于相同的多画面视频，也可以针对不同的观看者而选择不同的数字内容，由此实现数字内容的个性化选择和播放。在430和440处的处理可以被视为是在图2中的230处的处理以及在图3中的330处的处理的一种示例性实现。

在450处，可以更新多画面视频。在450处的处理可以对应于在图2中的240处的处理或者在图3中的340、352、354处的处理。

通过过程400所获得的经更新的多画面视频460可以进而被播放给请求了多画面视频的观看者。

图5示出了根据实施例的在多画面视频中插入数字内容的实例。图5中的实例涉及在向观看者提供的游戏流媒体视频中插入数字内容。

假设图像510是原始游戏流媒体视频中的一帧图像。图像510包括游戏画面512，其当前显示了游戏玩家当前正在玩的游戏的图像。图像510还包括主播画面514，其当前显示了游戏玩家的图像。

根据本公开的实施例，可以从原始游戏流媒体视频中识别目标区域。以图像510为例，游戏画面512包含四边形区域516，其可以是例如广告牌，因此，该四边形区域516可以被识别为目标区域。主播画面514包含四边形区域518，其可以是例如游戏玩家身上的号码牌，该四边形区域518可以被识别为目标区域。此外，还可以检测到游戏画面512的右下角包含平面区域，因此，可以在该平面区域中创建四边形区域(未在图像510中示出)以作为目标区域。

在识别出多个目标区域后，可以根据本公开的实施例来确定与每个目标区域分别对应的数字内容，并且将数字内容添加到对应的目标区域中。假设图像520是将数字内容添加到图像510中的目标区域后所形成的经更新的图像。在图像520中，游戏画面512中的与四边形区域516对应的原始内容被覆盖成了数字内容526，其是关于“AABB”公司的标志，从而形成了经更新的四边形区域516。主播画面514中的与四边形区域518对应的原始内容被覆盖成了数字内容528，其是某个产品的标志，从而形成了经更新的四边形区域518。此外，在游戏画面512的右下角的平面区域中创建了四边形区域530，并且在该四边形区域530中添加了数字内容532，其是关于“XXX公园”的欢迎语。

如图所示，在图像520中，数字内容526和528是以沉浸式方式添加到目标区域中的，使得它们在视觉上就像原本存在于该图像中的元素。此外，数字内容532是以悬浮式方式添加到目标区域中的，但是由于该目标区域被创建在平面区域中，从而避免了造成对视线的遮挡。

应当理解，图5仅仅示例性地示出了对游戏流媒体视频中的一帧图像的更新过程，实际上，可以对该游戏流媒体视频中的更多帧的图像执行类似的处理。此外，图5中示出的数字内容526、528、532可以具有图像、视频、动画等各种格式。以视频格式的数字内容为例，其在不同的帧内可能呈现出不同的图像。

图6示出了根据实施例的用于在多画面视频中插入数字内容的示例性方法600的流程图。所述多画面视频可以包含多个画面。

在610处，可以识别所述多个画面中的至少一个目标区域。

在620处，可以确定所要插入的至少一项数字内容。

在630处，可以通过将所述至少一项数字内容添加到所述至少一个目标区域中，来更新所述多画面视频。

在一种实现方式中，所述更新所述多画面视频可以包括：至少基于所述至少一个目标区域和所述至少一项数字内容来生成配置信息，所述配置信息用于将所述至少一项数字内容添加到所述至少一个目标区域中；以及通过利用所述配置信息进行渲染，来更新所述多画面视频。

在一种实现方式中，方法600还可以包括：提供所述经更新的多画面视频。

在一种实现方式中，所述将所述至少一项数字内容添加到所述至少一个目标区域中可以包括：利用所述至少一项数字内容覆盖所述至少一个目标区域中的原始内容。

在一种实现方式中，所述至少一项数字内容可以是以沉浸式方式来添加到所述至少一个目标区域中的。

在一种实现方式中，所述多画面视频可以是游戏流媒体视频，所述多个画面可以包括游戏画面和主播画面。所述游戏流媒体视频可以是直播的或预先录制的。

在一种实现方式中，所述识别至少一个目标区域可以包括：获得预先指定的至少一个标记区域；在所述多画面视频中的一组帧内跟踪所述至少一个标记区域；以及在所述一组帧内将所述至少一个标记区域确定为所述至少一个目标区域。

在一种实现方式中，所述识别至少一个目标区域可以包括：检测所述多个画面中的至少一个候选区域；在所述多画面视频中的一组帧内跟踪所述至少一个候选区域；以及在所述一组帧内将所述至少一个候选区域确定为所述至少一个目标区域。

在一种实现方式中，所述至少一个目标区域可以包括以下至少之一：在所述多个画面中检测到的四边形区域；以及在所述多个画面中检测到的平面区域内所创建的四边形区域。

在一种实现方式中，所述确定至少一项数字内容可以包括：针对所述多画面视频的不同观看者，选择不同的数字内容。

在一种实现方式中，所述确定至少一项数字内容可以包括：获得所述多画面视频的观看者的简档；以及至少基于所述观看者的简档来选择对应于所述观看者的所述至少一项数字内容。

在一种实现方式中，所述数字内容可以是图像、视频和动画中至少之一。

应当理解，方法600还可以包括根据上述本公开实施例的用于在多画面视频中插入数字内容的任何步骤/过程。

图7示出了根据实施例的用于在多画面视频中插入数字内容的示例性装置700。所述多画面视频可以包含多个画面。

装置700可以包括：目标区域识别模块710，用于识别所述多个画面中的至少一个目标区域；数字内容确定模块720，用于确定所要插入的至少一项数字内容；以及视频更新模块730，用于通过将所述至少一项数字内容添加到所述至少一个目标区域中，来更新所述多画面视频。

在一种实现方式中，所述视频更新模块730可以用于：至少基于所述至少一个目标区域和所述至少一项数字内容来生成配置信息，所述配置信息用于将所述至少一项数字内容添加到所述至少一个目标区域中；以及通过利用所述配置信息进行渲染，来更新所述多画面视频。

在一种实现方式中，所述多画面视频可以是游戏流媒体视频，所述多个画面可以包括游戏画面和主播画面。

在一种实现方式中，所述目标区域识别模块可以用于：获得预先指定的至少一个标记区域；在所述多画面视频中的一组帧内跟踪所述至少一个标记区域；以及在所述一组帧内将所述至少一个标记区域确定为所述至少一个目标区域。

在一种实现方式中，所述目标区域识别模块可以用于：检测所述多个画面中的至少一个候选区域；在所述多画面视频中的一组帧内跟踪所述至少一个候选区域；以及在所述一组帧内将所述至少一个候选区域确定为所述至少一个目标区域。

在一种实现方式中，所述数字内容确定模块可以用于：针对所述多画面视频的不同观看者，选择不同的数字内容。

此外，装置700还可以包括执行根据上述本公开实施例的用于在多画面视频中插入数字内容的方法的步骤的任何其它模块。

图8示出了根据实施例的用于在多画面视频中插入数字内容的示例性装置800。所述多画面视频可以包含多个画面。

装置800可以包括：至少一个处理器810；以及存储器820，其存储计算机可执行指令。当所述计算机可执行指令被执行时，所述至少一个处理器810可以：识别所述多个画面中的至少一个目标区域；确定所要插入的至少一项数字内容；以及通过将所述至少一项数字内容添加到所述至少一个目标区域中，来更新所述多画面视频。此外，处理器810还可以执行根据上述本公开实施例的用于在多画面视频中插入数字内容的方法的任何其它步骤/过程。

本公开的实施例可以实施在非暂时性计算机可读介质中。该非暂时性计算机可读介质可以包括指令，当所述指令被执行时，使得一个或多个处理器执行根据上述本公开实施例的用于在多画面视频中插入数字内容的方法的任何操作。

应当理解，以上描述的方法中的所有操作都仅仅是示例性的，本公开并不限制于方法中的任何操作或这些操作的顺序，而是应当涵盖在相同或相似构思下的所有其它等同变换。

还应当理解，以上描述的装置中的所有模块都可以通过各种方式来实施。这些模块可以被实施为硬件、软件、或其组合。此外，这些模块中的任何模块可以在功能上被进一步划分成子模块或组合在一起。

已经结合各种装置和方法描述了处理器。这些处理器可以使用电子硬件、计算机软件或其任意组合来实施。这些处理器是实施为硬件还是软件将取决于具体的应用以及施加在系统上的总体设计约束。作为示例，本公开中给出的处理器、处理器的任意部分、或者处理器的任意组合可以实施为微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门逻辑、分立硬件电路、以及配置用于执行在本公开中描述的各种功能的其它适合的处理部件。本公开给出的处理器、处理器的任意部分、或者处理器的任意组合的功能可以实施为由微处理器、微控制器、DSP或其它适合的平台所执行的软件。

软件应当被广泛地视为表示指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、运行线程、过程、函数等。软件可以驻留在计算机可读介质中。计算机可读介质可以包括例如存储器，存储器可以例如为磁性存储设备(如，硬盘、软盘、磁条)、光盘、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器或者可移动盘。尽管在本公开给出的多个方面中将存储器示出为是与处理器分离的，但是存储器也可以位于处理器内部(如，缓存或寄存器)。

以上描述被提供用于使得本领域任何技术人员可以实施本文所描述的各个方面。这些方面的各种修改对于本领域技术人员是显而易见的，本文限定的一般性原理可以应用于其它方面。因此，权利要求并非旨在被局限于本文示出的方面。关于本领域技术人员已知或即将获知的、对本公开所描述各个方面的元素的所有结构和功能上的等同变换，都将由权利要求所覆盖。

Claims

1.一种用于在多画面视频中插入数字内容的方法，所述多画面视频包含多个画面，所述方法包括：

识别所述多个画面中的至少一个目标区域；

确定所要插入的至少一项数字内容；以及

通过将所述至少一项数字内容添加到所述至少一个目标区域中，来更新所述多画面视频。

2.如权利要求1所述的方法，其中，所述更新所述多画面视频包括：

至少基于所述至少一个目标区域和所述至少一项数字内容来生成配置信息，所述配置信息用于将所述至少一项数字内容添加到所述至少一个目标区域中；以及

通过利用所述配置信息进行渲染，来更新所述多画面视频。

3.如权利要求1所述的方法，还包括：

提供所述经更新的多画面视频。

4.如权利要求1所述的方法，其中，所述将所述至少一项数字内容添加到所述至少一个目标区域中包括：

利用所述至少一项数字内容覆盖所述至少一个目标区域中的原始内容。

5.如权利要求1所述的方法，其中，

所述至少一项数字内容是以沉浸式方式来添加到所述至少一个目标区域中的。

6.如权利要求1所述的方法，其中，

所述多画面视频是游戏流媒体视频，所述多个画面包括游戏画面和主播画面。

7.如权利要求6所述的方法，其中，

所述游戏流媒体视频是直播的或预先录制的。

8.如权利要求1所述的方法，其中，所述识别至少一个目标区域包括：

获得预先指定的至少一个标记区域；

在所述多画面视频中的一组帧内跟踪所述至少一个标记区域；以及

在所述一组帧内将所述至少一个标记区域确定为所述至少一个目标区域。

9.如权利要求1所述的方法，其中，所述识别至少一个目标区域包括：

检测所述多个画面中的至少一个候选区域；

在所述多画面视频中的一组帧内跟踪所述至少一个候选区域；以及

在所述一组帧内将所述至少一个候选区域确定为所述至少一个目标区域。

10.如权利要求1所述的方法，其中，所述至少一个目标区域包括以下至少之一：

在所述多个画面中检测到的四边形区域；以及

在所述多个画面中检测到的平面区域内所创建的四边形区域。

11.如权利要求1所述的方法，其中，所述确定至少一项数字内容包括：

针对所述多画面视频的不同观看者，选择不同的数字内容。

12.如权利要求1所述的方法，其中，所述确定至少一项数字内容包括：

获得所述多画面视频的观看者的简档；以及

至少基于所述观看者的简档来选择对应于所述观看者的所述至少一项数字内容。

13.如权利要求1所述的方法，其中，

所述数字内容是图像、视频和动画中至少之一。

14.一种用于在多画面视频中插入数字内容的装置，所述多画面视频包含多个画面，所述装置包括：

目标区域识别模块，用于识别所述多个画面中的至少一个目标区域；

数字内容确定模块，用于确定所要插入的至少一项数字内容；以及

视频更新模块，用于通过将所述至少一项数字内容添加到所述至少一个目标区域中，来更新所述多画面视频。

15.如权利要求14所述的装置，其中，所述视频更新模块用于：

通过利用所述配置信息进行渲染，来更新所述多画面视频。

16.如权利要求14所述的装置，其中，

17.如权利要求14所述的装置，其中，所述目标区域识别模块用于：

获得预先指定的至少一个标记区域；

18.如权利要求14所述的装置，其中，所述目标区域识别模块用于：

检测所述多个画面中的至少一个候选区域；

19.如权利要求14所述的装置，其中，所述数字内容确定模块用于：

针对所述多画面视频的不同观看者，选择不同的数字内容。

20.一种用于在多画面视频中插入数字内容的装置，所述多画面视频包含多个画面，所述装置包括：

至少一个处理器；以及

存储器，其存储计算机可执行指令，当所述计算机可执行指令被执行时使所述至少一个处理器：

识别所述多个画面中的至少一个目标区域，

确定所要插入的至少一项数字内容，以及