CN114501097A

CN114501097A - 在视频中插入数字内容

Info

Publication number: CN114501097A
Application number: CN202011259709.5A
Authority: CN
Inventors: 孙国胜; 张祺; 张高远; 刘伟; 阳杰; 张月娇
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2022-05-13
Also published as: WO2022103500A1

Abstract

本公开提出了用于在视频中插入数字内容的方法和装置。可以获得视频。可以从所述视频中提取至少一个目标区域。可以获得与所述视频相对应的关键词。可以至少基于所述关键词来确定至少一项数字内容。可以在所述至少一个目标区域中添加所述至少一项数字内容。

Description

在视频中插入数字内容

背景技术

随着数字设备、通信技术、视频编码技术等的发展，人们可以使用诸如智能电话、台式计算机、平板电脑等的终端设备来便捷地访问互联网上的视频。在本文中，视频可以广泛地指能够在终端设备上呈现的各种视觉内容，例如电影、视频新闻、综艺节目、视频演讲、游戏界面、在线教育视频等。人们可以通过视频服务平台流畅地在线观看视频，或者从其下载视频以便之后观看。因访问视频而产生的流量已经占据了互联网总流量中的很大比例，并且该比例还在增长。在视频中插入特定的数字内容，并使该内容随着视频的播放而被公众看见是期望的。

发明内容

提供本发明内容以便介绍一组构思，这组构思将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征，也不旨在用于限制所保护主题的范围。

本公开的实施例提出了用于在视频中插入数字内容的方法和装置。可以获得视频。可以从所述视频中提取至少一个目标区域。可以获得与所述视频相对应的关键词。可以至少基于所述关键词来确定至少一项数字内容。可以在所述至少一个目标区域中添加所述至少一项数字内容。

应当注意，以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式，并且本公开旨在包括所有这些方面和其等同变换。

附图说明

以下将结合附图描述所公开的多个方面，这些附图被提供用以说明而非限制所公开的多个方面。

图1示出了根据本公开实施例的示例性视频服务网络架构。

图2示出了根据本公开实施例的用于在视频中插入数字内容的示例性过程。

图3示出了根据本公开实施例的用于从视频中提取目标区域的示例性过程。

图4示出了根据本公开实施例的从视频中提取目标区域的示例。

图5示出了根据本公开实施例的用于获得关键词的示例性过程。

图6示出了根据本公开实施例的基于音频信息来生成关键词的示例性过程。

图7示出了根据本公开实施例的基于图像信息来生成关键词的示例性过程。

图8示出了根据本公开实施例的用于训练关键词生成模型的示例性过程。

图9示出了根据本公开实施例的在目标区域中添加数字内容的示例。

图10示出了根据本公开实施例的用于从视频中识别关键帧的示例性过程。

图11是根据本公开实施例的用于在视频中插入数字内容的示例性方法的流程图。

图12示出了根据本公开实施例的用于在视频中插入数字内容的示例性装置。

图13示出了根据本公开实施例的用于在视频中插入数字内容的示例性装置。

具体实施方式

现在将参考若干示例性实施方式来讨论本公开。应当理解，这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例，而并非教导对本公开的范围的任何限制。

存在一些现有的在视频中插入数字内容的方式。一种现有方式可以独立于视频帧来提供数字内容。例如，可以在视频播放之前、视频播放期间或者视频播放之后插入数字内容，这些方式相应地可以被称为前贴(pre-roll)方式、中贴(mid-roll)方式或后贴(post-roll)方式。另一种现有方式可以在视频帧的画面之上以悬浮式方式来提供数字内容，例如通过使得数字内容悬浮在视频中的部分画面之上来播放数字内容。这些现有的在视频中插入数字内容的方式仅能以有限的呈现效果来随着视频一起提供数字内容。此外，这些现有方式将会不同程度地影响视频观看者的观看体验，例如占用了额外时间、中断了观看进程、遮挡了观看视线等。

本公开的实施例提出了在视频中插入数字内容的改进的方法。在本文中，数字内容可以广泛地指意图与视频一起呈现的用于各种目的的内容，例如商业信息、公益公告等。数字内容的格式可以包括图片、视频、动画等。可以将数字内容自动插入到视频中的目标区域处，该目标区域可以是从视频中提取的适于添加数字内容的区域。

在一个方面，本公开的实施例提出了将在视频中检测出的、或者在视频中创建的四边形区域作为目标区域。在本文中，四边形区域可以指具有明确边界且边界为四边形的区域，例如广告牌、画框、显示屏幕等。应当理解，尽管以上部分及本公开的其他部分提及了目标区域的形状是四边形的，但是目标区域也可以具有任何其他适合呈现对应数字内容的形状，例如圆形、三角形或者其他预定形状等。下文仅以四边形为例来说明目标区域。在视频中创建的四边形区域可以位于从视频中检测出的平面区域中。在本文中，平面区域可以指不包含显著对象或者其中的对象不产生明显相对运动的平坦区域，例如墙面、地面、桌子、体育馆看台等。以这种方式，可以从视频中提取出数量不受限的目标区域用于数字内容的添加。

在另一个方面，本公开的实施例提出了在从视频中提取要插入数字内容的目标区域时，避开涉及预定内容的区域。预定内容可以是视频中的希望保留的具有特定意义的内容，其格式可以包括例如文字、图片等。以这种方式，可以使得预定内容不被所插入的数字内容覆盖或替代。

在另一个方面，本公开的实施例提出了基于多种因素来确定要插入到视频中的数字内容。可以基于视频的观看者的简档来确定数字内容。在本文中，简档可以指关于观看者的各种信息，例如性别、年龄、喜好、观看历史等。视频的发布者可能具有若干关注者，这些关注者可能是视频的潜在观看者。相应地，可以基于视频的发布者的关注者的简档来确定数字内容。这种方式可以有助于在视频中提供观看者感兴趣的数字内容。另外，可以基于视频的上下文，例如视频的音频信息、图像信息、视频类别等，来确定数字内容。这种方式可以有助于在视频中提供与视频相匹配的数字内容。此外，数字内容可以是从一组候选数字内容中检索出的。可以为视频预先指定用于检索数字内容的词语，从而可以将所检索出的数字内容控制在一组预定的数字内容内。

在另一个方面，本公开的实施例提出了在视频中的与关键场景相对应的部分中插入数字内容。在本文中，关键场景可以指观看者感兴趣的、具有较高关注度的场景。以关于足球比赛的视频为例，关键场景可以是足球运动员射门的场景。以这种方式，可以实现更高效的数字内容添加。特别地，在诸如计算资源、处理能力等条件受限的情况下，将目标区域提取操作聚焦于关键场景并在关键场景中添加数字内容可能是更加高效的。

在另一个方面，本公开的实施例提出了以实时、动态的方式确定要插入到视频中的数字内容。可以响应于接收到观看者对视频的请求而实时确定要插入到视频中的数字内容。数字内容可以是从一组候选数字内容中选择的，该组候选数字内容可以是随时间更新的。另外，候选数字内容的排序可以是随时间更新的，该排序可以影响对数字内容的选择。以这种方式，可以确保始终在视频中插入当前期望的数字内容。

图1示出了根据本公开实施例的示例性视频服务网络架构102和104。这些架构可以向观看者提供附加有数字内容的视频。

在架构102中，各种网络实体可以直接地或通过网络进行互联。视频服务平台110可以指能够在网络上向观看者提供各种视频服务的网站、服务器等。视频服务可以包括例如向观看者提供视频。

视频服务平台110可以从视频源120处获得将要向观看者提供的视频。视频源120可以代表能够向视频服务平台110提供视频的各种网络实体。例如，视频源120可以是视频内容创作者用于创作或录制视频、并将视频上传到视频服务平台110的终端设备。替代地，视频源120可以是视频供给平台，该视频供给平台可以通过各种方式收集或产生视频，并且将这些视频提供给视频服务平台110。应当理解，尽管视频源120被示为独立于视频服务平台110，但是视频源120也可以在功能上被全部或部分地包含到视频服务平台110中。例如，视频服务平台110本身可以供给视频，即，视频服务平台还可以作为视频源以产生视频。

视频服务平台110可以包括数字内容插入处理单元112，以用于实施与在视频中插入数字内容相关的处理。在一种情况下，数字内容插入处理单元112可以在视频服务平台110将要提供给观看者的视频中提取目标区域。目标区域指示了在视频中将要插入数字内容的位置。在一种情况下，数字内容插入处理单元112可以从例如数字内容提供方130处获得候选数字内容，并且从候选数字内容中确定将要插入的数字内容。数字内容提供方130可以指能够提供数字内容的各种网络实体，例如由数字内容的创建者、拥有者、运营者等操作的终端设备、网络平台等。在一种情况下，数字内容插入处理单元112可以基于所提取的目标区域和所确定的数字内容来生成配置信息，该配置信息指示将要添加什么数字内容以及如何向目标区域中添加数字内容。应当理解，在不同的实施方式中，数字内容插入处理单元112可以支持以上描述的部分或全部功能。

由视频服务平台110所提供的视频服务可以包括基于配置信息来将数字内容添加到目标区域中，以生成增强视频，其是附加有数字内容的视频。在一种情况下，视频服务平台110可以直接基于配置信息来执行平台侧渲染以生成增强视频，并且将增强视频提供给观看者的终端设备。在一种情况下，视频服务平台110可以将视频和配置信息发送给观看者的终端设备并且触发基于配置信息的终端侧渲染，以便在观看者的终端设备上生成增强视频。

假设观看者150通过终端设备140向视频服务平台110请求感兴趣的视频。终端设备140可以是能够访问网络上的服务器或网站并且呈现多媒体内容的任何类型的电子计算设备，例如智能电话、台式计算机、笔记本电脑、平板电脑、AI终端、智能电视等。终端设备140可以包括视频服务客户端/浏览器142。视频服务客户端/浏览器142可以与视频服务平台110一起协作以便向观看者150提供视频服务。例如，视频服务客户端可以是在终端设备140上安装的专用于与视频服务平台110交互以提供视频服务的软件或应用程序。相应地，视频服务客户端可以在逻辑上视为是视频服务平台的一部分。可选地，观看者150也可以通过终端设备140上的浏览器来获得视频服务。例如，通过该浏览器，观看者150可以访问视频服务平台110并且观看所获得的视频。相应地，当通过该浏览器访问视频服务平台时，视频服务平台可以调用该浏览器所提供的功能和处理能力，以便共同向观看者提供视频服务。根据本公开的实施例，视频服务客户端/浏览器142可以支持与在视频中插入数字内容相关的处理。在一种情况下，视频服务客户端/浏览器142可以从视频服务平台110处接收观看者所请求的视频，并且从视频中提取目标区域。在一种情况下，视频服务客户端/浏览器142可以基于由目标区域和数字内容所形成的配置信息来执行终端侧渲染，以便生成附加有数字内容的增强视频，并且将其播放给观看者150。在一种情况下，如果视频服务平台110向终端设备140提供附加有数字内容的增强视频，则视频服务客户端/浏览器142可以直接将该增强视频播放给观看者150。应当理解，在不同的实施方式中，客户端/浏览器142可以支持以上描述的部分或全部功能。

在架构102下，可以以不同的实施方式来向观看者提供附加有数字内容的视频。在这些实施方式中，架构102中的各个网络实体可以包括更多或更少的与在视频中插入数字内容相关的功能。

在一种实施方式中，在视频服务平台110确定了观看者150所请求的视频后，视频服务平台110可以将该视频发送给终端设备140上的视频服务客户端/浏览器142。视频服务客户端/浏览器142可以从视频中提取目标区域。视频服务平台110中的数字内容插入处理单元112可以确定将要插入的数字内容，并且将所确定的数字内容发送给视频服务客户端/浏览器142。视频服务客户端/浏览器142可以利用所提取的目标区域和所接收的数字内容来生成配置信息并且基于配置信息来执行终端侧渲染，以便生成附加有数字内容的增强视频，并且将其播放给观看者150。

在另一种实施方式中，在视频服务平台110确定了观看者150所请求的视频后，数字内容插入处理单元112可以从视频中提取目标区域。数字内容插入处理单元112还可以确定将要插入的数字内容。视频服务平台110可以将所提取的目标区域和所确定的数字内容作为配置信息而发送给终端设备140上的视频服务客户端/浏览器142。视频服务客户端/浏览器142可以基于所接收的配置信息来执行终端侧渲染，以便生成附加有数字内容的增强视频，并且将其播放给观看者150。

在另一种实施方式中，在视频服务平台110确定了观看者150所请求的视频后，数字内容插入处理单元112可以从视频中提取目标区域，并且确定将要插入的数字内容。视频服务平台110可以利用所提取的目标区域和所确定的数字内容来生成配置信息并且基于配置信息来执行平台侧渲染，以便生成附加有数字内容的增强视频。视频服务平台110可以将增强视频发送给终端设备140上的视频服务客户端/浏览器142，以便视频服务客户端/浏览器142将增强视频播放给观看者150。

应当理解，架构102所包括的所有网络实体都是示例性的，根据实际的应用场景和需求，架构102可以包括更多或更少的网络实体，并且可以对这些网络实体进行任意方式的组合和分割。此外，尽管在架构102中仅示出了一个终端设备140，但是也可能存在不同数量的终端设备通过网络连接到视频服务平台110。此外，尽管数字内容提供方130被示为单个网络实体，但是其也可以代表能够提供数字内容的多个网络实体。

应当理解，尽管在架构102中数字内容插入处理单元112被包含在视频服务平台110内以用于实施与在视频中插入数字内容相关的处理，但是数字内容插入处理单元112也可以是独立于视频服务平台110的单独网络实体。例如，如架构104所示，数字内容插入处理平台114可以实施与在视频中插入数字内容相关的处理。数字内容插入处理平台114可以实现与架构102中的数字内容插入处理单元112相类似的功能，但其是独立于视频服务平台110的网络实体。在架构104中，视频服务平台110可以与数字内容插入处理平台114进行协作或者调用数字内容插入处理平台114的功能和处理能力，以便实现在视频中的数字内容插入以及向观看者提供附加有数字内容的视频。数字内容插入处理平台114可以经由视频服务平台110与终端设备140通信，或者直接与终端设备140通信。与以上结合数字内容插入处理单元112的讨论类似，在不同的实施方式中，数字内容插入处理平台114可以执行与在视频中插入数字内容相关的更多或更少功能。例如，数字内容插入处理平台114可以针对从视频服务平台110处获得的视频来确定所要插入的数字内容，并且将所确定的数字内容发送给视频服务平台110、或者经由视频服务平台110或直接地发送给视频服务客户端/浏览器142。例如，数字内容插入处理平台114可以针对从视频服务平台110处获得的视频来提取目标区域并且确定所要插入的数字内容，并且将所提取的目标区域和所确定的数字内容发送给视频服务平台110、或者经由视频服务平台110或直接地发送给视频服务客户端/浏览器142。应当理解，架构104中的其他网络实体及其操作可以与架构102中的网络实体及其操作类似。此外，应当理解，在采用独立的数字内容插入处理平台114的情况下，数字内容插入处理平台114也可以直接从视频源120处获得视频，并且执行与在视频中插入数字内容相关的上述处理，以便产生增强视频。

图2示出了根据本公开实施例的用于在视频中插入数字内容的示例性过程200。通过过程200，可以响应于接收到观看者对视频202的请求，向观看者提供附加有数字内容的增强视频220。

首先，可以获得视频202。视频202可以包括例如预先录制的视频、直播视频等。预先录制的视频可以先期从视频源处获得，并在接收到观看者对该视频的请求时调用该视频。直播视频可以是响应于接收到观看者对该视频的请求时，实时地从视频源处获得的。

在204处，可以对视频202执行目标区域提取操作，以从视频202中提取适于添加数字内容的至少一个目标区域206。例如，可以通过目标区域提取操作来获取目标区域在至少一个视频帧中的位置信息，例如三维坐标信息。优选地，在执行目标区域提取操作时，可以执行摄像机跟踪(camera tracking)操作以获得与视频202的各个视频帧相对应的摄像机姿态208。在本文中，摄像机姿态可以指与拍摄视频的摄像机有关的各种参数，包括摄像机的位置、角度等。摄像机姿态208可以是针对目标区域206而获得的。摄像机姿态208可以作为配置信息的一部分来辅助向目标区域中添加数字内容。后面将结合图3来说明目标区域提取的示例性过程。

在210处，可以对视频202执行数字内容确定操作，以确定要插入到视频202中的至少一项数字内容216。可以在212处获得与视频202相对应的关键词，并基于关键词来从一组候选数字内容214中选择数字内容216。在本文中，关键词可以指适合于检索数字内容的词语，其可以包括例如产品类别、产品名称、品牌等。在一种实施方式中，一组候选数字内容214中的每项候选数字内容可以具有相关联的标注，该标注可以指示例如该候选数字内容所包含的对象的类别、名称、品牌等。在执行数字内容确定操作时，可以从一组候选数字内容214中选择其标注与视频202的关键词相匹配的候选数字内容作为数字内容216。应当理解，视频的关键词仅是在确定要插入到该视频中的数字内容时所考虑的多种因素之一。根据实际应用需求，还可以基于其他因素来确定数字内容。例如，候选数字内容可以具有诸如分辨率等的相关联的参数。在确定数字内容时，可以从候选数字内容中选择其参数与视频中的待插入区域的参数相匹配的数字内容。后面将结合图5来说明关键词获得的示例性过程。

在218处，可以基于目标区域206、摄像机姿态208和数字内容216执行渲染，以生成附加有数字内容216的增强视频220。可以在目标区域206中添加数字内容216。目标区域206在各个视频帧中的形状和位置可能是变化的。获知目标区域206在各个视频帧中的三维坐标信息可以有助于确定目标区域206在各个视频帧中的形状和位置。可以利用摄像机姿态208计算出目标区域206在各个视频帧中的三维坐标信息，例如通过对目标区域206在特定视频帧中的三维坐标信息和摄像机姿态208执行相乘运算。优选地，在渲染时，可以对数字内容216的格式进行变换，以使数字内容216在视频中的呈现更加自然。例如，可以对数字内容216在各个视频帧中的形状和位置进行变换，以使其与目标区域206在相应视频帧中的形状和位置相匹配。在一种实施方式中，可以利用摄像机姿态208，例如通过对数字内容216的坐标信息和摄像机姿态208执行相乘运算，来将数字内容216在各个视频帧中的形状和位置变换成在相应视频帧中与目标区域206相匹配的形状和位置。另外，可以通过例如颜色直方图、泊松融合(Poisson Blending)等技术对数字内容216的颜色、亮度等进行变换，以使其能够自然地融入视频202中而不显突兀。

应当理解，图2中的过程200仅仅是用于在视频中插入数字内容的过程的示例。根据实际应用需求，用于在视频中插入数字内容的过程可以包括任意其他步骤，并且可以包括更多或更少的步骤。例如，在识别出多个目标区域的情况下，可以针对每个目标区域单独地确定和添加对应的数字内容。此外，过程200中的步骤的具体顺序或层级仅是示例性的，可以按照与所描述顺序不同的顺序来执行用于在视频中插入数字内容的过程。

应当理解，尽管前述讨论和以下讨论可能涉及在预先录制的视频中插入数字内容的示例，但本公开的实施例并不局限于此，而是可以以类似的方式在例如直播视频等的其他类型的视频中插入数字内容。此外，尽管前述讨论和以下讨论可能涉及在视频中插入图片的示例，但本公开的实施例并不局限于此，而是可以以类似的方式在视频中插入例如视频、动画等的其他格式的数字内容。

图3示出了根据本公开实施例的用于从视频中提取目标区域的示例性过程300。过程300可以对应于图2中的步骤204。通过过程300，可以从视频302中提取适于添加数字内容的至少一个目标区域334，并获得与视频302的各个视频帧相对应的摄像机姿态338。视频302、目标区域334和摄像机姿态338可以分别对应于图2中的视频202、目标区域206和摄像机姿态208。可以通过在视频302中检测四边形区域来提取目标区域334。替代地或另外地，可以通过在视频302中检测平面区域，并且在所检测到的平面区域中创建四边形区域来提取目标区域334。

在304处，可以从视频302中检测出一组初步四边形区域306。例如，可以对视频302的各个视频帧执行四边形检测操作，以识别出其边界为四边形的区域，例如广告牌、画框、显示屏幕等。考虑到视角变换，所检测出的四边形区域可以有各种形状，例如矩形、梯形、平行四边形等。

在308处，可以基于预定因素对该组初步四边形区域306进行评估，并基于相应的准则从该组初步四边形区域306中筛选出符合要求的区域，以获得一组四边形区域310。在一个实施例中，可以确定该组初步四边形区域306中的每个区域的面积，并筛选出面积高于预定的面积阈值的区域。在另一个实施例中，可以确定该组初步四边形区域306中的每个区域在视频302中的持续时间，并筛选出持续时间高于预定的持续时间阈值的区域。应当理解，上述用于评估和筛选四边形区域的因素仅是示例性的，还可以基于其他因素来评估和筛选四边形区域，例如倾斜度、位置等。替代地，可以基于一种或多种因素，对该组初步四边形区域306进行综合评分，并筛选出分数在预定值以上的区域。

在312处，可以从视频312中检测出一组初步平面区域314。例如，可以对视频302的各个视频帧执行平面检测操作，以识别出不包含显著对象或者其中的对象不产生明显相对运动的平坦区域，包括例如墙面、地面、桌子、体育馆看台等。通过平面区域检测操作，可以获得平面区域的初始平面方程，其可以包括例如与该平面区域相对应的法向量。

在316处，可以基于预定因素对该组初步平面区域316进行评估，并基于相应的准则从该组初步平面区域314中筛选出符合要求的区域，以获得一组平面区域318。在一个实施例中，可以确定该组初步平面区域316中的每个区域的面积，并筛选出面积高于预定的面积阈值的区域。在另一个实施例中，可以确定该组初步平面区域316中的每个区域在视频302中的持续时间，并筛选出持续时间高于预定的持续时间阈值的区域。应当理解，上述用于评估和筛选平面区域的因素仅是示例性的，还可以基于其他因素来评估和筛选平面区域，例如倾斜度、位置等。另外，可以基于一种或多种因素，对该组初步平面区域316进行综合评分，并筛选出分数在预定值以上的区域。此外，在执行平面区域检测操作时，在检测出平面区域的同时还可以获得与该平面区域相对应的法向量。如果所检测出的两个平面区域的法向量之间的夹角较小，则可能其中一个平面区域是被误检的。在这种情况下，可以保留面积较大的平面区域而滤除较小的平面区域。

在320处，可以对视频302执行摄像机跟踪操作，以获得初步摄像机姿态322。例如，可以在视频302的各个视频帧的整个画面中选取预定数量的特征点，并基于这些特征点来执行摄像机跟踪操作，从而计算出初步摄像机姿态322。可以通过诸如运动结构恢复(Structure From Motion，SFM)、同步定位与地图构建(Simultaneous Localization AndMapping，SLAM)等的三维重建技术来执行摄像机跟踪操作。

在324处，可以利用初步摄像机姿态322来对一组平面区域318进行优化，以获得一组经优化的平面区域326。例如，可以基于初步摄像机姿态322和平面区域的初始平面方程来计算出该平面区域的经优化的平面方程。

在328处，可以在一组经优化的平面区域324中创建一组四边形区域330。在一种实施方式中，可以利用初步摄像机姿态320，在平面区域中创建出符合于当前投影形变的四边形区域。优选地，一个四边形区域仅在一个平面区域中创建，而不是跨多个平面区域创建。可以利用例如不同颜色等不同方式来标记不同的平面区域，并在具有例如相同颜色的区域中创建四边形区域。

在332处，可以从在视频302中检测出的一组四边形区域310和在视频302中创建的一组四边形区域330中选择出用于添加数字内容的一组目标区域334。在一种实施方式中，可以基于一种或多种因素，例如面积、持续时间、倾斜度、位置等，对一组四边形区域310和一组四边形区域330的集合进行综合评分，按照分数对这些四边形区域进行排序，并从中选择出预定数量的排名靠前的四边形区域作为目标区域。

在选择出一组目标区域334后，在336处，可以基于该组目标区域334来执行摄像机跟踪操作，以获得摄像机姿态338。对比于320处的摄像机跟踪操作，336处的摄像机跟踪操作可以关注于该组目标区域334，从而使得针对该组目标区域334的摄像机姿态的计算更加准确。例如，可以在该组目标区域334中选取更多的特征点用于摄像机姿态的计算。

应当理解，上文结合图3描述的用于提取目标区域的过程仅是示例性的。根据实际应用需求，用于提取目标区域的过程可以包括任意其他步骤，并且可以包括更多或更少的步骤。例如，尽管在以上描述中涉及从一组四边形区域310和一组四边形区域330中进行选择的操作，但是在一些实施例中，可以不执行该选择操作，而是将一组四边形区域310和一组四边形区域330直接作为用于插入数字内容的目标区域。

优选地，根据本公开的实施例，在从视频中提取要插入数字内容的目标区域时，可以避开涉及预定内容的区域，使得该预定内容不会被数字内容覆盖或替代。预定内容可以是视频中的希望保留的具有特定意义的文字、图片等。可以针对特定视频预先指定一项或多项预定内容。预定文字可以包括例如特定实体的名称、特定实体的广告语等。预定图片可以包括例如与特定实体相关联的图片、先前插入的数字内容等。与特定实体相关联的图片可以包括例如视频创建者或所有者的图标、含有特定产品的图片等。可以从视频中识别包含预定内容或者包含与预定内容相匹配的图片的保留区域，并且在保留区域外部提取目标区域。

在预定内容是文字的情况下，可以从视频中识别包含该预定文字的保留区域。替代地或另外地，可以从视频中识别包含与该预定文字相匹配的图片的保留区域。例如，可以通过经训练的深度学习模型来从视频中识别包含与该预定文字相匹配的图片的保留区域。以预定文字是体育赛事中的“记分牌”为例，可以先利用含有表示记分牌的图片的训练数据来训练一深度学习模型，使其能够识别出表示记分牌的图片。然后，可以通过经训练的深度学习模型来从视频的各帧图像中识别包含表示记分牌的图片的区域。

在预定内容是图片的情况下，可以从视频中识别包含该预定图片的保留区域。以预定图片是视频创建者的图标为例，可以从视频的各帧图像中识别包含该图标的区域。

在从视频中识别出包含预定内容或者包含与预定内容相匹配的图片的保留区域之后，可以对该保留区域执行诸如标记、锁定等的操作，使得在进行目标区域提取操作时，例如通过图3中的过程300来执行目标区域提取操作时，该保留区域不被提取用作目标区域。

根据本公开的实施例，对保留区域的识别可以是以实时、动态的方式执行的。例如，在不同时间，预定内容可能会发生变化。相应地，在过去被识别为保留区域的区域可能在稍后的时间不是保留区域了。因此，可以在提取目标区域时可以不再避开该区域。

假设图像400是由视频创作公司“X&X”创作的视频中的一帧图像，其显示了包括画、落地灯、沙发等的客厅的画面。图像400还包括视频创作公司“X&X”的图标402。图标402可以被预先指定为希望保留的预定内容。

可以通过例如图3的过程300来从图像400中提取目标区域。例如，可以从图像400中检测出以下四边形区域：画框404、灯罩406以及两个沙发支脚408和410。可以基于各种因素对所检测出的四边形区域进行评估并筛选出符合要求的区域。以基于面积来执行评估和筛选操作为例，由于灯罩406以及沙发支脚408和410的面积过小不适合用来插入数字内容，而画框404的面积够大，因此可以滤除灯罩406以及沙发支脚408和410而仅保留画框404作为目标区域。在图像450中，以网格线示出了目标区域。

另外，可以从图像400中检测出以下平面区域：墙面412和地面414。可以基于各种因素对所检测出的平面区域进行评估并筛选出符合要求的区域。以基于面积来执行评估和筛选操作为例，由于墙面412的面积过小不适合在其中创建四边形区域，而地面414的面积足够大，因此可以滤除墙面412而仅保留地面414作为用于创建目标区域的平面区域。

在地面414中创建目标区域时，可以先从地面414中识别包含预定内容或者包含与所述预定内容相匹配的图片的保留区域。例如，可以从地面414中识别出包含图标402的区域。然后，在所识别的保留区域外部创建四边形区域。图像450示出了所创建的示例性四边形区域416。

图5示出了根据本公开实施例的用于获得关键词的示例性过程500。过程500可以对应于图2中的步骤212。通过过程500，可以获得与视频502相对应的关键词集合538。视频502可以对应于图2中的视频202。可以利用关键词集合538从一组候选数字内容中检索出要插入到视频502中的数字内容。

在一种实施方式中，可以获得为视频502预先指定的用于检索数字内容的至少一个关键词504。以这种方式，可以将所检索出的数字内容控制在一组预定的数字内容内。例如，预先指定的关键词504可以是“饮料”。在这种情况下，可以检索出与“饮料”相匹配的数字内容以插入到视频502中。

在另一种实施方式中，可以通过对视频502执行场景理解过程来生成与视频502相对应的关键词。场景理解过程可以针对视频502的上下文，例如音频信息、图像信息等，来执行。

在一个实施例中，可以获取视频502的音频信息506，并通过关键词生成单元508来生成至少一个关键词510。音频信息506可以包括例如视频502的一些或全部片段的语音。这种方式可以有助于在视频502中提供与其音频信息相匹配的数字内容。优选地，可以针对待添加数字内容的目标区域来提取音频信息506。可以从视频502中的与目标区域相对应的部分中提取音频信息506。例如，在视频502是预先录制的视频的情况下，可以捕获从目标区域的第一帧之前的若干秒到该第一帧之后的若干秒之间的一段语音；而在视频502是直播视频的情况下，则可以捕获从目标区域的第一帧之前的若干秒到该第一帧之间的一段语音。由于音频信息是针对待添加数字内容的目标区域来提取的，并且该音频信息将进一步用于确定数字内容，因此可以有助于确定出与目标区域相匹配的数字内容。后面将结合图6来说明基于音频信息来生成关键词的示例性过程。

在另一个实施例中，可以获取视频502的图像信息512，并通过关键词生成单元514来生成至少一个关键词516。图像信息512可以包括例如视频502的一些或全部片段的图像。这种方式可以有助于在视频502中提供与其图像信息相匹配的数字内容。优选地，可以针对待添加数字内容的目标区域来提取图像信息512。可以从视频502中的与目标区域相对应的部分中提取图像信息512。例如，可以提取与目标区域的第一帧相对应的图像中围绕该目标区域的部分作为图像信息512。由于图像信息是针对待添加数字内容的目标区域来提取的，并且该图像信息将进一步用于确定数字内容，因此可以有助于确定出与目标区域相匹配的数字内容。后面将结合图7来说明基于图像信息来生成关键词的示例性过程。

在另一种实施方式中，可以基于视频502的其他上下文，例如视频类别518，来生成关键词。在获得视频以进行数字内容插入操作时，可以同时获得该视频的视频类别。一些视频类别可能不适合用于检索数字内容。根据本公开的实施例，可以由转换单元520，通过预定映射配置将视频类别518转换成适于检索数字内容的至少一个关键词522。以视频类别“科技”为例，可以通过预定映射配置将该视频类别转换成例如“通信设备”、“手机”、“耳机”等。这种方式可以有助于在视频502中提供与其视频类别相匹配的数字内容。一些视频可能具有一个以上的视频类别。例如，视频可以是关于新闻播报的视频。在这种情况下，可能在不同的时段内播报不同的新闻，例如体育赛事、科技产品发布等。相应地，视频可能具有针对不同时段的不同视频类别。优选地，可以获得与待添加数字内容的目标区域相对应的视频类别。例如，可以获得与目标区域相对应的时段处的视频类别。由于视频类别是针对待添加数字内容的目标区域来获得的，并且该视频类别将进一步用于确定数字内容，因此可以有助于确定出与目标区域相匹配的数字内容。

在另一种实施方式中，可以基于视频502的观看者的观看者简档524来生成至少一个关键词528。例如，可以通过经训练的关键词生成模型526来生成关键词528。此外，视频502的发布者可能具有若干关注者，这些关注者可能是视频的潜在观看者。相应地，可以基于视频502的发布者的关注者的关注者简档530来生成至少一个关键词534。例如，可以通过经训练的关键词生词模型532来生成关键词534。这种方式可以有助于在视频中提供观看者感兴趣的数字内容。关键词生词模型526和关键词生成模型532可以是具有相同结构和参数的深度学习模型。后面将结合图8来说明训练关键词生成模型的示例性过程。

在通过上述实施方式获得了关键词，例如关键词504、510、516、522、528、534，之后，在536处，可以将这些关键词组合成用于检索数字内容的关键词集合538。关键词集合538可以包括一个或多个关键词。

在对关键词504、510、516、522、528、534进行组合时，可以为各个关键词设置相同的权重，从而不同关键词在执行数字内容检索时同等程度地影响检索结果。替代地，可以为各个关键词设置不同的权重，从而不同关键词在执行数字内容检索时不同程度地影响检索结果。例如，与其他关键词相比，基于视频类别生成的关键词522可以具有较小的权重，从而在进行数字内容检索时，其产生的影响较小。另外，在获得了关键词504、510、516、522、528、534之后，还可以进一步确定各个关键词是与产品类别、产品名称还是品牌有关的。与产品名称有关的关键词可以具有比与产品类别有关的关键词更大的权重，从而在检索数字内容时可以优先考虑与该产品名称相匹配的数字内容。类似地，与品牌有关的关键词可以具有比与产品类别或产品名称有关的关键词更大的权重，从而在检索数字内容时可以优先考虑与该品牌相匹配的数字内容。

应当理解，上述用于获得关键词的各种实施方式仅是示例性的。还可以通过其他方式来获得关键词。另外，上述实施方式并非都是必须的。根据实际应用需求，可以仅采用上述实施方式中的部分实施方式来获得关键词。例如，在获得了预先指定的关键词的情况下，可以直接将该预先指定的关键词作为关键词集合来执行数字内容检索操作，而不考虑其他因素。

图6示出了根据本公开实施例的基于音频信息来生成关键词的示例性过程600。在过程600中，关键词生成单元604可以基于音频信息602来生成关键词614。音频信息602、关键词生成单元604和关键词614可以分别对应于图5中的音频信息506、关键词生成单元508和关键词510。

在606处，可以对音频信息602执行语音识别操作，以将音频信息602变换成文本。例如，可以使用微软的Azure语音服务来执行语音识别操作。

随后，可以在608处对所变换的文本执行语言理解操作，并在610处执行分词操作，以获得一组词语。在本文中，可以将通过语音识别、语言理解、分词等操作获得的词语称为初始词。该组初始词可能包含口语词或者其他不适于检索数字内容的词。

在612处，可以通过预定映射配置将初始词转换成关键词614。在一种实施方式中，可以通过预先创建的词典来实现该映射配置。该词典可以包括初始词到关键词的映射。例如，词语“吃饭”可以被映射为词语“餐具”，词语“听歌”可以被映射为词语“耳机”，等等。可以从词典中查找初始词，并将初始词转换成词典中列出的与该初始词相对应的关键词。如果词典中不存在该初始词，则可以移除该初始词，或者可以通过模糊匹配的方式查找出与该初始词相接近的另一初始词，并将该初始词转换成词典中列出的与该另一初始词相对应的关键词。

在创建词典时，可以首先构建一个包括初始词和相对应的关键词的训练数据集。然后，利用该练数据集作来训练一深度学习模型。经训练的深度学习模型可以基于各种初始词来生成关键词，从而得到一组扩展的初始词到关键词的映射。该组扩展的初始词到关键词的映射可以作为词典以供后续使用。

应当理解，上文结合图6描述的用于基于音频信息来生成关键词的过程仅是示例性的。根据实际应用需求，用于基于音频信息来生成关键词的过程可以包括任意其他步骤，并且可以包括更多或更少的步骤。例如，尽管在以上描述中，通过预定映射配置将初始词转换成关键词，但是在一些实施例中，可以不对初始词进行转换，而是将初始词直接视为适于进行数字内容检索的关键词。

图7示出了根据本公开实施例的基于图像信息来生成关键词的示例性过程700。在过程700中，关键词生成单元704可以基于图像信息702来生成关键词710。图像信息702、关键词生成单元704和关键词710可以分别对应于图5中的图像信息512、关键词生成单元514和关键词516。

在706处，可以对图像信息702执行图像分类操作，以获得图像类别。例如，可以通过经训练的图像分类模型来执行图像分类操作。该图像分类模型可以是通过诸如ImageNet之类的开放源模型来训练的。

与基于音频信息获得的初始词类似，一些图像类别可能不适合用于检索数字内容。在708处，可以通过预定映射配置将图像类别转换成适于检索数字内容的关键词710。该预定映射配置可以包括从一个图像类别到一个或多个关键词的一对多映射。例如，图像类别“会议”可以被映射到“笔记本电脑”、“移动电话”、“投影仪”等。

应当理解，上文结合图7描述的用于基于图像信息来生成关键词的过程仅是示例性的。根据实际应用需求，用于基于图像信息来生成关键词的过程可以包括任意其他步骤，并且可以包括更多或更少的步骤。例如，尽管在以上描述中，通过预定映射配置将图像类别转换成关键词，但是在一些实施例中，可以不对图像类别进行转换，而是将图像类别直接视为适于进行数字内容检索的关键词。

图8示出了根据本公开实施例的用于训练关键词生成模型的示例性过程800。在过程800中，可以利用包括多个训练样本的训练数据集来训练关键词生成模型，其中，每个训练样本包括简档和相应关键词，以使得经训练的关键词生成模型在被实际部署时能够基于简档来生成合适的关键词。图5中的关键词生成模型526和532可以是通过例如过程800来训练的。可以获得一组简档，该组简档中的每个简档可以包括例如性别、年龄、喜好、观看历史等的各种信息。过程800可以针对该组简档中的每个简档来执行。下面以任意一个简档为例来说明过程800。

在802处，可以基于简档来创建一组关键词。例如，可以基于简档手动创建一组关键词。

可以对该组关键词进行评估，并从中移除不合适的关键词。例如，在804处，可以根据该组关键词中的每个关键词，从一组候选数字内容中检索出一组数字内容。在806处，可以评估该组数字内容是否与简档相匹配。例如，当该组数字内容中的预定比例以上的数字内容与简档相匹配，则可以认为该组数字内容与简档相匹配。可以通过多种准则来确定数字内容是否与简档相匹配。在一个实施例中，如果关联于数字内容的标注与简档相匹配，则可以认为数字内容与简档是相匹配的。例如，如果关联于数字内容的标注包括“运动饮料”，并且简档包括指示年龄为“25岁”的信息，则可以认为该数字内容与简档是相匹配的。在另一个实施例中，可以通过特定的深度学习模型来对数字内容进行分类，以得到数字内容的类别。如果数字内容的类别与简档相匹配，则可以认为数字内容与简档是相匹配的。例如，如果数字内容的类别为“化妆品”，并且简档包括指示性别为“女”的信息，则可以认为数字内容与简档是相匹配的。应当理解，上述用于评估数字内容与简档之间的匹配度的准则仅是示例性的，还可以通过其他准则来评估数字内容与简档之间的匹配度。

如果在806处评估出该组数字内容与简档不匹配，则过程800可以进行至808处，即移除与该组数字内容相对应的关键词。

如果在806处评估出该组数字内容与简档相匹配，则过程800可以进行至810处，即，将简档和与该组数字内容相对应的关键词组合成训练样本。可以针对简档的一组关键词中的每个关键词执行步骤804-810，以获得多个训练样本。

在812处，可以将所获得的多个训练样本组合成用于训练关键词生成模型的训练数据集。

在814处，可以利用训练数据集来训练关键词生成模型。

在816处，可以通过经训练的关键词生成模型，基于简档来生成一组关键词。

所生成的一组关键词可以与在802处创建的一组关键词不完全相同。可以对与在802处创建的关键词不同的关键词进行评估，从中移除不合适的关键词，并且将合适的关键词与简档组合成训练样本以进一步训练和优化关键词生成模型。例如，可以通过步骤804-814来执行对上述操作。

过程800可以迭代地执行，以持续改善关键词生成模型的性能。可以基于各种准则来终止过程800。在一种实施方式，可以对806处的评估进行统计，例如可以计算根据其检索出的数字内容与简档相匹配的关键词的数量占总数量的比例，并且当该比例达到预定阈值时，过程800终止。在这种情况下，可以认为对关键词生成模型的训练可以结束，并且该关键词生成模型可以被部署以基于输入的简档来生成关键词。例如，可以向关键词生成模型提供视频的观看者的简档、或者视频的发布者的关注者的简档，并且关键词生成模型可以基于该简档来生成关键词。

应当理解，上文结合图8描述的用于训练关键词生成模型的过程仅是示例性的。根据实际应用需求，用于训练关键词生成模型的过程可以包括任意其他步骤，并且可以包括更多或更少的步骤。例如，尽管在以上描述中，通过确定根据关键词检索出的数字内容是否与简档相匹配来评估关键词，但是在一些实施例中，可以直接通过确定关键词是否与简档相匹配来评估关键词。例如，如果简档包括指示性别为“男”的信息，而关键词为“口红”，则可以认为该关键词与简档是不匹配的。

在获得了与视频相对应的关键词之后，可以基于所获得关键词来确定数字内容，并将所确定的数字内容添加在目标区域中。图9示出了根据本公开实施例的在目标区域中添加数字内容的示例。图像900可以与图4中的图像400和450相对应。在图像900中，示出了目标区域404和416，其是与图像450中的目标区域404和416相一致的。根据本公开的实施例，可以在目标区域404和416中添加数字内容。例如，可以在目标区域404中添加数字内容902，其可以例如是关于微软公司开发的办公软件Office2010的图片。另外，可以在目标区域416中添加数字内容904，其可以例如是关于微软公司开发的搜索引擎必应(Bing)的图片

根据本公开的实施例，可以以实时、动态的方式确定要插入到视频中的数字内容。例如，可以在接收到观看者对视频的请求时，触发对添加到该视频的各个目标区域中的数字内容的确定的过程。可以预先定义数字内容在视频中的持续时间。当一目标区域的持续时间大于数字内容的持续时间，可以例如以等同于数字内容的持续时间的时间间隔来确定要添加到该目标区域的数字内容。数字内容可以是基于关键词从一组候选数字内容中选择的，该组候选数字内容可以是随时间更新的。因此，在不同的时间，可能选择出不同的数字内容。例如，在一组候选数字内容包括与特定产品相关的图片的情况下，可以从该组候选数字内容中移除与该特定产品的先前版本相关的图片，并且将与该特定产品的当前版本相关的图片添加至该组候选数字内容。另外，在从一组候选数字内容中选择数字内容时，除了基于关键词之外，还可以基于该组候选数字内容的排序。例如，可以将一组候选数字内容中的排名前列的数字内容确定为要插入到视频中的数字内容。候选数字内容的排序可以是随时间更新的。例如，可以基于各种标准和相应的参数对一组候选数字内容进行排序。数字内容的一项或多项参数值可能会随时间变化，从而导致该数字内容在候选数字内容中的排序发生变化。以这种方式，可以确保始终在视频中插入当前版本的数字内容或者当前排名前列的数字内容。

以图9中的目标区域404为例，其目前被添加有关于办公软件Office2010的图片，该图片可能是先前从候选数字内容中选择的。在接收到观看者对包括图像900的视频的请求时，可以再次确定要添加到目标区域404的数字内容。由于微软公司已推出更新版本的Office，因此目前的候选数字内容可能包括关于该更新版本的Office的图片，而没有关于Office2010的图片。在这种情况下，关于Office2010的图片不再被选中，而可能选择出关于该更新版本的Office的图片。

优选地，数字内容可以被插入到视频中的与关键场景相对应的部分中。例如，可以从视频中的与关键场景相对应的部分中提取目标区域，并将数字内容添加至所提取的目标区域中。在本文中，可以将视频中的与关键场景相对应的部分称为关键帧。在关键帧中插入数字内容可以实现更高效的数字内容添加。特别地，在诸如计算资源、处理能力等条件受限的情况下，将目标区域提取操作聚焦于关键帧并在关键帧处的目标区域中添加数字内容可能是更加高效的。

图10示出了根据本公开实施例的用于从视频中识别关键帧的示例性过程1000。通过过程1000，可以基于视频1002的音频信息1004、图像信息1010、以及视频1002与其观看者之间的交互信息1016来识别视频1002中的关键帧1026。

视频1002的音频信息1004可以包括例如视频1002的一些或全部片段的语音。在1006处，可以对音频信息1004进行处理，以获得与音频信息1004相对应的第一分布1008。第一分布1008可以指示在视频1002的各个时段期间的与音频信息有关的关注度值，其中，特定时段的关注度值可以反映与该时段相对应的音频受关注的程度。可以预先指定针对第一分布1008的时段的长度，例如1秒、2秒、5秒等。在一种实施方式中，可以识别音频信息1004的各个时段期间的音量，并将具有较高音量的时段标记为具有较高的关注度值。可以取时段结束处的音量作为该时段的音量，或者可以取时段期间的平均音量作为该时段的音量。在另一种实施方式中，可以识别音频信息1004的各个时段期间的语速，并将具有较快语速的时段标记为具有较高的关注度值。在另一种实施方式中，可以从音频信息1004中识别特定词，例如“加油”、“进球”等，并将具有特定词的时段标记为具有较高的关注度值。在另一种实施方式中，可以从音频信息1004中识别特定类型的声音，例如鼓掌声、欢呼声等，并将具有特定类型的声音的时段标记为具有较高的关注度值。应当理解，上述用于确定与音频信息有关的关注度值的方式仅是示例性的，还可以通过其他方式来确定与音频信息有关的关注度值。

视频1002的图像信息1010可以包括例如视频1002的一些或全部片段的图像。在1012处，可以对图像信息1010进行处理，以获得与图像信息1010相对应的第二分布1014。第二分布1014可以指示在视频1002的各个时段期间的与图像信息有关的关注度值，其中，特定时段的关注度值可以反映与该时段相对应的图像受关注的程度。针对第二分布1014的时段的长度可以与针对第一分布1008的时段的长度一致。可以通过多种方式来确定各个时段的与图像信息有关的关注度值。在一种实施方式中，可以从图像中确定在各个时段期间发生了移动的对象的数量，并将该数量较大的时段标记为具有较高的关注度值。可以通过例如跟踪各个对象在与该时段相对应的一组图像中的位置来确定发生了移动的对象的数量。在另一种实施方式中，可以从图像中确定在各个时段期间是否有对象存在加速行为，并将有对象存在加速行为的时段标记为具有较高的关注度值。可以通过例如确定各个对象在该时段相对应的一组图像中的位置变化和发生这一变化所用的时间来确定加速行为的存在。在另一种实施方式中，可以通过对各个时段期间的图像执行场景理解过程来识别在该时段期间是否存在特定场景，并将存在特定场景的时段标记为具有较高的关注度值。特定场景可以包括例如典型的关注度高的场景，例如进球、冲刺等。可以例如通过特定的深度学习模型来执行该场景理解过程。应当理解，上述用于确定与图像信息有关的关注度值的方式仅是示例性的，还可以通过其他方式来确定与图像信息有关的关注度值。

视频1002的交互信息1016可以包括例如与视频1002的观看者在观看视频1002期间的交互行为有关的信息，其中，交互行为可以包括例如发送评论、发送弹幕、与其他观看者聊天、快进、回放、暂停等。在1018处，可以对交互信息1016进行处理，以获得与交互信息1016相对应的第三分布1020。第三分布1020可以指示在视频1002的各个时段期间的与交互信息有关的关注度值，其中，特定时段期间的关注度值可以反映在该时段期间观看者与视频1002交互的程度。针对第三分布1020的时段的长度可以与针对第一分布1008和第二分布1014的时段的长度一致。在一种实施方式中，可以统计各个时段期间的评论、弹幕或者聊天的数量，并将具有较大数量的时段标记为具有较高的关注度值。在另一种实施方式中，可以确定各个时段期间是否发生了快进，并将发生了快进的时段标记为具有较低的关注度值。在另一种实施方式中，可以确定各个时段期间是否发生了回放或暂停，并将发生了回放或暂停的时段标记为具有较高的关注度值。应当理解，上述用于确定与交互信息有关的关注度值的方式仅是示例性的，还可以通过其他方式来确定与交互信息有关的关注度值。

在获得了第一分布1008、第二分布1014和第三分布1020之后，在1022处，可以对这些分布进行组合，以获得综合分布1024。在一种实施方式中，可以直接对第一分布1008、第二分布1014和第三分布1020进行组合。例如，特定时段的关注度值可以是通过将该时段在各个分布中的关注度值直接进行求和来得到的。在另一种实施方式中，可以为第一分布1008、第二分布1014和第三分布1020设置相应的权重，并基于权重来对第一分布1008、第二分布1014和第三分布1020进行组合。例如，特定时段的关注度值可以是通过将该时段在各个分布中的关注度值进行加权求和来得到的。

在获得了综合分布1024之后，可以通过综合分布1024来识别视频1002的关键帧1026。例如，可以从综合分布1024中识别具有较高关注度值的一组时段，并将视频1002中的与该组时段相对应的视频帧识别为关键帧1026。

应当理解，上文结合图10描述的用于识别关键帧的过程仅是示例性的。根据实际应用需求，用于识别关键帧的过程可以包括任意其他步骤，并且可以包括更多或更少的步骤。例如，尽管在以上描述中，考虑到了视频的音频信息、图像信息和交互信息，但是在一些实施例中，可以仅基于音频信息、图像信息和交互信息中的一项或两项来识别关键帧。

图11是根据本公开实施例的用于在视频中插入数字内容的示例性方法1100的流程图。

在1110处，可以获得视频。

在1120处，可以从所述视频中提取至少一个目标区域。

在1130处，可以获得与所述视频相对应的关键词。

在1140处，可以至少基于所述关键词来确定至少一项数字内容。

在1150处，可以在所述至少一个目标区域中添加所述至少一项数字内容。

在一种实施方式中，所述提取至少一个目标区域可以包括以下至少之一：在所述视频中检测四边形区域；以及在所述视频中检测平面区域，并且在所述平面区域中创建四边形区域。

在一种实施方式中，所述至少一个目标区域的面积可以高于面积阈值，和/或所述至少一个目标区域在所述视频中的持续时间可以高于持续时间阈值。

在一种实施方式中，方法1100还可以包括：从所述视频中识别关键场景。所述至少一个目标区域可以是从所述视频中的与所述关键场景相对应的部分中提取的。

所述关键场景可以是基于以下至少之一来识别的：所述视频的音频信息、所述视频的图像信息、以及所述视频与观看者之间的交互信息。

在一种实施方式中，方法1100还可以包括：从所述视频中识别包含预定内容或者包含与所述预定内容相匹配的图片的保留区域，所述预定内容包括预定的图片或文字。所述至少一个目标区域可以是在所述保留区域外部提取的。

在一种实施方式中，所述获得关键词可以包括：基于所述视频的观看者的简档或者所述视频的发布者的关注者的简档来生成所述关键词。

在一种实施方式中，所述获得关键词可以包括：基于所述视频的上下文来生成初始词，所述上下文包括音频信息、图像信息和视频类别中至少之一；以及通过预定映射配置将所述初始词转换成所述关键词。

所述上下文可以是从所述视频中的与所述至少一个目标区域相对应的部分中提取的。

在一种实施方式中，所述关键词可以是预先为所述视频指定的。

在一种实施方式中，所述至少一项数字内容可以是从一组候选数字内容中选择的，并且所述一组候选数字内容可以是随时间更新的。

在一种实施方式中，所述至少一项数字内容可以是从一组候选数字内容中选择的，所述一组候选数字内容的排序可以是随时间更新的，并且所述确定至少一项数字内容还可以基于所述排序。

在一种实施方式中，所述添加所述至少一项数字内容可以包括：对所述至少一项数字内容的格式进行变换，所述格式包括形状、位置、颜色和亮度中至少之一；以及在所述至少一个目标区域中添加经变换的至少一项数字内容。

应当理解，方法1100还可以包括根据上述本公开的实施例的用于在视频中插入数字内容的任何步骤/处理。

图12示出了根据本公开实施例的用于在视频中插入数字内容的示例性装置1200。

装置1200可以包括：视频获得模块1210，用于获得视频；目标区域提取模块1220，用于从所述视频中提取至少一个目标区域；关键词获得模块1230，用于获得与所述视频相对应的关键词；数字内容确定模块1240，用于至少基于所述关键词来确定至少一项数字内容；以及数字内容添加模块1250，用于在所述至少一个目标区域中添加所述至少一项数字内容。

在一种实施方式中，装置1200还可以包括：关键场景识别模块，用于从所述视频中识别关键场景。所述至少一个目标区域可以是从所述视频中的与所述关键场景相对应的部分中提取的。

在一种实施方式中，装置1200还可以包括：保留区域识别模块，用于从所述视频中识别包含预定内容或者包含与所述预定内容相匹配的图片的保留区域，所述预定内容包括预定的图片或文字。所述至少一个目标区域可以是在所述保留区域外部提取的。

在一种实施方式中，所述关键词获得模块1230还可以被配置为：基于所述视频的观看者的简档或者所述视频的发布者的关注者的简档来生成所述关键词。

在一种实施方式中，所述关键词获得模块1230还可以被配置为：基于所述视频的上下文来生成初始词，所述上下文包括音频信息、图像信息和视频类别中至少之一；以及通过预定映射配置将所述初始词转换成所述关键词。

应当理解，装置1200还可以包括根据上述本公开的实施例的被配置用于在视频中插入数字内容的任何其他模块。

图13示出了根据本公开实施例的用于在视频中插入数字内容的示例性装置1300。

装置1300可以包括至少一个处理器1310。装置1300还可以包括与处理器1310连接的存储器1320。存储器1320可以存储计算机可执行指令，当所述计算机可执行指令被执行时，使得处理器1310执行根据上述本公开的实施例的用于在视频中插入数字内容的方法的任何操作。

本公开的实施例可以体现在非暂时性计算机可读介质中。所述非暂时性计算机可读介质可以包括指令，所述指令当被执行时，使得一个或多个处理器执行根据如上所述的本公开的实施例的用于在视频中插入数字内容的方法的任何操作。

应当领会，以上描述的方法中的所有操作都仅仅是示例性的，本公开并不限制于方法中的任何操作或这些操作的顺序，而是应当涵盖在相同或相似构思下的所有其他等同变换。

还应当领会，以上描述的装置中的所有模块都可以通过各种方式来实施。这些模块可以被实施为硬件、软件、或其组合。此外，这些模块中的任何模块可以在功能上被进一步划分成子模块或组合在一起。

已经结合各种装置和方法描述了处理器。这些处理器可以使用电子硬件、计算机软件或其任意组合来实施。这些处理器是实施为硬件还是软件将取决于具体的应用以及施加在系统上的总体设计约束。作为示例，本公开中给出的处理器、处理器的任意部分、或者处理器的任意组合可以利用微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门控逻辑单元、分立硬件电路、以及配置用于执行在本公开中描述的各种功能的其他适合的处理组件来实现。本公开给出的处理器、处理器的任意部分、或者处理器的任意组合的功能可以利用由微处理器、微控制器、DSP或其他适合的平台所执行的软件来实现。

软件应当被广泛地视为意指指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、运行线程、过程、函数等。软件可以驻留在计算机可读介质中。计算机可读介质可以包括例如存储器，存储器可以例如为磁性存储设备(例如，硬盘、软盘、磁条)、光盘、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器或者可移动盘。尽管在本公开给出的多个方面中将存储器示出为是与处理器分离的，但是存储器也可以位于处理器内部，例如高速缓存器或寄存器。

以上描述被提供用于使得本领域任何技术人员能够实践本文所描述的各个方面。对这些方面的各种修改对于本领域技术人员将是显而易见的，并且本文限定的一般性原理可以应用于其他方面。因此，权利要求并非旨在被局限于本文示出的方面。关于本领域普通技术人员已知或即将获知的、对本公开所描述各个方面的元素的所有结构和功能上的等同变换都被明确并入本文并且由权利要求所覆盖。

Claims

1.一种用于在视频中插入数字内容的方法，包括：

获得视频；

从所述视频中提取至少一个目标区域；

获得与所述视频相对应的关键词；

至少基于所述关键词来确定至少一项数字内容；以及

在所述至少一个目标区域中添加所述至少一项数字内容。

2.根据权利要求1所述的方法，其中，所述提取至少一个目标区域包括以下至少之一：

在所述视频中检测四边形区域；以及

在所述视频中检测平面区域，并且在所述平面区域中创建四边形区域。

3.根据权利要求1所述的方法，其中，

所述至少一个目标区域的面积高于面积阈值，和/或

所述至少一个目标区域在所述视频中的持续时间高于持续时间阈值。

4.根据权利要求1所述的方法，还包括：

从所述视频中识别关键场景，并且

其中，所述至少一个目标区域是从所述视频中的与所述关键场景相对应的部分中提取的。

5.根据权利要求4所述的方法，其中，所述关键场景是基于以下至少之一来识别的：

所述视频的音频信息、所述视频的图像信息、以及所述视频与观看者之间的交互信息。

6.根据权利要求1所述的方法，还包括：

从所述视频中识别包含预定内容或者包含与所述预定内容相匹配的图片的保留区域，所述预定内容包括预定的图片或文字，并且

其中，所述至少一个目标区域是在所述保留区域外部提取的。

7.根据权利要求1所述的方法，其中，所述获得关键词包括：

基于所述视频的观看者的简档或者所述视频的发布者的关注者的简档来生成所述关键词。

8.根据权利要求1所述的方法，其中，所述获得关键词包括：

基于所述视频的上下文来生成初始词，所述上下文包括音频信息、图像信息和视频类别中至少之一；以及

通过预定映射配置将所述初始词转换成所述关键词。

9.根据权利要求8所述的方法，其中，

所述上下文是从所述视频中的与所述至少一个目标区域相对应的部分中提取的。

10.根据权利要求1所述的方法，其中，所述关键词是预先为所述视频指定的。

11.根据权利要求1所述的方法，其中，所述至少一项数字内容是从一组候选数字内容中选择的，并且所述一组候选数字内容是随时间更新的。

12.根据权利要求1所述的方法，其中，所述至少一项数字内容是从一组候选数字内容中选择的，所述一组候选数字内容的排序是随时间更新的，并且所述确定至少一项数字内容还基于所述排序。

13.根据权利要求1所述的方法，其中，所述添加所述至少一项数字内容包括：

对所述至少一项数字内容的格式进行变换，所述格式包括形状、位置、颜色和亮度中至少之一；以及

在所述至少一个目标区域中添加经变换的至少一项数字内容。

14.一种用于在视频中插入数字内容的装置，包括：

视频获得模块，用于获得视频；

目标区域提取模块，用于从所述视频中提取至少一个目标区域；

关键词获得模块，用于获得与所述视频相对应的关键词；

数字内容确定模块，用于至少基于所述关键词来确定至少一项数字内容；以及

数字内容添加模块，用于在所述至少一个目标区域中添加所述至少一项数字内容。

15.根据权利要求14所述的装置，还包括：

关键场景识别模块，用于从所述视频中识别关键场景，并且

16.根据权利要求14所述的装置，还包括：

保留区域识别模块，用于从所述视频中识别包含预定内容或者包含与所述预定内容相匹配的图片的保留区域，所述预定内容包括预定的图片或文字，并且

17.根据权利要求14所述的装置，其中，所述关键词获得模块还被配置为：

18.根据权利要求14所述的装置，其中，所述关键词获得模块还被配置为：

通过预定映射配置将所述初始词转换成所述关键词。

19.根据权利要求18所述的装置，其中，

20.一种用于在视频中插入数字内容的装置，包括：

至少一个处理器；以及

存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使得所述至少一个处理器：

获得视频，

从所述视频中提取至少一个目标区域，

获得与所述视频相对应的关键词，

至少基于所述关键词来确定至少一项数字内容，以及

在所述至少一个目标区域中添加所述至少一项数字内容。