CN110881109A

CN110881109A - 用于增强现实应用的视频中的实时叠加放置

Info

Publication number: CN110881109A
Application number: CN201910843028.4A
Authority: CN
Inventors: S·赫格德; R·赫巴拉古佩
Original assignee: Tata Consultancy Services Ltd
Current assignee: Tata Consultancy Services Ltd
Priority date: 2018-09-06
Filing date: 2019-09-06
Publication date: 2020-03-13
Anticipated expiration: 2039-09-06
Also published as: CN110881109B; US10636176B2; AU2019201358B2; CA3035482C; JP6811796B2; US20200082574A1; AU2019201358A1; KR102218608B1; EP3621039A1; KR20200028317A; JP2020042759A; CA3035482A1

Abstract

本发明涉及用于增强现实应用的视频中的实时叠加放置。文本叠加/标签在增强现实(AR)应用中添加情境信息。标签的空间放置是挑战性任务，尤其对于实时视频而言。本公开的实施例提供用于增强现实应用的情境信息的最佳放置的系统和方法，以通过最佳地放置标签以帮助更好地解释场景来克服对感兴趣对象/场景的遮挡的限制。这通过以下方式来实现：将针对输入视频的每个帧计算的显著性图与基于标签的初始叠加位置的每个帧的当前和前一总体位置之间的欧几里德距离组合，以计算更新的叠加位置以用于视频中的标签放置。叠加的放置被公式化为目标函数，该目标函数使感兴趣对象周围的视觉显著性最小化并使时间抖动最小化，从而促进实时AR应用中的相干性。

Description

用于增强现实应用的视频中的实时叠加放置

相关申请的交叉引用和优先权

本申请要求于2018年9月6日在印度提交的申请号为201821033541、发明名称为“REAL TIME OVERLAY PLACEMENT IN VIDEOS FOR AUGMENTED REALITY APPLICATIONS”的印度完整说明书的优先权。前述申请的整个内容以引用方式并入本文。

技术领域

本文的公开内容总体涉及视频分析，并且更具体地，涉及用于增强现实应用的视频中的实时叠加放置的系统和方法。

背景技术

具有虚拟现实(VR)的增强现实(AR)被认为是继个人计算机(PC)、互联网和移动之后的第四波技术。在AR中，通过叠加虚拟信息来增强真实世界场景，以实现更好的态势感知并增强人类的认知和感知。该情境信息可以采用但不限于文本、3D对象、GPS坐标和音频的形式。这种情境信息的放置是对场景理解的重要贡献，所述场景理解是人工智能中的主要问题。标签的空间放置是一项具有挑战性的任务，这归因于以下约束：标签(i)不遮挡感兴趣的对象/场景，并且(ii)被最佳地放置以便更好地解释场景。用于文本标签的最佳定位的复杂的现有技术仅在图像上工作，并且对于装置(例如，诸如智能电话、平板电脑等的移动通信装置)的实时性能通常是低效的。

发明内容

本公开的实施例呈现技术改进作为本发明人在常规系统中认识到的一个或多个上述技术问题的解决方案。例如，在一个方面，提供了一种处理器实现的方法，用于增强现实应用的视频中的实时叠加放置。所述方法包括：实时接收(i)包括多个帧和所述多个帧中的感兴趣对象的输入视频，以及(ii)预先计算初始叠加位置以便放置在所述输入视频的中心帧上的标签；实时计算所述多个帧中的每一者的显著性图，以获得多个显著性图；针对所述多个帧中的每一者，基于所述标签的所述初始叠加位置实时计算当前叠加位置与前一叠加位置之间的欧几里德距离，以获得多个欧几里德距离；以及基于所述多个显著性图和所述多个欧几里德距离实时计算所述标签的更新的叠加位置以便放置在所述输入视频中。

在实施例中，所述标签的所述更新的叠加位置可通过结合所述多个显著性图和所述多个欧几里德距离来计算。

在实施例中，计算所述多个帧中的每一者的欧几里德距离，以便实时控制待放置在所述输入视频中的所述标签的位置的时间抖动。在实施例中，所述方法还可包括：将所述标签从所述初始叠加位置移位到所述更新的叠加位置，以使得对观察所述感兴趣对象时的遮挡最小化。

在实施例中，选择与在预定阈值范围内的当前叠加位置与前一叠加位置之间的欧几里德距离相对应的多个像素，用于将标签从初始叠加位置移位到更新的叠加位置。

在另一方面，提供了一种用于在视频中进行实时叠加放置以用于增强现实应用的系统。所述系统包括：存储指令的存储器；一个或多个通信接口；以及经由所述一个或多个通信接口耦合到所述存储器的一个或多个硬件处理器，其中所述一个或多个硬件处理器由所述指令配置为：实时接收(i)包括多个帧和所述多个帧中的感兴趣对象的输入视频，以及(ii)预先计算初始叠加位置以便放置在所述输入视频的中心帧上的标签；实时计算所述多个帧中的每一者的显著性图，以获得多个显著性图；针对所述多个帧中的每一者，基于所述标签的所述初始叠加位置实时计算当前叠加位置与前一叠加位置之间的欧几里德距离，以获得多个欧几里德距离；以及基于所述多个显著性图和所述多个欧几里德距离实时计算所述标签的更新的叠加位置以便放置在所述输入视频中。

在实施例中，所述标签的所述更新的叠加位置通过结合所述多个显著性图和所述多个欧几里德距离来计算。在实施例中，计算所述多个帧中的每一者的欧几里德距离，以便实时控制待放置在所述输入视频中的所述标签的位置的时间抖动。

在实施例中，所述一个或多个硬件处理器进一步被配置为将所述标签从所述初始叠加位置移位到所述更新的叠加位置，以使得对观察所述感兴趣对象时的遮挡最小化。在实施例中，选择与在预定阈值范围内的当前叠加位置与前一叠加位置之间的欧几里德距离相对应的多个像素，用于将标签从初始叠加位置移位到更新的叠加位置。

在又一方面，提供了一个或多个非暂时性机器可读信息存储介质，包括一个或多个指令，所述一个或多个指令在由一个或多个硬件处理器执行时实施用于在视频中进行实时叠加放置以用于增强现实应用的方法。所述指令致使：实时接收(i)包括多个帧和所述多个帧中的感兴趣对象的输入视频，以及(ii)预先计算初始叠加位置以便放置在所述输入视频的中心帧上的标签；实时计算所述多个帧中的每一者的显著性图，以获得多个显著性图；针对所述多个帧中的每一者，基于所述标签的所述初始叠加位置实时计算当前叠加位置与前一叠加位置之间的欧几里德距离，以获得多个欧几里德距离；以及基于所述多个显著性图和所述多个欧几里德距离实时计算所述标签的更新的叠加位置以便放置在所述输入视频中。

在实施例中，计算所述多个帧中的每一者的欧几里德距离，以便实时控制待放置在所述输入视频中的所述标签的位置的时间抖动。在实施例中，所述指令在由所述一个或多个硬件处理器执行时可进一步致使将所述标签从所述初始叠加位置移位到所述更新的叠加位置，以使得对观察所述感兴趣对象时的遮挡最小化。

应理解，以上概述和以下详述都仅是示例性和解释性的，而不限制所公开的本发明。

附图说明

并入并构成本公开的一部分的附图示出了示例性实施例，并且与描述一起用于解释所公开的原理：

图1示出根据本公开的实施例的用于增强现实应用的视频中的实时叠加放置的系统的示例性框图。

图2示出根据本公开的实施例的使用图1的系统的用于增强现实(AR)应用的视频中的实时叠加放置的方法的示例性流程图。

图3描绘根据本公开的实施例的通过计算显著性图和欧几里德距离的输入视频中的实时叠加放置的框图。

图4描绘根据本公开的实施例的作为等高线图的示出平均显著性标签遮挡(LOS)分数随着λ和∑的变化而变化的图形表示。

具体实施方式

参考附图描述示例性实施例。在附图中，参考数字中最左侧的数字标识首次出现所述参考数字的图。在方便的情况下，相同的附图标记在整个附图中用来指代相同或相似部分。虽然本文描述了所公开原理的示例和特征，但在不脱离所公开实施例的精神和范围的情况下，修改、改编和其他实现方式是可能的。意图以下详细描述仅被视为示范性的，其中真实范围和精神由以下权利要求指示。

如上所述，具有虚拟现实(VR)的增强现实(AR)被认为是继PC、互联网和移动之后的第四波技术。在真实世界场景上叠加虚拟信息被认为是非常重要的，以实现更好的态势感知并增强人类的认知和感知。这种情境信息的放置是对场景理解的重要贡献，所述场景理解是人工智能中的主要问题。

与文本标签的最佳放置相关的一些应用如下：(i)广告在室内/室外场景中和在视频中的最佳放置是捕获观看者的视觉注意力的重要广告策略，(ii)识别附近古迹和建筑物名称的标签有助于提高游客的态势感知能力，(iii)各种常规应用通过使用其相机在各种操作系统(例如，

装置)上提供实时翻译。值得注意的是，移动电话上的AR应用有助于更快地、更准确地、更有效地执行任务并且具有低认知负荷。最佳叠加放置可能有用的另一个示例是士兵使用头戴式装置(HMD)的情况。在HMD上显示的战场地图中成员的GPS坐标的叠加不应当在关键时刻遮挡场景的真实视图。此外，字幕在视频中的最佳放置有助于避免焦点转移。智能标签放置有助于通过使用漫画风格的叠加放置来使视频变得有趣。

这些2D文本标签的放置是具有挑战性的，因为情境信息以这样的方式叠加，其方式为使得叠加不会遮挡感兴趣的对象/场景，并且被最佳地放置，从而有助于更好地解释。一些研究工作发现用于AR应用的标签放置并不简单，因为放置需要实时工作。对于在静态图像上放置标签的简单任务，可能的标签位置的数量随着待标记的项目的数量呈指数增长。另外的挑战包括缺乏对AR应用的标签放置的认知和感知问题的理解。

综上所述，与对象检测和分割相比，在感兴趣的对象/场景周围的叠加放置在视觉社区中几乎没有受到关注。最近，随着对实时叠加文本标签的AR应用的需求不断增加，标签放置引起了很多关注。基于-基于几何结构的布局和基于图像的布局来渲染标签、美学规则和自适应叠加，已经进行了文本标签的最佳放置的相关研究。

在基于几何结构的布局方法中，已经证明点特征标签放置是NP难问题，并且提出模拟退火和梯度下降作为解决方案。开发了基于图像美学(或基于图像的布局)方法，以将计算机接口的视觉美学视为用户满意度的强烈决定因素。它们利用了一般的设计原则，诸如空间布局规则、对称性、元素之间的平衡以及配色方案以及与相簿生成用例的协调。然而，上述方法对图像起作用并且不适合于实时相机流(或实时视频流)。

其他一些工作专注于AR浏览器的图像驱动的视图管理，用于在使用显著性图和边缘图组合的视频流上放置标签。据观察，在此类工作中，在将这种方法应用于移动装置上的视频流时遇到的一些主要限制：首先，当相机略微移动时，动态地应用此类技术。在大规模移动的情况下，他们使用标签的静态布局。对于基于AR的应用，这种方法显然是不可行的。其次，实现视觉显著性算法涉及计算成本高昂的矩阵操作。在具有有限计算资源和存储器的移动装置上，这个问题变得尤为突出。此外，如上所述的这些工作和其他照惯例已知的文本叠加方法在计算上很繁重，并且主要在台式计算机上的图像上工作并且缺乏实时性能并且还不适合于视频中的叠加。此外，由于遮挡、昏暗的灯光场景、现场视野中的场景变化，叠加都有其自身的挑战。

本公开的实施例提供用于AR应用的情境标签的策略性放置的系统和方法。本公开的系统和方法提供了即使在诸如智能电话和平板电脑的低端安卓装置上也实时工作的标签放置技术。在本公开中，标签放置被公式化为由图像显著性和时间抖动参数化的目标函数。本公开实现了显著性上的标签遮挡(LOS)分数的计算，用于测量叠加放置的有效性。

现在参考附图，并且更具体地参考图1至图4，其中类似的参考标号在整个附图中始终表示对应的特征，示出了优选实施例，并且在以下示例性系统和/或方法的上下文中描述了这些实施例。

图1示出根据本公开的实施例的用于增强现实应用的视频中的实时叠加放置的系统100的示例性框图。系统100还可以称为“叠加放置系统”并且在下文中可互换使用。在实施例中，系统100包括一个或多个处理器104、通信接口装置或输入/输出(I/O)接口106、以及可操作地耦合到一个或多个处理器104的一个或多个数据存储装置或存储器102。一个或多个处理器104可以是一个或多个软件处理模块和/或硬件处理器。在实施例中，硬件处理器可以实现为一个或多个微处理器、微计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令来操纵信号的任何装置。除其他能力之外，处理器被配置为获取并执行存储在存储器中的计算机可读指令。在实施例中，装置100可以在各种计算系统中实现，诸如膝上型计算机、笔记本、手持装置、工作站、大型计算机、服务器、网络云等。

I/O接口装置106可包括各种软件和硬件接口，例如web接口、图形用户接口等，并且可以促进多种网络N/W和协议类型内的多个通信，包括有线网络(例如LAN、电缆等)和无线网络(例如WLAN、蜂窝或卫星)。在实施例中，I/O接口装置可包括一个或多个端口，用于将多个装置彼此连接或连接到另一个服务器。

存储器102可包括本领域中已知的任何计算机可读介质，包括例如易失性存储器(诸如静态随机存取存储器(SRAM)和动态随机存取存储器(DRAM))和/或非易失性存储器(诸如只读存储器(ROM))、可擦除可编程ROM、闪存存储器、硬盘、光盘和磁带。在实施例中，数据库108可以存储在存储器102中，其中数据库108可包括但不限于信息输入视频、帧、感兴趣对象、标签、标签的初始叠加位置、标签宽度和高度、显著性图输出、欧几里德距离输出、视频中更新的放置叠加位置。更具体地，与输入视频有关的信息包括像素信息、每帧的当前和先前叠加位置、时间抖动、预定阈值范围等。在实施例中，存储器102可以存储一种或多种技术(例如，显著性图计算技术、欧几里德距离计算技术)，所述一种或多种技术在由一个或多个硬件处理器104执行时执行本文所述的方法。存储器102还可包括与由本公开的系统和方法执行的每个步骤的输入/输出有关的信息。

参考图1，图2示出根据本公开的实施例的使用图1的系统100的用于增强现实(AR)应用的视频中的实时叠加放置的方法的示例性流程图。在实施例中，系统100包括可操作地耦合到一个或多个硬件处理器104的一个或多个数据存储装置或存储器102，并且被配置为存储用于由一个或多个处理器104执行方法步骤的指令。现在将参考如图1所描绘的系统100的部件以及如图2所描绘的流程图来解释本公开的方法步骤。在实时接收输入视频之前，系统100和相关联方法将用户指定的多个参数作为输入，即k、λ、∑、O_h和O_w，其中：

1)k：要跳过处理的帧数。本公开的技术/方法每k帧运行。如果k＝1，则在每个帧上运行本公开的方法。同样，如果k＝2，每个交替帧上运行所述方法。

2)λ控制后续叠加的时间相干性。λ的小值意味着叠加可能会放置在不太显著的区域，但它也会受到很多抖动的影响。λ的高值减少抖动，但也会限制叠加的移动。

3)∑：搜索空间采样参数。它均匀地对2维图像空间中的像素进行采样。例如，考虑u_w和u_h分别是帧宽和帧高，它们是上下文中搜索空间的尺寸。然后，在相应图像尺寸中跳过u_h/∑和u_w/∑像素。

4)O_h，O_w：分别为叠加高度和叠加宽度。

对于本公开的技术或方法来说，搜索所有像素值以计算最佳叠加位置可能是不可行的。显著性图具有离散值，因此可能无法使用诸如随机梯度下降等优化技术。对所有像素的线性搜索非常昂贵。在本公开中，采用统一的采样方法。由本公开的方法和系统100计算的一些其他中间变量如下：

a)X_P；Y_P：前一次迭代中最佳叠加位置。这被初始化为帧的中心。

b)X；Y：在当前迭代中计算的最佳叠加位置。

c)SM：使用常规计算技术计算的显著性图(例如，参考‘Radhakrishna Achanta、Sheila Hemami、Francisco Estrada和Sabine Susstrunk的在Computer vision andpattern recognition,2009.cvpr 2009.ieee conference on.IEEE,2009,第1597–1604页中的“Frequency-tuned salient region detection”’-也称为Achanta等人或惯例视觉显著性技术，并且在本文中可互换使用)。

d)P：来自搜索空间的一组采样像素。

e)F_w；F_h：分别为视频帧的帧宽和帧高。

通过图2描述的以下步骤可以更好地理解以上描述。在本公开的实施例中，在步骤202处，一个或多个硬件处理器104实时接收(i)包括多个帧和所述多个帧中的感兴趣对象的输入视频，以及(ii)预先计算初始叠加位置以便放置在输入视频的中心帧上的标签。在实施例中，标签包括标签高度和标签宽度。在本公开的实施例中，输入视频在图3中描绘。具有初始叠加位置的标签(例如，标签正或将要放置在输入视频的中心帧上)也被接收作为输入(图2和图3中未示出)。在接收到输入视频和标签时，在步骤204处，一个或多个硬件处理器实时计算多个帧中的每一者的显著性图，以获得多个显著性图。示例性显著性图在图3中描绘。在本公开中，系统100计算输入视频中存在的每个帧的显著性图。换句话说，对于输入视频的每个对应帧将存在一个显著性图。因此，迭代地执行显著性图计算直到输入视频的最后一帧，以获得多个显著性图。

在步骤206处，一个或多个硬件处理器104基于标签的初始叠加位置实时计算当前叠加位置与前一叠加位置之间的欧几里德距离，以获得多个欧几里德距离。迭代地执行欧几里德距离计算直到输入视频的最后一帧，以获得多个欧几里德距离。换句话说，针对多个帧中的每一者计算欧几里德距离。换句话说，对于输入视频的每个对应帧将存在一个欧几里德距离，如显著性图计算的情况。示例性欧几里德距离计算在图3中描绘。在本公开中，针对每个帧计算欧几里德距离，用于控制待放置在输入视频中的标签的位置的时间抖动。随着输入视频的实时接收和处理，时间抖动的控制实时发生。

在计算多个显著性图和多个欧几里德距离后，在步骤208处，一个或多个硬件处理器104基于多个显著性图和多个欧几里德距离实时计算标签的更新的叠加位置以放置在输入视频中。换句话说，通过结合多个显著性图和多个欧几里德距离来计算标签的更新的叠加位置，如图3所描绘。应注意，尽管顺序地执行步骤204和206，但(i)计算多个帧中的每一者的显著性图，以及(ii)针对多个帧中的每一者计算当前叠加位置与前一叠加位置之间的欧几里德距离的步骤可以同时执行。这可以进一步确保在较短时间内的计算，这可以导致资源的更好或最佳利用。此外，在计算更新的叠加位置后，在步骤210中，系统100(或一个或多个硬件处理器104)将标签从初始叠加位置移位到更新的叠加位置，以使得对观察感兴趣对象时的遮挡最小化(或使其减少)。可替代地，当将标签从初始叠加位置移位到更新的叠加位置时，视图还确保其无遮挡。在本公开中，选择与在预定阈值范围内的当前叠加位置与前一叠加位置之间的欧几里德距离相对应的多个像素，用于将标签从初始叠加位置移位到更新的叠加位置。换句话说，选择当前叠加位置与前一叠加位置之间的欧几里德距离在预定阈值范围(也称为“预定阈值”并且在下文中可互换使用)内的一个或多个像素，用于将标签从其初始叠加位置移位到由系统100实时计算的更新的叠加位置。更新的叠加位置包括与标签有关的具有标签高度和标签宽度的信息(例如，在这种情况下，宽度和高度可以与同初始叠加位置相关联的初始宽度和高度相同，或者可以根据多个像素的选择而变化)。示例性叠加帧在图3中描绘。更具体地，参考图1至图2，图3描绘根据本公开的实施例的通过计算显著性图和欧几里德距离的输入视频中的实时叠加放置的框图。

简而言之，为了更好地理解，下面解释步骤202至208：

本公开的方法在每k帧上运行。对于给定帧，视觉显著性图(也称为显著性图并且可以在下文中互换使用)使用伪码(例如，SaliencyMapComputation)。然后，系统100遍历搜索空间中提供的像素值(例如，参考∑-搜索空间采样参数)，并在大小为O_h、O_w的假设框中对图给出的显著性值进行求和。在本公开中，选择具有最低和的像素值作为表示最低显著性的理想候选。如果先前位置和按λ缩放的当前位置之间的欧几里德距离d(其被称为预定阈值范围或预定阈值)尽可能低，则使叠加移位。为了组合由低显著性和时间抖动引起的约束，本公开用公式表示优化问题，如下：

以下是本公开的技术/方法的示例性伪码：

1.(X_P；Y_P)＝(帧宽/2，帧高/2)

2.对于每k帧

3.SM＝SaliencyMapComputation(帧)

4.对于(x，y)∈P

5.L＝{(a，b)|x≤a≤x+O_w，y≤b≤y+O_h}

6.s_x，y＝∑_(a，b)∈LSM(a，b)

7.d_x，y＝λ×距离((X，Y)，(X_P，Y_P))

8.s_min＝min(s_x，y+d_x，y)

9.(X，Y)：＝arg_min(s_x，y)

10.(X_P，Y_P)：＝(X，Y)//使用线性插值以进行整体转变

在上面的伪码中，为了执行行(或命令或程序代码)‘SM＝SaliencyMapComputation(帧)’，可以参考显著性图计算的常规技术(例如，参考‘Radhakrishna Achanta、Sheila Hemami、Francisco Estrada和Sabine Susstrunk的在Computer vision and pattern recognition,2009.cvpr 2009.IEEE conferenceon.IEEE,2009,第1597–1604页中的“Frequency-tuned salient region detection”’-也称为Achanta等人，这可以在–https://infoscience.epfl.ch/record/135217/files/1708.pdf中找到)。更具体地说，在一个示例性实施例中，为了更好地理解显著性图计算—可以应用Achanta等人的上述参考文献的第3.2节，包括等式(1)、(2)、(3)和(4)。

实验和结果

实验涉及受试者(例如，25名研究人员，年龄组25-34中的10名女性和15名男性以测试方法/伪码)以通过平板电脑查看受检查的对象—3D打印机。捕获一组主观和客观指标以评估(a)用户体验和(b)叠加的放置。在所有实验中，使用尺寸为50×50的标签，其可以根据用户的需要进行定制。实验在

安卓手机和

平板电脑上进行。用户的任务是按1到5的等级对以下参数进行评级。此后，捕获平均意见分数。所使用的指标是：(i)叠加的位置、(ii)叠加中的低抖动、(iii)叠加框和文本的颜色、以及(iv)叠加响应性。

本公开使用DIEM数据集(例如，参考‘Parag K Mital、Tim J Smith、Robin L Hill和John M Henderson，“Clustering of gaze during dynamic scene viewing ispredicted by motion”，Cognitive Computation,第3卷,第1期,第5–24页,2011.’—‘http://pkmital.com/home/wp-content/uploads/2010/03/Mital_Clustering_of_Gaze_During_Dynamic_Scene_Viewing_is_Predicted.pdf’)以评估本公开的方法。从数据集中获取分辨率为1280×720的视频以通过本公开进行实验。该数据集由来自不同类型的广告、预告片和电视剧的各种视频组成。此外，通过眼睛移动，该数据集提供了详细的眼睛固定显著性注释。

在实验期间，参数λ和∑的值经验上从网格搜索(在本领域中已知)、在DIEM数据集上找到，并且比较其在整个视频内对叠加的平均显著性标签遮挡(LOS)分数(在下面定义和讨论)的影响。参考图1至图3，图4描绘了示出根据本公开的实施例的平均显著性标签遮挡(LOS)分数随着λ和∑改变的变化作为等高线图。更具体地，图4描绘了相对于λ和∑的平均LOS分数的等高线图。在实验期间观察到LOS分数独立于λ，并且∑和λ的最佳组合是(5,0.021)(参考在图4中的线轮廓之间的具有反Y形符号的线表示，其由402表示并且更小的∑是优选的)。

结果

主观度量

下面的示例性表格(表1)显示了主观度量分数。

表1

主观度量	值(0-5)
		叠加位置	4.5
叠加框的响应性	4.7
		抖动的缺乏性	4.2
叠加框的颜色	3.9

从上面的表1中可以推断，叠加位置被评定为高达4.5，这对于防止叠加遮蔽场景中的显著区域是至关重要的。大致以每秒20帧(fps)运行的本公开中的方法的上述伪码的实时性能可能导致4.7的叠加响应性的高分数。选择简单配色方案—带有黑色字体的白色框，反之亦然，其中框颜色的透明度设置为α＝0.5。叠加框的颜色取决于应用于由如下示例性等式(或表达式)2给出的像素强度(亮度通道Y)的简单自适应阈值。

数据驱动阈值Thresh是给定场景的最大亮度值和最小亮度值之间的差的平均值。如果该值大于或等于Thresh，则叠加框使用黑色背景，反之亦然(应当注意，注释了文本标签如何重叠的整个设置，但其通过实验证明)。在实验期间考虑的样本叠加仅显示关于整个场景的情境信息。从演示中还可以看出，叠加实时工作并且同时较不抖动。

客观度量

比较了由本公开的方法/伪码执行的叠加放置的有效性。该比较的评估标准基于标签遮挡的平均LOS分数以及视频的显著性地面实况。较低的分数显示具有较少遮挡的有效叠加放置。显著性标签遮挡(LOS)分数S被限定并表示如下：

其中L是由叠加遮挡的像素(x，y)的集合，并且G是地面实况显著性图。发现用于本公开的方法的上述伪码具有0.042的平均LOS分数，并且计算叠加位置花费0.021秒的时间。

本公开的实施例提供用于AR应用的视频中的实时叠加(情境信息)放置的系统和方法。基于上述实验和结果，观察到本公开通过最佳地放置标签以帮助更好地解释场景来克服对感兴趣的物体/场景的遮挡的模仿。叠加的放置被公式化为目标函数，其使得(i)感兴趣对象周围的视觉显著性和(ii)促进实时AR应用中的相干性的时间抖动最小化(特别是在(低端或高端)智能电话、平板电脑、基于AR的浏览器等上执行)。AR应用的示例可以包括但不限于导航地图、可以在游戏应用中可视化的虚拟环境体验等。基于AR的应用的其他示例包括但不限于博物馆探索任务、工业检查和维修操作、广告和媒体以及旅游业的现场态势感知。

书面描述描述了本文的主题以使本领域技术人员能够制造和使用实施例。本主题实施方案的范围由权利要求限定，并且可以包括本领域技术人员想到的其它示例。如果此类其它示例具有不与权利要求书的文字语言不同的结构元件，或者如果它们包含与权利要求书的文字语言无实质区别的等同结构元件，那么此类其它修改旨在权利要求书的范围内。

应当理解，保护范围扩展到这样的程序，并且除了其中具有消息的计算机可读装置之外；当程序在服务器或移动装置或任何合适的可编程装置上运行时，这种计算机可读存储装置包含用于实现该方法的一个或多个步骤的程序代码装置。硬件装置可以是可以编程的任何类型的装置，包括例如任何类型的计算机，如服务器或个人计算机等，或其任何组合。所述装置还可以包括可以包括可以是以下的硬件装置：例如，专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或硬件和软件装置的组合(例如，ASIC和FPGA)、或其中定位有软件模块的至少一个微处理器和至少一个存储器。因此，该装置可以包括硬件装置和软件装置两者。本文描述的方法实施例可以用硬件和软件实现。装置还可以包括软件装置。可替代地，实施例可以在不同的硬件装置上实现，例如，使用多个CPU。

本文的实施例可以包括硬件元件和软件元件。以软件实现的实施例包括但不限于固件、驻留软件、微代码等。由本文描述的各种模块执行的功能可以在其他模块或其他模块的组合中实现。出于描述的目的，计算机可用或计算机可读介质可以是可包含、存储、传送、传播或传输程序以供指令执行系统、装置或设备使用或与所述指令执行系统、装置或设备结合使用的任何装置。

所示出的步骤被阐述以解释所示的示例性实施例，并且应该预期正在进行的技术开发将改变执行特定功能的方式。出于说明而非限制的目的，本文提供了这些实施例。此外，为了便于描述，这里任意地限定了功能构建块的边界。可以限定替代边界，只要适当地执行指定的功能及其关系即可。基于本文包含的教导，相关领域的技术人员将清楚替代方案(包括本文描述的那些的等同物、扩展、变化、偏差等)。这些替代方案落入所公开实施例的范围和精神内。此外，词语“包含”、“具有”、“含有”和“包括”以及其他类似形式在意义上是等同的并且是开放式的，因为在这些词中的任何一个之后的一个或多个项目不是意味着作为一个或多个这些物品的详尽清单，或意味着或仅限于列出的物品。必须注意的是，除非上下文另外明确指出，否则在本说明书和所附权利要求中使用的单数形式“一个”、“一种”和“所述”都包括复数指代物。

此外，可以利用一个或多个计算机可读存储介质来实现与本公开一致的实施例。计算机可读存储介质指的是其上可以存储处理器可读的信息或数据的任何类型的物理存储器。因此，计算机可读存储介质可以存储用于由一个或多个处理器执行的指令，包括用于使处理器执行与本文描述的实施例一致的步骤或阶段的指令。术语“计算机可读介质”应该被理解为包括有形项并且不包括载波和瞬态信号(即，是非暂时性的)。示例包括随机存取存储器(RAM)、只读存储器(ROM)、易失性存储器、非易失性存储器、硬盘驱动器、CD ROM、DVD、闪存驱动器、磁盘和任何其他已知的物理存储介质。

意图本公开和实施例仅被视为示范性的，其中公开的实施例的真实范围和精神由以下权利要求所指示。

Claims

1.一种处理器实现的方法，包括：

实时接收：(i)包括多个帧和所述多个帧中的感兴趣对象的输入视频，以及(ii)预先计算初始叠加位置以便放置在所述输入视频的中心帧上的标签(202)；

实时计算所述多个帧中的每一者的显著性图，以获得多个显著性图(204)；

针对所述多个帧中的每一者，基于所述标签的所述初始叠加位置实时计算当前叠加位置与前一叠加位置之间的欧几里德距离，以获得多个欧几里德距离(206)；以及

基于所述多个显著性图和所述多个欧几里德距离实时计算所述标签的更新的叠加位置以便放置在所述输入视频中(208)。

2.如权利要求1所述的处理器实现的方法，其中所述标签的所述更新的叠加位置通过结合所述多个显著性图和所述多个欧几里德距离来计算。

3.如权利要求1所述的处理器实现的方法，其中计算所述多个帧中的每一者的欧几里德距离，以便实时控制待放置在所述输入视频中的所述标签的位置的时间抖动。

4.如权利要求1所述的处理器实现的方法，还包括：将所述标签从所述初始叠加位置移位到所述更新的叠加位置，以使得对观察所述感兴趣对象时的遮挡最小化(210)。

5.如权利要求1所述的处理器实现的方法，其中选择与在预定阈值范围内的所述当前叠加位置与所述前一叠加位置之间的欧几里德距离相对应的多个像素，用于将所述标签从所述初始叠加位置移位到所述更新的叠加位置。

6.一种系统(100)，包括：

存储指令的存储器(102)；

一个或多个通信接口(106)；以及

经由所述一个或多个通信接口(106)耦合到所述存储器(102)的一个或多个硬件处理器(104)，其中所述一个或多个硬件处理器(104)由所述指令配置为：

实时接收(i)包括多个帧和所述多个帧中的感兴趣对象的输入视频，以及(ii)预先计算初始叠加位置以便放置在所述输入视频的中心帧上的标签；

实时计算所述多个帧中的每一者的显著性图，以获得多个显著性图；

针对所述多个帧中的每一者，基于所述标签的所述初始叠加位置实时计算当前叠加位置与前一叠加位置之间的欧几里德距离，以获得多个欧几里德距离；并且

基于所述多个显著性图和所述多个欧几里德距离实时计算所述标签的更新的叠加位置以便放置在所述输入视频中。

7.如权利要求6所述的系统，其中所述标签的所述更新的叠加位置通过结合所述多个显著性图和所述多个欧几里德距离来计算。

8.如权利要求6所述的系统，其中计算所述多个帧中的每一者的欧几里德距离，以便实时控制待放置在所述输入视频中的所述标签的位置的时间抖动。

9.如权利要求6所述的系统，其中所述一个或多个硬件处理器进一步被配置为将所述标签从所述初始叠加位置移位到所述更新的叠加位置，以使得对观察所述感兴趣对象时的遮挡最小化。

10.如权利要求6所述的系统，其中选择与在预定阈值范围内的所述当前叠加位置与所述前一叠加位置之间的欧几里德距离相对应的多个像素，用于将所述标签从所述初始叠加位置移位到所述更新的叠加位置。

11.一个或多个非暂时性机器可读信息存储介质，包括一个或多个指令，所述一个或多个指令在由一个或多个硬件处理器执行时致使：

12.如权利要求11所述的一个或多个非暂时性机器可读信息存储介质，其中所述标签的所述更新的叠加位置通过结合所述多个显著性图和所述多个欧几里德距离来计算。

13.如权利要求11所述的一个或多个非暂时性机器可读信息存储介质，其中计算所述多个帧中的每一者的欧几里德距离，以便实时控制待放置在所述输入视频中的所述标签的位置的时间抖动。

14.如权利要求11所述的一个或多个非暂时性机器可读信息存储介质，其中所述指令在由所述一个或多个硬件处理器执行时进一步致使将所述标签从所述初始叠加位置移位到所述更新的叠加位置，以使得对观察所述感兴趣对象时的遮挡最小化。

15.如权利要求11所述的一个或多个非暂时性机器可读信息存储介质，其中选择与在预定阈值范围内的所述当前叠加位置与所述前一叠加位置之间的欧几里德距离相对应的多个像素，用于将所述标签从所述初始叠加位置移位到所述更新的叠加位置。