CN117063206A

CN117063206A - 用于在增强现实观看环境中对齐虚拟物体的装置和方法

Info

Publication number: CN117063206A
Application number: CN202380009233.5A
Authority: CN
Inventors: 倪一翔; 陈燕儿
Original assignee: Hong Kong Applied Science and Technology Research Institute ASTRI
Current assignee: Hong Kong Applied Science and Technology Research Institute ASTRI
Priority date: 2023-04-19
Filing date: 2023-05-25
Publication date: 2023-11-14

Abstract

一种在电子3D观看环境中对齐並叠加AR虚拟物体的方法，包括：接收動作，包括：包含电子3D观看环境的相机拍摄的真實世界物體的周围真实世界场景图像，以及相机真实世界姿態；识别用于将虚拟物體与真实世界物體对齐的参考特征；记录動作及其相应的参考特征；使用相机真实世界姿态和参考特征估计真实世界物体姿态；通过依特徵姿态细化模块以及依图像姿态细化模块进行真实世界物体姿态估计细化；以及根据在3D观看环境中的估计和细化的真实世界物体姿态渲染虚拟物体。

Description

用于在增强现实观看环境中对齐虚拟物体的装置和方法

技术领域

本发明总体来说涉及电子三维(three-dimensional；3D)观看环境(即增强现实眼镜和护目镜)用户交互的方法和系统，以及电子3D观看环境在增强现实应用中的使用方式。

背景技术

在许多商业和工业现场工作场景中，例如电信和公用设备的安装、维护和故障排除，现场技术人员依赖于纸本说明或显示在线说明的移动计算设备，如智能手机和笔记本电脑。这通常很麻烦，需要在执行工作时手中拿着多个物品，更不用说必须与远处的其他人员和专业人员协作的额外难度。引入增强现实(augmented reality；AR)观看设备(如AR眼镜、为AR应用程序配置的智能手机和平板电脑)到其现场工作中，可以将来自后端系统的实时情报、故障排除日志、图形和加密数据流式传输，并随时随地使现场技术人员可以交互访问，从而显着提高操作速度和质量。

通过在用户观看场景中的物体上使用AR技术叠加文本、图像、视频和/或3D模型，以交互的方式向用户提供指导，AR用户手册将在线用户指南推向了新的高度。此方式适用于任何需要以交互方式获得逐步指导或演示的人，可以在许多不同的行业和应用场景中使用。更具体地说，AR用户手册由计算机可视化技术支持，能将计算机生成的图像叠加在用户对真实世界场景的视野上，为用户提供混合的虚拟现实观看体验，从而更好地让用户理解说明和演示。

除了AR用户手册，还有更多其他应用。例如，但不限于，将具有相似形状和外观的虚拟物体叠加到目标真实世界物体上，但具有改变的或附加的人工制品，例如标题或文本、标志或徽标，可用于电子游戏娱乐、娱乐、培训模拟、教育和其他商业和工业应用。

目前，AR用户手册的生成主要有两种方法：基于标记的方法和基于人工智能(AI)的方法。在基于标记的方法中，首先在需要叠加虚拟物体的目标真实世界物体上标记可视标记。使用AR眼镜的用户先在周围真实世界场景中观看目标真实世界物体，以让AR眼镜捕获目标真实世界物体的图像并扫描标记以进行物体姿态估计。随着用户和/或目标真实世界物体相对运动，实时图像和动作传感器数据通过AR眼镜不断捕获，以进行同时定位和建图(simultaneous localization and mapping；SLAM)处理和相机姿态跟踪。使用估计的物体姿态和跟踪的相机姿态，虚拟物体被渲染(叠加)，根据标记的位置放置到AR眼镜显示的真实世界中的目标真实世界物体上。显然，此方法的缺点是需要首先在目标真实世界物体上放置标记，在许多情况下这是不可行的。

在基于人工智能的方法中，采用深度学习系统，例如现成的神经网络之一，从用户通过AR眼镜查看的目标物体的图像中提供目标物体姿态估计。深度学习系统首先通过具有注释的与目标真实世界物体相同类型的物体的图像构建训练数据集。当用户和/或目标真实世界物体相对移动时，通过AR眼镜捕获周围场景的实时图像和动作传感器数据，连续进行SLAM处理和相机姿态跟踪。通过AI估计的目标物体姿态和跟踪的相机姿态，虚拟物体被渲染(叠加)在AR眼镜显示的实时视野中的目标真实世界物体上。通常，这种基于人工智能的方法计算密集，而且准确性很大程度上取决于训练深度学习系统所需的训练数据的数量和相关性。根据目标真实世界物体的类型，获取这样的训练数据的成本或努力可能非常高，甚至是不现实的。

发明内容

为了解决当前技术面临的挑战，本发明提供了一种装置和方法，在电子3D观看环境中，无需预设标记和基于AI系统的训练，即可将虚拟物体对准和叠加在真实世界的物体上。

根据本发明的一个实施例，提供了一种用于在电子三维(3D)观看环境中将虚拟物体对准和叠加到真实世界物体上的方法。方法开始于接收实时动作流，其中的每个动作包括周围真实世界场景的图像，图像包含由电子3D观看环境的相机捕获的真实世界物体，以及相机真实世界姿态。

然后，方法继续识别用于将虚拟物体对准现实世界物体的参考特征，其中参考特征包括图像中的现实世界物体上的现实世界地标的现实世界位置坐标，以及对应的虚拟地标在虚拟物体上的虚拟位置坐标。

方法还包括如果动作从上次记录的动作改变，则记录所述动作；如果参考特征从上次记录的参考特征改变，则记录所述参考特征。

方法还包括在分割包含真实世界对象的周围真实世界场景的捕获图像时，使用基于深度神经网络(DNN)的图像分割来估计真实世界对象姿态，随后通过基于DNN的姿态估计推断相对真实世界物体方向相对于相机真实世界方向。然后从向量计算中估计真实世界物体姿态，其中向量计算使用相机真实世界姿态、相对真实世界物体方向和参考特征。然后，通过使用选定数量的记录动作的图像处理对真实世界物体姿态估计进行细化，从而进一步细化真实世界物体姿态估计。

对于实时动作流中的每个后续动作，仅通过使用所选数量的记录特征的特征过程的真实世界物体姿态估计细化来细化真实世界物体姿态估计，直到安排的虚拟物体的多轮廓视图(其根据估计和细化的真实世界物体姿态安排)不再匹配真实世界物体的多轮廓视图，然后通过执行真实世界物体姿态估计过程和图像处理的真实世界物体姿态估计细化来重新估计真实世界物体姿态。

最后，根据在3D观看环境中估计和细化的真实世界对象姿态渲染虚拟对象，将虚拟对象叠加到由相机捕获的周围真实世界场景的图像中的真实世界对象上。

附图说明

下文将参照附图更详细地描述本发明的实施例，其中:

图1描绘了用来说明根据本发明的一个实施例的电子3D观看环境的逻辑模块和组件的示意图；

图2为根据本发明的一个实施例的电子3D观看环境的方法流程示意图；

图3为根据本发明的一个实施例描绘确定安排的虚拟对象的多轮廓视图是否匹配现实世界对象的多轮廓视图的图示；

图4A描绘了基于深度神经网络(DNN)的图像分割和基于DNN的姿态估计的图示，其根据本发明的一个实施例用于通过电子3D观看环境从周围真实世界场景的捕获图像估计真实世界物体姿态；

图4B描绘了真实世界位置坐标系和虚拟位置坐标系的图示，其根据本发明的一个实施例用于通过电子3D观看环境从捕获的图像估计真实世界物体姿态；

图5描绘了根据本发明的一个实施例的通过特征过程进行的真实世界物体姿态估计细化的图示。

具体实施方式

在下面的描述中，阐述了将虚拟物体对齐和叠加到电子3D观看环境中的真实世界物体的装置和方法等的首选示例。对于熟悉本领域的人士来说，可以进行修改，包括添加和/或替换，而不脱离本发明的范围和精神。可能省略具体细节，以避免混淆发明；但是，撰写本公开是为了使本领域的技术人员能够在不进行过多实验的情况下实施本发明的教导。

根据本发明的一个方面，提供了一种电子3D观看环境的装置，其用以在电子3D观看环境中将虚拟物体对齐并叠加到真实世界的物体上。不限于此，虚拟物体可能具有类似于其叠加物体的形状和外观，但带有改变的或额外的人工制品，例如标题或文本，亦即，用户手册或通知、标志、或徽标。因此，电子3D观看环境允许其用户同时查看其周围的真实世界场景，并在增强现实中显示或投射3D增强内容(叠印到周围的真实世界场景中)。

以下的描述请一并参考图1。在不同的实施方式中，电子3D观看环境100的装置至少包括一个图像显示或投影系统101，其用于显示或投影用户观看的增强图像，包括一个内部光学传感器(或相机)103，其用于捕获周围真实世界场景的图像，包括一个或多个动作传感器102，其用于跟踪内部光学传感器103的位置和方向(相机姿态)。在运行时，当用户使用电子3D观看环境时，生成一个实时动作流，其每个动作包含捕获的周围真实世界场景图像和相机姿态。然后增强实时动作流，其使用虚拟物体叠加到图像中显示的真实世界物体上，使其如在相应的相机姿态下捕获的，以呈现增强的3D观看环境。

装置100还包括多个逻辑执行模块，包括一个位置和方向跟踪模块111，其用于使用从电子三维观看环境的一个或多个动作传感器102接收到的信号数据，以计算光学传感器103的真实世界位置坐标和方向。信号数据可以是，但不限于，全球定位系统(GlobalPositional System；GPS)信号数据、无线通信信号的三角定位、光学传感器103和动作传感器102的传感器融合算法数据，或视觉惯性里程计信号数据。

执行模块还包括一个参考特征捕捉模块112，其用于识别所捕获到的周围真实世界场景图像中的真实世界地标参考特征。真实世界地标可以是捕获图像中的任何视觉标记(例如条形码或QR码)，因此参考特征捕捉模块112可以采用基于机器学习(machinelearning；ML)的物体检测器和/或代码扫描器来检测和/或扫描真实世界地标。参考特征捕捉模块112还可以使用用户界面，允许用户能够在显示给用户的图像中，手动指示真实世界地标。在检测到图像中的真实世界地标之后，参考特征捕捉模块112确定其在图像中的图像位置坐标。此外，参考特征捕捉模块112从3D模型数据库131中接收与真实世界物体相对应的虚拟物体及其相应的虚拟地标的虚拟位置坐标。

执行模块还包括一个空间映射或深度估计模块113，其用于从图像位置坐标估计检测到的真实世界地标的实际位置坐标(深度)；以及渲染模块114，其用于渲染增强图像，其中虚拟物体叠加在要由图像显示或投影系统101显示的真实世界物体上，或渲染投影图像，其中虚拟物体叠加在要由图像显示或投影系统101投影到光学复合器(例如波导)上的真实世界物体上。

执行模块还包括动作记录模块121、姿态估计模块122、姿态细化模块123和图像相似度计算器124。动作记录模块121用于记录运行期间生成的一个或多个动作，以运用于估计和估计细化所显示的真实世界物体的真实世界物体姿态。姿态估计模块122用于估计所显示的真实世界物体的真实世界物体姿态。姿态细化模块123用于细化所显示的真实世界物体的真实世界物体姿态的估计。姿态细化模块123包括依图像姿态细化模块123A和依特征姿态细化模块123B。图像相似度计算器124用于执行所安排的虚拟物体和真实世界物体的多轮廓视图匹配，以确定是否需要重新估计真实世界物体的姿态。

在一种实施例中，位置和方向跟踪模块111、参考特征捕获模块112、空间映射或深度估计模块113和渲染模块114由配置的本地处理器110执行，所述处理器与图像显示或投影系统101、动作传感器102和光学传感器103电性连接；动作记录模块121、姿态估计模块122、姿态细化模块123和图像相似度计算器124由配置的远程处理器120执行。不限于此，在所述实施例中，本地处理器110可以由置放在可穿戴计算设备内的低功率处理器实现，例如，一对在运行时由用户佩戴的增强现实眼镜或护目镜；而远程处理器120则是具有更高处理能力和容量的处理器，其可置放在单独的服务器计算设备或移动计算设备中。在所述实施例中，本地处理器110和远程处理器120之间的有线或无线数据通信通过由本地处理器110执行的通信模块115和由远程处理器120执行的相应通信模块125实现。

在另一种实施例中，所有执行模块都由具有足够计算能力和容量的同一处理器执行。在这种实施例下，通信模块115和125可以被省略。

以下的描述请一并参考图2。根据本发明的另一个方面，提供了一种用于将虚拟物体对准并叠加到电子3D观看环境中的真实世界物体的方法。根据一种实施例，所述方法从以下步骤(S201)开始，由本地处理器110接收运行时的多个动作生成的流中的一个动作。所述动作包括，由光学传感器103捕获的包含真实世界物体的周围真实世界场景的图像；和相机真实世界的姿态。相机真实世界的姿态包括由位置和方向跟踪模块111确定的光学传感器103的相机真实世界位置坐标和相机真实世界方向。

方法接续进行到以下步骤(S202)，由参考特征捕获模块112识别真实世界物体上的参考特征，其用于将虚拟物体与真实世界物体对齐。参考特征包括图像中真实世界物体上的真实世界地标的真实世界位置坐标；以及对应的虚拟地标在虚拟物体上的虚拟位置坐标。

在动作记录模块121、姿态估计模块122和姿态细化模块123由与执行其他执行模块的本地处理器110分离的远程处理器120执行的实施例中，可将动作和特征传输到远程处理器120，以供动作记录模块121、姿态估计模块122和姿态细化模块123进一步处理。

方法进一步包括以下步骤：(S203)如果相机姿态从上次记录的相机姿态发生变化，则由动作记录模块121记录所述动作；如果参考特征从上次记录的参考特征发生变化，则记录所述参考特征。具体来说，如果动作包含一个相机真实世界位置坐标，其与上一个记录的动作的相机真实世界位置坐标的偏离超过最大相机位置坐标变化阈值(Th_l)，或者如果动作包含一个相机真实世界方向，其与上一个记录的动作的相机实际方向的偏离超过最大相机方向变化阈值(Th_o)，则认为所述动作已经发生变化。对于参考特征记录，如果真实世界地标的真实世界位置坐标或相应虚拟地标的虚拟位置坐标中的任何一个发生变化，则认为参考特征已发生变化。

方法还包括以下步骤：(S204)由姿态估计模块122估计真实世界物体的姿态，其中真实世界物体的姿态包括动作中的真实世界物体的真实世界位置坐标和真实世界物体的真实世界方向。

在进行真实世界物体姿态估计(S204)后，通过依图像姿态细化模块123A执行的依图像的真实世界物体姿态估计细化(S205)来细化真实世界物体姿态估计，然后，通过由依特征姿态细化模块123B执行的依特征的真实世界物体姿态估计细化(S206)进行细化。

在进行真实世界物体姿态估计(S204)和依图像的真实世界物体姿态估计细化(S205)后，估计和细化后的真实世界物体姿态被渲染模块114用于安排和渲染3D观看环境中的虚拟物体(S208)。

对于实时动作流中的每个后续动作，仅通过依特征姿态细化模块123B来细化真实世界物体姿态估计(S206)；直到当图像相似度计算器124确定根据估计和细化的真实世界物体姿态安排的虚拟物体的多轮廓视图不再匹配真实世界物体的多轮廓视图的时候，才会执行真实世界物体姿态估计(S204)和依图像的真实世界物体姿态估计细化(S205)。

在由图像相似度计算器124执行的安排的虚拟物体和实际物体的多轮廓匹配(S207)中，首先根据估计和细化的真实世界物体姿态，为每个从记录的动作中选择的一个或多个所选择的记录动作生成虚拟物体的二维(2D)轮廓。选择记录动作包括：获得锚定记录动作，所述动作是前一次执行真实世界物体姿态估计(S204)和依图像的真实世界物体姿态估计细化(S205)过程的动作；通过与锚定记录动作的差异大小排序记录的动作；选择S-1个与锚定记录动作最不相似的记录动作作为所选择的记录动作。

然后，在每个选择的动作中识别图像中的真实世界物体的真实世界物体2D轮廓。图像相似度计算器124将第一2D轮廓中的每一个叠加在其对应的所选择的记录动作中的每一个的真实世界物体2D轮廓之上，以将虚拟物体2D轮廓与真实世界物体2D轮廓匹配。

为举例说明，请参考图3。叠加的图像301a，302a和303a被认为是匹配的，而301b，302b和303b则被认为是不匹配的。如果所有不匹配的虚拟物体2D轮廓和真实世界物体2D轮廓对的平均图像相似度低于最小多轮廓视图相似度阈值(Th_MOV)，则被认为是虚拟物体的多轮廓视图与真实世界物体的多轮廓视图不匹配。否则，将被认为是虚拟物体的多轮廓视图与真实世界物体的多轮廓视图匹配。

如果安排的虚拟物体的多轮廓视图与真实世界物体的多轮廓视图不匹配，则需要重新在真实世界物体姿态估计(S204)和依图像的真实世界物体姿态估计细化(S205)的过程中估计和细化真实世界物体姿态。

在动作记录模块121、姿态估计模块122、姿态细化模块123和图像相似度计算器124由与执行其他执行模块的本地处理器110分离的远程处理器120执行的实施例中，估计(和细化)的真实世界物体姿态会被传输到本地处理器110以供渲染模块114进一步处理。

渲染模块114执行(S208)渲染，其通过依据估计的真实世界物体姿态在3D观看环境中安排虚拟物体，并将安排好的虚拟物体叠加在相机捕获到的周围真实世界场景的每个图像上的真实世界物体上。

以下的描述请一并参考图4A和4B。根据一个实施例，从包含真实世界物体的周围真实世界场景的捕获图像i中估计真实世界物体的姿态包括以下步骤：(S401)通过基于深度神经网络(deep neural network；DNN)的图像分割将包含真实世界物体的图像区域(补丁)进行分割；然后(S402)通过基于DNN的姿态估计推断相对于相机真实世界方向的相对真实世界物体方向相对真实世界物体方向包括相对真实世界物体方位角(α)、相对真实世界物体高度和相对真实世界物体的平面内转动。

在推断出相对真实世界物体方向之后，真实世界物体姿态的估计继续进行获得真实世界地标到相机向量其可从真实世界地标的真实世界位置坐标/>指向相机真实世界位置坐标/>获得。真实世界地标到相机向量/>可以表示为：

真实世界物体姿态的估计进一步包括估计真实世界物体到地标向量其从真实世界物体的真实世界位置坐标/>到真实世界地标/>其可通过计算相机真实世界方向的向量运算结果/>估计相对真实世界物体方向、相应虚拟地标的虚拟位置坐标/>以及一个可配置的在真实世界物体和虚拟物体之间的物体缩放比例(1)而得到。向量算术计算可以表示为：

有了真实世界的地标到相机向量和真实世界的物体到地标向量/>一个真实世界的相机到物体的向量/>可被估计出来，其是通过计算估计的真实世界物体到地标向量和真实世界地标到相机向量的向量算术结果；真实世界的相机到物体向量/>的计算可以表示为：

然后可以通过计算相机真实世界位置坐标和估计的真实世界相机到物体向量的向量运算结果来估计真实世界物体在真实世界位置坐标而真实世界物体在真实世界位置坐标/>的计算可以表示为：

最后，通过旋转相机真实世界方向其由相对真实世界物体方向决定，可估计出真实世界物体在真实世界方向/>例如：/>

根据一个实施例，依图像的真实世界物体姿态估计细化(S205)包括选择N个记录的动作作为所选动作，每个动作包括周围真实世界场景的捕获图像和相机姿态(真实世界位置坐标和真实世界方向)(其中n＝1,…N)。对于每个选定的动作，其对应的参考特征(真实世界地标的真实世界位置坐标和相应虚拟地标的虚拟位置坐标)(/> 其中n＝1,…N)也是由参考特征获取模块112根据上述方法步骤S202所执行的识别得到的。此外，相应的相对真实世界对象方位角(/>其中n＝1,…N)由真实世界物体姿态估计(S204)中的基于DNN的姿态估计推断。基于DNN的图像分割应用于每个捕获的图像，以提取捕获图像中包含的真实世界物体的真实世界物体子图像掩码({S_n},其中n＝1,…N)。

对于每个选定的动作n，图像姿态细化模块123A模拟虚拟物体在虚拟位置坐标系统下的虚拟相机视图。首先，设置虚拟物体位于虚拟位置坐标系统下的原点(0,0,0)。然后，利用光学传感器103的相机固有属性，其固有属性矩阵可以表示为：

以及校正而得到的光学传感器103的焦距F，配置虚拟相机以使其焦距与光学传感器103的焦距相等；其传感器宽度S_x为：

S_x＝f_x/F；

其传感器高度S_y为：

S_y＝f_y/F；和

它的主要点为(c_x,c_y)。

然后根据缩放的真实世界相机到物体向量(其中n＝1,…N,λ为真实世界物体与虚拟物体的物体缩放比例)以及每个选定动作n中的图像({Image_n},其中n＝1,…N)的优化相对真实世界对象方位角(/>其中n＝1,…N)，将虚拟相机放置在模拟虚拟相机视图中的虚拟位置坐标系下。

利用选定的动作、相应的参考特征和推断的相对真实世界对象方位角，图像姿态细化模块123A可对于每个选定动作n中的图像({Image_n},其中n＝1,…N)计算真实世界相机到物体向量(其中n＝1,…N)，其步骤与真实世界物体姿态估计(S204)过程中的方法步骤相比，除了为所选动作n获得真实世界物体到地标向量的向量算术计算被改变为基于针对所选动作n的优化的相对真实世界物体方位角以外，其余均相同。

对所选动作n(其中n＝1,…N)的真实世界物体到地标向量的向量算术计算的改变可以表示为：

以及

其中n＝1,…N。所选动作m的优化的相对真实世界物体方位角是所选动作n的对应的相对真实世界物体方位角({α_n},其中n＝1,…N)与优化因子j*δ_a的总和，其中所选动作n的对应的相对真实世界物体方位角是基于DNN的姿态估计推断的。虚拟相机还针对所选动作n相对于模拟虚拟相机视图中的虚拟物体旋转，其旋转是针对所选动作n的优化的相对真实世界物体方位角

对于每个选定的动作，基于DNN的图像分割可应用于为选定动作n模拟的每个虚拟相机视图，以提取虚拟物体的虚拟物体子图像掩码({V_n},其中n＝1,…N)。依图像姿态细化模块123A然后可计算真实世界物体子图像掩模S_n与虚拟物体子图像掩模V_n之间的均方误差PSE(σ_n)。最后，依图像姿态细化模块123A可找到优化因子j*δ_a，使得所有选定动作的平均均方误差即/>处于最小值。通过将优化因子j*δ_a应用于在真实世界物体姿态估计(S204)过程中获得的相对真实世界物体方位角，可细化运行时估计的真实世界物体姿态。

简而言之，当真实世界物体姿态估计(S204)找到粗略估计的真实世界物体姿态时，依图像的真实世界物体姿态估计细化(S205)可细化粗略估计的真实世界物体姿态，以更准确地估计出真实世界物体姿态。

根据某一实施例，通过特征细化真实世界物体姿态估计(S206)包括在实时动作流中获取N-1个连续动作，这些动作在上次执行实现真实世界物体姿态估计(S204)和通过依图像细化实现真实世界物体姿态估计(S205)的动作之后和当前(第N个)动作之前被选择为所选动作。每个选定的动作都包含一个周围真实世界场景的捕获图像和一个相机姿态(真实世界位置坐标和真实世界方向)(其中i＝1,…N-1)。然后从记录的参考特征中选择M-1个参考特征，每个参考特征包括一个真实世界地标的真实世界位置坐标和相应虚拟地标的虚拟位置坐标(/>其中m＝1,…M-1)。

选择参考特征中的M-1个的每一个，原因是其与前一次实时动作所对应的参考特征不同(或发生变化)。

参考图5举例说明，选择了N-1个连续动作，同时选择了M-1个参考特征，用于通过特征细化真实世界物体姿态估计。

有了N-1个选定的动作和相应的M-1个选定的参考特征，使用一个改变的向量算术计算来获得对于所选动作i的真实世界的物体到地标向量(其中i＝1,…N-1；m＝1,…M-1)，其是对于所选动作i的基于优化的相对真实世界对象方位角({α_j},其中i＝1,…N-1)。

对于所选动作i的真实世界物体到地标向量(其中i＝1,…N-1；m＝1,…M-1)的更改向量算术计算可表示为：

以及

α_j＝α+j*δ_a；

其中i＝1,…N-1；m＝1,…M-1。优化的相对真实世界物体方位角α_j是相对真实世界物体方位角α和优化因子j*δ_a的总和，其中相对真实世界物体方位角α是在真实世界物体姿态估计(S204)和最后执行的通过依图像细化实现真实世界物体姿态估计(S205)中获得的。最后，依特征姿态细化模块123B可找到优化因子j*δ_a，其能最小化标准偏差，此标准偏差对应于M-1个选定参考特征的选定动作的估计的真实世界物体在真实世界位置坐标(其获得方式可基于与使用优化的相对真实世界物体方位角α_j的真实世界物体姿态估计(S204)过程的相同计算步骤)。

通过将优化因子j*δ_a应用在前一次真实世界物体姿态估计(S204)和通过依图像细化实现真实世界物体姿态估计(S205)的执行过程中，最后获得的相对真实世界物体方位角，可细化运行时估计的真实世界物体姿态(针对当前动作)。

本文公开的实施例可使用计算装置、计算机处理器或电子电路实施，包括但不限于专用集成电路(application specific integrated circuits,ASIC)、现场可编程门阵列(field programmable gate arrays,FPGA)和根据本公开内容的教导配置或编程的其他可编程逻辑装置。基于本公开的教导，软件或电子领域的技术人员可以容易地准备在通用或专用计算设备、计算机处理器或可编程逻辑设备中运行的计算机指令或软件代码。

所有或部分实施例可在一个或多个通用或计算装置中执行，包括服务器计算机、个人计算机、笔记本电脑、移动计算装置，如智能手机和平板电脑。

所述实施例包括存储有计算机指令或软件代码的计算机存储介质，可用于对计算机或微处理器进行编程，以执行本发明的任何过程。存储介质可以包括但不限于软盘、光盘、蓝光光盘、DVD、CD-ROM和磁光盘、ROM、RAM、闪存设备，或者适于存储指令、代码和/或数据的任何类型的介质或设备。

本发明的各种实施例也可在分布式计算环境和/或云计算环境中实施，其中，通过通信网络互连的一个或多个处理装置以分布式方式执行全部或部分机器指令，所述通信网络包括内联网(intranet)、广域网(Wide Area Network,WAN)、局域网(Local AreaNetwork,LAN)、互联网(Internet)和其他形式的数据传输介质。

本发明的上述描述仅用于说明和描述目的。它并不旨在详尽或限制发明仅限于公开的精确形式。许多修改和变化对于熟练的技术人员来说是显而易见的。所述实施例是为了最好地解释本发明的原理和实际应用，从而使其他熟练的技术人员能够理解适用于特定用途的各种实施例和各种修改。

Claims

1.一种在电子三维(3D)观看环境中将虚拟物体对齐并叠加到真实世界物体上的方法，其特征在于，包括：

接收实时动作流中的动作，所述动作包括：

周围真实世界场景的图像，其包含由电子3D观看环境的相机捕获的真实世界物体；和

相机真实世界姿态，其由位置和方向跟踪模块确定，所述相机真实世界姿态包括：

所述相机的相机真实世界位置坐标；和

所述相机的镜头的相机真实世界方向；

通过参考特征捕获模块，识别用于将虚拟物体与真实世界物体对齐的参考特征，其中所述参考特征包括：

所述图像中的所述真实世界物体上的真实世界地标的真实世界位置坐标；和

所述虚拟物体上对应的虚拟地标的虚拟位置坐标；

如果所述动作与上次记录的所述动作不同，则通过动作记录模块记录所述动作；

如果所述参考特征从上次记录的所述参考特征改变，则通过所述动作记录模块记录所述参考特征；

通过姿态估计模块估计真实世界物体姿态，其中所述真实世界物体姿态包括所述动作的所述真实世界物体的真实世界物体在真实世界的位置坐标和包括所述动作的所述真实世界物体的真实世界物体在真实世界的方向；

通过依图像姿态细化模块细化所述真实世界物体姿态估计；

通过依特征姿态细化模块细化所述真实世界物体姿态估计；

通过图像相似度计算器确定安排的所述虚拟物体的多轮廓视图是否匹配所述真实世界物体的多轮廓视图；

通过渲染模块根据在3D观看环境中的估计和细化的所述真实世界物体姿态安排和渲染所述虚拟物体；

其中，在所述姿态估计模块每次执行所述真实世界物体姿态估计和所述依图像姿态细化模块对所述真实世界物体姿态估计进行细化之后，所述真实世界物体姿态估计仅通过所述依特征姿态细化模块对实时动作流中的每个后续动作进行细化，直到安排的所述虚拟物体的所述多轮廓视图不再匹配所述真实世界物体的所述多轮廓视图；和

其中，如果所述图像相似度计算器确定安排的所述虚拟物体的所述多轮廓视图与所述真实世界物体的所述多轮廓视图不匹配，则通过所述姿态估计模块执行所述真实世界物体姿态估计和通过所述依图像姿态细化模块执行真实世界物体姿态估计细化，以重新估计所述真实世界物体姿态。

2.如权利要求1所述的方法，其特征在于，其中对所述真实世界物体姿态的估计包括：

通过基于深度神经网络(DNN)的图像分割来分割包含所述真实世界物体的图像区域；

通过基于DNN的姿态估计推断相对于所述相机真实世界方向的相对真实世界物体方向，其中所述相对真实物体方向包括相对真实世界物体方位角、相对真实世界物体仰角和相对真实世界物体平面内旋转；

获得真实世界地标到相机向量，其为从所述真实世界地标的所述真实世界位置坐标到所述相机真实世界位置坐标；

通过计算所述相机真实世界方向、所述相对真实世界物体方向、对应所述虚拟地标的所述虚拟位置坐标、所述真实世界物体与所述虚拟物体的所述物体缩放比例的向量运算结果，來估计真实世界物体到地标向量,其为从所述真实世界物体的所述真实世界位置坐标到所述真实世界地标的所述真实世界位置坐标；

通过计算估计的所述真实世界物体到地标向量和所述真实世界地标到相机向量的向量总和来估计真实世界相机到物体向量；

通过计算所述相机真实世界位置坐标和估计的所述真实世界相机到物体向量的向量总和来估计所述真实世界物体在所述真实世界位置坐标；和

通过所述相对真实世界物体方向旋转所述相机真实世界方向来估计所述真实世界物体在所述真实世界方向。

3.如权利要求1所述的方法，其特征在于，其中依特征的真实世界物体姿态估计细化包括：

在最后执行所述真实世界物体姿态估计和所述依图像姿态细化模块的所述真实世界物体姿态估计细化的动作之后，选择实时动作流中的N-1个动作作为所选动作，每个选定的动作包括：

为所选动作捕获的所述周围真实世界场景的所选图像；和

相机姿态，包括针对所选动作的相机真实世界位置坐标和相机真实世界方向；

从记录的所述参考特征中选择M-1个所选参考特征，每个选择的所述参考特征包括：

对应于一个或多个所选动作的真实世界地标的真实世界位置坐标；和

对应的虚拟地标的虚拟位置坐标；

使用改变的向量算术计算，其基于优化的相对真实世界物体方位角、对应所述虚拟地标的所述虚拟位置坐标以及真实世界物体与虚拟物体的物体缩放比例，为所选的所述动作中的每个选定的所述动作估计真实世界物体到地标向量，其中所述优化的相对真实世界物体方位角是相对真实世界物体方位角与优化因子的总和，其中所述相对真实世界物体方位角是在所述依图像姿态细化模块最后执行所述真实世界物体姿态估计和所述真实世界物体姿态估计细化获得的；

基于所述优化的相对真实世物体方位角，使用估计的所述真实世界物体到地标向量，为所选动作估计真实世界物体在真实世界位置坐标；

找到使所有选定动作的所有估计的所述真实世界物体在真实世界位置坐标的标准偏差最小化的所述优化因子；和

在运行时，将所述优化因子应用于估计和细化的所述真实世界物体姿态中的相对真实世界物体方位角。

4.根据权利要求1所述的方法，其特征在于，其中依图像的真实世界物体姿态估计细化包括：

选择M个记录的动作作为所选动作，每个所选动作包括针对所选动作的所述周围真实世界场景的捕获图像和相机姿态，所述相机姿态包括针对所选动作的相机真实世界位置坐标和相机真实世界方向；

通过基于DNN的图像分割对包含所述真实世界物体的捕获图像区域进行分割；

计算所选动作的所述相机真实世界方向、所选动作的优化的相对真实世界物体方位角、所选动作对应的所述虚拟地标的所述虚拟位置坐标以及真实世界物体和虚拟物体之间的物体缩放比例的向量运算结果，估计所选动作的真实世界物体到地标向量，其从所选动作的所述真实世界物体在所述真实世界位置坐标到所选动作的所述真实世界地标的所述真实世界位置坐标；

通过计算所选动作的估计的所述真实世界物体到地标向量与所选动作的真实世界地标到相机向量的向量总和，为所选动作估计真实世界相机到物体向量；

针对所选动作模拟所述虚拟物体的所述虚拟相机视图，包括：

将所述虚拟物体的所述虚拟位置坐标设置为原点；

根据电子3D观看环境的相机固有属性和相机的校正焦距配置所述虚拟相机；

根据所述真实世界相机到物体向量放置所述虚拟相机，其针对通过所述真实世界物体和所述虚拟物体之间的所述物体缩放比例缩放的所选动作；和

根据针对所选动作优化的所述相对真实世界物体方位角旋转所述虚拟相机；

通过基于DNN的图像分割为所选动作提取包含在捕获图像中的所述真实世界物体的真实世界物体子图像掩码；和

为基于DNN的图像分割的所选动作提取模拟的所述虚拟相机视图中的所述虚拟物体的虚拟物体子图像掩码；

其中针对所选动作的优化的所述相对真实世界物体方位角是针对所选动作推断的所述相对真石世界物体方位角与优化因子的总和；

找到优化因子值，使得所有选定动作的所述真实世界物体子图像掩模与其对应的所述虚拟物体子图像掩模对之间的平均均方误差最小；和

在运行时将所述优化因子应用于估计所述真实世界物体姿态中的所述相对真实世界物体方位角。

5.如权利要求1所述的方法，其特征在于，

其中所述相机真实世界位置坐标和所述相机真实世界方向由所述位置和方位跟踪模块使用从电子3D观看环境的一个或多个动作传感器接收的信号数据来计算；和

其中所述信号数据包括全球定位系统(GPS)信号数据、无线通信信号的无线三角测量、来自所述相机和所述动作传感器的传感器融合算法的数据、以及视觉惯性里程计信号数据中的一种或多种。

6.如权利要求1所述的方法，其特征在于，所述参考特征的识别包括：

使用物体检测器、扫描视觉标记或使用用户界面来检测所述真实世界地标，以指示图像中的所述真实世界物体上的所述真实世界地标；

确定检测到的所述真实世界地标的图像位置坐标；

通过空间映射或深度估计模块从所述真实世界地标的所述图像位置坐标计算所述真实世界地标的所述真实世界地标的所述真实世界位置坐标；和

获取所述虚拟物体上对应的所述虚拟地标的所述虚拟位置坐标。

7.如权利要求1所述的方法，其特征在于，其中确定安排的所述虚拟物体的所述多轮廓视图是否匹配所述真实世界物体的所述多轮廓视图包括：

生成所述虚拟物体的虚拟物体二维(2D)轮廓，所述虚拟物体的安排是根据为从记录的动作中选择的一个或多个动作中的每一个计算得到的所述真实世界物体姿态；

在每个选定的记录动作中，识别图像中的所述真实世界物体的真实世界物体2D轮廓；

将每个所述虚拟物体2D轮廓叠加在每个所选动作的相应所述真实世界物体2D轮廓之上，以将所述虚拟物体2D轮廓与所述真实世界物体2D轮廓相匹配；和

如果所有未匹配的所述虚拟物体2D轮廓和真实世界物体2D轮廓对的平均图像相似度低于最小多轮廓视图相似度阈值，则认为安排的所述虚拟物体的所述多轮廓视图是与所述真实世界物体的所述多轮廓视图不匹配，

否则，安排的所述虚拟物体的所述多轮廓视图被认为匹配所述真实世界物体的所述多轮廓视图。

8.如权利要求1所述的方法，其特征在于，所述虚拟物体包括用户手册、通知、标志和标志中的一项或多项。

9.如权利要求1所述的方法，其特征在于，

其中所述位置和方向跟踪模块、所述参考特征捕获模块、所述空间映射或深度估计模块和所述渲染模块由本地处理器执行；和

其中所述动作记录模块、所述姿态估计模块、所述依图像姿态细化模块、所述依特征姿态细化模块特征姿态细化模块和所述图像相似度计算器由远程处理器执行。

10.一种用于在电子三维(3D)观看环境中处理实时动作流、将虚拟物体对齐并叠加到真实世界物体上的装置，实时动作流中的每个动作包括周围真实世界场景和相机真实世界姿态，所述装置包括：

相机，用以捕获所述周围真实世界场景的，所述图像，其包含所述真实世界物体；

位置和方向跟踪模块，用以确定所述相机真实世界姿态，所述相机真实世界姿态包括：

所述相机的相机真实世界位置坐标；和

所述相机的镜头的相机真实世界方向；

参考特征捕获模块，用以识别用于将所述虚拟物体与物体真实世界物体对齐的参考特征，其中所述参考特征包括：

所述虚拟物体上对应的虚拟地标的虚拟位置坐标；

动作记录模块，用以：

如果所述动作与上次记录的所述动作不同，则记录所述动作；和

如果所述参考特征从上次记录的所述参考特征改变，则记录所述参考特征；

姿态估计模块，用以估计真实世界物体姿态，其中所述真实世界物体姿态包括所述动作的所述真实世界物体的真实世界物体在真实世界的位置坐标和包括所述动作的所述真实世界物体的真实世界物体在真实世界的方向；

依图像姿态细化模块，用以细化所述真实世界物体姿态估计；

依特征姿态细化模块，用以细化所述真实世界物体姿态估计；

图像相似度计算器，用以确定安排的所述虚拟物体的多轮廓视图是否匹配所述真实世界物体的多轮廓视图

渲染模块，用以根据在3D观看环境中的估计和细化的所述真实世界物体姿态安排和渲染所述虚拟物体；

11.如权利要求10所述的装置，其特征在于，其中对所述真实世界物体姿态的估计包括：

12.如权利要求10所述的装置，其特征在于，其中所述依特征姿态细化模块进行的所述真实世界物体姿态估计细化包括：

为所选动作捕获的所述周围真实世界场景的所选图像；和

对应的虚拟地标的虚拟位置坐标；

13.根据权利要求10所述的装置，其特征在于，其中所述依图像姿态细化模块进行的所述真实世界物体姿态估计细化包括：

将所述虚拟物体的所述虚拟位置坐标设置为原点；

14.如权利要求10所述的装置，其特征在于，

15.如权利要求10所述的装置，其特征在于，其中所述参考特征捕获模块对所述参考特征的识别包括：

确定检测到的所述真实世界地标的图像位置坐标；

16.如权利要求10所述的装置，其特征在于，其中确定安排的所述虚拟物体的所述多轮廓视图是否匹配所述真实世界物体的所述多轮廓视图包括：

17.如权利要求10所述的装置，其特征在于，所述虚拟物体包括用户手册、通知、标志和标志中的一项或多项。

18.如权利要求10所述的装置，其特征在于，