CN113615169B

CN113615169B - 用于扩增现实用户手册的设备和方法

Info

Publication number: CN113615169B
Application number: CN202180001802.2A
Authority: CN
Inventors: 倪一翔; 陈燕儿
Original assignee: Hong Kong Applied Science and Technology Research Institute ASTRI
Current assignee: Hong Kong Applied Science and Technology Research Institute ASTRI
Priority date: 2021-05-17
Filing date: 2021-05-18
Publication date: 2022-06-10
Anticipated expiration: 2041-05-18
Also published as: CN113615169A

Abstract

一种在电子3D查看环境中生成AR用户手册的方法，包括：记录3D查看环境的光学传感器的移动轨迹；接收界标位置信息；执行迭代目标对象位姿估计，包括：从记录的移动轨迹中的每个光学传感器位姿和界标位置估计目标对象位姿；从被布置在估计的目标对象位姿中并投影到现实世界场景中的目标对象上的3D模型计算估计误差；计算估计误差的平均值；并且重复迭代目标对象位姿估计以最佳化所估计的目标对象位姿从而获得目标对象位姿平均估计误差的最小值；如果平均估计误差的最小值在预定义的估计误差阈值内，则根据最佳化的估计的目标对象位姿将AR用户手册渲染到目标对象上。

Description

用于扩增现实用户手册的设备和方法

技术领域

本发明大体上涉及用于电子三维(3D)查看环境(即，扩增现实眼镜和护目镜)用户交互的方法和系统，以及电子3D查看环境用于扩增现实应用的用途，特别是扩增用户手册的用途。

背景技术

在例如电信和公共设施设备的安装、维护及故障处理的许多商业和工业现场工作情境中，实地技术员依赖于纸质指令或显示在比如智能电话和膝上型计算机的移动计算装置上的在线指令，因而通常需要繁琐地在执行工作的同时手头协调应付多个物品，更不用说必须与相距较远的其他人员和主题专家协作所增加的难度。在实地工作中引入扩增现实(AR)查看装置(即，被配置成用于AR应用的AR眼镜、智能电话和平板计算机)，使得实时情报、故障处理日志、来自后端系统的图形和经加密数据中可被串流处理，并在任何时候任何地方让实地技术员就地存取，从而显著地改进操作速度和质量。

AR用户手册通过AR技术将文本、图像、视频和/或3D模型覆叠在用户的查看场景中的对象上从而以交互方式向用户提供指令，将在线用户指南带到了另一个层次。其可以适用于任何人以交互方式从逐步指令或演示中获益，并且可在许多不同工业和应用情形中使用。更确切地说，AR用户手册由计算机可视化技术支持，计算机可视化技术将计算机生成的图像叠加在用户的现实世界场景的视图上，从而为他们提供更好理解的指令和演示的混合虚拟现实查看体验。

当前，AR用户手册生成有两种主要方法：基于标记的方法和基于人工智能(AI)的方法。图1A示出基于标记的方法的过程流程。在基于标记的方法下，首先用标记或视觉界标来标记AR用户手册将在上面叠加的目标对象。用户首先使用一对AR眼镜查看实况场景中的目标对象，让AR眼镜捕获目标对象的图像且扫描标记以用于对象位姿估计。随着用户和/或目标对象相对于彼此四处移动，经由AR眼镜查看实时图像，且连续地捕获运动传感器数据以用于同时定位与映射(SLAM)处理和相机位姿跟踪。借助于所估计的对象位姿和所跟踪的相机位姿，根据标记定位，把AR用户手册渲染(覆叠)到由AR眼镜显示的实况视图中的目标对象上。显然，此方法的缺点是需要首先将标记放置在目标对象上，这在许多情形中是不可行的。

图1B示出基于AI的方法的过程流程。在基于AI的方法下，依据由用户经由AR眼镜查看的实况场景中的目标对象的图像，使用例如一个容易获得的神经网络中的深度学习系统提供实况场景中的目标对象的对象位姿估计。首先使用包括类型与具有注释的目标对象的类型相同的对象的图像的训练数据集来训练深度学习系统。随着用户和/或目标对象相对于彼此四处移动，经由AR眼镜查看实时图像，且连续地捕获运动传感器数据以用于SLAM处理和相机位姿跟踪。借助于AI估计的对象位姿和所跟踪的相机位姿，AR用户手册被渲染(覆叠)到由AR眼镜显示的实况视图中的目标对象上。通常，此类基于AI的方法是计算密集型的；并且，精确度很大程度上取决于训练深度学习系统的过程中训练数据的量和相关性。取决于目标对象的类型，获取此类训练数据的成本或工作量可能非常高(如果并非不能实行的话)。

发明内容

为了在当前技术水平下解决前述挑战，本发明提供一种在不需要预设标记和针对机器学习系统的训练的情况下生成AR用户手册的设备和方法。本发明的另一目标是提供不需要密集型数据计算算法的此类设备和方法。

根据本发明的一个实施例，提供一种在电子3D查看环境中生成AR用户手册的方法，其中AR用户手册包括叠加到电子3D查看环境中的一个或多个目标对象上的电子标签、文本和图形指令、2D和3D模型，及动画。在各种实施例中，电子3D查看环境至少包括：图像显示或投影系统，其用于显示或投影扩增图像以供用户查看；由内向外的光学传感器，其用于捕获周围现实世界场景的图像；以及运动传感器，其用于跟踪由内向外的光学传感器的位置及定向(位姿)。电子3D查看环境被配置以允许其用户同时查看她的周围现实世界场景以及所显示或投影(在周围现实世界场景中叠加)的3D扩增；以及在使用期间连续地记录使用运动传感器的由内向外的光学传感器的移动轨迹。在一个实施方案中，电子3D查看环境是一对AR眼镜或护目镜。

所述方法开始于电子3D查看环境初始化其光学传感器的位置跟踪和定向记录。连续地记录包括多个光学传感器位姿(或运动)的移动轨迹，直到校准过程完成。校准过程包括：向电子3D查看环境的用户显示作为提示的目标对象的预定义3D模型，所述3D模型上面具有界标，以及3D模型的显示可由单独的电子图像显示装置或电子3D查看环境经由其图像显示或投影系统完成；提示用户找到经由电子3D查看环境所查看的周围现实世界场景中的目标对象，且定位并指示目标对象上的界标的位置(如图3的右侧图像中所示出)；以及记录经由电子3D查看环境所查看和由电子3D查看环境所捕获的由用户所指示的界标位置。

所述方法继续对于移动轨迹中的每一光学传感器位姿经由电子3D查看环境所查看和由电子3D查看环境所捕获的周围现实世界场景中的目标对象的位置及定向(位姿)进行迭代估计。迭代目标对象位姿估计包括：通过调整一个或多个估计参数的值从当前光学传感器位姿和由用户在校准过程期间所指示的目标对象上的界标的位置估计周围现实世界场景中的目标对象的位姿；对于在所述移动轨迹中的每一光学传感器位姿，生成关注图像，在所述关注图像中3D模型布置于所估计的目标对象位姿中且投影(叠加)到周围现实世界场景中的目标对象上；使用所生成的每一关注图像且基于对应光学传感器位姿，使用光线投射和空间映射系统确定周围现实世界场景的3D数据点和所投影的3D模型的3D数据点；从周围现实世界场景的3D数据点和所投影的3D模型的对应3D数据点计算目标对象位姿估计误差；对光学传感器位姿进行评估；计算对应于评估为合格的光学传感器位姿的目标对象位姿估计误差的平均值；重复目标对象位姿估计步骤，在每次迭代中调整一个或多个估计参数值，直到找到产生目标对象位姿平均估计误差的最小值的最佳化的所估计的目标对象位姿；以及将目标对象位姿平均估计误差的最小值与预定义目标对象位姿平均估计误差阈值进行比较。

最后，如果目标对象位姿平均估计误差的最小值不超过预定义目标对象位姿平均估计误差阈值，则所述方法进行到，渲染3D用户手册，包括根据最佳化的所估计的目标对象位姿和当前光学传感器位姿将3D用户手册叠加到电子3D查看环境中的目标对象上。

附图说明

下文中参看图式更详细描述本发明的实施例，图式中：

图1A描绘示出提供AR用户手册的常规的基于标记的方法的示意图；

图1B描绘示出提供AR用户手册的常规的基于AI的方法的示意图；

图2A描绘根据本发明的各种实施例的示意图，其示出用于在电子3D查看环境中提供AR用户手册的方法；

图2B描绘用于在电子3D查看环境中提供AR用户手册的方法的流程图；

图3示出根据本发明的一个实施例的校准过程的一部分，其包含向用户显示上面具有界标的目标对象的预定义3D模型，以及提示用户在周围现实世界场景中找到目标对象并定位界标，经由电子3D查看环境所查看；

图4示出根据本发明的一个实施例在目标对象位姿估计过程中计算经由电子3D查看环境所查看的周围现实世界场景中的目标对象的所估计的位姿；

图5示出根据本发明的一个实施例在目标对象位姿估计的过程中生成关注图像；

图6示出根据本发明的一个实施例生成周围现实世界场景的3D数据点和3D模型的3D数据点的确定，以及在目标对象位姿估计过程中计算估计误差；

图7A示出根据本发明的一个实施例计算目标对象位姿估计误差；

图7B示出根据本发明的一个实施例在目标对象位姿估计过程中确定背景误差；

图7C示出根据本发明的一个实施例在目标对象位姿估计过程中将光学传感器位姿评估为不合格；并且

图8描绘根据本发明的各种实施例用于在电子3D查看环境中提供AR用户手册的设备的逻辑框图。

具体实施方式

在以下描述中，将用于在电子3D查看环境及类似环境中提供AR用户手册的设备和方法阐述为优选实例。所属领域的技术人员将显而易见，可在不脱离本发明的范围和精神的情况下作出包含添加和/或替代在内的修改。可省略特定细节以免使本发明模糊不清；然而，撰写本公开是为了使所属领域的技术人员能够在不进行过度实验的情况下实践本文中的教示。

根据本发明的一个实施例，提供一种在电子3D查看环境中生成AR用户手册的方法，其中AR用户手册包括叠加到电子3D查看环境中的一个或多个目标对象上的电子标签、文本和图形指令、2D和3D模型，及动画。在各种实施例中，电子3D查看环境至少包括：图像显示或投影系统，其用于显示或投影扩增图像以供用户查看；由内向外的光学传感器，其用于捕获周围现实世界场景的图像；运动传感器，其用于跟踪由内向外的光学传感器的位置及定向(位姿)；以及3D空间映射系统，其用于生成3D空间映射图。电子3D查看环境被配置以允许其用户同时查看她的周围现实世界场景以及所显示或投影(在周围现实世界场景中叠加)的3D扩增；以及在使用期间使用运动传感器连续地记录使用运动传感器的由内向外的光学传感器的移动轨迹，所述移动轨迹包括多个光学传感器位姿(或运动)。在一个实施方案中，电子3D查看环境是一对AR眼镜或护目镜。

参看图2A和2B。所述方法开始于(201)电子3D查看环境初始化其光学传感器的位置跟踪和定向记录。(202)连续地记录包括多个光学传感器位姿(或运动)的移动轨迹，直到(203)校准过程完成，所述校准过程校准周围现实世界场景中的目标对象的预定义3D模型的初始投影(叠加)。(203)校准过程包括：向电子3D查看环境的用户显示上面具有界标的指示符作为提示的3D模型(如图3的左侧图像中所示出)，其中3D模型的显示可由单独的电子图像显示装置或电子3D查看环境经由其图像显示或投影系统完成；提示用户找到经由电子3D查看环境所查看的周围现实世界场景中的目标对象，且定位并指示目标对象上的界标的位置(如图3的右侧图像中所示出)；以及记录在经由电子3D查看环境所查看和由电子3D查看环境所捕获的，由用户所指示的界标的位置的空间坐标。

所述方法继续经由电子3D查看环境所查看和由电子3D查看环境所捕获的周围现实世界场景中的目标对象的位置及定向(位姿)的迭代估计。迭代目标对象位姿估计包括：对于移动轨迹中的每一光学传感器位姿(或运动)，(204)通过调整一个或多个估计参数的值从光学传感器位姿和由用户在校准过程期间所指示的目标对象上的界标的位置估计周围现实世界场景中的目标对象的位姿；对于每一光学传感器位姿，(205)生成关注图像，在所述关注图像中，3D模型布置于所估计的目标对象位姿中且投影(叠加)到周围现实世界场景中的目标对象上，最初，3D模型上的界标的位置与由用户所指示的目标对象上的界标的位置对准；对于每一关注图像，(206)使用光线投射和空间映射系统确定周围现实世界场景的3D数据点和所投影的3D模型的3D数据点；(207)从周围现实世界场景的3D数据点和所投影的3D模型的对应3D数据点计算目标对象位姿估计误差，且对光学传感器位姿进行评估；针对移动轨迹中的所有光学传感器位姿重复步骤205到207以获得对应于所评估的光学传感器位姿的目标对象位姿估计误差；(208)计算对应于所评估的光学传感器位姿的目标对象位姿估计误差的平均估计误差；重复目标对象位姿估计步骤204到208，在每次迭代中调整一个或多个估计参数值，直到找到产生目标对象位姿平均估计误差的最小值的最佳化的所估计的目标对象位姿；以及(209)将目标对象位姿平均估计误差的最小值与预定义目标对象位姿平均估计误差阈值进行比较。

最后，如果目标对象位姿平均估计误差的最小值不超过预定义目标对象位姿平均估计误差阈值，则所述方法进行到(210)，渲染3D用户手册，包括根据最佳化的所估计的目标对象位姿和当前光学传感器位姿将3D用户手册叠加(或投影)到电子3D查看环境中的目标对象上。

任选地，3D用户手册可精确地叠加在目标对象的一关注点上。关注点连同3D模型定义一起被预定义，且根据最佳化的所估计的目标对象位姿和当前光学传感器位姿确定目标对象上的关注点的位置。

根据另一实施例，还提供一种内容创建方法，其包括：提供内容创建用户界面以用于限定用于渲染AR用户手册的3D模型、界标和关注点；使用内容创建用户界面接收1:1真实对象3D模型数据；使用内容创建用户界面接收3D模型上的界标的位置的坐标数据；以及任选地使用内容创建用户界面接收3D模型上的关注点的坐标数据。

参看图4关于一个估计迭代中目标对象位姿的估计的图示。根据一个实施例，所述估计包括：估计目标对象围绕其中心

的俯仰pitch；估计目标对象围绕

的翻滚roll；估计目标对象围绕

的偏摆yaw；以及估计光学传感器透镜

到

的距离d。

和d是通过计算下式得出：

其中

为预定义3D模型的中心到3D模型上的界标的空间向量；

为由用户在校准过程期间所定位和指示的周围现实世界场景中的界标的空间坐标；并且l为针对光学传感器透镜和当前目标对象位姿估计迭代中使用的目标对象中心之间的距离与光学传感器透镜和校准过程期间的目标对象中心之间的距离的差的距离补偿。所估计的目标对象位姿因而由{pitch,yaw,roll,d}表示。

根据一个实施例，假设目标对象为直立或水平地放置，因此俯仰pitch和翻滚roll在针对目标对象位姿估计的校准过程期间固定在0°或+/-90°。偏摆yaw与光学传感器位姿的光学传感器的偏摆相对，因为在大多数情况下，用户(继而，光学传感器)面朝目标对象，且偏摆yaw作为不同目标对象位姿估计参数，其值可在+90°到-90°之间变化。作为另一不同目标对象位姿估计参数，l的值可在-4cm到+4cm的可配置长度值范围内变化。

参看图5关于一个关注图像的生成的图示。所述生成包括：(501)如上文所描述从光学传感器位姿和目标对象上的界标的位置估计目标对象位姿；(502)将被布置到所估计的目标对象位姿的3D模型投影(叠加)到周围现实世界场景中的目标对象上，也就是说，将3D模型投影到光学传感器的图像平面上；(503)在3D模型投影的目标对象周围拟合对象限界框(510)；以及提取捕获由对象限界框(510)限界的视图的关注图像。

参看图6关于周围现实世界场景的3D数据点和所投影的3D模型的3D数据点的确定以及目标对象位姿的迭代估计中估计误差的计算的图示。所述确定包括：(601)从对象限界框(510)和关注图像中的3D模型投影的目标对象印象轮廓之间的区域提取背景投影掩模(511)；(602)从关注图像中的3D模型投影的目标对象印象轮廓提取模型投影掩模(512)；对于移动轨迹中的每一光学传感器位姿，(603)执行光线投射操作以获得每一光线从光学传感器位姿穿过模型投影掩模中的每一像素p_i到布置于周围现实世界场景中叠加的所估计的目标对象位姿中的3D模型的命中点，以获得所投影的3D模型的3D数据点；以及(604)执行光线投射操作以获得每一光线从光学传感器位姿穿过模型投影掩模中的每一像素p_i到周围现实世界场景的3D空间映射的命中点，以获得周围现实世界场景的3D数据点，其中3D空间映射是由空间映射系统(即，SLAM系统)生成的；(605)计算目标对象位姿估计误差且评估光学传感器位姿；以及(606)计算目标对象位姿平均估计误差。

目标对象位姿估计误差的计算由图7A示出。在目标对象位姿估计误差的计算过程中，对于模型投影掩模中的每一像素p_i，通过下式计算所估计的目标对象位姿中的3D模型的估计像素误差ε：

ε(p₁)＝‖Raycast(p₁,M)-4aycast(p₁,S)‖；

其中：

M为布置于所估计的目标对象位姿中的3D模型的空间坐标矩阵；

S为周围现实世界场景的3D空间映射的空间坐标矩阵；

Raycast(p_i,M)为光线从光学传感器位姿穿过模型投影掩模中的像素p_i到布置于周围现实世界场景中叠加的所估计的目标对象位姿中的3D模型的命中点的空间坐标；

Raycast(p_i,S)为光线从光学传感器位姿穿过模型投影掩模中的像素p_i到周围现实世界场景的3D空间映射的命中点的空间坐标；并且

p_i的估计像素误差ε(p_i)为Raycast(p_i,M)与Raycast(p_i,S)之间的空间距离。

因而，目标对象位姿估计误差δ为模型投影掩模中的所有像素的估计像素误差的平均值，且其可通过下式计算：

其中n为模型投影掩模中的像素的数目。

参看图7B。每一光线穿过背景投影掩模中的每一像素b_i到周围现实世界场景的3D空间映射的命中点预期比光线穿过模型投影掩模的任何命中点更远。这是因为，从光学传感器的视角来看，目标对象(如果可见)应比周围现实世界场景的背景更接近光学传感器；因此，布置于准确位姿中且叠加于周围现实世界场景中的3D模型不应呈现为比周围现实世界场景的背景或任何特征远或在所述背景或任何特征后方，除非目标对象的视图被其它对象阻挡。

因此，为了考虑其中在移动轨迹中的特定光学传感器位姿下目标对象的视图被其它对象阻挡的条件-背景误差，在目标对象位姿估计过程中将那些光学传感器位姿评估为不合格或移除。换句话说，光学传感器位姿的评估包括确定光学传感器位姿的背景误差的存在。在背景误差的确定过程中，限定背景误差计数，BEC，且针对所述光学传感器位姿获得光学传感器透镜和3D模型的最远点(像素)之间的距离k。对于距光学传感器透镜的距离为d(b_i)(其短于k)的光线穿过b_i到周围现实世界场景的3D空间映射的每个命中点，递增BEC。也就是说，对于背景投影掩模中的每一像素b_i和从光学传感器透镜穿过b_i到光线的命中点的距离d(b_i)，如果d(b_i)<k，则BEC＝BEC+1。在考虑背景投影掩模中的所有像素之后，如果总BEC大于预定义背景误差计数阈值，则针对所述光学传感器位姿存在背景误差，在目标对象位姿估计过程中将从移动轨迹获得的光学传感器位姿评估为不合格并移除，且丢弃基于评估为不合格的光学传感器位姿的所估计的目标对象位姿。这在图7C中示出。

目标对象位姿平均估计误差

的计算包括计算对应于目标对象位姿的估计的当前迭代中的计算中获得的N个所评估的光学传感器位姿的N个目标对象位姿估计误差的平均值；也就是说：

已经获得了目标对象位姿估计的当前迭代的目标对象位姿平均估计误差

在每次迭代中调整估计参数的值的情况下重复前述目标对象位姿估计步骤，以找到产生目标对象位姿平均估计误差的最小值

的最佳化的所估计的目标对象位姿。根据一个实施例，估计参数包括目标对象的偏摆yaw和光学传感器透镜-目标对象中心距离补偿l。也就是说，在每次迭代中，调整yaw和l以找到使目标对象位姿平均估计位姿误差

最小化的对应于N个所评估的光学传感器位姿的N个目标对象位姿估计误差，且使

最小化的最佳化的yaw值yaw_opt和最佳化的l值l_opt促成最佳化的所估计的目标对象位姿，{pitch,yaw_opt,roll,d_opt}，其中

最后，如果未找到将在目标对象位姿的迭代估计中被评估为合格的光学传感器位姿；或如果目标对象位姿平均估计误差的最小值

大于预定义目标对象位姿平均估计误差阈值，则将目标对象位姿的迭代估计视为失败且向用户通知此失败。

参看图8以示出根据本发明的各种实施例用于在电子3D查看环境中生成AR用户手册以用AR用户手册查看周围现实世界场景的设备。

所述设备包括：光学传感器(803)，其被配置以捕获周围现实世界场景的图像；空间映射系统，其包括可由一个或多个处理器实施的深度传感器(802a)和空间映射模块(802b)，所述空间映射系统被配置以生成周围现实世界场景的3D空间映射；以及位置跟踪模块(804b)，其可由一个或多个处理器实施且被配置以从光学传感器(803)的运动传感器(804a)接收定向数据，并生成光学传感器的包括多个光学传感器位姿的移动轨迹。

所述设备进一步包括用户界面模块(801)，其可由一个或多个处理器实施且被配置以执行周围现实世界场景中的目标对象的预定义3D模型的初始投影的校准，所述校准包括：接收周围现实世界场景中的目标对象上的界标的位置的信息，其中目标对象上的界标对应于3D模型上的界标。

所述设备进一步包括被配置以记录移动轨迹的运动记录器模块(805)。

所述设备进一步包括对象位姿估计模块(806)，其可由一个或多个处理器实施且被配置以：执行迭代目标对象位姿估计，包括：通过调整一个或多个估计参数的值从当前光学传感器位姿和目标对象上的界标的位置估计周围现实世界场景中的目标对象的所估计的位姿；对于移动轨迹中的每个光学传感器位姿，生成关注图像，在所述关注图像中，3D模型布置于所估计的目标对象位姿中且投影到周围现实世界场景中的目标对象上；使用所生成的每一关注图像且基于对应光学传感器位姿，使用光线投射和空间映射系统确定周围现实世界场景的3D数据点和所投影的3D模型的3D数据点；从周围现实世界场景的3D数据点和所投影的3D模型的对应3D数据点计算目标对象位姿估计误差；评估光学传感器位姿；计算对应于所评估的光学传感器位姿的目标对象位姿估计误差的平均值；在一个或多个估计参数值被调整的情况下重复目标对象位姿的估计步骤，直到找到产生目标对象位姿平均估计误差的最小值的最佳化的所估计的目标对象位姿；以及将目标对象位姿平均估计误差的最小值与预定义目标对象位姿平均估计误差阈值进行比较。

所述设备进一步包括渲染模块(807)，其可由一个或多个处理器实施且被配置以在目标对象位姿平均估计误差的最小值不超过预定义目标对象位姿平均估计误差阈值的情况下，根据最佳化的所估计的目标对象位姿和当前光学传感器位姿将AR用户手册渲染到电子3D查看环境中的目标对象上。

任选地，渲染模块(807)进一步被配置以根据最佳化的所估计的目标对象位姿和当前光学传感器位姿将AR用户手册投影到目标对象上的关注点上；以及从电子3D查看环境移除3D模型投影。

根据另一实施例，所述设备进一步包括内容创建用户界面(808)以用于限定用于渲染AR用户手册的3D模型、界标和关注点，所述内容创建用户界面被配置以：使用内容创建用户界面接收1:1真实对象3D模型数据；使用内容创建用户界面接收3D模型上的界标的位置的坐标数据；以及使用内容创建用户界面接收3D模型上的关注点的坐标数据。

本文中所公开的实施例可使用一个或多个计算装置、计算机处理器或电子电路来实施，包含但不限于专用集成电路(ASIC)、现场可编程门阵列(FPGA)，以及根据本公开的教示而专门配置或编程的其它可编程逻辑装置。在计算装置、计算机处理器或可编程逻辑装置中执行的机器指令和/或其中的电子电路配置可由计算机和电子领域的技术人员基于本公开的教示容易地准备。

前述计算装置、计算机处理器或电子电路可并入于一个或多个服务器计算机、个人计算机、膝上型计算机、例如智能电话的移动计算装置和平板计算机中。

电子实施例包含其中存储有机器指令和/或电子电路配置数据的瞬时和非瞬时电子存储介质，所述机器指令和/或电子电路配置数据可用于配置计算装置、计算机处理器或电子电路来执行本发明的过程中的任一个。存储介质可包含但不限于软盘、光盘、蓝光光盘、DVD、CD-ROM和磁光盘、ROM、RAM、快闪存储器装置，或适于存储指令、代码和/或数据的任何类型的介质或装置。

本发明的各种实施例还可实施于分布式计算环境和/或云计算环境中，其中机器指令的全部或部分由通过通信网络互连的一个或多个处理装置以分布方式执行，所述通信网络是例如内联网、广域网(WAN)、局域网(LAN)、因特网和其它形式的数据传输介质。

出于说明和描述的目的，已经提供本发明的前述描述。其不希望是详尽的或将本发明限于所公开的精确形式。许多修改以及变化对于所属领域的从业人员来说将是显而易见的。

挑选和描述实施例是为了最佳地阐释本发明的原理和其实际应用，借此使所属领域的其他技术人员能够理解本发明的各种实施例和适合于所预期的特定用途的各种修改。

Claims

1.一种用于在电子3D查看环境中生成扩增现实（AR）用户手册并以AR用户手册查看周围现实世界场景的方法，其特征在于，包括：

记录3D查看环境的由内向外的光学传感器的移动轨迹，其中所述移动轨迹包括多个光学传感器位姿；

校准所述周围现实世界场景中的目标对象的预定义3D模型的初始投影，包括：

接收所述周围现实世界场景中的目标对象上的界标的位置的信息，其中所述目标对象上的界标对应于所述3D模型上的界标；

执行迭代目标对象位姿估计，包括：

从每个所述光学传感器位姿和所述目标对象上的界标的位置估计所述周围现实世界场景中的目标对象位姿；

对于每个所述光学传感器位姿，生成关注图像，其中所述3D模型布置于所述估计的目标对象位姿中且投影到所述周围现实世界场景中的目标对象上；

对于所生成的每个所述关注图像，使用光线投射和空间映射系统确定所述周围现实世界场景的3D数据点和所述3D模型投影到关注图像中3D数据点；

从所述周围现实世界场景的3D数据点和所述投影的3D模型的对应3D数据点计算目标对象位姿估计误差；

评估每个所述光学传感器位姿；

计算对应于评估为合格的光学传感器位姿的所述目标对象位姿估计误差的平均值；以及

在一个或多个估计参数值被调整的情况下重复所述迭代目标对象位姿估计，直到找到产生目标对象位姿平均估计误差的最小值的最佳化的估计目标对象位姿；

将目标对象位姿平均估计误差的最小值与预定义目标对象位姿平均估计误差阈值进行比较；以及

如果所述目标对象位姿平均估计误差的最小值不超过所述预定义目标对象位姿平均估计误差阈值，则根据所述最佳化的估计的目标对象位姿和当前光学传感器位姿将所述AR用户手册渲染到所述电子3D查看环境中的目标对象上；

否则，如果所述目标对象位姿平均估计误差的最小值大于所述预定义目标对象位姿平均估计误差阈值，或如果没有光学传感器位姿被评估为合格，则将所述迭代目标对象位姿估计视为失败。

2.根据权利要求1所述的方法，其特征在于，所述3D模型的初始投影的校准进一步包括：

向用户显示具有界标的指示符作为提示的所述3D模型；以及

接收所述周围现实世界场景中的目标对象上的界标的位置的用户输入。

3.根据权利要求1所述的方法，其特征在于，从每个所述光学传感器位姿和所述目标对象上的界标的位置估计所述周围现实世界场景中的目标对象位姿包括：

估计所述目标对象的偏摆；以及

估计从所述光学传感器位姿下的光学传感器透镜至通过所述目标对象上的界标位置估计目标对象中心的距离；

其中所述估计的目标对象位姿由所述目标对象的俯仰、偏摆和翻滚以及所述光学传感器透镜到所述目标对象中心之间的距离表示；并且

其中所述目标对象的偏摆以及所述光学传感器透镜到所述目标对象中心之间距离的距离补偿是将在所述迭代目标对象位姿估计的每次迭代中变化的估计参数。

4.根据权利要求1所述的方法，其特征在于，所述关注图像的生成包括：

获取所述估计的目标对象位姿；

将布置于所述估计的目标对象位姿中的3D模型投影到所述周围现实世界场景中的目标对象上；

在3D模型投影的目标对象周围拟合对象限界框；以及

提取捕获由所述对象限界框限界的视图的关注图像。

5.根据权利要求4所述的方法，其特征在于，所述周围现实世界场景的3D数据点和所述关注图像中的投影的3D模型的3D数据点的确定包括：

从所述关注图像中的3D模型投影的目标对象的印象轮廓提取模型投影掩模；

执行光线投射操作以获得每一光线从所述光学传感器位姿穿过所述模型投影掩模中的每一像素到布置于所猜测的位姿中且叠加在所述周围现实世界场景中的3D模型的命中点，以获得所述投影的3D模型的3D数据点，以及

执行光线投射操作以获得每一光线从所述光学传感器位姿穿过所述模型投影掩模中的每一像素到所述周围现实世界场景的3D空间映射的命中点，以获得所述周围现实世界场景的3D数据点，其中所述3D空间映射是由空间映射系统生成的。

6.根据权利要求5所述的方法，其特征在于，所述目标对象位姿估计误差的计算包括：

对于所述模型投影掩模中的每个像素p _i，计算所述光线从所述光学传感器位姿穿过所述像素p _i到所述3D模型的命中点与同一光线从所述光学传感器位姿穿过所述像素p _i到所述周围现实世界场景的3D空间映射的命中点之间的空间距离，其中所述空间距离是所述像素p _i的估计像素误差；以及

计算所述模型投影掩模中的所有像素的估计像素误差的平均值，其中所述目标对象位姿估计误差是所计算的平均值。

7.根据权利要求5所述的方法，其特征在于，每个所述光学传感器位姿的评估包括：

从所述对象限界框和所述关注图像中的3D模型投影的目标对象的印象轮廓之间的区域提取背景投影掩模；

确定用于将所述光学传感器位姿所评估的背景误差，包括：

对于所述光学传感器位姿，获得所述光学传感器透镜和所述3D模型上最远离所述光学传感器透镜的点之间的距离k；

对于所述背景投影掩模中的每一像素b _i，将从所述光学传感器透镜穿过所述像素b _i到所述周围现实世界场景的3D空间映射的距离d(b _i)与k进行比较，且如果d(b _i)短于k，则递增背景误差计数；并且针对所述背景投影掩模中的所有像素重复所述比较和所述背景误差计数；以及

如果所述背景误差计数高于背景误差计数阈值，则将从所述目标对象位姿估计的当前迭代中的所述移动轨迹获得的光学传感器位姿视评估为不合格，且丢弃基于不合格的光学传感器位姿获得的所述估计的目标对象位姿。

8.根据权利要求1所述的方法，其特征在于，对于每个所述光学传感器位姿，所述估计参数包括所述目标对象的俯仰、所述目标对象的偏摆、所述目标对象的翻滚，以及所述光学传感器透镜到所述目标对象的所估计的中心之间的距离的距离补偿；并且

其中所述目标对象的俯仰在校准过程期间固定在0⁰或+/-90⁰，所述目标对象的翻滚在校准过程期间固定在0⁰或+/-90⁰，所述目标对象的偏摆在迭代目标位姿估计的每次迭代中在+90⁰到-90⁰之间变化，且所述距离补偿在迭代目标位姿估计的每次迭代中在可配置长度之间变化。

9.根据权利要求1所述的方法，其特征在于，将所述AR用户手册渲染到所述电子3D查看环境中的所述目标对象上的过程包括：

根据所述最佳化的所估计的目标对象位姿和所述当前光学传感器位姿在关注点处将所述AR用户手册投影到所述目标对象上；以及

从所述电子3D查看环境移除所述3D模型投影。

10.根据权利要求1所述的方法，其特征在于，进一步包括：

提供内容创建用户界面以用于限定所述3D模型、所述界标和用于渲染所述AR用户手册的关注点；

使用所述内容创建用户界面接收1:1真实对象3D模型数据；

使用所述内容创建用户界面接收所述3D模型上的界标的位置的坐标数据；以及

使用所述内容创建用户界面接收所述3D模型上的关注点的坐标数据。

11.一种用于在电子3D查看环境中生成扩增现实（AR）用户手册并以AR用户手册查看周围现实世界场景的设备，其特征在于，包括：

光学传感器，其被配置以捕获所述周围现实世界场景的图像；

空间映射系统，其包括能由一个或多个处理器实施的深度传感器和空间映射模块，所述空间映射系统被配置以生成所述周围现实世界场景的3D空间映射；

位置跟踪模块，其能由一个或多个处理器实施且被配置以接收所述光学传感器的定向数据，并生成所述光学传感器的包括多个光学传感器位姿的移动轨迹；

用户界面模块，其能由一个或多个处理器实施且被配置以执行所述周围现实世界场景中的目标对象的预定义3D模型的初始投影的校准，所述校准包括：接收所述周围现实世界场景中的目标对象上的界标的位置的信息，其中所述目标对象上的界标对应于所述3D模型上的界标；

运动记录模块，其能由一个或多个处理器实施且被配置以记录所述移动轨迹；

对象位姿估计模块，其能由一个或多个处理器实施且被配置以：

执行迭代目标对象位姿估计，包括：

对于所生成的每个所述关注图像，使用光线投射和空间映射系统确定所述周围现实世界场景的3D数据点和所述3D模型投影到关注图像中的3D数据点；

从所述周围现实世界场景的3D数据点和所述投影的3D模型的对应3D数据点计算目标对象估计误差；

评估每个所述光学传感器位姿；

在一个或多个估计参数值被调整的情况下重复所述迭代目标对象位姿估计，直到找到产生目标对象位姿平均估计误差的最小值的最佳化的估计目标对象位姿；以及

渲染模块，其能由一个或多个处理器实施且被配置以在所述目标对象位姿平均估计误差的最小值不超过所述预定义目标对象位姿平均估计误差阈值的情况下，根据所述最佳化的所估计的目标对象位姿和当前光学传感器位姿将所述AR用户手册渲染到所述电子3D查看环境中的目标对象上。

12. 根据权利要求11所述的设备，其特征在于，所述3D模型的初始投影的校准进一步包括：

向用户显示具有界标的指示符作为提示的所述3D模型；以及

13. 根据权利要求11所述的设备，其特征在于，从每个所述光学传感器位姿和所述目标对象上的界标的位置估计所述周围现实世界场景中的目标对象位姿包括：

估计所述目标对象的偏摆；以及

估计从所述光学传感器位姿下的光学传感器透镜至通过所述目标对象上的界标位置估计的目标对象中心之间的距离；

其中所述目标对象的偏摆以及所述光学传感器透镜到所述目标对象中心之间的距离的距离补偿是将在所述迭代目标对象位姿估计的每次迭代中变化的估计参数。

14.根据权利要求11所述的设备，其特征在于，所述关注图像的生成包括：

获取所述估计的目标对象位姿；

在3D模型投影的目标对象周围拟合对象限界框；以及

提取捕获由所述对象限界框限界的视图的关注图像。

15.根据权利要求14所述的设备，其特征在于，所述周围现实世界场景的3D数据点和所述关注图像中的所述投影的3D模型的3D数据点的确定包括：

16. 根据权利要求15所述的设备，其特征在于，所述目标对象位姿估计误差的计算包括：

对于所述模型投影掩模中的每个像素p _i，计算光线从所述光学传感器位姿穿过所述像素p _i到所述3D模型的命中点与同一光线从所述光学传感器位姿穿过所述像素p _i到所述周围现实世界场景的3D空间映射的命中点之间的空间距离，其中所述空间距离是所述像素p _i的估计像素误差；以及

计算所述模型投影掩模中的所有像素的估计像素误差的平均值，其中所述目标对象位姿估计误差是所述计算的平均值。

17.根据权利要求15所述的设备，其特征在于，每个所述光学传感器位姿的评估包括：

确定用于将所述光学传感器位姿所评估的背景误差，包括：

18.根据权利要求11所述的设备，其特征在于，对于每个所述光学传感器位姿，所述估计参数包括所述目标对象的俯仰、所述目标对象的偏摆、所述目标对象的翻滚，以及所述光学传感器透镜到所述目标对象的所估计的中心之间的距离的距离补偿；并且

其中所述目标对象的俯仰在校准过程期间固定在0⁰或+/-90⁰，所述目标对象的翻滚在所述校准过程期间固定在0⁰或+/-90⁰，所述目标对象的偏摆在迭代目标位姿估计的每次迭代中在+90⁰到-90⁰之间变化，且所述距离补偿在迭代目标位姿估计的每次迭代中在可配置长度之间变化。

19. 根据权利要求11所述的设备，其特征在于，所述渲染模块进一步被配置以：

根据所述最佳化的所估计的目标对象位姿和所述当前光学传感器位姿将所述AR用户手册投影到所述目标对象上的关注点处；以及

从所述电子3D查看环境移除所述3D模型投影。

20.根据权利要求11所述的设备，其特征在于，进一步包括：

内容创建用户界面，其用于限定所述3D模型、所述界标和用于渲染所述AR用户手册的关注点；

所述内容创建用户界面被配置以：

使用所述内容创建用户界面接收1:1真实对象3D模型数据；