CN114371779B

CN114371779B - 一种视线深度引导的视觉增强方法

Info

Publication number: CN114371779B
Application number: CN202111665078.1A
Authority: CN
Inventors: 陆峰; 王智敏; 赵玉鑫
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2024-02-20
Anticipated expiration: 2041-12-31
Also published as: CN114371779A

Abstract

本公开的实施例公开了视线深度引导的视觉增强方法。该方法的一具体实施方式包括：利用视频采集装置，得到多个隐藏场景的图像或视频；对视频采集装置的位姿信息进行标定，得到位姿信息集合；基于多个隐藏场景的图像或视频，生成场景图像集合；获取眼睛图像；对眼睛图像进行图像处理，得到当前视线点信息、视线深度信息和视线方向信息；基于当前视线点信息、位姿信息集合和多个隐藏场景，确定目标隐藏场景；基于场景图像集合，确定优选图像；基于优选图像、当前视线点信息、视线深度信息和视线方向信息，生成目标图像；将目标图像发送至用户佩戴的增强现实头盔上显示，以增强用户视觉。该实施方式可以实现人眼自然地控制进行视觉增强。

Description

一种视线深度引导的视觉增强方法

技术领域

本公开的实施例涉及增强现实技术领域，具体涉及一种视线深度引导的视觉增强方法。

背景技术

AR(Augmented Reality，增强现实)技术可以增强用户的视觉，使用户“看透”墙体，具有透视能力，即在用户佩戴的AR眼镜上，显示被遮挡的场景或对象。目前的视觉增强方法通常未考虑用户目前是否需要视觉增强，一直呈现增强内容，从而对用户的视觉产生干扰，降低用户体验。此外，目前的视觉增强方法虽然可以通过点击按钮、语音命令、手势操控的方式，来控制视觉增强是否显示，但是未考虑到用视线深度作为引导，通过人眼的视线深度自然地控制视觉增强。而且，当有多个被遮挡的场景时，多个被遮挡的场景的增强内容同时显示，难以使用户根据视线方向和视线深度来选择显示想要观看的隐藏场景，降低了用户的体验。

相应地，本领域需要一种视线深度引导的视觉增强方法来解决上述问题。

发明内容

本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

本公开的一些实施例提出了视线深度引导的视觉增强方法，来解决以上背景技术部分提到的技术问题中的一项或多项。

利用搭建在多个隐藏场景中的视频采集装置，得到多个隐藏场景的图像或视频，其中，上述多个隐藏场景中的每个隐藏场景中搭建至少一个视频采集装置；对上述多个隐藏场景中的视频采集装置中的每个视频采集装置的位姿信息进行标定，得到位姿信息集合，其中，上述位姿信息集合中的位姿信息是在世界坐标系下的信息；基于上述多个隐藏场景的图像或视频，生成场景图像集合；利用用户佩戴的增强现实头盔上的眼动追踪传感器组合获取眼睛图像，其中，上述眼睛图像中包括左眼区域和右眼区域；对上述眼睛图像进行图像处理，得到上述用户的当前视线点信息、视线深度信息和视线方向信息；基于上述当前视线点信息、上述位姿信息集合和上述多个隐藏场景，确定目标隐藏场景；将上述场景图像集合中与上述目标隐藏场景对应的场景图像，确定为优选图像；基于上述优选图像、上述当前视线点信息、上述视线深度信息和上述视线方向信息，生成上述目标隐藏场景中的目标图像；将上述目标图像发送至上述用户佩戴的增强现实头盔上显示，以增强用户视觉。

当人眼从注视墙体平面，到要“看透”墙体时，人眼的视线注视深度，即视线汇聚角，在物理上发生了变化：当眼睛注视墙体时，视线汇聚角大，视线深度小；当眼睛“看透”墙体时，视线汇聚角变小，视线深度增大。因此，本公开提出的视线深度引导的视觉增强方法，能够由人眼自然地控制进行视觉增强。而且，当有多个被遮挡的场景时，也可以通过视线方向和视线深度来选择显示想要观看的隐藏场景，从而增加用户体验。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，元件和元素不一定按照比例绘制。

图1是根据本公开的一些实施例的视线深度引导的视觉增强方法的一个应用场景的示意图；

图2是根据本公开的一些实施例的视线深度引导的视觉增强方法的一个结果示意图；

图3是根据本公开的视线深度引导的视觉增强方法的一些实施例的流程图；

图4是视线深度控制的示意图；

图5是确定目标用户视图的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例。相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

下面将参考附图并结合实施例来详细说明本公开。

图1是根据本公开的一些实施例的视线深度引导的视觉增强方法的一个应用场景的示意图。

在图1的应用场景中，视线点1和视线点2分别表示视线汇聚在近处的墙体1和远处的墙体2。在近处的墙体1上，贴附一张真实的图像，图像上绘制有三角形。在远处的墙体2上，也贴附一张真实的图片，图像上绘制有正方形。当视线汇聚在近处的墙体1时，计算设备判断当前视线点位于可见区域中，在增强现实头盔上不显示增强内容。当视线汇聚在远处的墙体2时，计算设备判断视线点位于隐藏场景中，计算设备根据该场景下的视频采集装置采集的图像或视频，以及用户的视线深度信息和视线方向信息，生成该场景下最优的用户视图作为目标图像。并将上述目标图像传至用户佩戴的增强现实头盔上显示，从而增强用户视觉。

图2是根据本公开的一些实施例的视线深度引导的视觉增强方法的一个结果示意图。

当视线汇聚在近处的墙体1时，用户看到的是1所示的结果。由于该图像可以通过人眼直接看到，所以不在图像上予以显示。当用户汇聚在远处的墙体2时，用户看到的是2所示的结果，该结果呈现在用户佩戴的增强现实头盔上。

继续参考图3，示出了根据本公开的视线深度引导的视觉增强方法的一些实施例的流程。该视线深度引导的视觉增强方法，包括以下步骤：

步骤301，利用搭建在多个隐藏场景中的视频采集装置，得到多个隐藏场景的图像或视频。

在一些实施例中，视线深度引导的视觉增强方法的执行主体可以利用搭建在多个隐藏场景中的视频采集装置，得到多个隐藏场景的图像或视频。其中，上述多个隐藏场景中的每个隐藏场景中搭建至少一个视频采集装置。隐藏场景可以是用户不能直接看到的场景。

可选的，上述搭建在多个隐藏场景中的视频采集装置，到用户所处物理空间的距离可以在第一预设范围内。隐藏场景可以包括以下至少一项：用户所处物理空间的相邻空间场景，或与用户所处物理空间没有关联的空间场景。视频采集装置的放置方式可以包括以下至少一项：悬挂在隐藏场景的墙壁，或放置在移动的装置上。移动的装置例如，无人机。采集装置采集到的图像传输到上述执行主体的方式有多种。可以通过网络传输，也可以通过通用串行总线(USB，Universal Serial Bus)传输。

步骤302，对多个隐藏场景中的视频采集装置中的每个视频采集装置的位姿信息进行标定，得到位姿信息集合。

在一些实施例中，上述执行主体可以对上述多个隐藏场景中的视频采集装置中的每个视频采集装置的位姿信息进行标定，得到位姿信息集合。其中，上述位姿信息集合中的位姿信息是在世界坐标系下的信息。

在一些实施例的一些可选的实现方式中，上述对上述多个隐藏场景中的视频采集装置中的每个视频采集装置的位姿信息进行标定，可以包括以下步骤：

第一步，将标定板作为参照物，利用以下公式，获得上述标定板的关键点在世界坐标系中的坐标：

其中，d表示上述增强现实头盔上的前置相机的像素坐标系。s_d表示上述前置相机的像素坐标系的比例系数。表示上述前置相机的像素坐标系的像素坐标。K_q表示上述前置相机的内参矩阵。m表示标定板坐标系。h表示上述前置相机的相机坐标系。R_mh表示从上述标定板坐标系到上述前置相机的相机坐标系的旋转矩阵。T_mh表示从上述标定板坐标系到上述前置相机的相机坐标系的平移矩阵。R_mh|T_mh表示R_mh和T_mh的拼接矩阵。0，0，0，1表示1×4的向量。P表示上述标定板的关键点的三维坐标。P_m表示上述标定板的关键点在标定板坐标系下的坐标。P_h表示上述标定板的关键点在上述前置相机的相机坐标系下的坐标。w表示世界坐标系。P_w表示上述标定板的关键点在世界坐标系下的坐标。R_hw表示从上述世界坐标系到上述前置相机的相机坐标系的旋转矩阵。T_hw表示从上述世界坐标系到上述前置相机的相机坐标系的平移矩阵。

上述公式中，R_mh|T_mh是未知的，可以使用PNP(Perspective-n-Point，n点透视)算法或者EPNP(Efficient Perspective-n-Point，高效n点透视)算法进行求解，得到R_mh|T_mh。可以将R_mh|T_mh，代入公式中，求解P_h。R_hw|T_hw可以由增强现实头盔中的软件提供，因此得到标定板的关键点在世界坐标下的坐标P_w。

第二步，利用以下公式，获得上述视频采集装置在世界坐标系下的位姿信息：

其中，a表示上述视频采集装置的像素坐标系。s_a表示上述视频采集装置的像素坐标系的比例系数。表示上述视频采集装置的像素坐标系的像素坐标。c表示上述视频采集装置的相机坐标系。K_e表示上述视频采集装置的内参矩阵。m表示标定板坐标系。R_mc表示从上述标定板坐标系到上述视频采集装置的相机坐标系的旋转矩阵。T_mc表示从上述标定板坐标系到上述视频采集装置的相机坐标系的平移矩阵。R_mc|T_mc表示R_mc和T_mc的拼接矩阵。0，0，0，1表示1×4的向量。P表示上述标定板的关键点的三维坐标。P_c表示上述标定板的关键点在上述视频采集装置的相机坐标系下的坐标。w表示世界坐标系。P_m表示上述标定板的关键点在标定板坐标系下的坐标。P_w表示上述标定板的关键点在世界坐标系下的坐标。R_cw，表示从上述视频采集装置的相机坐标系到上述世界坐标系的旋转矩阵。T_cw表示从上述视频采集装置的相机坐标系到上述世界坐标系的平移矩阵。

利用上述公式得到的R_cw|T_cw，即为上述视频采集装置在世界坐标系下的位姿。

步骤303，基于多个隐藏场景的图像或视频，生成场景图像集合。

在一些实施例中，上述执行主体可以基于上述多个隐藏场景的图像或视频，生成场景图像集合。

可选的，可以对多个隐藏场景的图像或视频进行整合处理。整合处理可以包括对多个隐藏场景的图像或视频中的每个隐藏场景的图像或视频，进行全景图像拼接，生成全景或广角图像。或者可以基于对多个隐藏场景的图像或视频中的每个隐藏场景的图像或视频，进行三维重建，以生成隐藏场景的三维模型，得到多个隐藏场景的三维模型。

步骤304，利用用户佩戴的增强现实头盔上的眼动追踪传感器组合获取眼睛图像。

在一些实施例中，上述执行主体可以利用用户佩戴的增强现实头盔上的眼动追踪传感器组合获取眼睛图像。其中，上述眼睛图像中包括左眼区域和右眼区域。

在一些实施例的一些可选的实现方式中，上述利用用户佩戴的增强现实头盔上的眼动追踪传感器组合获取眼睛图像，可以包括以下步骤：

当虚拟刺激物显示在用户的视线上的不同位置时，以虚拟刺激物作为注视引导。以使用户控制视线深度，并利用用户佩戴的增强现实头盔上的眼动追踪传感器组合，获取用户当前视线深度的眼睛图像。其中，上述虚拟刺激物的透明度在第二预设范围内。

当上述虚拟刺激物未显示在用户的视线上时，利用用户佩戴的增强现实头盔上的眼动追踪传感器组合，可以随机获取眼睛图像。其中，随机获取的眼睛图像中的视线深度可以是用户自由控制视线聚散度调整得到的。

图4是视线深度控制的示意图。图4中的(1)是刺激物引导的视线深度控制方式。透明度在第二预设范围内的虚拟刺激物显示在用户佩戴的增强现实头盔上，并显示在用户视线方向上的不同位置。用户可以使用该刺激物作为注视引导，控制视线深度，因此，眼动追踪传感器组合可以获取用户当前视线深度的眼睛图像。图4中的(2)是自由视线控制的方式，用户可以自由控制视线聚散度以调整视线深度，无需目标进行引导，眼动追踪传感器组合可以随机的获取眼睛图像。

可选的，上述眼动追踪传感器组合可以包括左眼眼动追踪传感器和右眼眼动追踪传感器。上述眼动追踪传感器组合可以安装于上述增强现实头盔上，用于拍摄眼睛图像。其中，为了得到视线深度信息，可以统一上述左眼眼动追踪传感器和上述右眼眼动追踪传感器的坐标系。将具有两个棋盘图案的参照标定板作为参照物。控制上述左眼眼动追踪传感器和上述右眼眼动追踪传感器，分别拍摄上述参照标定板上的两个棋盘图案，利用以下公式，得到上述左眼眼动追踪传感器的坐标系到上述右眼眼动追踪传感器的坐标系之间的转换：

其中，B表示上述参照标定板的关键点的三维坐标。r表示上述右眼眼动追踪传感器的相机坐标系。B_r表示上述参照标定板的关键点在上述右眼眼动追踪传感器的相机坐标下的坐标。O表示上述参照标定板的坐标系。R_Or表示从上述参照标定板的坐标系到上述右眼眼动追踪传感器的坐标系的旋转矩阵。l表示上述左眼眼动追踪传感器的相机坐标系。表示从上述参照标定板的坐标系到上述左眼眼动追踪传感器的坐标系的旋转矩阵的转置矩阵。B_l表示上述参照标定板的关键点在上述左眼眼动追踪传感器的相机坐标下的坐标。t_Or表示从上述参照标定板的坐标系到上述右眼眼动追踪传感器的坐标系的平移矩阵。t_Ol表示从上述参照标定板的坐标系到上述左眼眼动追踪传感器的坐标系的平移矩阵。

步骤305，对眼睛图像进行图像处理，得到用户的当前视线点信息、视线深度信息和视线方向信息。

在一些实施例中，上述执行主体可以对上述眼睛图像进行图像处理，得到上述用户的当前视线点信息、视线深度信息和视线方向信息。

在一些实施例的一些可选的实现方式中，上述对上述眼睛图像进行图像处理，得到上述用户的当前视线点信息、视线深度信息和视线方向信息，可以包括以下步骤：

第一步，对上述眼睛图像进行特征提取，得到人眼特征信息。其中，上述人眼特征信息包括以下至少一项：瞳孔信息和虹膜信息。

第二步，根据上述人眼特征信息，重构人眼的三维模型。

第三步，在距离上述用户不同深度的位置依次显示刺激物，以对上述用户的视线进行校准。

第四步，基于上述三维模型，确定视线深度信息、视线方向信息和当前视线点信息。其中，上述当前视线点信息是视线点的三维坐标信息。

可选的，上述视线方向信息可以是将上述眼睛图像中左眼视线方向和右眼视线方向的平均值，作为视线方向信息。其中，上述左眼视线方向和上述右眼视线方向可以分别由上述左眼眼动追踪传感器和上述右眼眼动追踪传感器确定。上述视线深度信息可以通过直接方式或间接方式得到。其中，上述直接方式可以是确定上述眼睛图像中左眼视线方向和右眼视线方向的三维交点。上述间接方式可以包括以下至少一项：通过确定上述眼睛图像中左眼和右眼的二维视线点的水平视差，以拟合视线深度，得到视线深度信息。或者可以通过确定上述眼睛图像中左眼和右眼的瞳孔间距离，以拟合视线深度，得到视线深度信息。其中，拟合的方式可以包括以下至少一项：多项式拟合、指数函数拟合和神经网络拟合。

步骤306，基于当前视线点信息、位姿信息集合和多个隐藏场景，确定目标隐藏场景。

在一些实施例中，上述执行主体可以基于上述当前视线点信息、上述位姿信息集合和上述多个隐藏场景，确定目标隐藏场景。

可选的，可以基于当前视线点信息、位姿信息集合和多个隐藏场景，确定当前视线点是否在隐藏场景中。若当前视线点位于隐藏场景中，进一步判断当前视线点所位于的隐藏场景，即确定目标隐藏场景。若当前视线点位于可见场景中，则不进行目标隐藏场景的确定操作。上述执行主体可以根据当前视线点是否位于隐藏场景中，将优化调整后的用户视图传至用户佩戴的增强现实头盔上显示，以增强用户视觉。

步骤307，将场景图像集合中与目标隐藏场景对应的场景图像，确定为优选图像。

在一些实施例中，上述执行主体可以将上述场景图像集合中与上述目标隐藏场景对应的场景图像，确定为优选图像。

步骤308，基于优选图像、当前视线点信息、视线深度信息和视线方向信息，生成目标隐藏场景中的目标图像。

在一些实施例中，上述执行主体可以基于上述优选图像、上述当前视线点信息、上述视线深度信息和上述视线方向信息，生成上述目标隐藏场景中的目标图像。

在一些实施例的一些可选的实现方式中，上述基于上述优选图像、上述当前视线点信息、上述视线深度信息和上述视线方向信息，生成上述目标隐藏场景中的目标图像，可以包括以下步骤：

当上述目标隐藏场景中搭建一个视频采集装置时，可以将上述视频采集装置所采集的图像或视频确定为优选图像。对上述优选图像进行透视变换。将变换后的优选图像投影到用户感兴趣区域，生成目标图像。其中，上述用户感兴趣区域是根据上述当前视线点信息、上述视线深度信息和上述视线方向信息确定的。

当上述目标隐藏场景中搭建多个视频采集装置时，可以将上述多个视频采集装置所采集的多个图像或视频确定为优选图像。对包括多个图像或视频的优选图像进行透视变换。将变换后的优选图像投影到用户感兴趣区域，得到多个用户视图。基于上述视线深度信息、上述视线方向信息、上述位姿信息集合和上述多个用户视图，确定目标用户视图，作为目标图像。其中，上述用户感兴趣区域是根据上述当前视线点信息、上述视线深度信息和上述视线方向信息确定的。

可选的，上述对上述优选图像进行透视变换，将变换后的优选图像投影到用户感兴趣区域，生成目标图像，可以包括以下步骤：

第一步，以当前视线点为中心，视线方向为垂线，确定用户感兴趣区域的三维区域平面，得到上述三维区域平面的角点在世界坐标系下的坐标。

第二步，确定上述三维区域平面的角点在视频采集装置的像素坐标系下的像素坐标，得到上述三维区域平面在优选图像上的二维投影。其中，上述执行主体可以使用标定板作为参照物，利用标定板，确定上述三维区域平面的角点在视频采集装置的像素坐标系下的像素坐标。

第三步，将上述优选图像上的二维投影内的图像区域进行透视变换，得到变换后的图像区域。

第四步，将变换后的图像区域投影到用户感兴趣区域，生成目标图像。

可选的，上述基于上述视线深度信息、上述视线方向信息、上述位姿信息集合和上述多个用户视图，确定目标用户视图，可以包括以下步骤：

从上述多个视频采集装置中的第i个视频采集装置的光心E_i向用户的当前视线点F发出一条射线定义第i个视频采集装置的光轴为/>定义射线/>与/>的夹角为α_i，定义用户的视线方向为/>定义射线/>与/>的夹角为β_i，将α_i+β_i按照从小到大的顺序进行排序：

α₁+β₁＜α₂+β₂＜…＜α_N-1+β_N-1＜α_N+β_N，

其中，N表示上述多个视频采集装置的数量。α₁+β₁表征对上述多个视频采集装置对应的多个用户视图排序后的第1个用户视图。排序后的第1个用户视图作为目标用户视图。α₂+β₂表征对上述多个视频采集装置对应的多个用户视图排序后的第2个用户视图。α_N-1+β_N-1表征对上述多个视频采集装置对应的多个用户视图排序后的第N-1个用户视图。α_N+β_N表征对上述多个视频采集装置对应的多个用户视图排序后的第N个用户视图。

图5是确定目标用户视图的示意图。如图5所示，从上述多个视频采集装置中的第1个视频采集装置的光心E₁向用户的当前视线点F发出一条射线定义第1个视频采集装置的光轴为/>定义射线/>与/>的夹角为α₁。定义用户的视线方向为/>定义射线与/>的夹角为β₁。对于多个视频采集装置中的第2个视频采集装置，采用如上方式进行参数的定义。对于多个视频采集装置中的其他视频采集装置，均采用如上方式进行参数的定义。

步骤309，将目标图像发送至用户佩戴的增强现实头盔上显示，以增强用户视觉。

在一些实施例中，上述执行主体可以将上述目标图像发送至上述用户佩戴的增强现实头盔上显示，以增强用户视觉。

本公开提出的视线深度引导的视觉增强方法，能够由人眼自然地控制进行视觉增强。而且，当有多个被遮挡的场景时，也可以通过视线方向和视线深度来选择显示想要观看的隐藏场景，从而增加用户体验。

以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种视线深度引导的视觉增强方法，包括：

利用搭建在多个隐藏场景中的视频采集装置，得到多个隐藏场景的图像或视频，其中，所述多个隐藏场景中的每个隐藏场景中搭建至少一个视频采集装置；

对所述多个隐藏场景中的视频采集装置中的每个视频采集装置的位姿信息进行标定，得到位姿信息集合，其中，所述位姿信息集合中的位姿信息是在世界坐标系下的信息；

基于所述多个隐藏场景的图像或视频，生成场景图像集合；

利用用户佩戴的增强现实头盔上的眼动追踪传感器组合获取眼睛图像，其中，所述眼睛图像中包括左眼区域和右眼区域；

对所述眼睛图像进行特征提取，得到人眼特征信息，其中，所述人眼特征信息包括以下至少一项：瞳孔信息和虹膜信息；

根据所述人眼特征信息，重构人眼的三维模型；

基于所述三维模型，确定视线深度信息、视线方向信息和当前视线点信息，其中，所述当前视线点信息是视线点的三维坐标信息；

基于所述当前视线点信息、所述位姿信息集合和所述多个隐藏场景，确定目标隐藏场景；

将所述场景图像集合中与所述目标隐藏场景对应的场景图像，确定为优选图像；

基于所述优选图像、所述当前视线点信息、所述视线深度信息和所述视线方向信息，生成所述目标隐藏场景中的目标图像；

将所述目标图像发送至所述用户佩戴的增强现实头盔上显示，以增强用户视觉

其中，所述对所述多个隐藏场景中的视频采集装置中的每个视频采集装置的位姿信息进行标定，包括：

将标定板作为参照物，利用以下公式，获得所述标定板的关键点在世界坐标系中的坐标：

其中，d表示所述增强现实头盔上的前置相机的像素坐标系，s_d表示所述前置相机的像素坐标系的比例系数，表示所述前置相机的像素坐标系的像素坐标，K_q表示所述前置相机的内参矩阵，m表示标定板坐标系，h表示所述前置相机的相机坐标系，R_mh表示从所述标定板坐标系到所述前置相机的相机坐标系的旋转矩阵，T_mh表示从所述标定板坐标系到所述前置相机的相机坐标系的平移矩阵，R_mh|T_mh表示R_mh和T_mh的拼接矩阵，0，0，0，1表示1×4的向量，P表示所述标定板的关键点的三维坐标，P_m表示所述标定板的关键点在标定板坐标系下的坐标，P_h表示所述标定板的关键点在所述前置相机的相机坐标系下的坐标，w表示世界坐标系，P_w表示所述标定板的关键点在世界坐标系下的坐标，R_hw表示从所述世界坐标系到所述前置相机的相机坐标系的旋转矩阵，T_hw表示从所述世界坐标系到所述前置相机的相机坐标系的平移矩阵；

利用以下公式，获得所述视频采集装置在世界坐标系下的位姿信息：

其中，a表示所述视频采集装置的像素坐标系，s_a表示所述视频采集装置的像素坐标系的比例系数，表示所述视频采集装置的像素坐标系的像素坐标，c表示所述视频采集装置的相机坐标系，K_e表示所述视频采集装置的内参矩阵，m表示标定板坐标系，R_mc表示从所述标定板坐标系到所述视频采集装置的相机坐标系的旋转矩阵，T_mc表示从所述标定板坐标系到所述视频采集装置的相机坐标系的平移矩阵，R_mc|T_mc表示R_mc和T_mc的拼接矩阵，0，0，0，1表示1×4的向量，P表示所述标定板的关键点的三维坐标，P_c表示所述标定板的关键点在所述视频采集装置的相机坐标系下的坐标，w表示世界坐标系，P_m表示所述标定板的关键点在标定板坐标系下的坐标，P_w表示所述标定板的关键点在世界坐标系下的坐标，R_cw表示从所述视频采集装置的相机坐标系到所述世界坐标系的旋转矩阵，T_cw表示从所述视频采集装置的相机坐标系到所述世界坐标系的平移矩阵。

2.根据权利要求1所述的方法，其中，在所述基于所述三维模型，确定视线深度信息、视线方向信息和当前视线点信息之前，包括：

在距离所述用户不同深度的位置依次显示刺激物，以对所述用户的视线进行校准。

3.根据权利要求2所述的方法，其中，所述基于所述优选图像、所述当前视线点信息、所述视线深度信息和所述视线方向信息，生成所述目标隐藏场景中的目标图像，包括：

当所述目标隐藏场景中搭建一个视频采集装置时，将所述视频采集装置所采集的图像或视频确定为优选图像，对所述优选图像进行透视变换，将变换后的优选图像投影到用户感兴趣区域，生成目标图像，其中，所述用户感兴趣区域是根据所述当前视线点信息、所述视线深度信息和所述视线方向信息确定的；

当所述目标隐藏场景中搭建多个视频采集装置时，将所述多个视频采集装置所采集的多个图像或视频确定为优选图像，对包括多个图像或视频的优选图像进行透视变换，将变换后的优选图像投影到用户感兴趣区域，得到多个用户视图，基于所述视线深度信息、所述视线方向信息、所述位姿信息集合和所述多个用户视图，确定目标用户视图，作为目标图像，其中，所述用户感兴趣区域是根据所述当前视线点信息、所述视线深度信息和所述视线方向信息确定的。

4.根据权利要求3所述的方法，其中，所述搭建在多个隐藏场景中的视频采集装置，到用户所处物理空间的距离在第一预设范围内，隐藏场景包括以下至少一项：用户所处物理空间的相邻空间场景，或与用户所处物理空间没有关联的空间场景；视频采集装置的放置方式包括以下至少一项：悬挂在隐藏场景的墙壁，或放置在移动的装置上。

5.根据权利要求4所述的方法，其中，所述眼动追踪传感器组合包括左眼眼动追踪传感器和右眼眼动追踪传感器，所述眼动追踪传感器组合安装于所述增强现实头盔上，用于拍摄眼睛图像，其中，为了得到视线深度信息，统一所述左眼眼动追踪传感器和所述右眼眼动追踪传感器的坐标系，将具有两个棋盘图案的参照标定板作为参照物，控制所述左眼眼动追踪传感器和所述右眼眼动追踪传感器，分别拍摄所述参照标定板上的两个棋盘图案，利用以下公式，得到所述左眼眼动追踪传感器的坐标系到所述右眼眼动追踪传感器的坐标系之间的转换：

其中，B表示所述参照标定板的关键点的三维坐标，r表示所述右眼眼动追踪传感器的相机坐标系，B_r表示所述参照标定板的关键点在所述右眼眼动追踪传感器的相机坐标下的坐标，O表示所述参照标定板的坐标系，R_Or表示从所述参照标定板的坐标系到所述右眼眼动追踪传感器的坐标系的旋转矩阵，l表示所述左眼眼动追踪传感器的相机坐标系，表示从所述参照标定板的坐标系到所述左眼眼动追踪传感器的坐标系的旋转矩阵的转置矩阵，B_l表示所述参照标定板的关键点在所述左眼眼动追踪传感器的相机坐标下的坐标，t_Or表示从所述参照标定板的坐标系到所述右眼眼动追踪传感器的坐标系的平移矩阵，t_Ol表示从所述参照标定板的坐标系到所述左眼眼动追踪传感器的坐标系的平移矩阵。

6.根据权利要求5所述的方法，其中，所述视线方向信息是将所述眼睛图像中左眼视线方向和右眼视线方向的平均值，作为视线方向信息，其中，所述左眼视线方向和所述右眼视线方向分别由所述左眼眼动追踪传感器和所述右眼眼动追踪传感器确定；所述视线深度信息通过直接方式或间接方式得到，其中，所述直接方式是确定所述眼睛图像中左眼视线方向和右眼视线方向的三维交点；所述间接方式包括以下至少一项：通过确定所述眼睛图像中左眼和右眼的二维视线点的水平视差，以拟合视线深度，得到视线深度信息，或者通过确定所述眼睛图像中左眼和右眼的瞳孔间距离，以拟合视线深度，得到视线深度信息，其中，拟合的方式包括以下至少一项：多项式拟合、指数函数拟合和神经网络拟合。

7.根据权利要求6所述的方法，其中，所述利用用户佩戴的增强现实头盔上的眼动追踪传感器组合获取眼睛图像，包括：

当虚拟刺激物显示在用户的视线上的不同位置时，以虚拟刺激物作为注视引导，以使用户控制视线深度，并利用用户佩戴的增强现实头盔上的眼动追踪传感器组合，获取用户当前视线深度的眼睛图像，其中，所述虚拟刺激物的透明度在第二预设范围内；

当所述虚拟刺激物未显示在用户的视线上时，利用用户佩戴的增强现实头盔上的眼动追踪传感器组合，随机获取眼睛图像，其中，随机获取的眼睛图像中的视线深度是用户自由控制视线聚散度调整得到的。

8.根据权利要求7所述的方法，其中，所述对所述优选图像进行透视变换，将变换后的优选图像投影到用户感兴趣区域，生成目标图像，包括：

以当前视线点为中心，视线方向为垂线，确定用户感兴趣区域的三维区域平面，得到所述三维区域平面的角点在世界坐标系下的坐标；

确定所述三维区域平面的角点在视频采集装置的像素坐标系下的像素坐标，得到所述三维区域平面在优选图像上的二维投影；

将所述优选图像上的二维投影内的图像区域进行透视变换，得到变换后的图像区域；

将变换后的图像区域投影到用户感兴趣区域，生成目标图像。

9.根据权利要求8所述的方法，其中，所述基于所述视线深度信息、所述视线方向信息、所述位姿信息集合和所述多个用户视图，确定目标用户视图，包括：

从所述多个视频采集装置中的第i个视频采集装置的光心E_i向用户的当前视线点F发出一条射线定义第i个视频采集装置的光轴为/>定义射线/>与/>的夹角为α_i，定义用户的视线方向为/>定义射线/>与/>的夹角为β_i，将α_i+β_i按照从小到大的顺序进行排序：

α₁+β₁<α₂+β₂<…<α_N-1+β_N-1<α_N+β_N，

其中，N表示所述多个视频采集装置的数量，α₁+β₁表征对所述多个视频采集装置对应的多个用户视图排序后的第1个用户视图，排序后的第1个用户视图作为目标用户视图，α₂+β₂表征对所述多个视频采集装置对应的多个用户视图排序后的第2个用户视图，α_N-1+β_N-1表征对所述多个视频采集装置对应的多个用户视图排序后的第N-1个用户视图，α_N+β_N表征对所述多个视频采集装置对应的多个用户视图排序后的第N个用户视图。