CN117915058A

CN117915058A - 图像透视方法、装置、存储介质、电子设备和xr设备

Info

Publication number: CN117915058A
Application number: CN202410130971.1A
Authority: CN
Inventors: 李鑫恺; 陈丽莉; 吕耀宇; 马思研; 赵元兴; 郭浩飞; 李言
Original assignee: BOE Technology Group Co Ltd; Beijing BOE Technology Development Co Ltd
Current assignee: BOE Technology Group Co Ltd; Beijing BOE Technology Development Co Ltd
Priority date: 2024-01-30
Filing date: 2024-01-30
Publication date: 2024-04-19

Abstract

本申请提供一种图像透视方法、装置、存储介质、电子设备和XR设备；所述方法包括：确定同一时刻获取的相机图像的数量，在每个相机图像对应的相机坐标系与对应预设的人眼坐标系之间构建转换关系；响应于确定存在两个相机图像，利用两个相机图像之间的视差图确定每个相机图像的深度信息；响应于确定存在单个相机图像，判断是否存在深度相机图像，响应于确定存在深度相机图像，利用所述深度相机图像确定该相机图像的深度信息，响应于确定不存在深度相机图像，利用预设的深度学习网络确定该相机图像的深度信息；利用深度信息和所述转换关系，将相机图像映射为在对应的人眼坐标系原点位置观测的目标图像。

Description

图像透视方法、装置、存储介质、电子设备和XR设备

技术领域

本申请的实施例涉及图像处理的技术领域，尤其涉及一种图像透视方法、装置、存储介质、电子设备和XR设备。

背景技术

相关的图像透视方法高度依赖于硬件固定的透视系统，例如，相机数量不变，相机位置不变，无法应对不同的硬件条件。

基于此，需要一种能够在相机数量和位置发生变化时，仍能正常进行透视的方案。

发明内容

有鉴于此，本申请的目的在于提出一种图像透视方法、装置、存储介质、电子设备和XR设备。

基于上述目的，本申请提供了图像透视方法，包括：

确定同一时刻获取的相机图像的数量，在每个相机图像的相机坐标系与对应预设的人眼坐标系之间构建转换关系；

确定与所述相机图像数量对应预设的深度信息处理策略，并基于深度信息处理策略确定每个相机图像的深度信息；

利用深度信息和所述转换关系，将相机图像映射为在对应的人眼坐标系原点位置观测的目标图像。

进一步地，确定同一时刻获取的相机图像的数量，包括：

确定同一时刻获取的二维拍摄图像的数量；

响应于确定获取到单个二维拍摄图像，将所述单个拍摄图像作为单个相机图像；

响应于确定获取到两个二维拍摄图像，确定所述两个二维拍摄图像之间的相似度是否达到预设的相似度阈值；

响应于确定达到所述相似度阈值，将所述两个二维拍摄图像作为两个相机图像；

响应于确定未达到所述相似度阈值，将所述两个二维拍摄图像中确定出一个相机图像。

进一步地，在每个相机图像对应的相机坐标系与对应预设的人眼坐标系之间构建转换关系，包括：

利用预设的出瞳距离，确定所述人眼坐标系的原点位置，利用所述人眼坐标系的原点位置确定所述相机坐标系与预设的世界坐标系之间的第一变换矩阵，并确定所述相机坐标系与所述人眼坐标系之间的第二变换矩阵；

在所述人眼坐标系中，利用所述第一变换矩阵和所述第二变换矩阵，以所述相机坐标系为目标，构建所述人眼坐标系与所述相机坐标系之间的转换关系。

进一步地，确定与所述相机图像数量对应预设的深度信息处理策略，并基于深度信息处理策略确定每个相机图像的深度信息，包括：

响应于确定存在两个相机图像，利用两个相机图像之间的视差图确定每个相机图像的深度信息。

进一步地，确定与所述相机图像数量对应预设的深度信息处理策略，并基于深度信息处理策略确定每个相机图像的深度信息，还包括：

响应于确定存在单个相机图像，判断是否存在深度相机图像；

响应于确定存在深度相机图像，利用所述深度相机图像确定该相机图像的深度信息；

响应于确定不存在深度相机图像，利用预设的深度学习网络确定该相机图像的深度信息。

进一步地，利用两个相机图像之间的视差图确定每个相机图像的深度信息，包括：

确定两个相机图像之间的重合范围，并确定所述重合范围内的视差图，所述视差图包括多个像素视差值，每个像素视差值包括所述重合范围内每个同名像点之间的像素坐标的差值；

根据所述视差图确定每个相机图像在重合范围内的每个像素点的深度值，并将全部像素点的深度值作为该相机图像的深度信息。

进一步地，利用两个相机图像之间的视差图确定每个相机图像的深度信息，还包括：

确定每个相机图像在所述重合范围内的各个特征点；

根据各个特征点在对应相机图像中的分布，和每个特征点的像素值，对所述各个特征点进行聚类，按照聚类结果将该相机图像的所述重合范围划分为多个连通域；

根据所述视差图确定每个相机图像在重合范围内的每个连通域的深度值，并将全部连通域的深度值作为该相机图像的深度信息。

进一步地，利用预设的深度学习网络确定该相机图像的深度信息，包括：

将该相机图像输入至预设的深度学习网络，并对该相机图像进行多种分辨率的降采样，得到多个不同分辨率的第一子图像；

对各个第一子图像进行特征提取，得到多维特征矩阵；

利用所述多维特征矩阵对各个第一子图像的特征进行聚合，得到各个第一子图像的视差信息；

利用各个视差信息预测出与该相机图像中的深度信息，所述深度信息包括该相机图像中各个像素点的深度值。

进一步地，将相机图像映射为在对应的人眼坐标系原点位置观测的目标图像之后，还包括：

根据预设的屏幕分辨率对所述目标图像的分辨率进行缩放，得到分辨率修正后的目标图像；

根据预设的相机视场角和预设的人眼视场角之间的比例关系，对所述修正后的目标图像进行裁剪，得到显示图像。

基于同一发明构思，本申请还提供了一种图像透视装置，包括：判定模块、深度信息确定模块和转换模块；

其中，所述判定模块，被配置为，确定同一时刻获取的相机图像的数量，在每个相机图像对应的相机坐标系与对应预设的人眼坐标系之间构建转换关系；

所述深度信息确定模块，被配置为，确定与所述相机图像数量对应预设的深度信息处理策略，并基于深度信息处理策略确定每个相机图像的深度信息；

所述转换模块，被配置为，利用深度信息和所述转换关系，将相机图像映射为在对应的人眼坐标系原点位置观测的目标图像。

基于同一发明构思，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任意一项所述的图像透视方法。

基于同一发明构思，本申请还提供了一种非暂态计算机可读存储介质，其中，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上述图像透视方法。

基于同一发明构思，本申请还提供了一种XR设备，所述XR设备包括如上所述的图像透视装置和电子设备，所述电子设备执行如上任意一项所述的图像透视方法。

从上面所述可以看出，本申请提供的图像透视方法、装置、存储介质、电子设备和XR设备，基于在同一时刻获取到的相机图像，可以构建相机坐标系与人眼坐标系之间各个像素坐标的转换关系，同时，综合考虑了相机图像的不同数量，来采取不同的方式计算相机图像的深度信息，当存在两个相机图像时，可以利用两个相机图像之间的视差图来计算各自的深度信息，避免了其他机制的参与，提高了计算深度信息的便捷性，当存在单个相机图像时，还可以根据是否存在深度相机图像，来采取不同的方式计算深度信息，存在深度相机图像时，可以通过深度相机图像来直接获取深度信息，最大程度上提高该情况下的执行效率，并在无深度相机图像时，通过深度学习网络来确定深度信息，降低了对硬件的依赖性，提高了灵活性。

附图说明

为了更清楚地说明本申请或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的图像透视系统的示意图；

图2为本申请实施例的图像透视方法的流程图；

图3为本申请实施例的图像透视方法的坐标第一示意图；

图4为本申请实施例的图像透视方法的深度学习网络示意图；

图5为本申请实施例的图像透视方法的坐标第二示意图；

图6为本申请实施例的图像透视装置结构示意图；

图7为本申请实施例的电子设备结构示意图；

图8为本申请实施例的XR设备结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本申请进一步详细说明。

需要说明的是，除非另外定义，本申请的实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请的实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

如背景技术部分所述，相关的图像透视方法还难以满足实际使用中图像处理的需要。

申请人在实现本申请的过程中发现，相关的图像透视方法存在的主要问题在于：用于图像透视的透视系统，其透视过程往往受到相机的安装数量和安装位置的局限，例如，双相机的透视系统难以适用于单相机，或者在其中一个相机被遮挡时，另一个相机难以正常工作。

相似地，单相机的透视系统也难以适用于双相机的硬件结构。

另一方面，相机位置的变化也会导致透视效果的变化，则需要再次对相机进行调整才能够正常使用。

也就是说，相关的图像透视方法高度依赖于硬件固定的透视系统，例如，相机数量不变，相机位置不变，无法应对不同灵活变化的硬件条件。

基于此，本申请中的一个或多个实施例提供了图像透视方法，基于不同的相机配置，来确定图像的深度信息，以在不同相机配置的情况下，完成有效的图像透视。

在本申请的实施例中，以图1作为一个具体的透视系统的示例，其中，包括有用于采集图像的图像传感器，对采集的图像进行处理的计算组件，以及，用于对处理后的图像进行显示的显示器。

其中，图像传感器中包括有至少一个相机，相机可以是RGB相机(彩色相机)和/或GRAY相机(灰度相机)，此外，在具备至少一个相机的基础上，还可以包括有DEPTH相机(深度相机)，或者不包括深度相机。

其中，相机用于获取相机图像，每个相机具有自己的相机坐标系，深度相机则用于获取表示图像深度的深度相机图像。

基于此，图像传感器中相机的配置可以是：两个相机的组合，或者仅单个相机，或者单个相机和深度相机的组合，或者两个相机和深度相机的组合。

其中，当图像传感器中相机的配置为两个相机的组合时，具体可以是：两个RGB相机的组合，两个GRAY相机的组合，以及，一个RGB相机和一个GRAY相机的组合中的任意一种组合。

进一步地，当图像传感器中相机的配置为仅单个相机时，具体可以是：单个RGB相机，或者单个GRAY相机。

进一步地，当图像传感器中相机的配置为一个相机和深度相机的组时，具体可以是：单个RGB相机和深度相机的组合，或者单个GRAY相机和深度相机的组合。

在本实施例中，RGB相机和GRAY相机的区别在于，RGB相机获取到的相机图像为彩色，而GRAY相机获取到的相机图像为灰度的黑白色。

在本实施例中，如图1所示，计算组件包括图像修正单元、图像视角转化单元和FOV(视场角)适配单元。

其中，图像视角转化单元中包括有第一图像视角转化模块、第二图像视角转化模块和第三图像视角转化模块。

在本实施例中，显示器包括左眼显示和右眼显示。

其中，当图像传感器中配置有两个相机时，则其中一个相机对应左眼显示，另一个相机对应右眼显示，据此可以将两个相机中对应左眼显示的相机，作为左相机，并将左相机的相机坐标系作为左相机坐标系，将左相机坐标系中的相机图像作为左相机图像；将对应右眼显示的相机，作为右相机，将右相机的相机坐标系作为右相机坐标系，将右相机坐标系中的相机图像作为右相机图像。

进一步地，当图像传感器中配置有单个相机时，则该相机可以对应左眼显示和右眼显示中的一个。

在本实施例中，该透视系统可以是例如XR(Extended Reality，扩展现实)设备，具体地，可以是VR(Virtual Reality，虚拟显示)设备等。

在本实施例中，由于左眼观测左眼显示，右眼观测右眼显示，据此，可以将左眼的左眼坐标系用于左眼显示，并将右眼坐标系用于右眼显示。

其中，左眼坐标系和右眼坐标系均统称为人眼坐标系。

以下结合附图详细说明本申请的实施例。

参考图2，本申请一个实施例的图像透视方法，包括以下步骤：

步骤S201、确定同一时刻获取的相机图像的数量，在每个相机图像对应的相机坐标系与对应预设的人眼坐标系之间构建转换关系。

在本申请的实施例中，基于上述实施例中图1的VR设备，可以利用图像传感器中的相机来获取相机图像，并根据相机图像的数量来判断当前可用的相机的数量，并构建每个相机坐标系与对应的人眼坐标系之间的转换关系。

具体地，同一时刻下利用每个相机进行拍摄，并获取同一时刻下，每个相机拍摄到的二维拍摄图像。

进一步地，通过判断二维拍摄图像的数量可以确定出可用的相机的数量。

具体地，当获取到的二维拍摄图像的数量是单个时，则可以认为当前配置有单个相机，并将该二维拍摄图像作为单个相机图像。

进一步地，当获取到的二维拍摄图像的数量是两个时，则可以认为当前配置有两个相机，并将两个二维拍摄图像作为两个相机图像。

在本申请的另一实施例中，当获取到的二维拍摄图像的数量是两个时，在将两个二维拍摄图像作为两个相机图像之前，可以通过计算两个二维拍摄图像之间的相似度来判断两个相机是否均正常工作，其中，相似度可以是利用均方误差或者其他指标来计算，并预先设置相似度阈值。

进一步地，当两个二维拍摄图像之间的相似度达到上述的相似度阈值时，则认为两个相机均正常工作，并将两个二维拍摄图像作为两个相机图像。

进一步地，当两个二维拍摄图像之间的相似度未达到上述的相似度阈值时，则认为两个相机至少有一个未正常工作，例如，镜头被遮挡或出现故障等情况，并从两个二维拍摄图像中确定出正常相机所拍摄的二维拍摄图像，并将该二维拍摄图像作为单个相机图像。

例如，当两个相机中任意一个相机被遮挡时，则只利用未被遮挡的相机所拍摄的二维拍摄图像，并只得到单个相机图像。

在本申请的另一实施例中，当两个二维拍摄图像之间的相似度未达到上述的相似度阈值时，可以通过对特征点进行检测来确定出工作不正常的相机，其中，特征点可以是例如角点，或与周围其他像素点的像素值有明显差异的像素点等。

具体地，可以预先设置检测时长，在该检测时长内检测两个二维拍摄图像的特征点，并认为未检测出特征点的二维拍摄图像为未正常工作的相机所拍摄，并将该二维拍摄图像剔除，并保留检测出特征点的二维拍摄图像，以将其作为相机图像。

在一些其他实施例中，还可以利用光流分析的方式，将光流显示异常的二维拍摄图像视为未正常工作的相机所拍摄，并将该二维拍摄图像剔除。

在本申请的另一实施例中，在确定出当前时刻下的相机图像之后，还可对每个相机图像进行立体校正。

在本实施例中，如图1所示，可以将图像传感器中确定出的相机图像发送至计算组件中的图像修正单元，利用该图像修正单元来对每个相机图像进行立体校正。

具体地，若存在两个相机图像，可以先对每个相机的内参数和畸变参数进行标定，并对两个相机之间的外参数进行标定。

进一步地，根据标定的内参数、畸变参数和外参数，对每个相机图像进行重新投影，得到无畸变且极限对齐的两个相机图像。

其中，可以采用例如开源计算机视觉库OpenCV中的立体校正模块来对每个相机图像进行重新投影。

进一步地，若存在单个相机图像，则可以获取该相机图像的图像数据，并根据该图像数据来对该相机图像进行畸变校正。

其中，可以采用例如开源计算机视觉库OpenCV中的畸变校正模块来对该相机图像进行畸变校正。

在本申请的实施例中，可以构建每个相机坐标系与对应的人眼坐标系之间的转换关系。

具体地，当确定出存在两个相机图像时，可以令图像修正单元将立体校正后的两个相机图像发送至第一图像视角转化模块中，并由第一图像视角模块来构建转换关系。

进一步地，当确定出存在单相机图像，则可以令图像修正单元将畸变校正后的单个相机图像发送至第二图像视角转化模块或第三图像视角转化模块中，并由第二图像视角转化模块或第三图像视角转化模块来构建转换关系。

具体地，当确定出存在单个相机图像时，可以进一步判断是否可以启动深度相机，若可以启动深度相机，并能够获取到正常的深度相机图像，则可以将畸变校正后的单个相机图像输入至第二视角转化模块，来构建该相机坐标系与人眼坐标系之间的转换关系。

进一步地，若无法启用深度相机，或者无法获取到深度相机图像，则认为该透视系统中未配置有深度相机，或者当前配置的深度相机无法正常工作，不能获取到深度相机图像，并可以将畸变校正后的单个相机图像输入至第三视角转化模块，来构建该相机坐标系与人眼坐标系之间的转换关系。

其中，第一图像视角转化模块、第二图像视角转化模块和第三图像视角转化模块均采用相同的方式来构建转换关系。

在具体的实施例中，以第一图像视角转化模块构建转换关系为例，在第一图像视角转化模块中，将两个相机图像分为左相机图像和右相机图像。

进一步地，以构建左相机坐标系与左眼坐标系之间的转换关系为例，如图3所示，左相机坐标系为原点O_L的三维坐标系，并具备X_L、Y_L和Z_L三个轴向，左眼坐标系为原点O_E的三维坐标系，并具备X_E、Y_E和Z_E三个轴向，透视系统外存在P点，在将P点映射在左相机坐标系内时，对应其中的p_l点，p_l点的坐标为(X_LP，Y_LP，Z_LP)，在将p_l点映射至左眼坐标系内时，对应其中的p_e点，p_e点的坐标为(X_EP，Y_EP，Z_EP)，P点在预先设置的世界坐标系中的坐标为(X_WP，Y_WP，Z_WP)。

进一步地，在左相机坐标系内，p_l点处于u_L轴和v_L轴组成的平面内，其中，u_L轴与X_L轴平行，v_L轴与Y_L轴平行，基于此，可以将Z_LP作为p_l点在做相机坐标系中的深度，并将(X_LP，Y_LP)作为p_l点在左相机坐标系内的二维坐标，并记为U_LP。

基于此，可以构建左相机坐标系与世界坐标系之间的关系，并如下所示：

其中，W表示P点在世界坐标系中的三维坐标，P_L表示第一变换矩阵，在将P点从世界坐标系映射至左相机坐标系中时，需要对其在世界坐标系中的三维坐标进行旋转和位移，第一变换矩阵则表示在三个轴向上的旋转量和位移量。

进一步地，在左眼坐标系内，p_e点处于u_E轴和v_E轴组成的平面内，其中，u_E轴与X_E轴平行，v_E轴与Y_E轴平行，基于此，可以将Z_EP作为p_e点在左眼坐标系中的深度，并将(X_EP，Y_EP)作为p_e点在左眼坐标系内的二维坐标，并记为U_EP。

基于此，可以构建左眼坐标系与世界坐标系之间的关系，并如下所示：

其中，P_E表示第三变换矩阵，在将P点从世界坐标系映射至左眼坐标系中时，需要对其在世界坐标系中的三维坐标进行旋转和位移，第三变换矩阵则表示在三个轴向上的旋转量和位移量。

进一步地，根据上述左相机坐标系和左眼坐标系各自与世界坐标系之间的关系，对于左眼坐标系，若以左相机作为世界坐标系，也即以左相机为目标时，则存在如下所示的关系：

其中，P_LE表示第二变换矩阵，在将P_l点从左相机坐标系映射至左眼坐标系中时，需要对其在世界坐标系中的三维坐标进行旋转和位移，第二变换矩阵则表示在三个轴向上的旋转量和位移量。

基于此，可以确定出如下所示的关系：

其中，P_L可以根据人眼位置来确定。

具体地，可以预先确定出该透视系统的出瞳距离，利用出瞳距离可以确定出左眼相对于左相机坐标系的坐标，在本实施例中，可以将人眼坐标系的原点位置作为人眼位置，基于此，可以确定出人眼坐标系的原点位置，也即该原点相对于左相机坐标系的位置。

进一步地，根据出瞳距离和人眼位置，可以确定出P_L和P_LE。

可以看出，在将P_L和P_LE输入至上述的关系后，可以构建出左眼坐标系与左相机坐标系之间关于深度Z_LP和深度Z_EP的转换关系。

在本实施例中，第一图像视角转化模块可以进一步构建右相机坐标系与右眼坐标系之间的转换关系。

进一步地，在仅存在单个相机图像时，利用第二图像视角转化模块和第三图像和图像视角转换模块，均可以构建将该相机图像所对应的相机坐标与人眼坐标系之间的转换关系，此时，人眼坐标系可以视为左眼显示或右眼显示中的一个所对应的坐标系。

可见，本实施例基于拍摄到的二维拍摄图像可以判断出是否存在被遮挡的相机，从而确定出正常的二维拍摄图像，并结合二维拍摄图像的数量来确定出相机图像的数量，以相机图像的数量来代表可用的相机的数量，进而，可以对于不同相机数量的情况，利用不同的图像视角转模块，来确定相机坐标系与对应的人眼坐标系之间的转换关系。

步骤S202、确定与所述相机图像数量对应预设的深度信息处理策略，并基于深度信息处理策略确定每个相机图像的深度信息。

在本申请的实施例中，基于上述对相机图像数量的判断，当判断出存在两个相机图像时，则可以通过确定两个相机图像的视差图，获取每个相机图像的深度信息。

具体地，可以确定出两个相机图像之间在场景上的重合范围。

其中，由于两个相机之间存在拍摄角度上的差异，因此，每个相机图像所拍摄到的场景范围不同，在两个相机图像各自包含的场景中，一部分是互相重合的，另一部分是不互相重合的场景，据此可以确定出两者之间的重合范围。

进一步地，基于上述的拍摄角度的差异，在图像重合范围内，同一被拍摄物体的在两个相机坐标系内存在位置偏差，也就是坐标不相同，也即，两个相机图像之间的同名像点的像素坐标存在差异。

基于此，可以确定出两个相机坐标系之间每个同名像点的像素坐标的差值，并将全部同名像点间的差值组成视差图，据此，对于每个相机图像，可以利用视差图来确定其重合范围内每个像素点的深度值，并将全部深度值组成该相机图像的深度信息。

在本申请的另一实施例中，在按照上述实施例确定出两个相机图像在重合范围内的视差图之后，还可以按照区域来确定相机图像的深度信息。

具体地，确定每个相机图像在重合范围内的特征点，其中，如前所述，特征点可以是例如角点，或与周围其他像素点的像素值有明显差异的像素点等。

进一步地，对于每个相机图像在重合范围内的各个特征点的分布，来对各个特征点进行聚类。

其中，在聚类时，可以按照分布情况，将距离相近的多个特征点划分为一类，以此得到聚类结果，具体可以预设第一距离阈值，并将互相之间的距离低于该第一距离阈值的多个特征点作为一类。

进一步地，在考虑分布情况的基础上，还可以综合每个特征点的其他特征，例如像素值和/或灰度值等，将多个灰度值十分接近，但互相之间距离分布不靠近又不十分疏远的特征点分为一类，具体地，对于多个灰度值差异在预设范围限制内的特征点，若其互相之间的距离不低于第一距离阈值，但低于第二距离阈值，则可以将其划分为一类，其中，第一距离阈值小于第二距离阈值。

进一步地，根据对特征点的聚类，可以将各个相机图像的重合范围划分为多个连通域，以令每个连通域内的各个特征点均属于同一类。

基于此，根据视差图，可以确定出每个连通域内任意一个特征点的深度值，并将该深度值作为该连通域内各个像素点的深度值；还可以确定出多个或全部特征点的深度值，并通过求取平均值或其他方式，来确定出一个深度值，并将该深度值作为该连通域内各个像素点的深度值。

进一步地，可以将各个连通域的深度值组成该相机图像的深度信息。

可见，在确定相机图像的深度信息时，可以利用视差图，来单独求取每个相机图像内每个像素点的深度值，实现获取高精度的深度信息，还可以通过划分多个连通域的方式，使得同一连通域内的各个像素点采用相同的深度值，实现高效率获取深度信息。

可以看出，当判断出存在两个相机图像时，可以利用两个相机图像在重合范围内的视差图来确定各自的深度信息，并可以不启用深度相机，进而也无需利用深度相机图像来确定各个相机图像的深度信息来确定相机图像的深度信息。

在本申请的实施例中，基于上述对相机图像数量的判断，当判断出存在单个相机图像时，则可以进一步利用深度相机图像或者预先设置的深度学习网络。

具体地，当判断出存在单个相机图像时，可以进一步判断是否获取到深度相机图像。

进一步地，当判断出在同一时刻除了单个相机图像之外，还存在另一深度相机图像时，则可以在第二图像视角转化模块构建相机坐标系与人眼坐标系之间的转换关系之后，可以利用获取到的深度相机图像来直接确定该相机图像内各个像素点的深度值，并将全部像素点的像素值确定为该相机图像的深度信息。

进一步地，当判断出在同一时刻除了单个相机图像之外，不存在另一深度相机图像时，则可以在第三图像视角转化模块构建该相机图像与人眼坐标系之间的转换关系之后，利用预设的深度学习网络来确定该相机图像的深度信息。

具体地，该深度学习网络的具体结构如图4所示，包括有预处理层、编码器、中间层和解码器。

在具体的示例中，如图4所示，通过第三图像视角转化模块可以将该相机图像输入至深度学习网络的预处理层，利用预处理层，可以按照多种不同的分辨率来对相机图像进行降采样，并在降采样后得到多种不同分辨率的第一子图像。

进一步地，将各个第一子图像输入至编码器中，利用该编码器可以对各个第一子图像进行特征提取，并将提取出的各个特征值组成多级别的特征金字塔，该特征金字塔可以视为一个多维度的特征矩阵。

进一步地，中间层有多个，在将特征金字塔输入至中间层后，可以对各个特征进行聚合，从而得到各个第一子图像之间的视差信息。

进一步地，将各个第一子图像的视差信息输入至解码器中，可以令该解码器利用视差信息来进行预测，得到对应该相机图像各个像素的深度值，并将各个深度值组成深度信息。

其中，深度信息可以是以图像形式表现深度值的深度图像，该深度图像的分辨率与该相机图像的分辨率相同。

可以看出，当仅存在单个相机图像的情况下，可以根据是否存在深度相机图像来使用不同的方式来确定深度信息，在存在深度相机图像时，可以直接从深度相机图像中确定出对应的深度信息，而在不存在深度相机图像时，则可以通过深度学习网络来对相机图像的深度信息进行预测，从而使得在深度信息的获取上更加灵活高效。

步骤S203、利用深度信息和所述转换关系，将相机图像映射为在对应的人眼坐标系原点位置观测的目标图像。

在本申请的实施例中，基于前述实施例中确定出的转换关系，以及，各个相机图像的深度信息，可以利用图1中的不同图像视角转化模块来将相机坐标系中的相机图像映射至对应的人眼坐标系中，并得到人眼坐标系中的目标图像。

具体地，以第一图像视角转化模块处理左相机对应的相机图像为例，将P点在相机坐标系中的深度Z_LP视为Z_L轴方向上的坐标，将其映射至人眼坐标系中的深度Z_EP视为Z_E轴方向上的坐标，因此，深度Z_LP与深度Z_EP之间可以形成如图5的位置关系。

其中，深度Z_LP与深度Z_EP之间存在角度为θ_z的偏转，并存在长度为t_Z的位移。

基于此，可以为深度Z_LP与深度Z_EP之间构建如下所示的关系：

Z_EP＝t_z+Z_LP*cosθ_z

进一步地，基于前述步骤中确定的深度Z_LP，可以确定出深度Z_LP。

基于此，在将确定出的深度Z_LP与深度Z_EP输入至上述构建出的左眼坐标系与左相机坐标系之间的转换关系，可以确定出左相机图像中的每个像素点在左眼坐标系中所对应的坐标，并将该像素的像素值赋值至该对应的坐标，以此可以在左眼坐标系中得到对左相机图像进行转换后的左眼目标图像。

进一步地，利用第一图像视角转化模块将右相机标系中的右相机图像转换至右眼坐标系内的右眼目标图像，并将左眼目标图像在图1中的左眼显示区域显示，将右眼目标图像在右眼显示区域显示。

在本申请的另一实施例中，当利用第二图像视角转化模块或者第三图像视角转化模块来处理单个相机图像时，可以按照上述实施例的方式，来确定出左眼坐标系或右眼坐标系的深度Z_LP，并按照上述实施例的方式将该相机图像转换至任一人眼坐标系中，并在左眼显示或右眼显示区域中显示。

在本申请的另一实施例中，在确定出目标图像后，由于可能存在的相机FOV和显示器FOV或人眼FOV不匹配的问题，或者，图像分辨率与屏幕分辨率纵横比不相同的问题等，使得目标图像并不适合直接传输到显示器中显示，基于此，可以先不将目标图像在显示器中进行显示，并将获得的目标图像进行裁剪和缩放，以得到适配人眼视角的显示图像。

具体地，如图1所示，可以将图像视角转化单元中确定出的目标图像输入至FOV适配单元，利用FOV适配单元可以根据显示器的分辨率，将目标图像的分辨率进行缩放，以对目标图像的分辨率进行修正，得到与显示器的分辨率相同的目标图像。

进一步地，为了令修正后的目标图像能够适配显示器的FOV，可以按照相机的FOV与显示器的FOV之间的比例关系，来对修正后的目标图像进行裁剪，在裁剪后得到显示图像，并将其在显示器中显示。

其中，显示器的FOV可以视为人眼FOV。

在具体的示例中，例如，显示器的分辨率为2560*1920，目标图像的分辨率为640*480，首先，可以将目标图像按照2560*1920的分辨率进行长和宽的缩放，在将缩放后的目标图像按照相机的FOV与显示器的FOV之间的比例关系，进行裁剪，得到显示图像。

可以看出，经过上述FOV适配单元的适配，可以将目标图像转换为适配人眼视角的显示图像，此时传输到显示器进行显示可形成更好的立体透视效果，提高用户体验。

可见，本申请的实施例的图像透视方法，基于在同一时刻获取到的相机图像，可以构建相机坐标系与人眼坐标系之间各个像素坐标的转换关系，同时，综合考虑了相机图像的不同数量，来采取不同的方式计算相机图像的深度信息，当存在两个相机图像时，可以利用两个相机图像之间的视差图来计算各自的深度信息，避免了其他机制的参与，提高了计算深度信息的便捷性，当存在单个相机图像时，还可以根据是否存在深度相机图像，来采取不同的方式计算深度信息，存在深度相机图像时，可以通过深度相机图像来直接获取深度信息，最大程度上提高该情况下的执行效率，并在无深度相机图像时，通过深度学习网络来确定深度信息，降低了对硬件的依赖性，提高了灵活性。

需要说明的是，本申请的实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本申请的实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本申请的实施例还提供了一种图像透视装置。

参考图6，所述图像透视装置，包括：判定模块601、深度信息确定模块602和转换模块603；

其中，所述判定模块601，被配置为，确定同一时刻获取的相机图像的数量，在每个相机图像对应的相机坐标系与对应预设的人眼坐标系之间构建转换关系；

所述深度信息确定模块602，被配置为，确定与所述相机图像数量对应预设的深度信息处理策略，并基于深度信息处理策略确定每个相机图像的深度信息；

所述转换模块603，被配置为，利用深度信息和所述转换关系，将相机图像映射为在对应的人眼坐标系原点位置观测的目标图像。

作为一个可选的实施例，所述判定模块601，具体被配置为：

确定同一时刻获取的二维拍摄图像的数量；

进一步地，利用预设的出瞳距离，确定所述人眼坐标系的原点位置，利用所述人眼坐标系的原点位置确定所述相机坐标系与预设的世界坐标系之间的第一变换矩阵，并确定所述相机坐标系与所述人眼坐标系之间的第二变换矩阵；

作为一个可选的实施例，所述深度信息确定模块602，具体被配置为：

具体地，确定两个相机图像之间的重合范围，并确定所述重合范围内的视差图，所述视差图包括多个像素视差值，每个像素视差值包括所述重合范围内每个同名像点之间的像素坐标的差值；

进一步地，还被配置为，确定两个相机图像之间的重合范围，并确定所述重合范围内的视差图，所述视差图包括多个像素视差值，每个像素视差值包括所述重合范围内每个同名像点之间的像素坐标的差值；

确定每个相机图像在所述重合范围内的各个特征点；

进一步地，该模块还被配置为：

具体地，将该相机图像输入至预设的深度学习网络，并对该相机图像进行多种分辨率的降采样，得到多个不同分辨率的第一子图像；

对各个第一子图像进行特征提取，得到多维特征矩阵；

作为一个可选的实施例，所述转换模块603，具体被配置为：

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请的实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的图像透视方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请的实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任意一实施例所述的图像透视方法。

图7示出了本实施例所提供的一种更为具体的电子设备4000的硬件结构示意图，该电子设备4000可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备、动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本申请实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入/输出模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请实施例方案所必需的组件，而不必包含图中所示的全部组件。

参考图8，基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种XR设备5000，所述XR设备5000包括图像透视装置和电子设备4000，所述电子设备4000执行如上任意一项所述的图像透视方法。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的图像透视方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的图像透视方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本申请的范围(包括权利要求)被限于这些例子；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请的实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本申请的实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本申请的实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请的实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本申请的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请的实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本申请的具体实施例对本申请进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本申请的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请的实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像透视方法，其特征在于，包括：

确定同一时刻获取的相机图像的数量，在每个相机图像对应的相机坐标系与对应预设的人眼坐标系之间构建转换关系；

2.根据权利要求1所述的方法，其特征在于，所述确定同一时刻获取的相机图像的数量，包括：

确定同一时刻获取的二维拍摄图像的数量；

响应于确定达到相似度阈值，将所述两个二维拍摄图像作为两个相机图像；

响应于确定未达到的所述相似度阈值，通过对每个二维拍摄图像中的各特征点进行检测从所述两个二维拍摄图像中确定出一个相机图像。

3.根据权利要求1所述的方法，其特征在于，所述在每个相机图像对应的相机坐标系与对应预设的人眼坐标系之间构建转换关系，包括：

4.根据权利要求1所述的方法，其特征在于，所述确定与所述相机图像数量对应预设的深度信息处理策略，并基于深度信息处理策略确定每个相机图像的深度信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述确定与所述相机图像数量对应预设的深度信息处理策略，并基于深度信息处理策略确定每个相机图像的深度信息，还包括：

6.根据权利要求4所述的方法，其特征在于，所述利用两个相机图像之间的视差图确定每个相机图像的深度信息，包括：

7.根据权利要求4所述的方法，其特征在于，所述利用两个相机图像之间的视差图确定每个相机图像的深度信息，还包括：

确定每个相机图像在所述重合范围内的各个特征点；

8.根据权利要求5所述的方法，其特征在于，所述利用预设的深度学习网络确定该相机图像的深度信息，包括：

对各个第一子图像进行特征提取，得到多维特征矩阵；

9.根据权利要求1所述的方法，其特征在于，所述将相机图像映射为在对应的人眼坐标系原点位置观测的目标图像之后，还包括：

10.一种图像透视装置，其特征在于，包括：判定模块、深度信息确定模块和转换模块；

所述转换模块，被配置为，利用深度信息和所述转换关系，将相机图像映射为对应的人眼坐标系原点位置观测的目标图像。

11.一种电子设备，包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至9中任意一项所述的方法。

12.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行根据权利要求1至9中任意一项所述的方法。

13.一种XR设备，其特征在于，包括如权利要求10所述的图像透视装置或如权利要求11所述的电子设备。