CN116648727A

CN116648727A - 用于相机标定的交叉光谱特征映射

Info

Publication number: CN116648727A
Application number: CN202180085099.8A
Authority: CN
Inventors: 苏普瑞思·阿查尔; 丹尼尔·戈德曼
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2023-08-25
Also published as: US20220277485A1; EP4244812A1; JP2024508359A; US12026914B2; WO2022159244A1; KR20230130704A

Abstract

一种方法包括由对第一光谱敏感的第一相机捕获真实世界场景的第一图像，所述第一相机具有第一光源；由对第二光谱敏感的第二相机捕获所述真实世界场景的第二图像，所述第二相机具有第二光源；识别所述第一图像中的至少一个特征；使用机器学习(ML)模型识别所述第二图像中与所述第一图像中的识别出的所述至少一个特征匹配的至少一个特征；基于经匹配的至少一个特征来将所述第一图像和所述第二图像中的像素映射到三维(3D)空间中的光线；并且基于所述映射来标定所述第一相机和所述第二相机。

Description

用于相机标定的交叉光谱特征映射

技术领域

实施例涉及两个或更多个相机的几何标定。

背景技术

几何相机标定是确定相机或相机集合的位置和内部参数(例如，焦距)的过程。几何标定提供三维(3D)空间中相机像素与光线之间的映射。通过在不同的相机视图中找到与真实世界场景中的同一点相对应的像素对并调整每个相机的内部参数以对齐像素对来确定标定(例如，第一相机的图像中的像素和第二相机的图像中的像素在真实世界场景中映射为同一者。

发明内容

在一般方面，装置、系统、非暂时性计算机可读介质(其上存储有可以在计算机系统上执行的计算机可执行程序代码)和/或方法可以使用包括以下操作的方法执行过程：通过对第一光谱敏感的第一相机捕获真实世界场景的第一图像，所述第一相机具有第一光源；通过对第二光谱敏感的第二相机捕获真实世界场景的第二图像，所述第二相机具有第二光源；识别所述第一图像中的至少一个特征；使用机器学习(ML)模型识别所述第二图像中与所述第一图像中识别的所述至少一个特征匹配的至少一个特征；基于经匹配的至少一个特征将所述第一图像和所述第二图像中的像素映射到三维(3D)空间中的光线；并且基于所述映射标定所述第一相机和所述第二相机。

实施方案可以包括以下特征中的一个或多个。例如，第一相机可以是近红外(NIR)相机，并且第二相机可以是可见光相机。ML模型可以用于识别第一图像中的至少一个特征。算法可以用于识别第一图像中的至少一个特征。ML模型可以用于将第一图像中的至少一个特征与第二图像中的至少一个特征匹配，并且可以基于第二图像的至少一个像素与第一图像中的至少一个特征的像素匹配的可能性而为第二图像的至少一个像素指派分数。算法可以用于将第一图像中的至少一个特征与第二图像中的至少一个特征匹配，可以基于第二图像的至少一个像素与第一图像中的至少一个特征的像素匹配的可能性而为第二图像的至少一个像素指派分数并且可以基于目标像素的位置的预测而为第二图像的至少一个像素指派方向。

算法可以用于识别第一图像中的至少一个特征，并且将第一图像中的至少一个特征与第二图像中的至少一个特征匹配可以包括使用第一ML模型从第一图像中的至少一个特征中选择候选特征；将第二图像中的至少一个像素与候选特征的像素匹配；基于至少一个像素与第一图像中的至少一个特征中的一个匹配的可能性而将分数指派到第二图像的匹配的至少一个像素；使用第二ML模型预测目标像素的位置的方向；以及将方向指派到第二图像的匹配的至少一个像素。第一相机和第二相机的标定可以基于具有最高分数的、与候选特征相关联的第二图像的匹配的至少一个像素以及具有最高分数的第二图像的匹配的至少一个像素的方向，所述方向基于具有最高分数的第二图像的匹配的至少一个像素和相邻像素。所述方法可以进一步包括基于先前标定在第二图像中选择至少一个搜索窗口。机器学习模型可以在从标定的多相机系统捕获的数据上进行训练。

附图说明

根据下文给出的具体实施方式和附图，示例实施例将更充分地得到理解，其中相同的元件由相同的附图标记表示，这些附图标记仅通过示意的方式给出，因此不限制示例实施例，并且其中：

图1A示意根据至少一个示例实施例的相机和场景的图。

图1B示意根据至少一个示例实施例的场景的一部分的二维(2D)图。

图1C和图1D示意根据示例实施方案的相机传感器。

图1E和图1F示意根据至少一个示例实施例的表示图像的一部分的2D坐标系。

图1G示意根据至少一个示例实施例的、表示图1E的2D坐标系和图1F的2D坐标系的重叠的2D坐标系。

图1H示意根据至少一个示例实施例的、表示在相机标定过程之后的图1E的2D坐标系和图1F的2D坐标系的重叠的2D坐标系。

图1I示意根据至少一个示例实施例的在相机标定之后的真实世界场景3D坐标系。

图2示意根据至少一个示例实施例的数据流的框图。

图3示意根据至少一个示例实施例的电话会议系统的框图。

图4示意根据至少一个示例实施例的用于标定相机的方法的框图。

图5示意根据至少一个示例实施例的用于匹配像素的方法的框图。

图6示出真实世界场景中的点的图形表示。

图7示出根据至少一个示例实施例的计算机装置和移动计算机装置的示例。

应注意，这些图旨在示意在某些示例实施例中使用的方法、结构和/或材料的一般特性并且补充以下提供的书面描述。然而，这些图不按比例绘制，并且可能不准确地反映任何给定实施例的精确结构或性能特性，并且不应被解释为定义或限制示例实施例所涵盖的值或属性的范围。例如，为了清楚起见，可以减小或夸大分子、层、区域和/或结构元件的相对厚度和定位。在各附图中使用类似或相同附图标记旨在指示类似或相同元件或特征的存在。

具体实施方式

在包括对光谱的不同部分敏感的相机的系统中，几何相机标定的特征匹配能够是有困难的。例如，在包括可见光和近红外(NIR)相机的混合物的系统中。特征匹配能够是有困难的，因为对象的视觉外观在不同的光谱中能够非常不同。在光照条件在不同光谱中不同的情况下，这个问题可能会加剧，因为真实世界场景中的点的外观可能会随着入射光照而显著变化。混合光谱相机系统的标定通常需要使用专门设计的标定目标，这些标定目标具有跨光谱的不同部分可容易检测到的基准标记。

在使用时需要最少技术支持的系统(例如，三维(3D)电话会议系统)中，使用标定目标可能是不可取的。本文描述的示例实施方案使用例如基于机器学习(ML)的方法来解决在例如可见光图像与近红外(NIR)图像之间寻找匹配特征点的问题。可以在NIR图像中选择候选特征集合。候选特征可以表示可能易于精确定位的像素(例如，角部、过渡、斑点等)。对于每个候选特征，在目标红-绿-蓝(RGB)图像中定义搜索窗口。可以使用ML模型(例如，神经网络)评分函数为搜索窗口内的每个RGB像素指派分数，所述评分函数将高分数指派给有可能对应于候选NIR特征的像素，而在其它像素指派低分数。

第二ML模型(例如，第二神经网络)可以用于预测搜索窗口中每个像素的精确匹配的位置(例如，x,y位置)。搜索窗口中每个像素的估计偏移(例如，精确匹配的位置(例如，精确匹配像素的位置)沿着图像x和y轴离当前RGB像素多远的预测。如果发现搜索窗口中的RGB像素具有足够高的分数(例如，极有可能匹配)，则可以对RGB像素及其相邻像素的估计偏移进行平均，以找到目标匹配像素位置并创建NIR到RGB匹配。第一和第二ML模型可以使用从标定良好的多相机系统捕获的数据训练，其中可以精确地确定NIR和RGB相机之间的正确匹配特征对。

图1A示意根据至少一个示例实施例的相机和场景的图。图1A用于示意用于识别图像中的特征的真实世界场景，所述图像中的特征可以用于标定包括响应于不同类型的光源(例如，IR和可见光)的相机的多相机系统。根据示例实施方案，真实世界场景不包括(例如，包括可识别用于相机标定过程的特性的)专门设计的标定目标。

如图1A中所示，场景包括第一相机5和第二相机10。出于示例目的示出两个相机。然而，示例实施方案可以在三维(3D)电话会议系统中包括多于两个相机。第一相机5和第二相机10可以被配置成捕捉示意为包括与地板110接触的墙壁105的一部分的场景的图像。墙壁可以包括门115。包括墙壁105、门115和门的场景可以包括包含特征120-1、120-2、120-3的图像的一部分。可以使用搜索算法和/或ML模型(例如，神经网络)选择包括特征120-1、120-2、120-3的图像的部分中的每一个。可以训练ML模型以选择(真实世界场景的)图像的部分。包括特征120-1、120-2、120-3的图像的部分可以是可以精确定位(或确定位置)的角部、过渡、斑点等。特征可以包括具有颜色(例如，NIR或RGB)梯度的相邻像素。换句话说，特征可以是具有从像素到至少一个相邻像素的至少一个颜色过渡的图像(例如，NIR图像)的部分。例如，图像的包括特征120-1的部分可以包括门115的角部122-1，图像的包括特征120-2的部分可以包含可区分斑点(例如，门把手122-2)，并且图像的包括特征120-3的部分可以包括门115的角部以及从门115到地板110的过渡122-3。用于识别特征的搜索算法和/或ML模型可以使用在最难识别特征的光谱(例如NIR)中捕获的图像。

相机5(例如，NIR相机)可以包括光源125，所述光源被配置成生成处于与相机5相关联的光谱(例如，NIR)至少一个光线130。场景进一步包括光源135、处于与相机10相关联的光谱(例如，可见光)的至少一个光线140。尽管光源125和光源135分别示意为在相机中和在相机外部，但是示例实施方案可以单独地或组合地包括外部光源和相机光源。光线145和光线150是从真实世界场景反射的光线，分别由相机5和相机10的传感器检测，其中基于光线145、150在图像中(例如，由相机的传感器)生成图像点(例如，像素)。光线145和光线150可以对应于与特征120-1相关联的真实世界场景中的相同点(或从所述相同点反射)。在示例实施方案中，在标定之前，光线145和光线150可以不用于在相机5和相机10两者中的相同位置(例如，x，y位置)处生成图像中的像素。因此，可以标定相机5和相机10以将基于光线145的、相机5生成的(图像中的)像素和基于光线150的、相机10生成的(图像中的)像素对齐，以在相应图像中具有相同的位置。

图1B是根据至少一个示例实施例的、图1A中所示的场景的一部分的二维(2D)图。图1B用于示意图像的一部分，所述部分可以包括在标定期间使用的像素。在示例实施方案中，用于标定的像素可以是第一图像中的在第二图像中具有匹配像素的像素。图1B示意图1A中所示的图像的包括特征120-1的部分。图像的包括特征120-1的部分可以包括门的角部122-1。图1B示意图像的包括特征120-1的部分作为2D图像的一部分。2D图像可以是(使用相机10捕获的)RGB图像，并且可以已经使用(使用照相机5捕获的)NIR图像识别图像的包括特征120-1的部分。此2D图示示出像素155，所述像素155可以是识别为在图像的包括特征120-1的部分内的相机标定中使用的像素。要在相机标定中使用的像素可以是已经位于由相机5捕获的图像中的像素，所述图像具有由相机10(图1A中所示)捕获的对应(例如，匹配)像素。

图1C和图1D用于示意相机的传感器的一部分和感测到的光线的解释位置。图1C示意与相机5相关联的相机传感器。图1C中所示的传感器位置160-1可以对应于由相机5捕获的NIR图像(未示出)中的像素(例如，NIR像素)。光线145可以使相机5在图像捕获过程期间使用传感器位置160-1生成图像中的像素(未示出)。

图1D示意与相机10相关联的相机传感器。图1D中所示的传感器位置160-2可以对应于像素155(例如，RGB像素)。如图1D中所示，光线150可以使相机10在图像捕获过程期间使用传感器位置160-2生成像素155。

使用相机5捕获的图像的像素(未示出)的位置(例如，x,y坐标)应与像素155的像素位置相同。因此，传感器位置160-1和传感器位置160-2应当用于生成对应图像中的具有相同x,y坐标的像素。然而，如在图1C和图1D中看到，传感器位置160-1和传感器位置160-2不具有相同x,y坐标。这指示需要标定的多相机系统。换句话说，经标定的多相机系统应具有相同的传感器位置(例如，与像素155和使用相机5捕获的匹配像素相关联的传感器位置160-3。

图1E到图1G用于示意在标定多相机系统之前图像上的像素的2D位置。图1E示意表示图像的一部分的2D坐标系，所述部分具有位于对应于(相机5的)传感器位置160-1的X1,Y1处的像素165-1。图1F示意表示图像的一部分的2D坐标系，所述部分具有位于对应于(相机10的)传感器位置160-2的X2,Y2处的像素165-2。图1G示意表示图1E的2D坐标系和图1F的2D坐标系的重叠的2D坐标系。像素165-1和像素165-2可以表示真实世界场景中的相同点(作为匹配像素)。换句话说，像素165-1和像素165-2可以表示真实世界场景中具有相同3D坐标(x,y,z坐标)的点。因此，使用相机5捕获的包括像素165-1的2D图像和使用相机10捕获的包括像素165-2的2D图像应在图1G的重叠2D坐标系中共享相同位置(例如，x，y坐标)。如图1G中可见，像素165-1和像素165-2不共享相同位置。因此，应标定相机，以将使用相机5捕获的图像的像素与使用相机10捕获的图像的像素对齐(例如，使像素165-1和像素165-2在其相应图像中具有相同2D坐标)。

标定可以包括调整标定参数，使得与光线145和光线150相关联的计算与相同的目标像素位置相关联。目标像素位置应该是表示图像的一部分的2D坐标系中的相同位置(例如，x,y坐标)。

图1H用于示意在标定多相机系统之后图像上的像素的2D位置。图1H示意表示在相机标定过程之后图1E的2D坐标系和图1F的2D坐标系的重叠的2D坐标系。如图1H中所示，像素165-1’和像素165-2’共享相同位置X3,Y3(还在图1C和图1D中示意)。像素165-1’和像素165-2’表示在已经调整标定参数使得光线145和光线150与相同的目标像素位置相关联之后的像素165-1和像素165-2。将像素165-1和像素165-2标定到目标像素位置可以引起对与光线145和光线150相关联的传感器读数的(例如，由相机做出的)处理以解释2D位置，从而导致将光线解释为在3D真实世界场景坐标系中的相同点处相交。

图1I用于示意空间中的点的3D位置，所述3D位置对应于上述标定的相机2D像素位置。图1I示意在相机标定之后的真实世界场景3D坐标系，其中点170示意交点。因此，目标像素位置是用于调整相机的标定参数的2D坐标系中的像素的位置，使得真实世界场景3D坐标系统中的光线(例如，光线145’和150’)在真实世界场景中的点(例如，点170)处相交。

调整标定参数可以导致感测到的光线(例如，光线145和光线150)的所解释2D位置在相机内变化，使得与光线相关联的传感器位置与不同的2D感测位置相关联。标定参数可以包括内在参数和外在参数。内在参数可以包括有效焦距、或像平面到投影中心的距离、透镜畸变系数、x的比例因子、由于相机扫描和/或获取定时误差导致的所获取图像的原点偏移。外在参数可以通过相机相对于定义的世界坐标系的3D位置和定向来定义。

在示例实施方案中，内在参数被视为在特定范围内并且调整外在参数。例如，使真实世界场景中的点的x,y,z坐标改变的参数可以是标定的元素。此外，使真实世界场景中的坐标平面的x轴、y轴和z轴(例如，定向)坐标改变的参数可以是标定的元素。出于示例目的，使用两个相机描述相机标定。然而，示例实施方案可以在三维(3D)电话会议系统中包括远多于两个相机。例如，可以使用两(2)个或更多个NIR相机和/或两(2)个或更多个RGB相机。此外，出于示例目的描述单个匹配像素。示例实施方案可以包括在相机标定中多个(例如，10s、100s、1000s等)像素的使用。

参考机器学习(ML)模型、ML模型的使用和ML模型的训练。ML模型可以包括使用包括卷积神经网络、递归神经网络、决策树、随机森林和/或k最近邻等的算法。例如，卷积神经网络(CNN)可以用于匹配像素、确定像素位置和/或识别像素等。CNN架构可以包括输入层、特征提取层和分类层。

输入可以接受三个维度(例如，x,y,颜色)下的数据(例如，图像数据)。特征提取层可以包括卷积层和池化层。卷积层和池化层可以在图像中找到特征，并且逐步构建高阶特征。特征提取层可以是学习层。分类层可以生成类别概率或分数(例如，指示匹配的可能性)。

训练(例如，训练特征提取层)可以包括例如有监督训练和无监督训练。有监督训练包括要从给定的预测因子(自变量)集合中预测的目标/结果变量(例如，真实值或因变量)。使用这些变量集合，生成可以将输入映射到所需输出的函数。训练过程继续，直到模型基于训练数据达到期望的精度水平。无监督训练包括使用机器学习算法从由没有经标记的响应的输入数据组成的数据集中进行推断。无监督训练有时包括聚类。也可以使用其它类型的训练(例如，混合和强化)。

如上所述，ML模型的训练可以继续，直到达到期望的精度水平。确定精度水平可以包括使用损失函数。例如，损失函数可以包括铰链损失、对率损失(logistic loss)、负对数似然等。可以将损失函数最小化以指示已经达到ML模型训练的足够精度水平。也可以使用正则化。正则化可以防止过度拟合。可以通过使权重和/或权重变化足够小以防止训练(例如，永无止境的)训练来防止过度拟合。

图2示意根据至少一个示例实施例的数据流的框图。数据流与标定多相机系统中的相机相关联。如图2中所示，数据流200包括相机5、相机10、特征识别器215块、特征匹配220块、光线到像素映射225块和标定230块。在数据流200中，第一图像由相机5捕获并且第二图像由相机10捕获。每个图像可以具有真实世界场景(例如，基本上相同的真实世界场景)。根据示例实施方案，真实世界场景不包括专门设计的标定目标(例如，标定目标包括可识别用于相机标定过程的特性)。例如，每个图像可以关于图1A中所示的场景。第一图像可以是NIR图像，并且第二图像可以是RGB图像。相机5可以将第一图像传送到特征识别器215块，其中可以在第一图像(例如，NIR图像)中识别多个特征。例如，图像中包括图1A中所示的特征120-1、120-2、120-3的部分可以包括所识别特征122-1、122-2、122-3。可以将多个所识别特征传送到特征匹配220块。相机10可以将第二图像传送到特征匹配215块，其中可以将多个所识别特征的像素匹配(例如，定位和匹配)到第二图像中的该多个特征的像素。例如，图1B中所示的像素155可以是在NIR图像中匹配并用于在标定期间使用的RGB像素。

将来自第一图像和第二图像的多个匹配特征从特征匹配220块传送到光线到像素映射225块。对于与第一图像和第二图像两者相关联的多个匹配特征，光线到像素映射225块可以将3D空间中的光线映射到2D空间中的像素。例如，可以基于传感器位置和对应像素位置将图1C中所示的光线145和图1D中所示的光线150映射到像素。标定230块可以使用到像素的所映射的光线来标定相机5和相机10。标定230块可以调整标定参数以对齐(来自匹配特征的)匹配像素的位置，使得第一图像中的匹配到第二图像中的像素的像素在图像的2D空间中基本上处于相同位置。例如，如图1H中所示的像素165-1’和像素165-2’可以是对齐的匹配像素。

特征识别器215块可以被配置成识别图像中的特征。特征识别器215块可以使用角部和边缘检测。角部和边缘检测可以包括使用Harris角部检测器。Harris角部检测器基于信号的局部自相关函数，其中局部自相关函数测量在不同方向上少量移位图块(patch)情况下的信号的局部变化。为了找到输入图像中的角部，所述技术分析具有方向性的平均强度。Harris角部检测器的数学形式定位(u,v)的位移在所有方向上的强度差。

特征识别器215块可以使用机器学习(ML)模型来识别特征。ML模型可以使用数据(例如，图像)进行训练，所述数据使用标定的多相机系统捕获。ML模型可以是卷积神经网络。ML模型可以使用分类来将图像的一部分识别为包括(或是)候选特征。在示例实施方案中，相机5是配置成捕获NIR图像的NIR相机。可以将NIR图像输入到ML模型。ML模型可以输出NIR图像的多个部分的分类。输出可以包括NIR图像的每个部分的唯一标识符、NIR图像的每个部分的位置和/或尺寸，并且将NIR图像的每个部分指示为包括候选特征或不包括候选特征。候选特征可以包括可能易于精确定位(例如，指示像素在NIR图像内的位置)的(例如，NIR图像的)至少一个像素(例如，角部、过渡、斑点等)。

特征匹配220块可以被配置成使用ML模型在第二图像中定位识别为第一图像中的候选特征的匹配特征。ML模型可以使用数据(例如，图像)进行训练，所述数据使用标定的多相机系统捕获。ML模型可以是卷积神经网络。ML模型可以使用评分来将第二图像中的像素识别为第一图像中的像素的可能匹配。例如，高分数可以将像素指示为可能的匹配，而低分数可以将像素指示为不是可能的匹配。

在示例实施方案中，第一图像是NIR图像(由相机5捕获)并且第二图像是RGB图像(由相机10捕获)。特征匹配220块可以接收数据并且将NIR图像的每一部分指示为包括候选特征或不包括候选特征，所述数据包括NIR图像的每个部分的唯一标识符、NIR图像的每个部分的位置和/或尺寸。可以将包括NIR图像中包括候选特征的部分的数据输入到ML模型。ML模型可以为与NIR图像中包括候选特征的部分相关联的每个像素指派分数(例如，指示匹配的可能性的分数)。

对于每个候选特征，可以在第二(RGB)图像中定义搜索窗口。可以使用ML模型为搜索窗口内的每个像素指派分数，其中高分数指示可能与候选特征中的像素相对应的像素，而低分数在其它像素。第二ML模型(例如，第二神经网络)可以用于预测搜索窗口中每个像素的精确匹配的位置(例如，x,y位置)。可以生成搜索窗口中每个像素的估计偏移(例如，精确匹配像素沿着图像x和y轴离当前像素多远的预测)。可以计算匹配像素(例如，具有达到标准(例如，高于阈值)的分数的像素)的估计偏移。例如，如果发现搜索窗口中的像素具有足够高的分数(例如，极有可能匹配)，则可以对像素及其相邻像素的估计偏移进行平均，以找到最佳匹配像素(作为目标匹配像素)的估计偏移，并且可以生成NIR到RGB匹配。该匹配(例如，像素在第二或RGB图像中的位置)可以与估计偏移一起从第二ML模型输出。在示例中，窗口可以基于先前标定。例如，窗口位置和尺寸可以基于在先前标定期间确定(并存储在存储器中)的窗口位置和尺寸。

上述ML模型可以使用数据(例如，图像)进行训练，所述数据使用标定的多相机(例如，NIR和RGB)系统捕获。训练可以包括生成与候选特征相关联的像素的分数。真实值数据可以包括多个特征、特征中的像素的位置、像素分数和偏移。训练可以包括调整与ML模型相关联的权重(例如，神经网络的权重)，直到ML模型的分数输出基于与真实值数据的比较达到标准。

光线到像素映射225块可以被配置成将真实世界场景中的3D点映射到图像空间中的2D点，并且将图像空间中的2D点映射到真实世界场景中的3D光线。从3D真实世界坐标系中的点到图像坐标系的映射可以基于相机标定矩阵。光线到像素映射可以包括一个过程，所述过程包括若干数学计算。可以参考图6描述这些计算的一个示例图示。参考图6，根据等式p_i＝M_iP，可以将真实世界场景中的点P映射为p_i，其中M是相机标定矩阵。此外，给定两个或更多个相机(例如，相机1和相机2)中的点(例如，点p1和p2)的图像(例如，像素)，可以使用三角测量确定点在真实世界坐标系中的位置。对于相应相机i(例如，相机1、相机2)中的点p(p1,p2)，图像可以投影为光线R_i(例如，R₁和R₂)。光线在真实世界坐标系中的等式可以由给出，其中C_i(例如，C1和C2)是在真实世界坐标系中的相机的中心。C_i和M_i ⁺可以从相机标定参数获得。可以通过找到来自多个相机的光线之间的交点来获得真实世界坐标系中的点。点P的值可以使用三角测量得出，并且位置P可以通过在等式和/>中找到λ和β的值来计算。

返回到图2，标定230块可以被配置成相对于彼此标定相机5和或相机10。标定可以包括将基于(真实世界中的)光线由相机5生成的(图像中的)像素和基于(真实世界中的)光线由相机10生成的(图像中的)像素对齐，以在相应图像中具有相同的位置。标定可以包括调整标定参数，使得第一光线(例如，R₁、光线145)和第二光线(例如，R₂、光线150)与目标像素位置(P)相关联。目标像素位置可以是真实世界场景坐标系中的点，所述点是第一光线与第二光线之间的交点。调整标定参数使得第一光线和第二光线被解释为在真实(例如，3D)空间中的点处相交可以包括：与未标定的相机相比，使与第一光线和第二光线相关联的处理后的传感器位置在2D中移位。标定参数可以被包括在相机标定矩阵M中。因此，修改标定矩阵M可以导致点p1和p2(作为匹配像素)平移，使得光线R1和R2在点P处相交。在示例实施方案中，匹配像素的数目应该是大的(例如，数百个匹配像素)。

标定参数可以包括内在参数和外在参数。内在参数可以包括有效焦距、或像平面到投影中心的距离、透镜畸变系数、x的比例因子、由于相机扫描和/或获取定时误差导致的所获取图像的原点偏移。外在参数可以通过相机相对于定义的世界坐标系的3D位置和定向来定义。

在示例实施方案中，内在参数被视为在特定范围内并且调整外在参数。例如，使真实世界场景中的点的x,y,z坐标改变的参数可以是标定的元素。此外，使真实世界场景中的坐标平面的x轴、y轴和z轴(例如，定向)坐标改变的参数可以是标定的元素。

图3示意根据至少一个示例实施例的电话会议系统的框图。图3中所示的元件涉及(或包括)标定如图2中所示的电话会议系统的相机。如图3中所示，电话会议系统300包括至少一个处理器305、至少一个存储器310、相机接口315、特征识别器215块、特征匹配220块、光线到像素映射225块和标定230块。上文描述特征识别器215块、特征匹配220块、光线到像素映射225块和标定230块。

至少一个处理器305可以用于执行存储在至少一个存储器310上的指令，由此实施本文所描述的各种特征和功能，或附加或替代特征和功能。至少一个处理器305可以是通用处理器。至少一个处理器305可以是图形处理单元(GPU)和/或音频处理单元(APU)。至少一个处理器305和至少一个存储器310可以用于各种其它目的。具体地，至少一个存储器310可以表示各种类型的存储器和相关硬件和软件的示例，它们可以用于实施本文所描述的模块中的任一个。

至少一个存储器310可以被配置成存储与电话会议系统300相关联的数据和/或信息。例如，至少一个存储器310可以被配置成存储与使用所识别的真实世界场景特征标定相机相关联的代码。根据示例实施方案，真实世界场景不包括专门设计的标定目标(例如，标定目标包括可识别用于相机标定过程的特性)。例如，至少一个存储器310可以被配置成存储与至少一个经过训练的ML模型相关联的代码。至少一个存储器310可以是具有代码的非暂时性计算机可读介质，所述代码在由处理器305执行时使处理器305实施本文所描述的技术中的一个或多个。至少一个处理器310可以是共享资源。例如，模型训练系统300可以是更大系统(例如，服务器、个人计算机、移动装置等)的元件。因此，至少一个存储器310可以被配置成存储与较大系统内的其它元件相关联的数据和/或信息。

图4和图5是根据示例实施例的方法的流程图。关于图4和图5描述的方法可以由于存储在与设备相关联的存储器(例如，非暂时性计算机可读存储介质)中的软件代码的执行而执行，并且由与设备相关联的至少一个处理器执行。

然而，设想到替代实施例，诸如体现为专用处理器的系统。专用处理器可以是图形处理单元(GPU)和/或音频处理单元(APU)。GPU可以是图形卡的组件。APU可以是声卡的组件。图形卡和/或声卡还可以包括视频/音频存储器、随机存取存储器数模转换器(RAMDAC)和驱动软件。驱动软件可以是存储在上述存储器中的软件代码。软件代码可以被配置成实施本文所描述的方法。

尽管下文描述的方法被描述为由处理器和/或专用处理器执行，但是方法不一定由同一处理器执行。换句话说，至少一个处理器和/或至少一个专用处理器可以执行下文关于图4和5描述的方法。

图4示意根据至少一个示例实施例的用于标定相机的方法的框图。如图4中所示，在步骤S405中，第一图像由第一相机捕获。例如，第一相机可以对第一光谱(例如，IR、NIR等)敏感，并且第一相机可以具有第一光源(例如，与第一相机相关联的IR或NIR闪光灯)。在示例实施方案中，第一相机可以是NIR相机，并且第一图像可以是NIR图像。

在步骤S410中，第二图像由第二相机捕获。例如，第二相机可以对第二光谱(例如，可见光)敏感，并且第二相机可以具有第二光源(例如，室内光和/或太阳光等)。在示例实施方案中，第二相机可以是可见光或RGB相机，并且第一图像可以是RGB图像。

在步骤415中，在第一图像中识别特征。特征识别可以包括角部和边缘检测的使用。角部和边缘检测可以包括使用Harris角部检测器。Harris角部检测器基于信号的局部自相关函数，其中局部自相关函数测量在不同方向上少量移位图块情况下的信号的局部变化。为了找到输入图像中的角部，所述技术分析具有方向性的平均强度。Harris角部检测器的数学形式定位(u,v)位移在所有方向上的强度差。

替选地，可以使用机器学习(ML)模型来识别图像中的特征。ML模型可以使用数据(例如，图像)进行训练，所述数据使用标定的多相机系统捕获。ML模型可以是卷积神经网络。ML模型可以使用分类来将图像的一部分识别为包括(或是)候选特征。在示例实施方案中，相机是配置成捕获NIR图像的NIR相机。可以将NIR图像输入到ML模型。ML模型可以输出NIR图像的多个部分的分类。输出可以包括NIR图像的每个部分的唯一标识符、NIR图像的每个部分的位置和/或尺寸，并且将NIR图像的每个部分指示为包括候选特征或不包括候选特征。候选特征可以包括可能易于精确定位(例如，指示像素在NIR图像内的位置)的(例如，NIR图像的)至少一个像素(例如，角部、过渡和/或斑点等)。

在步骤S420中，识别第二图像中与第一图像中识别的特征匹配的特征。例如，ML模型可以用于在第二图像中定位识别为第一图像中的候选特征的匹配特征。ML模型可以使用数据(例如，图像)进行训练，所述数据使用标定的多相机系统捕获。ML模型可以是卷积神经网络。ML模型可以使用评分来将第二中的像素识别为第一图像中的像素的可能匹配。例如，高分数可以将像素指示为可能的匹配，而低分数可以将像素指示为不是可能的匹配。

在示例实施方案中，第一图像是NIR图像并且第二图像是RGB图像。ML模型可以使用包括NIR图像的每个部分的唯一标识符、NIR图像的每个部分的位置和/或尺寸的数据，并且将NIR图像的每个部分指示为包括作为ML模型的输入的候选特征。在替代实施方案中，第一图像是RGB图像并且第二图像是NIR图像。

对于每个候选特征，可以在第二(RGB)图像中定义搜索窗口。可以使用ML模型为搜索窗口内的每个像素指派分数，其中高分数指示可能与候选特征中的像素相对应的像素，而低分数在其它像素处。第二ML模型(例如，第二神经网络)可以用于预测搜索窗口中每个像素的精确匹配位置(例如，x,y位置)。可以生成搜索窗口中每个像素的估计偏移(例如，精确匹配像素沿着图像x和y轴离当前像素多远的预测)。可以计算匹配像素(例如，具有达到标准(例如，高于阈值)的分数的像素)的估计偏移。例如，如果发现搜索窗口中的像素具有足够高的分数(例如，极有可能匹配)，则可以对像素及其相邻像素的估计偏移进行平均，以找到最佳匹配像素(作为目标匹配像素)的估计偏移，并且可以生成NIR到RGB匹配。该匹配(例如，像素在第二或RGB图像中的位置)可以与估计偏移一起从第二ML模型输出。在示例中，窗口可以基于先前标定。例如，窗口位置和尺寸可以基于在先前标定期间确定(并存储在存储器中)的窗口位置和尺寸。

在步骤S425中，将像素映射到三维(3D)空间中的光线。例如，可以将真实世界场景中的3D点映射到图像空间中的2D点，并且可以将图像空间中的2D点映射到真实世界场景中的3D光线。从3D真实世界坐标系中的点到图像坐标系的映射可以基于相机标定矩阵。光线到像素映射可以包括一个过程，所述过程包括若干数学计算。可以参考图6描述这些计算的一个示例图示。参考图6(用于示意光线方向和角度的相机计算)，根据等式p_i＝M_iP，可以将真实世界场景中的点P映射为p_i，其中M是标定矩阵。此外，给定两个或更多个相机(例如，相机1和相机2)中的点(例如，点p1和p2)的图像(例如，像素)，可以使用三角测量确定点在真实世界坐标系中的位置。对于相应相机i(例如，相机1、相机2)中的点p(p1,p2)，图像可以投影为光线R_i(例如，R1和R2)。光线在真实世界坐标系中的等式可以由给出，其中C_i(例如，C1和C2)是在真实世界坐标系中的相机的中心。C_i和M_i ⁺可以从相机标定参数获得。可以通过找到来自多个相机的光线之间的交点来获得真实世界坐标系中的点。点P的值可以使用三角测量得出，并且位置P可以通过在等式/>和中找到λ和β的值来计算。

返回到图4，在步骤S430中，第一相机和第二相机是基于映射来标定的。例如，标定可以包括将基于(真实世界中的)光线由相机5生成的(图像中的)像素和基于(真实世界中的)光线由相机10生成的(图像中的)像素对齐，以在相应图像中具有相同的位置。标定可以包括调整标定参数，使得第一光线(例如，R1、光线145)和第二光线(例如，R2、光线150)与目标像素位置(P)相关联。目标像素位置可以是表示图像的一部分的2D坐标系中的相同位置(例如，x,y坐标)。目标像素位置可以关联于相机传感器位置以及与相机传感器位置相关联的像素的处理后的解释。

标定可以包括：调整标定参数使得第一光线和第二光线被解释为在真实(例如，3D)空间中的点处相交可以包括与未标定的相机相比，使与第一光线和第二光线相关联的处理后的传感器位置在2D中移位。标定参数可以包括相机标定矩阵M。标定参数可以包括内在参数和外在参数。内在参数可以包括有效焦距、或像平面到投影中心的距离、透镜畸变系数、x的比例因子、由于相机扫描和/或获取定时误差导致的所获取图像的原点偏移。外在参数可以通过相机相对于定义的世界坐标系的3D位置和定向来定义。

图5示意根据至少一个示例实施例的用于匹配像素的方法的框图。如图5中所示，在步骤S505中，选择来自第一图像的候选特征。例如，候选特征可以包括可能易于精确定位(例如，指示像素在NIR图像内的位置)的(例如，NIR图像的)至少一个像素(例如，角部、过渡、斑点等)。候选特征可以是使用ML模型识别的多个特征中的一个。第一图像可以由第一相机捕获。第一相机可以对第一光谱(例如，IR、NIR等)敏感，并且第一相机可以具有第一光源(例如，与第一相机相关联的IR或NIR闪光灯)。在示例实施方案中，第一相机可以是NIR相机，并且第一图像可以是NIR图像。在替代实施方案中，第一相机和第二相机可以对相同光谱敏感。例如，示例实施方案可以减少与高反射性表面和/或复杂微观几何形态(例如，出现在包括头发的图像中)相关联的取决于视点的效应的影响。

在步骤S510中，第二图像中的RGB像素与候选特征匹配。例如，ML模型可以用于在第二图像中定位识别为第一图像中的候选特征的匹配特征。第二相机可以对第二光谱(例如，可见光)敏感，并且第二相机可以具有第二光源(例如，室内光和/或太阳光等)。在示例实施方案中，第二相机可以是可见光或RGB相机，并且第一图像可以是RGB图像。

在步骤S515中，将分数指派到匹配的RGB像素。例如，ML模型可以使用评分来将第二中的像素识别为第一图像中的像素的可能匹配。例如，高分数可以将像素指示为可能的匹配，而低分数可以将像素指示为不是可能的匹配。

在示例实施方案中，第一图像是NIR图像并且第二图像是RGB图像。ML模型可以使用包括NIR图像的每个部分的唯一标识符、NIR图像的每个部分的位置和/或尺寸的数据，并且将NIR图像的每个部分指示为包括作为ML模型的输入的候选特征。

对于每个候选特征，可以在第二(RGB)图像中定义搜索窗口。可以使用ML模型为搜索窗口内的每个像素指派分数，其中高分数指示由可能与候选特征中的像素相对应的像素，而低分数在其它像素处。

在步骤S520中，预测目标匹配像素(或目标像素)的位置的方向。例如，如果发现搜索窗口中的像素具有足够高的分数(例如，极有可能匹配)，则可以确定搜索窗口中的每个像素的估计偏移。可以对最佳匹配像素及其相邻像素的估计偏移进行平均，以找到最佳匹配像素(作为目标匹配像素)的位置，并且可以生成NIR到RGB匹配。

在步骤S525中，将方向指派到匹配的RGB像素。例如，第二ML模型(例如，第二神经网络)可以生成估计偏移(例如，目标匹配像素沿着图像x和y轴离当前像素(例如，具有达到标准(例如，高于阈值)的分数的像素)多远的预测)。匹配(例如，像素在第二或RGB图像中的位置)可以与估计偏移一起从第二ML模型输出。在示例中，窗口可以基于先前标定。例如，窗口位置和尺寸可以基于在先前标定期间确定(并存储在存储器中)的窗口位置和尺寸。

实施例可以包括：三维(3D)电话会议装置、系统、非暂时性计算机可读介质(其上存储有可以在计算机系统上执行的计算机可执行程序代码)和/或方法可以使用包括以下操作的方法执行过程：由对第一光谱敏感的第一相机捕获真实世界场景的第一图像，所述第一相机具有第一光源；由对第二光谱敏感的第二相机捕获真实世界场景的第二图像，所述第二相机具有第二光源；识别所述第一图像中的至少一个特征；使用机器学习(ML)模型识别所述第二图像中与所述第一图像中的识别出的所述至少一个特征匹配的至少一个特征；基于经匹配的至少一个特征将所述第一图像和所述第二图像中的像素映射到三维(3D)空间中的光线；并且基于所述映射来标定所述第一相机和所述第二相机。

算法可以用于识别第一图像中的至少一个特征，并且将第一图像中的至少一个特征与第二图像中的至少一个特征匹配可以包括使用第一ML模型从第一图像中的至少一个特征选择候选特征；将第二图像中的至少一个像素与候选特征的像素匹配；基于至少一个像素与第一图像中的至少一个特征中的一个特征匹配的可能性而将分数指派到第二图像的经匹配的至少一个像素；使用第二ML模型预测目标像素的位置的方向；以及将方向指派到第二图像的匹配的至少一个像素。第一相机和第二相机的标定可以基于具有最高分数的、与候选特征相关联的第二图像的匹配的至少一个像素以及具有最高分数的第二图像的匹配的至少一个像素的方向，所述方向基于具有最高分数的第二图像的匹配的至少一个像素和相邻像素。所述方法可以进一步包括基于先前标定在第二图像中选择至少一个搜索窗口。机器学习模型可以在从标定的多相机系统捕获的数据上进行训练。

图7示出可以用于本文所描述的技术的计算机装置700和移动计算机装置750的示例。计算装置700预期表示各种形式的数字计算机，例如，膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机和其它合适的计算机。计算装置750预期表示各种形式的移动装置，例如，个人数字助理、蜂窝电话、智能手机，以及其它类似的计算装置。此处所示的组件、组件的连接和关系，以及组件的功能意味着仅仅是示例性的，且并不意味着限制本文档中描述和/或要求保护的发明的实施。

计算装置700包括处理器702、存储器704、存储装置706、连接到存储器708和高速扩展端口704的高速接口710，以及连接到低速总线712和存储装置714的低速接口706。组件702、704、706、708、710和712中的每一个使用各种总线互连，并且组件可以安装在通用母板上或视情况以其它方式安装。处理器702可以处理用于在计算装置700内执行的指令，包括存储于存储器704中或存储装置706上以将GUI的图形信息显示在外部输入/输出装置，例如耦合到高速接口716的显示器708上的指令。在其它实施方案中，多个处理器和/或多个总线可以视情况与多个存储器以及多种类型的存储器一起使用。而且，可以连接多个计算装置700，其中每个装置提供必要操作的部分(例如，作为服务器组、刀片服务器群组，或多处理器系统)。

存储器704将信息存储在计算装置700内。在一个实施方案中，存储器704是一个或多个易失性存储器单元。在另一实施方案中，存储器704是一个或多个非易失性存储器单元。存储器704还可以是另一形式的计算机可读介质，例如，磁盘或光盘。

存储装置706能够为计算装置700提供大容量存储。在一个实施方案中，存储装置706可以是或可以包含计算机可读介质，例如，软盘装置、硬盘装置、光盘装置，或磁带装置、闪存存储器或其它类似的固态存储器装置，或装置的阵列，包括存储区域网络或其它配置中的装置。计算机程序产品可以有形地体现在信息载体中。计算机程序产品还可以包含指令，所述指令在执行时执行一个或多个方法，例如上述那些方法。信息载体是计算机或机器可读介质，例如，存储器704、存储装置706，或处理器702上的存储器。

高速控制器708管理计算装置700的超带宽操作，而低速控制器712管理较低超带宽操作。这种功能分配仅仅是示例性的。在一个实施方案中，高速控制器708耦合到存储器704、显示器716(例如，通过图形处理器或加速计)，以及可以接受各种扩展卡(未示出)的高速扩展端口710。在实施方案中，低速控制器712耦合到存储装置706和低速扩展端口714。可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口可以例如通过网络适配器耦合到一个或多个输入/输出装置，例如，键盘、指向装置、扫描仪，或例如交换机或路由器的联网装置。

如图所示，计算装置700可以通过多种不同形式实施。例如，所述计算装置可以实施为标准服务器720，或多次实施于此类服务器的群组中。所述计算装置还可以实施为机架式服务器系统724的一部分。另外，所述计算装置可以在例如膝上型计算机722的个人计算机中实施。替代地，来自计算装置700的组件可以与例如装置750的移动装置(未示出)中的其它组件组合。此类装置中的每一个可以包含计算装置700、750中的一个或多个，并且整个系统可以由彼此通信的多个计算装置700、750组成。

计算装置750包括处理器752、存储器764、例如显示器754的输入/输出装置、通信接口766和收发器768，以及其它组件。装置750还可以设置有例如微驱动器或其它装置的存储装置，以提供另外的存储。组件750、752、764、754、766和768中的每一个使用各种总线互连，并且若干组件可以安装在通用母板上或视情况以其它方式安装。

处理器752可以执行计算装置750内的指令，包括存储于存储器764中的指令。处理器可以实施为包括分离处理器以及多个模拟和数字处理器的芯片的芯片组。例如，处理器可以提供用于装置750的其它组件的协调，例如对用户接口、由装置750运行的应用程序，以及由装置750进行的无线通信的控制。

处理器752可以通过耦合到显示器758的控制接口756和显示接口754与用户通信。例如，显示器754可以是TFT LCD(薄膜晶体管液晶显示器)，或OLED(有机发光二极管)显示器，或其它合适的显示器技术。显示接口756可以包括用于驱动显示器754以向用户呈现图形和其它信息的合适电路。控制接口758可以从用户接收命令并且转换所述命令以提交给处理器752。另外，可以提供与处理器752通信的外部接口762，以便实现装置750与其它装置进行近区域通信。例如，外部接口762可以在一些实施方案中提供用于有线通信，或在其它实施方案中提供用于无线通信，并且还可以使用多个接口。

存储器764将信息存储在计算装置750内。存储器764可以实施为一个或多个计算机可读介质、一个或多个易失性存储器单元，或一个或多个非易失性存储器单元中的一个或多个。还可以提供扩展存储器774，并且扩展存储器通过扩展接口772连接到装置750，所述扩展接口可以包括例如SIMM(单列直插式存储器模块)卡接口。此种扩展存储器774可以为装置750提供额外存储空间，或者还可以为装置750存储应用程序或其它信息。具体来说，扩展存储器774可以包括用于执行或补充上述过程的指令，并且还可以包括安全信息。因此，例如，扩展存储器774可以提供为装置750的安全模块，并且可以用允许安全地使用装置750的指令来编程。另外，可以通过SIMM卡提供安全应用程序以及附加信息，从而例如以不可侵入的方式将标识信息置于SIMM卡上。

如下所述，存储器可以例如包括闪存存储器和/或NVRAM存储器。在一个实施方案中，计算机程序产品有形地体现在信息载体中。计算机程序产品包含指令，所述指令在执行时执行一个或多个方法，例如，上述那些方法。信息载体是可以例如通过收发器768或外部接口762接收的计算机或机器可读介质，例如，存储器764、扩展存储器774，或处理器752上的存储器。

装置750可以通过通信接口766无线地通信，所述通信接口在必要时可以包括数字信号处理电路。通信接口766可以提供用于各种模式或协议下的通信，例如，GSM语音呼叫、SMS、EMS，或MMS消息传递、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS等等。例如，这种通信可以通过射频收发器768进行。另外，短程通信可以例如使用蓝牙、Wi-Fi，或其它此种收发器(未示出)进行。另外，GPS(全球定位系统)接收器模块770可以向装置750提供与导航和位置相关的附加无线数据，所述无线数据视情况可以由在装置750上运行的应用程序使用。

装置750还可以使用音频编解码器760以听觉方式通信，所述音频编解码器可以从用户接收口头信息并且将所述口头信息转换成可用的数字信息。音频编解码器760同样可以例如通过例如在装置750的听筒中的扬声器为用户生成可听声音。这种声音可以包括来自语音电话的声音，可以包括录音(例如，语音消息、音乐文件等)，并且还可以包括由在装置750上运行的应用程序生成的声音。

如图所示，计算装置750可以通过多种不同形式实施。例如，所述计算装置可以实施为蜂窝电话780。所述计算装置还可以实施为智能手机782、个人数字助理，或其它类似移动装置的一部分。

尽管示例实施例可以包括各种修改和替代形式，但是其实施例借助于图式中的示例示出并且在本文中详细地描述。然而，应理解，并不意图将示例实施例限于所公开的特定形式，但是相反，示例实施例将涵盖处于权利要求的范围内的所有修改、等效物和替代方案。在整个图的描述中，相同的数字指代相同元件。

本文描述的系统和技术的各种实施方案可以在数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件，和/或其组合中实现。这些各种实施方案可以包括在一个或多个计算机程序中的实施方案，所述计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，所述可编程处理器可以用于专用或通用目的，且耦合以从存储系统、至少一个输入装置和至少一个输出装置接收数据和指令，并将数据和指令传输到存储系统、至少一个输入装置和至少一个输出装置。此处描述的系统和技术的各种实施方案可以实现为和/或在本文中通常称为可以组合软件和硬件方面的电路、模块、块或系统。例如，模块可以包括在处理器(例如，在硅衬底、GaAs衬底等上形成的处理器)或一些其它可编程数据处理设备上执行的功能/动作/计算机程序指令。

以上示例实施例中的一些被描述为流程图所示的过程或方法。尽管流程图将操作描述为顺序过程，但许多操作可以并行、并发或同时执行。另外，可以重新布置操作顺序。所述过程可能在其操作完成后终止，但也可能具有图中未包括的额外步骤。所述过程可以对应于方法、功能、过程、子例程、子程序等。

上面讨论的方法可以通过硬件、软件、固件、中间件、微码、硬件描述语言或其任何组合实施，其中一些方法由流程图示意。当以软件、固件、中间件或微码实施时，用于执行必要任务的程序代码或代码段可以存储在机器或计算机可读介质(例如存储介质)中。处理器可以执行必要的任务。

出于描述示例实施例的目的，本文所公开的特定结构和功能细节仅为代表性的。然而，示例实施例可以用多种替代形式体现并且不应被解释为限于本文所阐述的实施例。

应理解，尽管术语“第一”、“第二”等在本文中可以用于描述各种元件，但是这些元件不应由这些术语限制。这些术语仅用于将一个元件与另一元件区分开。例如，在不偏离示例实施例的范围的情况下，第一元件可以被称为第二元件，并且类似地，第二元件可以被称为第一元件。如本文所使用，术语“和/或”包括相关联所列项中的一个或多个的任一个和全部组合。

应理解，当元件称为连接或耦合到另一元件时，所述元件可以直接连接或耦合到另一元件，或可以存在中介元件。相反，当元件称为直接连接到或直接耦合到另一元件时，不存在中介元件。用于描述元件之间关系的其它词语应以类似的方式进行解释(例如，在……之间与直接在……之间、相邻与直接相邻等)。

本文使用的术语仅出于描述具体实施例的目的并且不意图限制示例实施例。如本文所使用，单数形式“一”、“一个”和“所述”意图也包括复数形式，除非上下文另外明确指示。还应理解，当本文中使用时，术语包括(comprises/comprising)、包含(includes和/或including)指定所述特征、整体(integer)、步骤、操作、元件和/或组件的存在，但不排除一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组的存在或添加。

还应注意，在一些替代实施方案中，所述功能/动作可能不按图中所示的顺序进行。例如，取决于所涉及的功能/动作，连续显示的两个图实际上可能同时执行，或者有时可能以相反的顺序执行。

除非另外定义，否则本文使用的所有术语(包括技术和科学术语)具有与示例实施例所属领域的普通技术人员通常理解的含义相同的含义。还应理解，术语(例如，在常用词典中定义的术语)应被解释为具有与其在相关领域的上下文中的含义一致的含义，并且除非在此明确定义，否则不会以理想化或过于正式的意义来解释。

在软件或算法以及计算机存储器内的数据位上的操作的符号表示方面，呈现上述示例实施例的部分和对应详细描述。这些描述和表示是本领域普通技术人员有效地将其工作的实质传送给本领域其他普通技术人员的描述和表示。如此处使用术语且如通常使用，算法被认为是导致期望结果的自洽步骤序列。这些步骤是需要对物理量进行物理操纵的步骤。尽管不是必需的，但是这些量通常采用能够进行存储、传送、组合、比较以及以其它方式操纵的光信号、电信号或磁信号的形式。原则上，出于通常使用的原因，将这些信号称为位、值、元素、符号、字符、术语、数字等被证明有时是方便的。

在上述示意性实施例中，对可以实施为程序模块或功能过程的操作的动作和符号表示(例如，以流程图形式)的引用包括例程、程序、对象、组件、数据结构等，它们执行特定任务或实施特定抽象数据类型，并且可以使用现有结构元件处的现有硬件描述和/或实施。此种现有硬件可以包括一个或多个中央处理单元(CPU)、数字信号处理器(DSP)、专用集成电路、现场可编程门阵列(FPGA)计算机等。

然而，应当记住，所有这些和类似术语与适当物理量相关联，并且仅仅是应用于这些量的方便标记。除非另外特别说明，或从讨论中显而易见，否则例如处理或计算或运算或确定显示等术语是指计算机系统或类似电子计算装置的动作和过程，所述计算机系统或类似电子计算装置控制在计算机系统的寄存器和存储器内表示为物理、电子量的数据并将所述数据转换成在计算机系统存储器或寄存器或其它此种信息存储、传输或显示装置内类似地表示为物理量的其它数据。

还应注意，示例实施例的软件实施方面通常在某种形式的非暂时性程序存储介质上编码，或在某种类型的传输介质上实施。程序存储介质可以是磁性的(例如，软盘或硬盘驱动器)或光学的(例如，压缩光盘只读存储器，或CD ROM)，并且可以是只读的或随机存取的。类似地，传输介质可以是双绞线、同轴电缆、光纤，或本领域已知的一些其它合适的传输介质。示例实施例不受任何给定实施方案的这些方面限制。

最后，还应注意，虽然所附权利要求书阐述本文所述特征的特定组合，但本公开的范围不限于下文所要求的特定组合，而是扩展到涵盖本文公开的特征或实施例的任何组合，而不管此时所附权利要求书中是否具体列举所述特定组合。

Claims

1.一种方法，包括：

由对第一光谱敏感的第一相机捕获真实世界场景的第一图像，所述第一相机具有第一光源；

由对第二光谱敏感的第二相机捕获所述真实世界场景的第二图像，所述第二相机具有第二光源；

识别所述第一图像中的至少一个特征；

使用机器学习ML模型识别所述第二图像中与所述第一图像中的识别出的所述至少一个特征匹配的至少一个特征；

基于经匹配的至少一个特征来将所述第一图像和所述第二图像中的像素映射到三维3D空间中的光线；以及

基于所述映射来标定所述第一相机和所述第二相机。

2.根据权利要求1所述的方法，其中，所述第一相机是近红外NIR相机，并且所述第二相机是可见光相机。

3.根据权利要求1或权利要求2所述的方法，其中，使用ML模型来识别所述第一图像中的所述至少一个特征。

4.根据权利要求1至权利要求3中任一项所述的方法，其中，使用算法来识别所述第一图像中的所述至少一个特征。

5.根据权利要求1至权利要求4中任一项所述的方法，其中，

使用ML模型来将所述第一图像中的所述至少一个特征与所述第二图像中的所述至少一个特征匹配，并且

基于所述第二图像的至少一个像素与所述第一图像中的所述至少一个特征的像素匹配的可能性来对所述第二图像的所述至少一个像素指派分数。

6.根据权利要求1至权利要求5中任一项所述的方法，其中，

使用算法来将所述第一图像中的所述至少一个特征与所述第二图像中的所述至少一个特征匹配，

基于所述第二图像的至少一个像素与所述第一图像中的所述至少一个特征的像素匹配的可能性来对所述第二图像的所述至少一个像素指派分数，并且

基于目标像素的位置的预测来对所述第二图像的所述至少一个像素指派方向。

7.根据权利要求1至权利要求6中任一项所述的方法，其中，

使用算法来识别所述第一图像中的所述至少一个特征，并且

所述第一图像中的所述至少一个特征与所述第二图像中的所述至少一个特征的所述匹配包括：

使用第一ML模型从所述第一图像中的所述至少一个特征中选择候选特征，

将所述第二图像中的至少一个像素与所述候选特征的像素匹配，

基于所述至少一个像素与所述第一图像中的所述至少一个特征中的一个特征匹配的可能性来将分数指派给所述第二图像的经匹配的至少一个像素，

使用第二ML模型预测目标像素的位置的方向，以及

将所述方向指派给所述第二图像的经匹配的至少一个像素。

8.根据权利要求7所述的方法，其中，对所述第一相机和所述第二相机的所述标定是基于具有最高分数的、与所述候选特征相关联的所述第二图像的经匹配的至少一个像素以及具有所述最高分数的所述第二图像的经匹配的至少一个像素的所述方向，所述方向是基于具有所述最高分数的所述第二图像的经匹配的至少一个像素和相邻像素。

9.根据权利要求1至权利要求8中任一项所述的方法，进一步包括基于先前标定来在所述第二图像中选择至少一个搜索窗口。

10.根据权利要求1至权利要求9中任一项所述的方法，其中，所述机器学习模型是在从标定的多相机系统捕获的数据上进行训练的。

11.一种三维3D电话会议系统，包括：

存储器，所述存储器包括表示多个计算机指令的代码段；以及

处理器，所述处理器被配置成执行所述代码段，所述计算机指令包括：

识别所述第一图像中的至少一个特征；

基于所述映射来标定所述第一相机和所述第二相机。

12.根据权利要求11所述的系统，其中，所述第一相机是近红外NIR相机，并且所述第二相机是可见光相机。

13.根据权利要求11或权利要求12所述的系统，其中，使用ML模型来识别所述第一图像中的所述至少一个特征。

14.根据权利要求11至权利要求13中任一项所述的系统，其中，使用算法来识别所述第一图像中的所述至少一个特征。

15.根据权利要求11至权利要求14中任一项所述的系统，其中，

基于所述第二图像的至少一个像素与所述第一图像中的所述至少一个特征的像素匹配的可能性来对所述第二图像的至少一个像素指派分数。

16.根据权利要求11至权利要求15中任一项所述的系统，其中，

17.根据权利要求11至权利要求16中任一项所述的系统，其中，

使用算法来识别所述第一图像中的所述至少一个特征，并且

将所述第二图像的至少一个像素与所述候选特征匹配，

基于所述第二图像的所述至少一个像素与所述第一图像中的所述至少一个特征中的一个特征匹配的可能性来将分数指派给所述第二图像的经匹配的至少一个像素，

使用第二ML模型预测目标像素的位置的方向，以及

将所述方向指派给所述第二图像的经匹配的至少一个像素。

18.根据权利要求17所述的系统，其中，对所述第一相机和所述第二相机的所述标定是基于具有最高分数的所述第二图像的经匹配的至少一个像素以及具有所述最高分数的所述第二图像的经匹配的至少一个像素的所述方向，所述方向是基于具有所述最高分数的所述第二图像的经匹配的至少一个像素以及相邻像素的方向。

19.根据权利要求11至权利要求18中任一项所述的系统，进一步包括基于先前标定来在所述第二图像中选择至少一个搜索窗口。

20.根据权利要求11至权利要求19中任一项所述的系统，其中，所述机器学习模型是在从标定的多相机系统捕获的数据上进行训练的。

21.一种包括指令的非暂时性计算机可读介质，所述指令在执行时使计算机系统的处理器执行步骤，所述步骤包括：

识别所述第一图像中的至少一个特征；

基于所述映射来标定所述第一相机和所述第二相机。

22.根据权利要求21所述的非暂时性计算机可读介质，其中，

使用算法来识别所述第一图像中的所述至少一个特征，并且

将所述第二图像的至少一个像素与所述候选特征的像素匹配，

使用第二ML模型预测目标像素的位置的方向，以及

将所述方向指派给所述第二图像的经匹配的至少一个像素。

23.根据权利要求21或权利要求22所述的非暂时性计算机可读介质，其中，所述第一光谱和所述第二光谱是相同光谱。