CN116580035A

CN116580035A - 用于改进图像分割的系统和方法

Info

Publication number: CN116580035A
Application number: CN202310099121.5A
Authority: CN
Inventors: 徐征; J·W·沃勒里乌斯; S·K·西夫纳特
Original assignee: Eboz Co ltd
Current assignee: Eboz Co ltd
Priority date: 2022-02-09
Filing date: 2023-02-09
Publication date: 2023-08-11
Also published as: US20230252637A1

Abstract

本公开涉及用于改进图像分割的系统和方法。更具体而言，一个实施例可以提供一种计算机视觉系统。计算机视觉系统可以包括一个或多个摄像机以捕捉场景的图像，以及一组或多组单色光源以照亮场景，其中每组光源包括多个不同颜色的单色光源。给定组内的多个单色光源可以按顺序一次一个地打开。每次场景被特定颜色的相应单色光源照亮时，摄像机可以捕捉场景的图像。

Description

用于改进图像分割的系统和方法

相关申请

本申请要求发明人Zheng Xu、John W.Wallerius和Sabarish Kuduwa Sivanath于2022年2月9日提交的第63/308，336号美国临时专利申请的权益，该美国临时专利申请的代理人案卷号为EBOT22-1001PSP，标题为“SYSTEM AND METHOD FOR IMPROVEMENT OF IMAGESEGMENTATION”，出于各种目的，其公开内容通过引用全部纳入本文。

本公开涉及：

发明人Zheng Xu和Sabarish Kuduwa Sivanath于2022年9月16日提交的第17/946，803号美国专利申请，代理人案卷号为EBOT21-1003NP，标题为“3D COMPUTER-VISIONSYSTEM WITH VARIABLE SPATIAL RESOLUTION”，该申请要求以下权益：

于2021年10月15日提交的美国临时专利申请第62/256，335号，代理人案卷号EBOT21-1003PSP，标题为“3D Computer Vision with Variable Spatial Resolution”；

出于各种目的，其公开内容通过引用全部纳入本文。

技术领域

本公开总体上涉及一种用于机器人应用的三维(3D)计算机视觉系统。特别是，本公开涉及一种图像分割的改进。

背景技术

先进的机器人技术极大地改变了产品的生产方式，并导致了第四次工业革命(也称为工业4.0)。第四次工业革命通过允许计算机和机器人相互连接和通信，从而最终在没有人类参与的情况下做出决策，来改进在第三次工业革命期间发展的计算和自动化技术。信息物理系统、物联网(IoT)和系统互联网(IoS)的结合使工业4.0成为可能，并且使智能工厂成为现实。智能机器可以变得更智能，因为它们可以访问更多数据并学习新技能，这可以使工厂更高效、更高产和浪费更少。最终，一个由数字连接的智能机器的网络可以创造和共享信息，这将导致真正的“熄灯制造”，其中不需要人类监督。

实现工业4.0的关键部件之一是用于引导机器人执行各种制造任务的3D计算机视觉，诸如消费电子产品(例如，智能手机、数码相机、平板电脑或笔记本电脑等)的制造。在执行制造任务时，3D计算机视觉系统需要识别工作空间内的各种部件(有些非常小)，以便引导机器人抓取感兴趣的部件。这可以通过捕捉工作空间的图像并识别图像内的部件来完成。图像的实例分割，或者识别属于场景中每个单独部件的像素的能力，有可能增强用于上述特定实例抓取机器人应用的机器人感知管道，其中在混乱环境中的潜在未知干扰物部件中识别和抓取目标部件。各种机器学习方法已经证明了通过在大量手工标记的数据集上训练深度神经网络以合理的精度和可靠性将彩色或红色、绿色和蓝色(RGB)图像分割成预定义的语义类别(诸如人类、自行车、汽车等)的能力。虽然在RGB或RGB-Depth(RGB-D)下分割的精度满足仓库取放应用的基本要求，但仍远远不能满足精密制造的要求。此外，现有的训练数据集通常包含自然场景和仓库应用的RGB图像，这些图像与制造线上常见的混乱场景截然不同。由彩色摄像机获取的自然场景的RGB表示不包含光的全光谱，其分割精度无法满足高精密制造的要求。此外，工业应用通常使用黑白(BW)摄像机，以便满足各种高分辨率要求。BW摄像机可以产生包括场景的灰度信息的图像，但缺乏彩色信息。没有彩色信息的图像可能会损害实例分割的性能。

发明内容

一个实施例可提供一种计算机视觉系统。计算机视觉系统可以包括一个或多个摄像机，以捕捉场景的图像，以及一组或多组单色光源，以照亮场景，每组光源包括多个不同颜色的单色光源。给定组内的多个单色光源可以按顺序一次一个地打开。每当场景被特定颜色的相应单色光源照亮时，摄像机可以捕捉该场景的图像。

在该实施例的变体中，计算机视觉系统可以包括图像分割单元，用于应用机器学习技术基于对应于不同颜色的多个图像生成场景的分割结果。

在进一步的变体中，图像分割单元可以实现深度学习神经网络，该网络包括多个输入通道，每个输入通道接收由对应颜色的单色光源照亮的场景的图像。

在进一步的变体中，深度学习神经网络可以包括特征提取和融合层，以从场景的每个图像中提取特征图，并通过连接从对应于不同颜色的多个图像中提取的特征图来生成融合的特征图。

在进一步的变体中，计算机视觉系统可以包括一个或多个结构化光投影仪以将结构化光投射到场景上，以及基于由结构化光照亮的场景的图像提取深度信息的深度信息提取单元。

在进一步的变体中，图像分割单元可以通过将对应于不同颜色的多个图像与深度信息相结合来生成场景的分割结果。

在进一步的变体中，计算机视觉系统可以包括3D点云计算单元，以基于覆盖在由结构化光照亮的场景的图像上的分割结果计算感兴趣对象的3D点云。

在该实施例的一个变体中，多个单色光源可以包括发光二极管(LED)，并且多个单色光源的颜色范围可在紫外线和红外线之间。

在该实施例的变体中，一组或多组单色光源可被安装在位于场景上方的环形安装结构上。

在进一步的变体中，多个相同颜色的单色光源可以按旋转对称的方式排列在环形安装结构上。

一个实施例可提供一种计算机实现的方法。该方法可以包括由计算机配置一组或多组单色光源来照亮场景。每组可以包括多个不同颜色的单色光源。配置单色光源可以包括一次一个地交替打开每组中的单色光源。该方法可以进一步包括配置一个或多个黑白(BW)摄像机，以在每次场景被特定颜色的单色光源照亮时捕捉该场景的一个图像。

附图说明

图1示出了根据一个实施例的具有多个单色光源的示例性计算机视觉系统。

图2A示出了根据一个实施例的多个单色光源的示例性排列。

图2B示出了根据一个实施例的RGB光照亮单元的示例性实际实现。

图3示出了根据一个实施例的用于图像分割的机器学习模型的示例性架构。

图4呈现了流程图，该流程图示出了根据一个实施例的用于获取伪彩色图像的示例性过程。

图5呈现了流程图，该流程图示出了根据一个实施例的示例性图像分割过程。

图6显示了根据一个实施例的用于机器人应用的示例性计算机视觉系统的框图。

图7示出了根据一个实施例的促进计算机视觉系统的操作的示例性计算机系统。

在图中，相同的参考数字指代相同的图元素。

具体实施方式

以下描述呈现以使得任何本领域技术人员能够制造和使用实施例，并在特定应用及其要求的背景下提供。对本公开的实施例的各种修改对于本领域技术人员来说将是显而易见的，并且在不脱离本公开的精神和范围的情况下，本文定义的总体原理可以应用于其他实施例和应用。因此，本发明不限于所示的实施例，而是符合与本公开的原理和特征一致的最宽范围。

综述

本文所描述的实施例解决了在人工照亮下改进计算机视觉系统的图像分割的精度和可靠性的技术问题。3D计算机视觉系统可以包括一个或多个3D摄像机单元，每个摄像机单元包括一对BW摄像机和结构化光投影仪。计算机视觉系统可以进一步包括分立的多波长照亮单元，该单元包括多个单色光源，诸如发光二极管(LED)。在一些实施例中，单色光源也可以被称为单波长光源，每个光源发射特定波长或特定波段的光。更具体地，多波长照亮单元可以包括位于场景上方的环形支撑框架(或支撑环)，并且单色光源可以附接到支撑环并沿着支撑环的圆周均匀分布。单色光源可以被配置为交替照亮场景，并且BW摄像机可以捕捉由不同颜色或波长的光照亮的场景的不同图像。这些图像可以包括场景的隐含光谱信息(即颜色)，尽管它们是灰度图像。计算机视觉系统可以进一步包括图像分割单元，该图像分割单元被配置为应用机器学习技术来处理由不同颜色的光照亮的场景的灰度图像。更具体地，这些彩色光照亮的灰度图像可以按波长递增的顺序连接，并被发送到先前训练的深度学习神经网络，然后该网络可以输出图像分割结果(例如，语义或实例图)。与在白光或自然光下捕捉灰度图像并在白光照亮的灰度图像上执行图像分割的传统计算机视觉系统相比，所公开的计算机视觉系统可以生成具有改进的精度的分割图像。

具有BW摄像机的3D计算机视觉系统

图像分割是将数字图像分割成多个片段的过程，每个片段包括一组像素。分割的目的是将图像的表示(即像素的集合)改变成更有意义和更容易分析的东西。图像分割可以用于定位图像内的对象(例如，电子部件)，并且可以是由3D计算机视觉系统在引导机器人运动时执行的操作。3D计算机视觉系统需要识别工作空间内的各种部件，以便指示机器人在自动化制造过程期间抓取正确的部件。

图像分割可以包括语义分割(对于每个像素，检测该像素所属的对象类别)、实例分割(对于每个像素，检测该像素所属的对象实例)，以及结合语义和实例分割的全景分割。图像分割有不同的方法，并且许多方法(尤其是基于机器学习的方法)可以在执行分割时利用图像中对象的颜色或RGB信息。例如，两个不同的对象可能具有不同的颜色，并且颜色差异可以使属于一个对象的像素和属于另一对象的像素更容易区分。然而，RGB彩色摄像机使用Bayer滤波器形成RGB图案来表示场景的颜色。成像传感器仅接收三个主要波长的光谱，即峰值在600nm的红光、峰值在525nm的绿光和峰值在455nm的蓝光，大量光谱被丢失。出于感知和图像分割的目的，希望获取从感兴趣的对象反射的光的全光谱。

与RGB摄像机相比，BW摄像机可以以更高的空间分辨率捕捉图像，因为RGB摄像机需要多个颜色传感器来产生一个图像像素。因此，许多工业摄像机(包括用于机器人应用的摄像机)是BW相机，其捕捉灰度图像，每个图像像素具有范围从无强度(例如，0)到全强度(例如，255)的强度值。然而，灰度图像不能提供关于场景的颜色信息。如前所讨论的，在颜色信息的情况下实现图像的精确分割可能是挑战性的。

根据一些实施例，单色光源可以用于照亮场景，从而可捕捉由不同颜色的光照亮的相同场景的不同灰度图像。因为不同颜色的对象对不同颜色的光有不同的反射(例如，红色对象反射红光多于绿光)，所以在不同颜色的光(或不同颜色的光)下捕捉的那些灰度图像可以包括对图像分割有用的颜色信息。在一些实施例中，多个单色光源(例如LED)可以被放置在工作空间上方，以在摄像机捕捉工作空间的图像时照亮工作空间。

图1示出了根据一个实施例的具有多个单色光源的示例性计算机视觉系统。计算机视觉系统100可以包括支撑框架102和安装在支撑框架102上的一对摄像机单元104和106。更具体地，支撑框架102可以包括弧形槽108，两个摄像机单元(例如单元104和106)被安装在该弧形槽108中。两个摄像机单元可以各自沿着槽108滑动，并且可以被排列成具有工作空间的不同视角。槽108的弧形形状(即是圆的一部分)确保了摄像机单元104和106的查看距离(即摄像机模块和被观察对象之间的距离)基本上相似，考虑到被查看对象位于圆的中心附近。在一些实施例中，两个摄像机单元的光轴之间的角度可以在15°和45°之间。在替代实施例中，摄像机单元104和106可以被安装在单独的支撑框架上，而不是安装在相同支撑框架上，并且这两个摄像机单元可以具有不同的查看距离。在进一步的实施例中，安装在支撑框架102上的摄像机单元的数量可以多于或少于两个。具有一个以上的摄像机单元允许计算机视觉系统100从不同的角度和/或以不同的分辨率获取工作场景的图像。

在图1中所示的示例中，摄像机单元104可以包括具有较小查看区域(也称为高分辨率查看区域)110的高分辨率摄像机，并且摄像机单元106可以包括具有较大查看区域(也称为低分辨率查看区域)112的低分辨率摄像机。摄像机单元104和106可以按高分辨率和低分辨率查看区域110和112重叠的方式排列，高分辨率查看区域110大约位于低分辨率查看区域112的中心。高分辨率和低分辨率摄像机单元的更详细的描述可以在发明人Zheng Xu和Sabarish Kuduwa Sivanath于2022年9月16日提交的第17/946，803号美国专利申请(代理人案卷号EBOT21-1003NP)中找到，标题为“3D COMPUTER-VISION SYSTEM WITH VARIABLESPATIAL RESOLUTION”，其公开内容通过引用并入本文。

每个摄像机单元可以包括用于捕捉工作空间或工作场景的灰度图像的一个或多个BW摄像机(在图1中未显示)和用于照亮工作空间的可选白光源(在图1中也未显示)。在白光照亮下由摄像机捕捉的图像不包括任何颜色信息。为了获取颜色信息，在本申请的一些实施例中，计算机视觉系统100可以进一步包括多波长照亮单元，该单元包括光安装结构120和安装在灯安装结构120上的多个单色光源(例如，单色光源122和124)。光安装结构120可以使用在图1中未显示的各种附接机构附接到支撑框架102，或者它可以附接到单独的支撑结构。在一个示例中，光安装结构120可以直接附接到支撑框架102。在不同的示例中，光安装结构120可以附接到摄像机单元104和/或摄像机单元106。如前所公开，单色光源可以包括各种颜色的LED，波长范围从紫外波段(例如，大约380nm)到红外波段(例如，大约850nm)。除了LED之外，每个单色光源可以包括透镜系统(例如，光束准直器)，该透镜系统可以确保由LED发射的光可以基本均匀地照亮工作空间。

图2A示出了根据一个实施例的多个单色光源的示例性排列。在图2A中所示的示例中，多个单色光源围绕圆200排列。更具体地，单色光源可以包括多组LED(即组202-208)，每组包括多个不同颜色的LED。在一些实施例中，LED的波长范围可以从紫外波段(例如大约380nm)到红外波段(例如大约850nm)。在该示例中，每组可以包括红外LED(例如850nm)、红色LED(例如690nm)、橙色LED(例如625nm)、黄色LED(例如590nm)、绿色LED(例如555nm)、蓝色LED(例如475nm)、紫色LED(例如445nm)和紫外线LED(例如380nm)。LED的数量及其颜色可以不同于上述示例。

包括多组LED可以允许多个相同颜色的LED(例如在图2A中的四个红色LED)从不同角度照亮场景，从而减少阴影。为了最大化减少阴影的效果，在一些实施例中，LED以使得相同颜色的LED彼此对称地排列的方式沿着圆200排列。在图2A中所示的示例中，多组LED被排列成围绕圆200的中心旋转或径向对称，对称序是4。每组内的LED可以根据其波长均匀地间隔和排列。在图2A中所示的示例中，每组中的LED的波长沿逆时针方向增加。

在机器人操作期间，不同颜色的LED可以一次打开一种颜色地交替打开，以允许BW摄像机在不同颜色的光的照亮下捕捉场景的不同灰度图像。由于图像中包括的颜色信息，在彩色光照亮下捕捉的灰度图像也可以称为伪彩色图像。增加单色光源的颜色的数量可以允许BW摄像机收集更多关于场景的颜色信息，但是将导致更多的数据开销，因为对于每种颜色至少生成一个灰度图像。在一些实施例中，单色光源的颜色可以基于工作场景中部件的类型来选择。例如，金属可以对较短波长的光(例如紫外光)具有较强的反射，而绝缘材料可以对较长波长的光(例如红外光)具有较强的反射。因此，包括两种波长有助于收集有助于区分由这两种不同类型的材料制成的部件的颜色信息。

图2B示出了根据一个实施例的多波长照亮单元的示例性实际实现。在该示例中，多波长照亮单元220可以包括环形安装结构222和安装在环形安装结构222上的多组单色光源(例如，包括多个单色光源的组224)。

环形安装结构220可以类似于图1中所示的光安装结构120。环形安装结构220可以位于工作场景上方(例如，由某种支撑结构支撑)，其中单色光源面向工作场景。对支撑结构的形状和附接机构没有限制，只要它不阻挡光源和摄像机的光路。环形安装结构222中心的空腔允许摄像机和光源进入工作场景。在一些实施例中，环形安装结构220可以具有可配置的倾斜角度，以允许基于实际需要(即基于工作场景内的部件类型)来调整照亮角度。在一个示例中，环形安装结构220的倾斜角度可以基于摄像机(例如摄像机单元104或106)的视角来确定。

在图2B中所示的示例中，有四组单色光源，每组包括四个均匀间隔的单色光源。在一些实施例中，每个单色光源可以包括特定波长或波段(例如，λ1、λ2、λ3或λ4)的LED和用于对发射光进行准直的准直器。相同波长的LED可以围绕环形支撑结构222对称地排列。在该示例中，有四组LED，每组包括四个LED，旋转对称序可以是四。在一个实施例中，每组中的四个LED可以包括红外、黄色、绿色和紫色LED。根据工作场景中部件的类型，在一些实施例中，每个单色光源还可以包括光扩散器以减少散斑。例如，当场景中有高反射金属部件时，可能需要扩散器。每种颜色的照亮强度(即每个光源的光强度)也可以基于摄像机设置和场景类型来调整，以获得最佳曝光并揭示场景中的最大特征。

以图2B为示例，为捕捉工作场景的视觉信息，四种颜色或波段的光源或LED可以被配置为根据其颜色交替打开。例如，第一波长或颜色(例如，λ1或紫色)的四个光源可以同时打开，以允许由第一颜色(例如，紫色)光照亮的场景的一个或多个灰度图像被摄像机捕捉。在该公开中，在紫光下捕捉的图像可以被称为伪紫光图像，在红外光下捕捉的图像可以被称为伪红外图像等。在捕捉第一颜色的伪彩色图像之后，关闭第一颜色的四个光源，而打开第二波长或颜色(例如，λ2或绿色)的四个光源，以允许捕捉伪绿色图像。可以对λ3(或黄色)和λ4(或红外)重复相同的操作，以获取一组不同颜色的伪彩色图像。这些伪彩色图像携带隐含的颜色信息。基于这些伪彩色图像执行的图像分割可以生成更精确的结果。注意，与只可以接收红色、绿色和蓝色光的RGB传感器彩色摄像机相比，所提出的计算机视觉系统通过使用不同波长的LED照亮场景，使其有可能获取全光谱信息。在理论上，甚至可以实现无穷多个波长。因此，这种方法可以获取场景的更丰富的光学信息。

有各种方法来执行图像分割。在一些实施例中，可以使用基于神经网络的机器学习技术。更具体地，机器学习模型(例如深度学习神经网络)可以被训练，然后用于分割图像(通过执行语义分割或实例分割)。在传统的方法中，经训练的模型可以接收单个图像作为输入，并输出分割的图像(例如，语义图或实例图)。如前所讨论的，在彩色图像上执行的分割可以比在灰度图像上执行的分割更精确。为了利用BW摄像机提高计算机视觉系统的感知(例如通过改进图像分割精度)，在一些实施例中，计算机视觉系统可以使用BW摄像机来捕捉伪彩色图像(即在不同颜色的光的照亮下捕捉的灰度图像)，并将不同颜色的伪彩色图像(意味着每个图像是在独特颜色的光下捕捉的)发送到经训练的机器学习模型，以生成工作场景的语义或实例图。因为不同颜色的伪彩色图像包括工作场景的隐含颜色信息，所以机器学习模型可以使用这些伪彩色图像作为输入生成更准确的分割结果。

在一些实施例中，机器学习模型可包括基于掩码区域的卷积神经网络(Mask R-CNN)，其可以为每个感兴趣的区域输出二进制掩码。在一个实施例中，机器学习模型可以具有多个输入通道(每种颜色一个通道)，并且多个伪彩色图像在被发送到机器学习模型的多个输入通道之前，可以沿着通道维度(例如，以波长递增的顺序)被连接。更具体地，每个伪彩色图像可以被发送到对应输入通道。

图3示出了根据一个实施例的用于图像分割的机器学习模型的示例性架构。在图3中，机器学习模型300可以包括多个阶段：输入阶段302、特征提取和融合阶段304、候选区域阶段306、感兴趣的区域(RoI)对齐阶段308和掩码预测阶段310。

输入阶段302可包括多个颜色通道，每个通道被配置为接收相同场景的一个伪彩色图像。更具体地，特定颜色通道接收在该特定颜色的照亮下捕捉的场景的灰度图像。在图3中所示的示例中，有对应于四个波段(例如，λ1、λ2、λ3和λ4)的四个输入通道。

特征提取和融合阶段304可以包括神经网络(每个输入通道一个)，其可以从每个图像中提取特征图。此外，特征提取和融合阶段304可以将从不同颜色通道提取的特征图融合(例如通过连接)到融合的特征图。

候选区域阶段306可以提取候选区域(即图像中可能包含对象的区域)。感兴趣的区域(RoI)对齐阶段308可以包括神经网络，该神经网络可以预测每个RoI(即对齐的RoI)的类别标签和边界框。掩码预测层310可以为每个RoI生成分割掩码(例如使用一个或多个CNN)。机器学习模型300中的各种神经网络(例如特征提取神经网络和掩码预测神经网络)可以使用包括标记图像(用分割掩码标记的图像)的训练样本来离线训练。例如，每个训练样本可以包括一组标记的多种颜色的伪彩色图像。

在图3中所示的示例中，来自不同的伪彩色图像的信息可以在特征提取和融合阶段304被融合，其中将多个图像单独地输入特征提取神经网络以生成多个特征图，然后将这些特征图连接起来以形成融合特征图。在替代实施例中，也可以在特征提取之前结合伪彩色图像(例如经由连接)，然后将结合的图像输入到特征提取神经网络以生成一个特征图。

为进一步改进计算机视觉系统的感知，在一些实施例中，深度信息(例如深度图)也可以被捕捉并与用于图像分割的伪彩色图像结合。场景的深度信息可以通过在结构化光的照亮下捕捉场景的图像来获取。更具体地，图1中所示的每个摄像机单元可以包括数字光处理(DLP)投影仪，该投影仪可以将编码图像(例如空间变化的光图案)投影到场景上。关于场景的3D信息(例如场景内对象的3D表面轮廓)可以从场景内对象反射的编码图像中提取。在一些实施例中，可以生成深度图。在一个实施例中，场景的3D点云可以基于由结构化光照亮的场景的图像来生成。

伪彩色图像和场景的深度信息(例如深度图)的结合可进一步提高图像分割的精度。在一些实施例中，伪彩色图像和相应的深度图可以作为输入发送到神经网络，以生成更准确的分割掩码。深度图与不同颜色的伪彩色图像的融合可以生成高度独特的特征以促进分割。在一个实施例中，可以在较早的阶段执行融合，其中伪彩色图像和深度图在被输入到特征提取神经网络之前被连接，以提取一个特征图。或者，可以在后面的阶段执行融合，其中伪彩色图像和深度图被单独地输入到特征提取神经网络的不同输入通道，并且将提取的两个特征图连接起来以生成一个特征图。机器学习模型可以通过包括深度信息来输出增强的分割标签或掩码。此外，增强的分割结果可以进一步改进对象的3D点云与周围干扰物和背景的分离。

图4呈现了流程图，该流程图示出了根据一个实施例的用于获取伪彩色图像的示例性过程。该操作从校准摄像机(操作402)和校准多个单色光源(操作404)开始。校准摄像机可以包括调整摄像机的设置(例如，变焦、聚焦和光圈)。校准单色光源可以包括调整光安装结构的倾斜角度(从而调整照亮角度)和每个光源的强度。在一些实施例中，单色光源可以包括LED，并且调节光强度可以包括调节每个LED的偏置电流(或电压)。在一个实施例中，相同颜色的光源可以被配置成具有基本相同的强度。在一些实施例中，摄像机和光源的校准是相关的，以获取最佳的图像捕捉条件(例如曝光)。

在校准摄像机和光源之后，计算机视觉系统可以选择一种颜色或波段(例如，最短的波长或随机的颜色)(操作406)，并配置光源，使得仅打开所选的颜色的光源，而关闭其他光源(操作408)。在一些实施例中，也可以打开环境白光以补充照亮。在所选的单色光源的照亮下，计算机视觉系统可以配置摄像机以捕捉场景的至少一个图像(操作410)。这种图像可以被称为特定颜色的伪彩色图像(例如，λ1的伪彩色图像或伪紫色图像)。然后系统可以确定所选的颜色是否是最后一种颜色(操作412)。如果是，则系统输出该组伪彩色图像(例如，输出到图像分割机器学习模型)(操作414)，并且图像捕捉操作停止。否则，系统可以选择下一种颜色(操作406)。在一些实施例中，光源的开关定时和摄像机的图像捕捉操作可以由计算机视觉系统的控制器同步和控制。

图5呈现了流程图，该流程图示出了根据一个实施例的示例性图像分割过程。在操作期间，计算机视觉系统的BW摄像机可以捕捉工作场景的一组伪彩色图像(操作502)。图像捕捉过程可以类似于图4中所示的过程。在完成捕捉伪彩色图像之后，计算机视觉系统可以打开摄像机单元中的DLP，并在结构化光的照亮下捕捉场景的图像(操作504)。注意，此时单色光源关闭。计算机视觉系统可以基于捕捉的图像进一步提取场景的深度图(操作506)。根据结构化光的类型(例如，二进制、多级或时间变化)，可以使用各种算法来提取深度图。场景的伪彩色图像组和相同场景的对应深度图可以被发送到机器学习模型的各种输入通道(操作508)。在一些实施例中，机器学习模型可以包括Mask R-CNN。机器学习模型可以使用标记的训练样本来进行离线训练，该训练样本可以包括使用类似于图4中所示的过程获取的伪彩色图像或者与对应深度图结合的伪彩色图像。训练取样可以手动标记。在一个实施例中，在没有深度图的情况下，伪彩色图像组中的每个图像可以被发送到机器学习模型的对应输入通道，以简化分割过程并改进分割速度。

机器学习模型可以输出场景的分割结果(操作510)。分割结果可以覆盖到在结构化光下捕捉的场景的图像(即结构化光图案的图像)上，以形成结构化光图案的分割(操作512)。在一个实施例中，分割掩码(或标签)可以应用于在结构化光下捕捉的场景的图像。

感兴趣的对象的3D点云可以基于结构化光图案的分割图像来计算(操作514)。因为分割掩码可以将感兴趣的对象从周围的干扰物和背景中隔离出来，所以可以使用分割的图像更准确地计算对象的3D点云。对象的3D点云可以提供姿势信息，从而促进机器人手臂拾取对象。系统可以输出结构化光图案的分割图像和感兴趣的对象的3D点云(操作516)。

图6显示了根据一个实施例的用于机器人应用的示例性计算机视觉系统的框图。计算机视觉系统600可以包括一个或多个BW摄像机602、一个或多个结构化光投影仪604、多个单色光源606、一个或多个可选的环境光源608、定时控制单元610、深度信息提取单元612、一个或多个图像分割模型614和模型训练单元616。

BW摄像机602可包括高分辨率和低分辨率摄像机，每个摄像机均具有固定的变焦，以简化摄像机校准过程。结构化光投影仪604可以包括基于激光或LED的DLP，用于将编码图像投射到工作场景上。在一些实施例中，单色光源606可以包括不同颜色的LED。LED可以安装在环形安装结构上，类似于图1和图2B中所示的示例。可选的环境光源608可以作为补充光源，并且可以将白光发射到场景上。定时控制单元610可以控制摄像机和光源的开关定时。在一些实施例中，可以配置摄像机和光源的开关定时，使得当相同颜色的单色光源被打开而其他单色光源被关闭时，摄像机可以捕捉场景的伪彩色图像。此外，当关闭所有单色光源606时，可以打开结构化光投影仪604，以允许摄像机捕捉由结构化光照亮的场景的图像。

深度信息提取单元612可以基于由结构化光照亮的场景的图像来提取场景中对象的深度(或高度)信息。图像分割模型614可以接受伪彩色图像作为输入，并相应地生成分割结果(例如，语义或实例图)。在一些实施例中，图像分割模型614还可以接受场景的深度信息作为输入来完善分割结果，并且完善的分割结果可以改进感兴趣的对象的3D点云的计算的精度，因为背景已经被分割掩码移除。模型训练单元616可以使用标记的样本来执行图像分割模型614的离线训练。

图7示出了根据一个实施例的促进计算机视觉系统操作的示例性计算机系统。计算机系统700包括处理器702、存储器704和存储设备706。此外，计算机系统700可以耦合到外围输入/输出(I/O)用户设备710，例如显示设备712、键盘714和定点设备716。存储设备706可以存储操作系统720、计算机视觉控制系统722和数据740。

计算机视觉控制系统722可以包括指令，指令在被计算机系统700执行时，可以使计算机系统700或处理器702执行本公开所述的方法和/或过程。具体地，计算机视觉控制系统722可以包括用于控制BW摄像机以获取场景的伪彩色图像的指令(摄像机控制指令724)、用于控制照亮场景的各种光源(例如单色光源)的指令(光源控制指令726)、用于控制DLP的指令(DLP控制指令728)、用于提取深度信息的指令(深度信息提取指令730)、用于使用机器学习模型执行图像分割的指令(图像分割指令732)、以及用于训练机器学习模型的指令(模型训练指令734)。数据740可以包括训练样本742。

总体上，本发明的实施例可以提供一种用于基于由BW摄像机捕捉的灰度图像为场景生成准确的图像分割结果的系统和方法。除了BW摄像机之外，计算机视觉系统可以包括多个单色光源，这些单色光源可以交替地照亮场景，以允许BW摄像机捕捉不同颜色的伪彩色图像。这些伪彩色图像可以被连接起来并被发送到基于机器学习的图像分割模型(例如Mask R-CNN)，然后该模型可以输出场景的分割结果(例如，语义图或实例图)。图1-图2B中所示的单色光源的排列仅是示例。其他排列也是可能的。例如，光源可以沿着环形安装结构的周边排列成两行，或者安装结构可以具有其他形状。计算机视觉系统可以进一步包括结构化光投影仪，其可以将结构化光投射到场景上，以允许BW摄像机捕捉由结构化光照亮的场景的图像。深度信息(例如深度图)可以基于这种图像来计算。然后深度信息可以用于完善图像分割结果。完善的图像分割结果可以用于改进感兴趣的对象的3D点云的计算精度。

具体实施方式中描述的方法和过程可以体现为代码和/或数据，其可以存储在上述计算机可读存储介质中。当计算机系统读取并执行存储在计算机可读存储介质上的代码和/或数据时，计算机系统执行体现为数据结构和代码并存储在计算机可读存储介质内的方法和过程。

此外，上述方法和过程可以包括在硬件设备或装置中。硬件模块或装置可以包括但不限于专用集成电路(ASIC)芯片、现场可编程门阵列(FPGA)、在特定时间执行特定软件单元或一段代码的专用或共享处理器，以及现在已知或以后发展的其他可编程逻辑设备。当硬件设备或装置被激活时，它们执行包括在其中的方法和过程。

本发明实施例的上面描述被呈现仅用于说明和描述目的。它们并不旨在穷举或将本发明限制于所公开的形式。因此，许多修改和变化对于本领域技术人员来说是显而易见的。此外，上述公开并不旨在限制本发明。本发明的范围由所附权利要求定义。

Claims

1.一种计算机视觉系统，包括：

一个或多个摄像机，用于捕捉场景的图像；和

一组或多组单色光源，用于照亮所述场景，其中每组光源包括多个不同颜色的单色光源；

其中给定组内的所述多个单色光源一次一个地交替地打开；和

其中，每次所述场景被特定颜色的相应单色光源照亮时，所述摄像机捕捉所述场景的图像。

2.根据权利要求1所述的计算机视觉系统，进一步包括图像分割单元，用于应用机器学习技术基于多个对应于不同颜色的图像生成所述场景的分割结果。

3.根据权利要求2所述的计算机视觉系统，其中所述图像分割单元用于实现深度学习神经网络，所述深度学习神经网络包括多个输入通道，每个输入通道用于接收由对应颜色的单色光源照亮的所述场景的图像。

4.根据权利要求3所述的计算机视觉系统，其中所述深度学习神经网络包括特征提取和融合层，用于：

从所述场景的每个图像中提取特征图；和

通过连接从多个对应于不同颜色的图像中提取的特征图来生成融合的特征图。

5.根据权利要求2所述的计算机视觉系统，进一步包括：

一个或多个结构化光投影仪，用于将结构化光投射到所述场景上；和

深度信息提取单元，用于基于由所述结构化光照亮的所述场景的图像来提取深度信息。

6.根据权利要求5所述的计算机视觉系统，其中所述图像分割单元用于通过将所述多个对应于不同颜色的图像与所述深度信息相结合来生成所述场景的所述分割结果。

7.根据权利要求6所述的计算机视觉系统，进一步包括3D点云计算单元，用于基于所述分割结果和所述深度信息计算感兴趣的对象的3D点云。

8.根据权利要求1所述的计算机视觉系统，其中所述多个单色光源包括发光二极管(LED)，并且其中所述多个单色光源的颜色范围在紫外线和红外线之间。

9.根据权利要求1所述的计算机视觉系统，其中所述一组或多组单色光源被安装在位于所述场景上方的环形安装结构上。

10.根据权利要求9所述的计算机视觉系统，其中多个相同颜色的单色光源以旋转对称的方式排列在所述环形安装结构上。

11.一种计算机实现的方法，所述方法包括：

由计算机配置一组或多组单色光源以用于照亮场景，其中每组光源包括多个不同颜色的单色光源，并且其中配置所述单色光源包括一次一个地交替地打开每组中的所述单色光源；和

配置一个或多个摄像机以用于在每次所述场景被特定颜色的相应单色光源照亮时捕捉所述场景的图像。

12.根据权利要求11所述的方法，进一步包括应用机器学习技术基于多个对应于不同颜色的图像来生成所述场景的分割结果。

13.根据权利要求12所述的方法，其中应用所述机器学习技术包括实现包括多个输入通道的深度学习神经网络，并且

其中所述方法进一步包括向每个输入通道输入由对应颜色的单色光源照亮的所述场景的一个图像。

14.根据权利要求13所述的方法，其中实现所述深度学习神经网络进一步包括：

从所述场景的每个图像中提取特征图；和

15.根据权利要求12所述的方法，进一步包括：

将结构化光投射到所述场景上；和

基于由所述结构化光照亮的所述场景的图像提取深度信息。

16.根据权利要求15所述的方法，其中生成所述场景的所述分割结果包括将所述多个对应于不同颜色的图像与所述深度信息相结合。

17.根据权利要求16所述的方法，进一步包括基于所述分割结果和所述深度信息计算感兴趣的对象的3D点云。

18.根据权利要求11所述的方法，其中所述多个单色光源包括发光二极管(LED)，并且其中所述多个单色光源的颜色范围在紫外线和红外线之间。

19.根据权利要求11所述的方法，其中所述一组或多组单色光源被安装在位于所述场景上方的环形安装结构上。

20.根据权利要求19所述的方法，其中多个相同颜色的单色光源以旋转对称的方式排列在所述环形安装结构上。