CN112446384B

CN112446384B - 快速实例分割

Info

Publication number: CN112446384B
Application number: CN202011408978.3A
Authority: CN
Inventors: 李杰夫; 王冠
Original assignee: Black Sesame Intelligent Technology Shanghai Co Ltd
Current assignee: Black Sesame Intelligent Technology Shanghai Co Ltd
Priority date: 2019-12-06
Filing date: 2020-12-04
Publication date: 2024-05-31
Anticipated expiration: 2040-12-04
Also published as: US10902607B1; CN112446384A

Abstract

一种实例分割的方法，包括：限定边框，对边框进行深度绘图，得到深度图，对深度图进行排序，对因排序后的深度图的噪声引起的稳定性进行估计，基于所估计的稳定性检测排序后的深度图的低频跳变，检测排序后的深度图的高频跳变，将所检测到的低频跳变与所检测到的高频跳变进行比较，基于比较来检测最大对象和最接近对象中的至少一个，并且对最大对象和最接近对象中的至少一个进行像素掩码。

Description

快速实例分割

技术领域

本公开涉及实例分割(instance segmentation)，并且具体地提供了可以与自动代客停车一起使用的快速实例分割。

背景技术

实例分割是用于机器人应用(例如自动驾驶、无人机、大规模增强现实等)的基本功能。实例分割的目标是限定边框(bounding box)、针对边框的标记以及针对检测对象的逐像素掩码(pixel-wise mask)。大多数实例分割技术仅使用红蓝绿(RGB)图像并利用神经网络来将背景与底层对象(underlying object)区分开来。

在基于嵌入式系统的系统中，非常希望降低计算成本和运行时间。

发明内容

实例分割的第一示例方法，包括以下步骤中的至少一个：限定边框，对边框进行深度绘图(depth mapping)，得到深度图，对深度图进行排序，对因排序后的深度图的噪声引起的稳定性进行估计，基于所估计的稳定性来检测排序后的深度图的低频跳变，检测排序后的深度图的高频跳变，将所检测到的低频跳变和所检测到的高频跳变进行比较，基于所述比较来检测所述最大对象和所述最接近对象中的至少一个，并且对所述最大对象和所述最接近对象中的至少一个进行像素掩码。

实例分割的第二示例方法，包括以下步骤中的至少一个：限定边框，对边框进行深度绘图，得到深度图，对深度图进行排序，对因排序后的深度图的噪声引起的稳定性进行估计，基于所估计的稳定性检测排序后的深度图的低频跳变，基于所检测到的低频跳变确定低频跳变指数(jump index)，基于高通滤波来检测排序后的深度图的高频跳变，基于所检测到的高频跳变来确定高频跳变指数，基于局部最小值和最大值对低频跳变指数和高频跳变指数进行分组，以形成分组跳变指数，将深度图与分组跳变指数进行比较，基于所述比较来检测最大对象和最接近对象中的至少一个，并且对最大对象和最接近对象中的至少一个进行像素掩码。

附图说明

在附图中：

图1是根据本公开的一个实施例的第一示例系统图；

图2是根据本公开的一个实施例的第二示例系统图；

图3是根据本公开的一个实施例的实例分割的第一示例流程图；

图4是根据本公开的一个实施例的实例分割的第二示例流程图；和

图5是根据本发明一个实施例的实例分割的第三示例流程图。

具体实施方式

下面列出的实施例仅为了说明该装置和方法的应用，而不是为了限制范围。对这种装置和方法的等同形式的修改将被归在权利要求的范围内。

贯穿以下说明书和权利要求，使用某些术语来指代特定系统部件。如本领域技术人员将理解的，不同的公司可以用不同的名称来指代部件和/或方法。本文无意区分名称不同但功能相同的部件和/或方法。

在以下讨论以及在权利要求中，术语“包括”和“包含”以开放式方式使用，因此可以被解释为“包括但不限于…”。此外，术语“耦合”旨在表示间接或直接连接。因此，如果第一设备耦合到第二设备，则该连接可以是通过直接连接或者通过经由其它设备和连接的间接连接。

图1描述了示例混合计算系统100，其可用于实施与过程300、400和500的一个或多个部分或步骤的操作相关联的神经网络。在该示例中，与混合系统相关联的处理器包括现场可编程门阵列(FPGA)122、图形处理器单元(GPU)120和中央处理单元(CPU)118。

处理单元118、120和122具有提供神经网络的能力。CPU是可以执行许多不同功能的通用处理器，其通用性导致执行多个不同任务的能力，然而，其对多个数据流的处理是有限的，并且其关于神经网络的功能是非常有限的。GPU是一种图像处理器，其具有能够依次处理多个并行任务的许多小处理内核。FPGA是现场可编程设备，它具有被重新配置并可以以硬连线电路的方式来执行任何可以被编程到CPU或GPU中的功能的能力。由于FPGA的编程是电路形式，因此其速度比CPU快许多倍，并且明显快于GPU。

还存在系统可以包含的其他类型的处理器，例如加速处理单元(APU)(其包括CPU并且在芯片上具有GPU元件)和专门用于执行高速数字数据处理的数字信号处理器(DSP)。专用集成电路(ASIC)还可以执行FPGA的硬连线功能；但是，设计和生产ASIC的交付时间大约为三个月，而不是FPGA编程中可用的快速周转实施方式。

图形处理器单元120、中央处理单元118和现场可编程门阵列122彼此连接并连接到存储器接口和控制器112。FPGA通过可编程逻辑电路到存储器互连130连接到存储器接口。使用该附加设备，是因为FPGA在非常大的带宽下运行的事实，并且是为了将FPGA的用于执行存储器任务的电路最小化。存储器接口和控制器112还连接到永久存储器盘110、系统存储器114和只读存储器(ROM)116。

图2的系统可用于编程和训练FPGA。GPU针对非结构化数据工作，并且可以用于训练，一旦已训练了数据，就可以找到确定性推理模型，并且CPU可以使用由GPU确定的模型数据对FPGA进行编程。

存储器接口和控制器连接到中央互连124，中央互连还连接到GPU 120、CPU 118和FPGA122。中央互连124还连接到输入和输出接口128和网络接口126。

图2描述了第二示例混合计算系统200，其可用于实施与过程500的一个或多个部分或步骤的操作相关联的神经网络。在该示例中，与混合系统相关联的处理器包括现场可编程门阵列(FPGA)210和中央处理单元(CPU)220。

FPGA电连接到与直接存储器存取(DMA)218接口连接的FPGA控制器212。DMA连接到输入缓冲器214和输出缓冲器216，输入缓冲器214和输出缓冲器216都耦合到FPGA以分别将数据缓存进入FPGA和将数据从FPGA缓存出来。DMA 218具有两个先进先出(FIFO)缓冲器，一个用于主CPU，另一个用于FPGA；DMA允许将数据写入适当的缓冲器和从适当的缓冲器读取数据。

在DMA的CPU侧是主交换机228，主交换机228将数据和命令往返传送到DMA。DMA还连接到同步动态随机存取存储器(SDRAM)控制器224，其允许数据在FPGA和CPU 220之间往返传送，并且SDRAM控制器还连接到外部SDRAM 226和CPU 220。主交换机228连接到外围设备接口230。闪存控制器222控制永久存储器并连接到CPU 220。

当前的实例分割是基于神经网络解决方案，例如Mask-RCNN。与使用纯神经网络解决方案相关联的一个可能的问题是实例分割可能花费大约两秒的时间，这对于在汽车决策中使用来说太长了。描述了可以提供解决方案的一种融合的对象检测和深度绘图方法。

在本公开中，限定了对象边框。在一个实例中，确定排序的深度图的边框对象，并确定阿伦偏差(Allen deviation)。阿伦偏差方差(Allen deviation variance)被用作对排序后的深度图内具有低频跳变指数的低频跳变进行检测的阈值。高频跳变是利用导致两个高频跳变指数的巴特沃斯高通滤波器来确定的。对低频跳变指数和高频跳变指数进行局部最小化-最大化，以对跳变指数进行分组。在每个跳变指数之间确定深度值的直方图，并进行比较以识别最大对象或最接近对象。在背景占据大部分边框的情况下，利用描述性统计来将背景与对象区分开。

本公开描述了快速传感器融合实例分割。数字信号处理流水线具有O(3n)的计算复杂度，对于每帧其花费0.05秒来确定。O(3n)表示函数的复杂度，该函数线性地增加，并且是输入数量的三倍。相比之下，像Mask-RCNN的神经网络解决方案每帧花费大约2秒。所公开的融合实例分割实现了与Mask-RCNN相当的掩码对象精度。当前的非神经网络实例分割，通过利用移动网或其它较小的模型，牺牲了精度以实施每秒更高的帧，所公开的方法利用根本上不同的方法获得了高性能和高精度的平衡。

所描述的方法是对象检测和深度绘图的融合以确定对象掩码。所描述的方法是数字信号和神经网络处理的组合，以实施高速的高性能。

图3描述了快速实例分割的第一示例流程图。在该示例中，来自后处理深度图310和边框312的数据被馈送到深度图排序器中，其中该排序器对所限定的边框内的深度图的深度值进行排序314。低频跳变检测器利用阿伦偏差检测器来检测非高频跳变316。阿伦偏差被用于设置阈值，该阈值被用于确定低频跳变。来自低频跳变检测器的输出是第一跳变指数，第一跳变指数是低频跳变指数。深度图的深度值被输入到高通滤波器以检测高频跳变318。在该示例中，高频滤波器是3阶巴特沃斯滤波器，具有500赫兹的采样频率和1赫兹的截止频率。所检测到的来自高频检测器的跳变被用于形成第二跳变指数，该第二跳变指数是高频跳变指数。比较器利用来自低频跳变指数(第一跳变指数)的数据和来自高频跳变指数(第二跳变指数)的数据来进行跳变指数的直方图比较320。比较器的输出是一组有效的深度点。通过后处理器利用有效的深度点来确定针对掩码对象(masked object)的一组深度质心322。以这种方式，将对象掩码(object masking)和有效的深度绘图进行组合来确定对象掩码。

图4描述了实例分割的第二示例方法，包括：限定410边框；对边框进行深度绘图412，得到深度图；对深度图进行排序414；并且对因排序的深度图的噪声引起的稳定性进行估计416。该方法还包括：基于所估计的稳定性，检测418排序后的深度图的低频跳变，检测420排序后的深度图的高频跳变，并且将所检测到的低频跳变和所检测到的高频跳变进行比较422。该方法基于该比较，检测424最大对象和最接近对象中的至少一个，并且对最大对象和最接近对象中的至少一个进行像素掩码426。

该方法还可以包括：标记边框；基于统计的比较在背景与最大对象和最接近对象中的至少一个之间进行确定；并且确定最大对象和最接近对象中的至少一个的深度质心。

对稳定性的估计可以基于阿伦偏差，并且低频跳变的检测利用阿伦偏差作为阈值。高频跳变的检测可以基于巴特沃斯滤波器，其具有3阶，500赫兹的采样频率和1赫兹的截止频率。低频跳变和高频跳变的比较可以基于直方图分析。

图5描述了实例分割的第三示例方法，包括：限定510边框，对边框进行深度绘图512，得到深度图，对深度图进行排序514，并且对因排序后的深度图的噪声引起的稳定性进行估计516。该方法还包括：基于所估计的稳定性，检测518排序后的深度图的低频跳变；基于所检测到的低频跳变，确定520低频跳变指数；基于高通滤波，检测522排序后的深度图的高频跳变；并且基于所检测到的高频跳变，确定524高频跳变指数。该方法包括：基于局部最小值和最大值对低频跳变指数和高频跳变指数进行分组526，以形成分组的跳变指数，并将深度图与分组的跳变指数进行比较528。该方法基于该比较来检测530最大对象和最接近对象中的至少一个，并且对最大对象和最接近对象中的至少一个进行像素掩码532。

该方法还可以包括：标记边框；基于统计的比较，在背景与最大对象和最接近对象中的至少一个之间进行确定；并且确定最大对象和最接近对象中的至少一个的深度质心。

对稳定性的估计可以基于阿伦偏差，并且低频跳变的检测利用阿伦偏差作为阈值。高频跳变的检测可以基于3阶巴特沃斯滤波器，其具有500赫兹的采样频率和1赫兹的截止频率。低频跳变和高频跳变的比较可以基于直方图分析。

本领域的技术人员将了解，本文描述的各种说明性块、模块、元件、部件、方法和算法可实施为电子硬件、计算机软件或两者的组合。为了说明硬件和软件的这种可互换性，上面已经在它们的功能方面总体描述了各种说明性的块、模块、元件、部件、方法和算法。这种功能是实施为硬件还是软件取决于特定的应用和施加在整个系统上的设计约束。本领域技术人员可针对每一特定应用以不同方式实施所描述的功能。在不脱离本主题技术的范围的情况下，各种部件和块可以被不同地布置(例如，以不同的顺序布置，或者以不同的方式划分)。

应当理解，所公开的过程中的步骤的特定顺序或层次是示例方法的说明。基于设计偏好，可以理解，可以重新安排过程中步骤的特定顺序或层级。一些步骤可以同时执行。所附方法权利要求以样本顺序呈现各个步骤的元素，并且不意味着限制于所呈现的特定顺序或层级。

提供前面的描述是为了使本领域的任何技术人员能够实践本文描述的各个方面。前面的描述提供了本主题技术的各种示例，并且本主题技术不限于这些示例。对于本领域技术人员来说，对这些方面的各种修改将是显而易见的，并且本文限定的一般原理可以应用于其它方面。因此，权利要求不旨在限于本文中所示的方面，而是旨在使全部范围与权利要求的语言表述相一致，其中，除非具体声明，否则以单数形式提及的元素并非旨在表示“一个且只有一个”，而是表示“一个或多个”。除非另有具体说明，术语“一些”是指一个或多个。男性的代词(例如，他的)包括女性和中性(例如，她和它的)，反之亦然。标题和副标题(如果有的话)仅是为了方便起见，并不限制本发明。谓语词“被配置用以”、“可操作用以”和“编程用以”并不意味着对主语进行任何特定的有形或无形修饰，而是旨在互换使用。例如，被配置以监视和控制操作或部件的处理器，还可以意味着，处理器被编程以监视和控制操作，或者处理器可操作以监视和控制操作。同样，被配置以执行代码的处理器可以被解释为，被编程以执行代码或可操作以执行代码的处理器。

诸如“方面”之类的短语并不意味着该方面对于本主题技术是必不可少的，也不意味着该方面适用于本主题技术的所有配置。与一方面有关的公开可以应用于所有配置，或者一个或多个配置。一个方面可以提供一个或多个示例。诸如方面的短语可以指一个或多个方面，反之亦然。诸如“实施例”的短语并不意味着该实施例对于本主题技术是必不可少的，也不意味着该实施例适用于本主题技术的所有配置。与实施例有关的公开可以适用于所有实施例或一个或多个实施例。实施例可以提供一个或多个示例。诸如“实施例”的短语可以指一个或多个实施例，反之亦然。诸如“配置”之类的短语并不意味着该配置对于本主题技术是必不可少的，也不意味着该配置适用于本主题技术的所有配置。与配置有关的公开可以适用于所有配置或一个或多个配置。一种配置可以提供一个或多个示例。诸如“配置”的短语可以指一个或多个配置，反之亦然。

本文使用的词语“示例”意味着“用作示例或说明”。本文中被描述为“示例”的任何方面或设计不必被解释为比其他方面或设计优选或有利。

本领域普通技术人员已知或以后将知道的，贯穿本公开所描述的各个方面的元件的所有结构和功能等同物均通过引用明确地并入本文，并且意在由权利要求所涵盖。而且，无论在权利要求中是否明确记载了这种公开，都不打算将本文公开的内容捐献给公众。除非使用短语“用于……的装置”明确叙述权利要求中的元素，或者在方法权利要求的情况下，使用短语“用于……的步骤”叙述权利要求中的元素，否则任何权利要求的要素均不得根据35U.S.C.§112第六段的规定进行解释。此外，关于在说明书或权利要求中使用术语“包含”、“具有”等术语，这样的术语旨在意味为包括，类似于当“包括”在权利要求中被用作连接词时，对“包括”的解释那样。

对“一个实施例”、“一实施例”、“一些实施例”、“各种实施例”或类似表述的引用指示特定要素或特征被包括在本发明的至少一个实施例中。尽管这些短语可以出现在各个地方，但是这些短语不一定指的是同一实施例。结合本公开，本领域技术人员将能够设计和结合适于实施上述功能的各种机制中的任何一种。

应当理解，本公开仅教导了说明性实施例的一个示例，并且本领域技术人员在阅读了本公开之后可以容易地设计出本发明的许多变型，并且本发明的范围将由以下权利要求确定。

Claims

1.一种实例分割的方法，包括：

限定边框；

对所述边框进行深度绘图，得到深度图；

对所述深度图进行排序；

对因排序后的深度图的噪声引起的稳定性进行估计；

基于所估计的稳定性，检测所述排序后的深度图的低频跳变；

检测所述排序后的深度图的高频跳变；

将所检测到的低频跳变与所检测到的高频跳变进行比较；

基于所述比较，检测最大对象和最接近对象中的至少一个；以及

对所述最大对象和所述最接近对象中的至少一个进行像素掩码。

2.根据权利要求1所述的方法，还包括标记所述边框。

3.根据权利要求1所述的方法，还包括：基于统计的比较，在背景与所述最大对象和所述最接近对象中的至少一个之间进行确定。

4.根据权利要求1所述的方法，还包括：确定所述最大对象和所述最接近对象中的至少一个的深度质心。

5.根据权利要求1所述的方法，其中对因噪声引起的稳定性进行估计是基于阿伦偏差。

6.根据权利要求5所述的方法，其中对所述低频跳变的检测利用所述阿伦偏差作为阈值。

7.根据权利要求1所述的方法，其中对所述高频跳变的检测是基于巴特沃斯滤波器。

8.根据权利要求7所述的方法，其中所述巴特沃斯滤波器是3阶巴特沃斯滤波器，具有500赫兹的采样频率和1赫兹的截止频率。

9.根据权利要求1所述的方法，其中对所述低频跳变和所述高频跳变的所述比较是基于直方图分析。

10.一种实例分割的方法，包括：

限定边框；

对所述边框进行深度绘图，得到深度图；

对所述深度图进行排序；

对因排序后的深度图的噪声引起的稳定性进行估计；

基于所检测到的低频跳变来确定低频跳变指数；

基于高通滤波来检测所述排序后的深度图的高频跳变；

基于所检测到的高频跳变来确定高频跳变指数；

基于局部最小值和最大值对所述低频跳变指数和所述高频跳变指数进行分组，以形成分组跳变指数；

将所述深度图与所述分组跳变指数进行比较；

基于所述比较来检测最大对象和最接近对象中的至少一个；以及

11.根据权利要求10所述的方法，还包括标记所述边框。

12.根据权利要求10所述的方法，还包括基于统计的比较，在背景与所述最大对象和所述最接近对象中的至少一个之间进行确定。

13.根据权利要求10所述的方法，还包括确定所述最大对象和所述最接近对象中的至少一个的深度质心。

14.根据权利要求10所述的方法，其中对因噪声引起的稳定性进行估计是基于阿伦偏差。

15.根据权利要求14所述的方法，其中对所述低频跳变的检测利用所述阿伦偏差作为阈值。

16.根据权利要求10所述的方法，其中对所述高频跳变的检测基于巴特沃斯滤波器。

17.根据权利要求16所述的方法，其中所述巴特沃斯滤波器是3阶巴特沃斯滤波器，具有500赫兹的采样频率和1赫兹的截止频率。

18.根据权利要求10所述的方法，其中对所述低频跳变和所述高频跳变的所述比较是基于直方图分析。