CN110276343A

CN110276343A - 图像的分割和注释的方法

Info

Publication number: CN110276343A
Application number: CN201910170779.4A
Authority: CN
Inventors: A·瓦林; S·R·乔杜里
Original assignee: Volvo Car Corp
Current assignee: Volvo Car Corp
Priority date: 2018-03-14
Filing date: 2019-03-07
Publication date: 2019-09-24
Anticipated expiration: 2039-03-07
Also published as: US20190287252A1; US10916013B2; EP3540691B1; CN110276343B; EP3540691A1

Abstract

提供了一种用于图像分割和注释的方法。该方法包括：提供(100)图像；减小(102)图像尺寸并使图像平滑以在该图像上执行低通滤波；恢复(104)图像尺寸；执行(106)图像的像素级聚类；执行(108)图像的空间聚类；基于预定图像掩膜选择(110)对应于感兴趣区域感(ROI)的一个或多个聚类，其中所述预定图像掩膜具有与感兴趣区域相关的已知位置；将所选择的一个或多个聚类定义(112)为建议的感兴趣区域；确定(114)所建议的感兴趣区域是否充分对应于实际感兴趣区域。

Description

图像的分割和注释的方法

技术领域

本发明涉及一种用于图像的注释和分割的方法。具体地，本发明涉及适用于车辆系统的训练的图像的半自主化注释和分割。

背景技术

存在对车辆中驾驶员辅助系统(例如车道保持、制动辅助、停车辅助和自适应巡航控制系统)的开发和利用的增加的兴趣。还存在开发半自主和完全自主车辆的协同努力。

要求提供期望功能的自主驾驶(AD)和先进驾驶员辅助系统(ADAS)包括例如诸如基于雷达、激光探测与测量(LIDAR)、超声波和图像的系统的技术。

对于基于实时对象识别而操作的基于图像的系统，重要的是系统能够识别和分类车辆周围的各种对象。可以依靠这样的系统来识别车道标记、道路标识、可行驶路面、其它车辆等。

然而，为了确保这种基于图像的系统正确地操作，它们通常需要以真实图像训练，其中所述图像被注释以定义对于具体系统(例如对象检测、车道检测和可行驶表面语义分割)感兴趣的各种对象和区域。

手动注释的数据(即其中人类操作者已经手动定义感兴趣的各种对象的图像)能被认为是可靠的并且因此经常被使用。然而，还存在与手动注释的数据有关的问题。一方面是手动注释的数据就分割和注释感兴趣区域所要求的时间和专业知识而言是昂贵的。此外，手动注释的数据易于展现出观察者间的变化性，在所述手动注释的数据中由两个不同的操作者提供的注释可能显著地变化，这进而增加了对诸如独立的审核过程的质量控制机制的需要，由此使注释过程甚至更苛刻。

因此，存在对具有提高的效率的用于图像分割和注释的方法和系统的需要。

发明内容

鉴于现有技术的上述和其它缺点，本发明的一个目的是提供一种用于图像分割和注释的半自主方法，该方法简化了图像注释过程。

根据本发明的第一方面，提供了一种用于图像分割和注释的方法，包括：提供图像；减小图像尺寸并使图像平滑以执行图像的低通滤波；恢复图像尺寸；执行图像的像素级聚类；执行图像的空间聚类；基于预定图像掩膜(mask)选择对应于感兴趣区域(region ofinterest，简称ROI)的一个或多个聚类，其中所述预定图像掩膜具有与感兴趣区域相关的已知位置；将所选择的一个或多个聚类定义为建议的感兴趣区域；以及确定所建议的感兴趣区域是否充分对应于实际感兴趣区域。

图像可以是由布置在车辆中或在车辆外侧上的相机获取的图像，其中所述图像示出了车辆周围环境。从而，图像可能包括各种对象，例如道路、天空、树木、建筑物、其它车辆等。由此，所述图像适合用作用于包括相机和对象识别以便为车辆提供引导的各种车辆系统的训练图像。优选地，图像能由相同的车辆系统捕获，对于该车辆系统，所述图像在注释之后被用于训练。此外，在执行所描述的图像分割和注释方法之前，可将多个图像存储在数据库中。

执行图像尺寸减小和平滑(即图像的低通滤波)以突出图像中可能对应于潜在感兴趣区域的较大的大致均匀区域，同时降低可能干扰感兴趣区域检测的较小区域和对象的可见性。减小图像尺寸典型地意味着缩小尺寸的图像，例如从512×512像素到256×256像素。

接下来，执行像素级聚类，其中关于一个或多个像素参数具有相似特性的像素被分组到一起并被定义为聚类。

一旦执行了聚类，就基于预定图像掩膜选择了图像的聚类的子集。将预定图像掩膜应用于图像并且假设预定图像掩膜具有与所寻找的感兴趣区域类型相关的已知位置。以其中感兴趣区域是天空为例，图像的上部由天空组成是合理的第一假设。由此，预定图像掩膜能对应于图像的顶部区域。然后，天空会主要位于图像中预定图像掩膜的下方。从而，通过应用在图像中相对于所寻找的感兴趣区域的假定位置具有已知位置的预定图像掩膜，能定义对于实际感兴趣区域的第一建议。一旦确定了感兴趣区域的大致位置，就能通过选择看起来包围所寻找的对象或区域的聚类来定义建议的感兴趣区域。

最后，确定所建议的感兴趣区域是否充分对应于实际感兴趣区域。由于所描述的方法涉及图像的半自主注释，因此操作者(即手动注释器)做出确定所建议的感兴趣区域是否可接受的最终判断。然后能根据已经注释相同图像的多个手动注释器之间的区域重叠(IoU：交并比)来确定最终感兴趣区域的可接受性的衡量。注释器还可在下面进一步详细描述的自主化工具的帮助下手动地调整感兴趣区域。然后能将任何这样的手动注释馈送到深度学习模型中，该深度学习模型能学习以更好地预测待被注释的新来的测试图像的感兴趣区域。

借助于所描述的方法，提供了一种半自主化系统，其提供准确的初始感兴趣区域建议，其后可以是用于手动校正(像素删除或添加)的最小数量的触摸点/校正像素。所描述的方法能显著增强注释系统的吞吐量(throughput)并且大大降低AD/ADAS系统的注释成本。

如果所建议的感兴趣区域不充分对应于实际感兴趣区域，则需要感兴趣区域的进一步修改。用于进一步提炼图像中的感兴趣区域范围的各种步骤将通过以下实施例被描述，其中为操作者提供了用于修改感兴趣区域的各种工具。

根据本发明的一个实施例，该方法可进一步包括通过添加所选择的像素或从所建议的感兴趣区域移除所选择的像素而向所建议的感兴趣区域应用像素级校正。基于诸如像素颜色、纹理、邻域信息等的图像相关特征对所建议的感兴趣区域做出像素级校正，其中可将具有所选择特性的像素添加到感兴趣区域或从感兴趣区域移除。

根据本发明的一个实施例，该方法可进一步包括通过添加所选择的聚类或从所建议的感兴趣区域移除所选择的聚类来对感兴趣区域执行区域级校正。由此，如果使用者指向特定像素位置，则属于相同聚类的所有像素被选择用于校正，即用于添加到感兴趣区域或从感兴趣区域移除。

根据本发明的一个实施例，该方法可进一步包括通过修改所建议的感兴趣区域的边缘来执行边缘校正。从而能移动所建议的感兴趣区域的边缘和/或能改变边缘的形状以提供所建议的感兴趣区域与由操作者视觉识别的实际感兴趣区域之间的更好匹配。

根据本发明的一个实施例，边缘校正可进一步包括通过连接图像的多个基准点来定义感兴趣区域的基准边缘。能通过图像中的多个基准点来定义基准边缘，其中基准点是用作参考点或标记的像素或像素组。如果将两个或多个基准点被连在一起，则它们表示基准边缘。

跨越自主检测的像素/边缘以构造基准边缘，并且因此该过程减少了校正所需的手动触摸点的数量。

从而，自主检测的基准点能用于质量控制同时分割较大表面(例如可行驶表面)。所提出方法的目标是在针对大尺寸对象/表面/感兴趣区域的注释过程期间最小化人工干预。此外，所得到的感兴趣区域的自主建议生成基线(可重复的、可再现的)结果。

根据本发明的一个实施例，可通过滤波来识别基准点。通过应用诸如Sobel滤波器、Canny边缘检测方法和/或高通滤波器的图像滤波器，能在图像中自动地突出显著的基准点以进一步简化边缘检测和边缘校正。利用在图像中突出的基准点，操作者可选择合适的基准点以连到一起以形成基准边缘。

根据本发明的一个实施例，定义基准边缘可包括以多段线拟合感兴趣区域，其中所述多段线基于多个基准点。多段线是由一个或多个线段组成的连续线，其中每个线段在此是两个基准点之间的直线。

根据本发明的一个实施例，执行边缘校正可包括选择基准边缘，保持来自感兴趣区域的在基准边缘的所选择的侧上的像素，以及从感兴趣区域移除在该基准边缘的相反侧上的像素。由此，向操作者提供了一种用于执行边缘校正的容易理解的方法，在该方法中由操作者选择由远离基准边缘的方向定义的所选择的侧。还有可能使方向颠倒使得所选择的侧上的像素被移除。

根据本发明的一个实施例，可通过对图像应用双边滤波器来执行平滑。该双边滤波器保留图像中的锐化边缘但是模糊化(blurs)较大的区域。因此，平滑操作消除了特定区域中的像素值的细微差别。这增加了选择较大的建议感兴趣区域的概率，因为降低了图像中微小差异的可见性。

根据本发明的一个实施例，可使用超像素分割方法或自组织映射方法来执行像素级聚类。

根据本发明的一个实施例，可使用带有噪声的应用的基于密度的空间聚类(DBSCAN)方法来执行空间聚类。许多聚类算法要求最终聚类的数量作为输入(例如K-means)。然而，在合并各聚类时，无法预先知道聚类的最终数量。因此，诸如DBSCAN的基于密度的聚类算法是有用的，因为它们不要求最终聚类的数量作为输入。因此，在所描述的申请中能使用用于空间聚类的任何基于距离的阈值方法(例如自组织映射(self-organizingmaps，简称SOM))。

还提供了一种计算机程序，包括用于当该程序在计算机上运行时执行任何上述实施例的各步骤的程序代码装置，以及一种承载计算机程序的计算机可读介质，该计算机程序包括用于当程序产品在计算机上运行时执行上述各步骤的程序代码装置。

当研究所附权利要求和以下描述时，本发明的进一步特征和优点将变得显而易见。技术人员认识到，在不脱离本发明的范围的情况下，可组合本发明的不同特征来创建除了下面描述的那些实施例之外的实施例。

附图说明

现在将参考示出本发明的一个示例实施例的附图更详细地描述本发明的这些和其它方面，其中：

图1是概括根据本发明的一个实施例的方法的总体步骤的流程图；

图2A-G示意性地示出了根据本发明的一个实施例的方法的所选步骤；

图3A-D示意性地示出了根据本发明的一个实施例的方法的所选步骤；

图4是概括根据本发明的一个实施例的方法的各步骤的流程图；以及

图5A-B示意性地示出了根据本发明的一个实施例的方法的所选步骤。

具体实施方式

在本具体实施方式中，主要参考用于其中可行驶表面是感兴趣区域(ROI)的图像的分割和注释的方法来描述根据本发明的方法的各种实施例。所描述的方法当然也能用于其它类型的区域和对象的检测和注释。

图1是概括根据本发明的一个实施例的方法的总体步骤的流程图。图1的方法将进一步参考示意性地示出该方法的所选步骤的图2A-G来描述。

首先，如图2A所示，提供100图像200。该图像200优选地表示由车辆系统中的相机捕获的图像200，该车辆系统用所得到的经注释的图像进行训练。在此，图像200由布置在车辆的前窗中或附近的前向相机捕获，捕获前方道路。进一步假设图像200包含由所描述的方法识别的感兴趣区域，即，将会与一个或多个车辆系统中的检测和识别相关的区域。

接下来，减小图像尺寸并且该图像被平滑102，例如通过对图像应用双边滤波器。由此执行图像上的低通滤波，其中所得到的经平滑的图像202在图2B中示出。减小图像尺寸包括减少图像中像素的数量，例如通过因子4。在此能注意到，可行驶表面(道路)的像素变得彼此非常相似并且诸如车道标记的较小对象消失，由此允许作为初始建议的可行驶表面感兴趣区域的更容易检测。

在平滑之后，恢复104图像尺寸并且使用超像素(super-pixel)或自组织映射方法(self–organizing maps method)在图像上执行106像素级聚类(pixel levelclustering)，其中像素强度值以3维聚类，得到图2C中所示的图像204。

在下一步骤中，执行108图像的空间聚类，即像素级聚类的空间组合，其中(由聚类中心表示)各聚类经受基于空间密度(spatial density-based)的空间聚类方法，例如带有噪声的应用的超像素基于密度的空间聚类(Super-pixel density-based spatialclustering of applications with noise，简称spdbscan)，以将各聚类与最近的聚类中心组合，得到图2D中所示的图像206。当图像经受类似超像素的聚类时，其将经低通滤波的图像分成许多聚类/子区域。

在完成聚类之后，基于预定图像掩膜210自动地选择110对应于感兴趣区域208的一个或多个聚类，其中所述预定图像掩膜210具有与感兴趣区域相关的已知位置。该预定图像掩膜210能够在保留在图2D的图像206中的所有聚类中识别较大感兴趣区域初始建议区域208。所得到的选择聚类208在图2E的图像212中示出。选择聚类208被进一步定义112为由图2F中的图像216示出的所建议的感兴趣区域214。从而，所建议的感兴趣区域214是感兴趣区域216的完全自动的初始建议。

例如，在图2D的图像206中，可行驶表面会与汽车的罩相交，因此汽车的罩在此用作现有掩膜210。如果意图将天空提取为感兴趣区域，则可选择对应于图像顶部区域的现有掩膜来识别感兴趣区域。原则上，关于将会帮助将感兴趣区域建议从图像分离的对象/感兴趣区域的相对位置的任何先前信息能被应用为先前掩膜。

在实践中感兴趣区域建议图像216是二进制图像，在该二进制图像中前景(foreground)由白色区域(像素值1)标记并且背景区域由黑色区域(像素值0)标记。从而，所选择的感兴趣区域建议区域214被定义为前景并且所有剩余像素区域被定义为背景。

在最后步骤中，确定114所建议的感兴趣区域214是否充分对应于实际感兴趣区域。在此该确定由操作者(operator)借助于所建议的感兴趣区域214与原始图像的视觉比较来执行，其中所建议的感兴趣区域214能在原始图像中被示出，如由图2G中的图像218所示。

由于所描述的方法涉及注释应用，因此操作者(即手动注释器)在所描述的自动化工具的帮助下做出所建议的感兴趣区域是否可接受的最终判断。最终感兴趣区域的可接受性能够例如根据多个手动注释器之间的区域重叠(交并比(intersection over union，简称IoU))来衡量。然后，这些手动注释将被馈送到深度学习模型中，然后该深度学习模型能预测新来的测试图像的感兴趣区域。

如果所建议的感兴趣区域214可接受，则注释过程完成并且能处理新图像。然而，如图2G中可见，存在所建议的感兴趣区域214的不属于可行驶路面的某些区域。因此，可能要求所建议的感兴趣区域214的进一步调整以实现所建议的感兴趣区域214与实际感兴趣区域之间的充分对应。所要求的调整能通过使用下面描述的一个或多个调整工具执行手动像素级校正来实现。

所建议的感兴趣区域214能例如通过添加或从所建议的感兴趣区域214移除所选择的像素或者通过添加或从所建议的感兴趣区域214移除所选择的聚类来调整。能使用图2C的图像204来执行基于聚类的校正，其中聚类能被手动选择以添加到建议的感兴趣区域214或从建议的感兴趣区域214移除。

此外，能通过执行修改所建议的感兴趣区域214的边缘的边缘校正来调整所建议的感兴趣区域214。一种边缘校正的方法由图3A-D示出并且总体步骤在图4的流程图中概括。

首先，选择400用于校正的基准边缘300和校正方向，如图3A所示。感兴趣区域的基准边缘可通过连接图像的多个基准点来定义，其中所述基准点又能通过使用Sobel滤波器、Canny边缘检测方法、高通滤波器或任何其它合适的方法的滤波而被自动识别。

一旦多个基准点在图像中被突出显示，就能将所述基准点连接以表示基准边缘300或一组基准点。这种基准边缘(包含基准点的边缘)的构造减少了跨越用于定位道路边缘的各手动注释器的误差，例如，其对于标记感兴趣区域的边缘是有用的。跨越自主检测的像素/边缘以构造基准边缘，并且因此该过程减少了校正所需的手动触摸点的数量。

通过拟合连接各基准点的多段线(polyline)来生成基准边缘300能简化边缘检测。多段线被定义为“被连接的线段的序列”，其会简化对于逐渐变细的道路边缘或不规则的(即不完全笔直的)道路边缘的基准边缘的检测。

自动多段线拟合过程能用于基准边缘检测，例如当要检测较长道路边缘时。然后，操作者能通过点击对应的断开点而一次选择多个断开的自动基准边缘。然后，多段线填充函数将拟合出通过断开的边缘点的线(即基准边缘)。然而，如果操作者希望检测较小的基准边缘(如汽车的顶部)或不连贯的车道线，那么仅选择一个基准边缘可能是足够的，然后能使用该基准边缘将多段线拟合到较小的基准边缘。

如果能由边缘检测器(例如Canny滤波器)检测到对应于边缘的所有基准点，则多段线拟合不再必要。然而，如果在图像中各个点处具有变化的对比度、亮度和阴影，则可能难以检测具有所有基准点的完整边缘，因此多段线拟合成为用于定义边缘的重要工具。然而，如果图像中存在强的、均匀照亮的边缘，则所有基准点可被包括在单个边缘中，这会不需要任何进一步的多段线估计。

这种基准边缘的构造减少了跨越用于定位道路边缘的各手动注释器的误差，例如，这对于标记感兴趣区域的边缘是有用的。

为了使边缘校正过程在计算上快速，实施了后端掩膜方法。因此，一旦(自动地或手动地)创建并选择400基准边缘300，并且如图3B所示选择用于像素保存的方向302，就创建402了子图像304并生成404具有精确地拟合所选择的基准边缘300的长度和宽度的二进制子图像掩膜304，使得在所选择的方向(在此向下)中源自基准边缘300并且在子图像端部处结束的所有像素被赋予值“1”(前景)并且所有剩余像素被赋予值“0”(背景)。然后，将图3C中所示的该二进制子图像掩膜304叠加406在感兴趣区域建议上(以像素方式的与操作(apixel wise AND-operation)的形式)以实现图3D中所示锐化的经边缘校正的感兴趣区域建议306。

图5A-B示意性地示出了用于修改图2G中的图像218的所建议的感兴趣区域214的所描述的边缘校正方法。在图5A中，基于多个基准点502a-e定义对应于道路边缘的基准边缘500。一旦定义了基准边缘500，就选择了“向下”方向，意味着从所建议的感兴趣区域中移除基准边缘500以上的像素，并且在图5B中示出在边缘校正之后最终的建议的感兴趣区域504。

尽管所建议的感兴趣区域选择方法适用于较大的感兴趣区域，例如可行驶表面、天空和建筑物，但是也可以使用注释方法的适当设定来检测较小的对象。而且，所描述的方法在注释组合(即非均匀的可行驶表面，例如带有泥浆和雪、水和干燥的斑块(patches)、坑洼、积雪等的道路)时是有用的。

尽管已经参考本发明的特定示例性实施例描述了本发明，但是对于本领域技术人员而言，许多不同的变更、修改等将变得显而易见。而且，应该注意，该方法的一些部分可以以各种方式被省略、互换或布置，该方法仍然能够执行本发明的功能。

另外，从对附图、公开内容和所附权利要求的研究，对所公开的各实施例的变型能被本领域技术人员在实践所要求保护的发明中理解和实现。在权利要求书中，词语“包括”不排除其它元件或步骤，并且不定冠词“一”或“一个”不排除多个。在互相不同的从属权利要求中列举某些措施的仅有事实并不表示这些措施的组合不能用于获益。

Claims

1.用于图像分割和注释的方法，包括：

提供(100)图像；

减小(102)图像尺寸并使所述图像平滑以执行所述图像的低通滤波；

恢复(104)所述图像的尺寸；

执行(106)所述图像的像素级聚类；

执行(108)所述图像的空间聚类；

基于预定图像掩膜选择(110)对应于感兴趣区域的一个或多个聚类，其中所述预定图像掩膜具有与所述感兴趣区域相关的已知位置；

将所选择的一个或多个聚类定义(112)为建议的感兴趣区域；以及

确定(114)所述建议的感兴趣区域是否充分对应于实际感兴趣区域。

2.根据权利要求1所述的方法，进一步包括通过添加所选择的像素或从所述建议的感兴趣区域移除所选择的像素来对所述建议的感兴趣区域应用像素级校正。

3.根据权利要求1或2所述的方法，进一步包括通过添加所选择的聚类或从所述建议的感兴趣区域移除所选择的聚类来对所述感兴趣区域执行区域级校正。

4.根据前述权利要求中任一项所述的方法，进一步包括通过修改所述建议的感兴趣区域的边缘来执行边缘校正。

5.根据权利要求4所述的方法，进一步包括通过连接所述图像的多个基准点来定义所述感兴趣区域的基准边缘。

6.根据权利要求5所述的方法，其中通过滤波来识别所述基准点。

7.根据权利要求6所述的方法，其中使用Sobel滤波器、Canny边缘检测方法或高通滤波器来执行滤波。

8.根据权利要求6或7所述的方法，其中定义基准边缘包括以多段线拟合所述感兴趣区域，其中所述多段线基于多个基准点。

9.根据权利要求5至8中任一项所述的方法，其中执行边缘校正包括：

选择基准边缘；

保持感兴趣区域的在所述基准边缘的所选侧上的像素；以及

从所述感兴趣区域移除在所述基准边缘的相反侧上的像素。

10.根据前述权利要求中任一项所述的方法，其中通过对所述图像应用双边滤波器来执行平滑。

11.根据前述权利要求中任一项所述的方法，其中使用超像素分割方法或自组织映射方法来执行像素级聚类。

12.根据前述权利要求中任一项所述的方法，其中使用带有噪声的基于密度的空间聚类(DBSCAN)方法来执行空间聚类。

13.一种计算机程序，包括用于当所述程序在计算机上运行时执行权利要求1至12中任一项所述的步骤的程序代码装置。

14.一种承载计算机程序的计算机可读介质，所述计算机程序包括用于当程序产品在计算机上运行时执行权利要求1至12中任一项所述的步骤的程序代码装置。

15.一种用于控制计算机的控制单元，所述控制单元被配置为执行根据权利要求1至12中任一项所述的方法的步骤。