CN110414307A

CN110414307A - 用于半自动图像分割和注释的方法和系统

Info

Publication number: CN110414307A
Application number: CN201910343752.0A
Authority: CN
Inventors: S·罗伊乔杜里; A·瓦林; 丁司昊
Original assignee: Volvo Car Corp
Current assignee: Volvo Car Corp
Priority date: 2018-04-26
Filing date: 2019-04-26
Publication date: 2019-11-05
Anticipated expiration: 2039-04-26
Also published as: CN110414307B; EP3561775B1; US11100366B2; US20190332893A1; EP3561775A1

Abstract

用于数字图像分割和注释的方法和系统(10,40)，包括：从输入文件(12,32)接收部分地示出关注目标的数字图像(14)；一个或多个地手动和自动在关注目标周围添加多边形以生成被分割数字图像(18,20,38,40)；一个或多个地手动和自动将标签附加到关注目标周围的多边形中以生成分割和注释的数字图像(24,44)，其中标签指示所关注目标的身份和特征中的一个或多个；并且将与被分割和注释的数字图像有关的信息输出到输出文件(26,48)。可选地，多边形是边界框和四点多边形之一。可选地，所述关注目标是泊车位。

Description

用于半自动图像分割和注释的方法和系统

技术领域

本发明一般涉及用于图像的半自动分割和注释的方法和系统。更具体地，本发明涉及的用于图像的半自动分割和注释的方法和系统用于训练由自动驾驶系统/高级驾驶员辅助系统(ADS/ADAS)等利用的视觉相关机器学习模型从而识别和分类泊车位及其它关注目标。

背景技术

由ADS/ADAS等利用的视觉相关机器学习模型使用分割和注释的图像(例如数码摄像机图像等)来训练其自身以用于随后的自动检测任务，例如根据实时数码摄像机图像检测泊车位、行人等。通常使用软件应用程序手动创建这些分割和注释的图像。用户识别给定图像中的所关注目标，限定所关注目标的边缘，在所关注目标周围放置边界框，然后注释边界框以标记所关注目标以供稍后参考。图像像素特征和注释边缘或边界框内部和外部的变化然后被分析、学习并随后由视觉相关的机器学习模型利用来实时识别类似的关注目标并分类并对其作出反应。有利的是，这种手动用户分割和注释方法是稳健的，因为人们需要多年的训练来准确地识别和区分所关注目标及其周围环境。不利的是，这种手动用户分割和注释方法耗时、低效且容易出错。例如，人类并不擅长限定最拟合的边缘或在关注目标周围放置最拟合的边框，或者至少不能快速地这样做。这个过程可能需要数小时。鉴于必须分割、注释和消化大量的各种图像以充分训练ADS/ADAS等使用的与视觉相关的机器学习模型，这是有问题的。

因此，本领域仍然需要用于图像的半自动分割和注释的方法和系统，用于训练由ADS/ADAS等利用的视觉相关机器学习模型来识别和分类泊车位和其它所关注目标。这样的方法和系统将加速并提高图像分割和注释过程的准确性，从而允许视觉相关的机器学习模型的制造商和实施者在总体上更有效地操作。

发明内容

在各种示例性实施例中，本发明提供了用于图像的半自动分割和注释的方法和系统，用于训练由ADS/ADAS等利用的视觉相关机器学习模型以识别和分类泊车位及其它关注目标。针对图像例如鸟瞰图(BEV)图像和/或来自一个或多个数码摄像机的拼接图像，其可以预先注释或可以不预先注释，这些方法和系统涉及用户选择与所关注目标相关联的一个或多个置信点。根据一个或多个选定的置信点，软件应用程序可操作为自动限定所关注目标的其它置信点和/或边缘，并以自动方式在所关注目标周围添加边界框或优化多边形。也可以有选项用于手动添加这种边界框或多边形。接下来，如果需要，则调整边界框并由用户确认。类似地，如果需要，则由用户调整并确认优化的多边形，其中例如识别预定的顶点(此处为顶点1)以建立一致的多边形对齐。随后，适当的注释手动地或以自动方式与边界框或多边形相关联。该注释可以是目标标识符、可见性指示符等，并且可以根据需要手动校正。最后，将被分割和注释的图像输出到Json/文本文件等，以便之后用于训练视觉相关的机器学习模型。用户通过用户友好的图形用户界面(GUI)与软件应用程序交互。特别是在确定置信点和/或边缘以及边界框或优化多边形的放置时，该整个过程提高了准确性和效率。

本发明的方法和系统可以在发展模式或校正模式中起作用。在发展模式中，图像从头被分割并注释。在校正模式中，使用新标准校正或更新先前的分割和注释。

尽管在此使用ADS/ADAS作为示例，但是对于本领域普通技术人员来说显而易见的是，本发明的方法和系统可以同等地用于任何图像分割和注释应用中。因此，与本文提供的一般目标和泊车位检测相关的示例旨在对于所有目的，是非限制性的。

在一个示例性实施例中，本发明提供了一种用于数字图像分割和注释的方法，包括：从输入文件接收部分地示出所关注目标的数字图像；一个或多个地手动和自动在所关注目标周围添加多边形以生成被分割数字图像；一个或多个地手动和自动地将标签附加到所关注目标周围的多边形以生成被分割和注释的数字图像，其中标签指示所关注目标的身份和特征中的一个或多个；并且将与被分割和注释的数字图像有关的信息输出到输出文件。数字图像由单个数字图像、包括多个子图像的拼接数字图像、标准数字图像和鸟瞰数字图像中的一个或多个组成。可选地，多边形是边界框和四点多边形之一。手动地在所关注目标周围添加多边形包括手动识别多边形的一个或多个顶点、手动或自动连接多边形的顶点以及从多边形的一个或多个顶点中手动地指定一个或多个参考顶点。在所关注目标周围自动添加多边形包括手动地选择与所关注目标相关联的关注区域、自动显示所关注目标周围的一个或多个置信点和置信边缘、手动地刷拂由一个或多个置信点和置信边缘所引导的所关注目标周围的边缘以及自动地凸包(convex hull)估算和显示包含所有刷拂像素的多边形。凸包估算包括估算拟合在包含所有刷拂像素的多边形内的最大对角线、通过其端点指定最大对角线以及在顺时针和逆时针方向上穿过包括所有刷拂像素的多边形的顶点，其中最大化由所述最大对角线和在顺时针和逆时针方向上选择的顶点形成的三角形区域的所选顶点被选择为包含所有刷拂像素的所述多边形的置信点。可选地，该方法还包括手动编辑包含所有刷拂像素的多边形，如果需要则从包含所有刷拂像素的多边形顶点中识别参考顶点，并且如果需要则圆形移动顶点以使参考顶点与预定的参考位置重合。可选地，通过创建对应于多边形的二元掩模、梯度滤波数字图像的红色、绿色和蓝色平面以生成梯度滤波图像、在梯度滤波图像上叠加二元掩模以及基于叠加的二元掩模和梯度滤波图像的像素强度的平均值和标准偏差来表征/标记所关注目标以确定所关注目标的特征。例如，该特征指的是将泊车位标记为属于特定预定类别(正常，不可用，紧急，禁止停车等)。该方法还包括以下的一个或多个：在标准学习模式中，生成被注释的数据集并使用被注释的数据集作为训练数据集从而训练机器学习/深度学习模块以生成后续数据集的自动标签；并且，在主动学习模式中，手动地注释小数据集，使用被注释的小数据集训练机器学习/深度学习模块并为新的小数据集i＝1生成注释，使用新的被注释的小数据集i＝1作为预注释数据集并对其进行手动校正，使用新的被注释的小数据集i＝1在手动校正之后重新训练机器学习/深度学习模块，按预定次数对后续新的被注释的小数据集i＝i+1重复该过程，并自动地注释大数据集。

在另一示例性实施例中，本发明提供了一种用于数字图像分割和注释的系统，包括存储机器可读指令的存储器，当由处理器执行机器可读指令时，所述机器可读指令使得系统：从输入文件接收部分地示出关注目标的数字图像；一个或多个地手动和自动地在所关注目标周围添加多边形以生成被分割数字图像；一个或多个地手动和自动地将标签附加到所关注目标周围的多边形以生成被分割和注释的数字图像，其中标签指示所关注目标的身份和特征中的一个或多个；并且将与被分割和注释的数字图像有关的信息输出到输出文件。可选地，多边形是边界框和四点多边形之一。手动地在所关注目标周围添加多边形包括手动识别多边形的一个或多个顶点，手动或自动连接多边形的顶点，以及在多边形的一个或多个顶点中手动地指定一个或多个参考顶点。在所关注目标周围自动添加多边形包括手动地选择与所关注目标相关联的关注区域，自动地显示所关注目标周围的一个或多个置信点和置信边缘，由一个或多个置信点和置信边缘所引导手动地刷拂关注目标周围的边缘，以及自动地凸包估算和显示包含所有刷拂像素的多边形。凸包估算包括估算拟合在所述多边形内的最大对角线，所述最大对角线包含所有所述刷拂像素，通过其端点指定最大对角线，并且在顺时针和逆时针方向上穿过包含所有所述刷拂像素的所述多边形的顶点，其中最大化由所述最大对角线和在顺时针和逆时针方向上所选择顶点形成的三角形区域的所选顶点被选择为包含所有所述刷拂像素的所述多边形的置信点。可选地，该系统还能够手动编辑包含所有刷拂像素的多边形，如果需要则从包含所有刷拂像素的多边形顶点中识别参考顶点，并且如果需要则圆形移动顶点以使参考顶点与预定的参考位置重合。可选地，通过创建对应于多边形的二元掩模、梯度滤波数字图像的红色、绿色和蓝色平面以生成梯度滤波图像、在梯度滤波图像上叠加二元掩模以及基于叠加的二元掩模和梯度滤波图像的像素强度的平均值和标准偏差来表征/标记所关注目标以确定所关注目标的特征。例如，该特征指的是将泊车位标记为属于特定预定类别(正常，不可用，紧急，禁止停车等)。该系统还包括以下的一个或多个：标准学习模式可操作为生成被注释的数据集并使用被注释的数据集作为训练数据集从而训练机器学习/深度学习模块以生成后续数据集的自动标签；并且，主动学习模式可操作为手动地注释小数据集，使用被注释的小数据集训练机器学习/深度学习模块并为新的小数据集i＝1生成注释，使用新的被注释的小数据集i＝1作为预注释数据集并对其进行手动校正，使用新的被注释的小数据集i＝1在手动校正之后重新训练机器学习/深度学习模块，按预定次数对后续新的被注释的小数据集i＝i+1重复该过程，并自动地注释大数据集。

附图说明

参考各种附图示出和描述了本发明，其中相同的附图标记用于表示相同的方法步骤/系统组件，并且其中：

图1是示出本发明的半自动图像分割和注释算法的一个示例性实施例的流程图，突出显示了对所关注一般目标(generic object)的检测；

图2是示出本发明的半自动图像分割和注释算法的另一示例性实施例的流程图，突出显示了对泊车位或其它所关注几何目标的检测；

图3是示出在本发明的GUI(图形用户界面)上显示的一个或多个所关注目标的示例性鱼眼摄像机图像，鱼眼摄像机图像可选地包括从现有Json/文本文件加载并显示在鱼眼摄像机图像上的预注释；

图4是在本发明的GUI上显示的示例性鱼眼摄像机图像，突出显示了置信点/边缘的自动选择以及使用图像分割和注释算法在所关注目标周围放置边界框；

图5是在本发明的GUI上显示的示例性鱼眼摄像机图像，突出显示了使用图像分割和注释算法设置在所关注目标周围的边界框的自动放置和手动校正；

图6是在本发明的GUI上显示的示例性鱼眼摄像机图像，突出显示了使用图像分割和注释算法将所关注目标手动标记为具有“100％可见度”的“街道垃圾”；

图7是在本发明的GUI上显示的示例性鱼眼摄像机图像，使用图像分割和注释算法突出显示了分别被充分分割和注释为“街道垃圾”、“行人”和“其它”的若干所关注目标；

图8是在本发明的GUI上显示的示例性拼接BEV摄像机图像，使用通过使用图像分割和注释算法选择相关顶点形成的四点多边形突出显示泊车位的手动分割；

图9是在本发明的GUI上显示的示例性拼接BEV摄像机图像，突出显示了自动置信边缘检测，使得能够使用图像分割和注释算法围绕泊车位自动放置凸包估算(hullestimation)四点多边形；

图10是在本发明的GUI上显示的示例性拼接BEV摄像机图像，突出显示了在使用图像分割和注释算法进行刷拂置信边缘选择(brushed fiduciary edge selection)之后在泊车位周围的自动四点多边形放置；

图11是示例性拼接BEV摄像机图像，突出显示了使用图像分割和注释算法分割的泊车位的自动标记；

图12是在本发明的GUI上显示的示例性拼接BEV摄像机图像，突出显示了使用图像分割和注释算法自动生成和放置用于分割泊车位的“正常(normal)”和“不可用(disability)”标签；

图13是在本发明的GUI上显示的示例性拼接BEV摄像机图像，使用与图像分割和注释算法相关联的下拉菜单突出显示了用于分割泊车位的“不可用”标签手动校正为“正常”标签；

图14是示出用于使用本发明的半自动地注释器模块来生成“注释数据”然后使用该“注释数据”作为训练集来训练机器学习/深度学习模块的一个示例性工作流程的流程图，经过训练，能够在之前看不见的大型测试数据集上生成自动标签；以及

图15是示出用于使用本发明的半自动地注释器模块的另一示例性工作流程的流程图，突出显示了主动学习模式中的操作。

具体实施方式

现在具体参考图1，在一个示例性实施例中，图像分割和注释算法10包括首先经由在适当的处理和显示装置上操作的GUI 14接收数字摄像机图像12等。图像可以是标准图像、BEV图像和/或由多个子图像组成的拼接图像。例如，标准图像(无论是单个的还是拼接的)可以来自安装在车辆上的面向前方、后方和/或侧面并且被设计为扫描其它车辆、行人、标志、障碍物、垃圾等等的数码摄像机。BEV图像(无论是单个的还是拼接的)可以来自安装在车辆上的并且被设计成扫描泊车位线、道路线等等的面向下的数字鱼眼摄像机。这种BEV图像在低速车辆操纵应用例如自动泊车和泊车引导中非常有用，因为它们能够提供360度的地面视图。可选地，当图像分割和注释算法10以校正模式操作时，图像加载有手动或自动创建的一个或多个预注释16，该校正模式与其中图像被从头被分割和注释的发展模式(development mode)相反。在校正模式中，预注释与GUI 14上的图像一起显示，并且输入图像/注释文件也可以用作输出图像/注释文件。在发展模式中，图像显示在GUI 14上，并且创建空白输出图像/注释文件。

在该示例性实施例中，考虑对象检测，并且接收的图像优选是单个或拼接的标准图像。用户可以选择在所关注目标周围手动地添加边界框18。为了手动地添加该边界框，生成虚拟边界框，并且用户拖动并调整其大小以严格符合所关注目标。不利的是，由于用户间的差异，在此可能导致手动错误。因此，用户还可以选择使用置信点/边缘(fiduciarypoints/edges)添加自动边界框20。为了添加自动边界框，用户点击与所关注目标相关联的关注区域(ROI)并且在所关注目标周围显示“canny边缘”过滤的置信点/边缘。然后，用户可以刷拂(共同选择)这些边缘。由这些刷拂边缘，软件应用随后估算和显示容纳所有刷拂像素的凸边界框。该自动边界框(由于使用自动生成的置信边缘)具有较低的误差，并且比通过在所关注目标周围手动拖动边界框更快地生成该自动边界框。此外，自动边界框减少手动注释器之间的观察者间差异。然后，必要时边界框由用户进行边缘校正，并且确认22。随后，用适当的标识符手动标记每个边界框，并且可选地，使用指示相关关注目标的相对可见度的可见性注释来标记每个边界框24。其它合适的注释也可以附加到边界框。最后，将分割和注释的图像信息分别输出到Json文件、txt文件或其它文件，或者保存为指示黑色背景和白色前景像素的图像文件或黑白位图图像26。目标检测时，目标坐标以[x，y，w，h]的形式与对应的目标标签一起保存。此处，(x，y)表示边界框的左上角，并且(w，h)分别表示目标宽度和目标高度。其它约定可以由给定的应用指定。

现在具体参照图2，在另一示例性实施例中，图像分割和注释算法30包括首先经由在适当的处理和显示装置上操作的GUI 14接收数字摄像机图像等32。再者，图像可以是标准图像、BEV图像和/或由多个子图像组成的拼接图像。例如，标准图像(无论是单个的还是拼接的)可以来自安装在车辆上的并且被设计为扫描其它车辆、行人、标志、障碍物、垃圾等等的面向前方、后方和/或侧面的数码摄像机。BEV图像(无论是单个的还是拼接的)可以来自安装在车辆上的并且被设计为扫描泊车位线、道路线等等的面向下的数字鱼眼摄像机。这种BEV图像在低速车辆操纵应用例如自动泊车和泊车引导中非常有用，因为它们可以提供360度的地面视图。可选地，当图像分割和注释算法30以校正模式操作时，图像再次加载有手动或自动创建的一个或多个预注释36，该校正模式与图像被从头被分割和注释的发展模式相反。在校正模式中，预注释与GUI 14上的图像一起显示，并且输入图像/注释文件也可以用作输出图像/注释文件。在发展模式中，图像显示在GUI 14上，并且创建空输出图像/注释文件。

在该示例性实施例中，考虑泊车位检测，并且接收的图像优选是单个或拼接的BEV图像。用户可以选择在BEV图像中的泊车位周围手动地添加四点多边形38。为了手动地添加该四点多边形，用户选择四点多边形的顶点，并且这些顶点自动连接。由于泊车位的方向至关重要，因此四点多边形必须以相同的顶点(顶点1)开始和结束，该顶点可选择性地限定为当车辆进入泊车位时泊车位的左下角。顶点1应当是为手动创建四点多边形选择的第一个顶点。优选地，GUI提供放大/缩小功能，以便更精确地手动创建四点多边形和减少人为错误。再者，用户还可以选择使用置信点/边缘添加自动四点多边形40。为了添加自动四点多边形，用户点击与泊车位相关的ROI并且在泊车位周围显示“canny边缘”过滤的置信点/边缘。然后，用户可以刷拂(共同选择)这些边缘。由这些被刷拂的边缘，软件应用程序随后估算和显示包含所有被刷拂像素的凸四点多边形。优选地，该功能利用使用凸包点的四点估算器函数(4-point estimator function)。该函数首先估算拟合四点多边形的最大对角线，其中指定该对角线的两个端点(a，b)。其次，以顺时针和逆时针方向穿过(a，b)之间的顶点(两次重复)。在每次重复中，最大化由对角线和新顶点形成的三角形区域的新顶点被选择。例如，如果分别在顺时针和逆时针方向上选择顶点c和d，则顶点(a，c，b，d)限定泊车位的自动凸包四点多边形。再次，这种自动四点多边形具有较低的误差(由于使用自动生成的置信边缘)，并且比通过在泊车位周围手动地选择四点多边形更快地生成自动四点多边形。此外，自动四点多边形减少了手动注释器之间的观察者间差异。例如，与网格搜索四个顶点相比，这种用于自动估算最大面积四点多边形的解决方案针对计算复杂度进行了优化。然后，用户必须对四点多边形进行边缘校正，并进行确认42。由于顶点1的自动确定将很困难，因此该确认包括用户手动地选择顶点(Vertex)1。基于顶点1在四点多边形顶点列表中的相对位置，顶点可以经历环形移位以确保顶点1是列出的第一个顶点。尽管这里描述了使用四点多边形(具有特定的顶点1)，但是对于本领域普通技术人员来说显而易见的是，可以同等地使用具有更少或更多顶点的其它类型的多边形。

随后，用适当的标识符自动地标记每个四点多边形44。由于每种类型的泊车位的颜色和纹理是独特的，因此创建对应于四点多边形的二元掩模并将其叠加在梯度滤波图像上，通过分别梯度滤波BEV图像的红色、绿色和蓝色平面获得该图像。例如，掩模和梯度滤波图像的像素强度的平均值和标准偏差用于将“正常”泊车位与“不可用(disability)”泊车位与“其它”泊车位分开。这有助于每个四点多边形的自动标记，并且这些概念超出了泊车位的自动标记。由于四点多边形可以沿着相关泊车位的内边缘设置，所以识别线颜色可以落在四点多边形之外。因此，为了启用此功能，可以稍微扩展四点多边形以将其与其聚集的平均线颜色耦合。再次，其它合适的注释也可以附加到四点多边形。在某些情况下，与“不可用”泊车位相邻的“正常”泊车位可能被错误地标记为“不可用”泊车位等。通过重复每个自动标签并进行适当的校正来手动校正这些错误46。

最后，将分割和注释的图像信息输出到Json文件、txt文件或其它文件，或者分别保存为指示黑色背景和白色前景像素的图像文件或黑白位图图像48。在泊车位检测的情况下，目标坐标以[x1，y1，x2，y2，x3，y3，x4，y4]的形式与相应的泊车位标签一起保存。此处，(xi，yi)指的是四点多边形的四个顶点的第'i'个顶点的坐标。其它规定可以由给定的应用程序指定。

与目标检测有关，图3是示出在GUI 14上显示的一个或多个所关注目标50和52的示例性鱼眼摄像机图像。鱼眼摄像机图像包括从现有Json/文本文件加载并显示在鱼眼摄像机图像上的预注释54即边界框。再者，对于本领域普通技术人员来说显而易见的是，鱼眼摄像机图像可以被无论是单一的还是拼接的任何其它类型的摄像机图像替换，并且可以同样地示出任何类型的所关注目标。

图4是在GUI 14上显示的示例性鱼眼摄像机图像，使用图像分割和注释算法10(图1)突出显示了置信点/边缘56的自动选择以及围绕所关注目标50的边界框58的放置。还示出了在所关注目标52周围的特定ROI中的边缘58的刷拂(brushing)。

图5是在GUI 14上显示的示例性鱼眼摄像机图像，突出显示了使用图像分割和注释算法10围绕所关注目标50和52设置的边界框56和60的自动放置和手动校正。移动这些边界框56和60并且可选地调整其大小以严格拟合在所关注目标50和52周围。

图6是在GUI 14上显示的示例性鱼眼摄像机图像，使用与图像分割和注释算法10相关联的下拉菜单62突出显示了将所关注目标50手动标记为具有“100％可见度”的“街道垃圾”。

图7是在GUI 14上显示的示例性鱼眼摄像机图像，突出显示了若干所关注目标50、52和64，使用图像分割和注释算法10分别将它们充分分割并注释为“街道垃圾”66、“行人”68和“其它”70。

类似地，与泊车位检测相关，图8是在GUI 14上显示的示例性拼接BEV摄像机图像，使用通过使用图像分割和注释算法40选择相关顶点74形成的四点多边形72突出显示了泊车位70的手动分割(图2)。根据规定，泊车位70的左下角处的顶点1(附图标记76)用作四点多边形72的起点和终点。如上所述，四点多边形72沿泊车位70的内边缘设置，使得识别线颜色落在四点多边形70之外。因此，为了能够自动识别和标记，四点多边形70稍后可以稍微扩展以将其与其聚集的平均线颜色耦合。

图9是在GUI 14上显示的示例性拼接BEV摄像机图像，突出显示了自动置信边缘检测76，使得能够使用图像分割和注释算法40围绕泊车位72自动放置凸包估算四点多边形72。再者，该函数利用四点估算函数，该函数首先估算拟合在四点多边形72内的最大对角线，指定该对角线的两个端点(a，b)。其次，以顺时针和逆时针方向穿过(a，b)之间的顶点(两次重复)。在每次重复中，选择最大化由对角线和新顶点形成的三角形区域的新顶点。例如，如果分别在顺时针和逆时针方向上选择顶点c和d，则顶点(a，c，b，d)限定了用于泊车位70的自动地凸包四点多边形72。

图10是在GUI 14上显示的示例性拼接BEV摄像机图像，使用图像分割和注释算法40在刷拂置信边缘选择76之后突出显示了围绕泊车位80的自动四点多边形78放置。在可选的手动校正自动四点多边形78之后，用户必须选择顶点1(附图标记82)以完成所示的分割操作。

图11是示例性拼接的BEV摄像机图像，突出显示了使用图像分割和注释算法40分割的泊车位70的自动标记。再者，由于每种类型的泊车位的颜色和纹理是独特的，因此创建对应于四点多边形72的二进制掩模84并将其叠加在梯度滤波图像86上，该图像是通过分别梯度滤波拼接的BEV图像的红色、绿色和蓝色平面而获得的。例如，掩模和梯度滤波图像84和86的像素强度的平均值和标准偏差用于将“正常”泊车位与“不可用”泊车位与“其它”泊车位分开。这有助于每个四点多边形的自动标记，并且这些概念超出了泊车位的自动标记。

图12是在GUI 14上显示的示例性拼接BEV摄像机图像，使用图像分割和注释算法40突出显示了用于分割泊车位88、80和70的“正常”和“不可用”标签90和92的自动生成和放置。

最后，图13是在GUI 14上显示的示例性拼接BEV摄像机图像，使用与图像分割和注释算法40相关联的下拉菜单94突出显示了将用于分割泊车位80的“不可用”标签92手动校正为“正常”标签90。

优选地，本发明的软件应用程序被实施为存储在存储器中并由处理器执行的编码指令。处理器是用于执行这种编码指令的硬件装置。处理器可以是任何定制的或商业上可用的处理器、中央处理单元(CPU)、与存储器相关联的若干处理器中的辅助处理器、基于半导体的微处理器(以微芯片或芯片组的形式)或通常用于执行编码指令的任何装置。处理器被配置为执行存储在存储器内的软件，将数据传送到存储器和从存储器传送数据，并且通常根据编码的指令控制操作。在示例性实施例中，处理器可以包括移动优化处理器，例如针对功耗和移动应用而优化的处理器。I/O接口可用于接收用户输入和/或用于提供系统输出。可以通过例如键盘、触摸屏、滚动球、滚动条、按钮等提供用户输入。系统输出可以通过显示装置提供，例如液晶显示器(LCD)、触摸屏等。I/O接口还可以包括例如串行端口、并行端口、小型计算机系统接口(SCSI)、红外(IR)接口、射频(RF)接口、通用串行总线(USB)接口等等。I/O接口可以包括使用户能够与存储器交互的GUI 14。另外，I/O接口还可以包括成像装置即摄像机、录像机等。

存储器可以包括任何易失性存储器元件(例如，随机存取存储器(RAM，诸如DRAM、SRAM、SDRAM等))、非易失性存储器元件(例如ROM、硬盘驱动器等)以及其组合。此外，存储器可以包含电子、磁性、光学和/或其它类型的存储介质。要注意，存储器可以具有分布式架构，其中各种组件彼此远程地定位，但是可以由处理器访问。存储器中的软件可以包括一个或多个软件程序，每个软件程序包括用于实现逻辑功能的可执行指令的有序列表。存储器中的软件包括合适的操作系统(O/S)和程序。操作系统基本上控制其它计算机程序的执行，并提供调度、输入-输出控制、文件和数据管理、存储器管理以及通信控制和相关服务。程序可以包括被配置为提供终端用户功能的各种应用程序、附加组件等。程序可以包括提供各种功能的应用程序或“app”。

因此，本发明提供了用于图像的半自动分割和注释的方法和系统，用于训练由ADS/ADAS等利用的视觉相关机器学习模型以识别和分类泊车位和其它所关注目标。给定图像例如来自一个或多个数码摄像机的可以预先注释或不预先注释的BEV图像和/或拼接图像，这些方法和系统涉及用户选择与所关注目标相关联的一个或多个置信点。根据一个或多个所选择的置信点，软件应用程序可操作用于自动限定所关注目标的其它置信点和/或边缘，并以自动方式在所关注目标周围添加边界框或优化多边形。选项也可用于手动地添加这种边界框或多边形。然后调整边界框(如果需要)，并由用户确认。类似地，如果需要，由用户调整边界框并确认优化的多边形，其中例如识别预定的顶点(此处为顶点1)以建立一致的多边形对齐。随后，适当的注释手动地或以自动方式与边界框或多边形相关联。该注释可以是目标标识符、可见性指示符等，并且可以根据需要手动校正。最后，将分割和注释的图像信息输出到Json/文本文件等，以便稍后用于训练视觉相关的机器学习模型。用户通过用户友好的GUI与软件应用程序交互。特别是在确定置信点和/或边缘以及边界框或优化多边形的放置时，整个过程提高了准确性和效率。

本发明的方法和系统可以在发展模式或校正模式中起作用。在发展模式中，图像从头(from scratch)被分割并注释。在校正模式中，使用新标准校正或更新先前的分割和注释。

图14示出使用本发明的半自动注释器模块100来生成“注释数据”然后使用该“注释数据”作为训练集来训练机器学习/深度学习模块102的一个示例性工作流程，该机器学习/深度学习模块102一旦经过训练就能够在以前看不见的大型测试数据集上生成自动标签。该示例性工作流程确保手动注释器独立于机器学习/深度学习模块102，并且手动地注释过程不受所使用的机器学习模型的数据或输出的偏差。

可选地，半自动注释系统100可以在主动学习模式中使用，如图15所示。此处，小批量地注释数据。该过程始于用户使用注释平台100手动地注释的小批量训练数据。接下来，该注释数据用于训练机器学习/深度学习模块102，其随后预测用于新的小测试数据集批次(例如，批次i＝1)的标签。这些预测标签被注释平台100用作预注释(即已知标签)，手动注释器对边界框/多边形/标签进行校正并保存变化(作为快速注释数据)。由于大多数边界框/多边形/标签由机器学习算法102预填充(pre-populated)，因此该过程确保需要较少的手动注释时间。接下来，该批手动校正的测试数据(即批次i)用于重新训练机器学习/深度学习模块102，然后使用另一个小测试批次(即批次i+1)，为此生成自动边界框/多边形/标签。现在，该新批次(即i+1)变为批次'i'(即i＝i+1)，并且这些预先填充的标签被反馈到注释平台100以进行手动校正，此后该过程继续直到数据用尽。此过程的好处是以小集/批量标记数据，机器学习模块的输出被视为新测试批次的预注释。然而，尽管这种主动学习过程可能会减少手动注释时间，但它可能会导致用户对边界框和多边形的位置产生偏差，这在某些情况下可能会有害；例如，如果图像中有若干小目标被边界框错误地包围，则预注释将被偏移，如果用户没有注意进行校正，那么整个学习过程可能会被抵消/阻碍，因为这个主动学习过程是一个连续的重复过程。

尽管在此使用ADS/ADAS作为示例，但是对于本领域普通技术人员来说显而易见的是，本发明的方法和系统可以同等地用于任何图像分割和注释应用中。因此，与本文提供的通用目标和泊车位检测相关的示例旨在针对所有目的而言是非限制性的。

尽管在此参考优选实施例及其具体示例示出和描述了本发明，但是对于本领域普通技术人员来说显而易见的是，其它实施例和示例可以完成类似的功能和/或实现类似的结果。所有这些等同的实施方案和实施例都在本发明的精神和范围内，由此构思，并且旨在由所有目的由以下非限制性权利要求所覆盖。

Claims

1.一种用于数字图像分割和注释的方法(10,40)，包括：

从输入文件(12,32)接收包括关注目标的数字图像(14)；

在所述关注目标周围一个或多个地手动和自动添加多边形以生成被分割的数字图像(18,20,38,40)；

一个或多个地手动和自动将标签附加于所述关注目标周围的所述多边形以生成被分割和注释的数字图像(24,44)，其中所述标签指示所述关注目标的身份和特征中的一个或多个；以及

将与被分割和注释的数字图像有关的信息输出到输出文件(26,48)。

2.如权利要求1所述的方法，其中所述数字图像包括单个数字图像、包括多个子图像的拼接数字图像、标准数字图像和鸟瞰数字图像中的一个或多个。

3.如权利要求1所述的方法，其中所述多边形包括边界框和四点多边形之一。

4.根据权利要求1所述的方法，其中在所述关注目标周围手动添加多边形包括手动识别所述多边形的一个或多个顶点，手动或自动连接所述多边形的顶点，以及从所述多边形的一个或多个顶点中手动指定一个或多个参考顶点(20,22,40,42)。

5.根据权利要求1所述的方法，其中在所述关注目标周围自动添加所述多边形包括手动选择与所述关注目标相关联的关注区域，自动显示所述关注目标周围的置信点和置信边缘中的一个或多个，由所述置信点和置信边缘中的一个或多个引导手动刷拂所述关注目标的周围的边缘，并且自动地凸包估算和显示包含所有刷拂像素的多边形(20,22,40,42)。

6.根据权利要求5所述的方法，其中所述凸包估算包括估算拟合在包含所有所述刷拂像素的多边形内的最大对角线，通过其端点指定最大对角线，并且在顺时针和逆时针方向上穿过包含所有所述刷拂像素的所述多边形的顶点，其中最大化由所述最大对角线和在顺时针和逆时针方向上选择的顶点形成的三角形区域的所选顶点被选择为包含所有所述刷拂像素的所述多边形的置信点(20,22,40,42)。

7.如权利要求5所述的方法，还包括手动编辑包含所有所述刷拂像素的多边形(22,42)。

8.如权利要求7所述的方法，还包括从包含所有所述刷拂像素的所述多边形的顶点中识别参考顶点(22,42)。

9.根据权利要求8所述的方法，还包括对所述顶点进行环形移位以使所述参考顶点与预定参考位置重合(22,42)。

10.如权利要求1所述的方法，其中通过创建对应于所述多边形的二元掩模、梯度滤波所述数字图像的红色、绿色和蓝色平面以生成梯度滤波图像、将所述二元掩模叠加在所述梯度滤波图像上并且基于所叠加的二元掩模和梯度滤波图像的像素强度的平均值和标准偏差以表征/标记所关注目标来确定所关注目标的特征。

11.如权利要求1所述的方法，还包括以下中的一个或多个：

在标准学习模式中，生成被注释的数据集并使用被注释的数据集作为训练数据集来训练机器学习/深度学习模块以生成用于后续数据集的自动标签(100,102)；以及

在主动学习模式中，手动注释小数据集，使用被注释的小数据集来训练所述机器学习/深度学习模块并生成用于新的小数据集i＝1的注释，使用所述新的被注释的小数据集i＝1作为预注释数据集并对其进行手动校正，在进行手动校正之后使用所述新的被注释的小数据集i＝1重新训练所述机器学习/深度学习模块，按预定次数对后续新的被注释的小数据集i＝i+1重复该过程，并自动注释大数据集(100,102)。

12.一种用于数字图像分割和注释的系统(10,40)，包括：

存储机器可读指令的存储器，当由处理器执行机器可读指令时，所述机器可读指令使得所述系统：

从输入文件(12,32)接收包括关注目标的数字图像(14)；

在所述关注目标周围一个或多个地手动和自动添加多边形以生成被分割数字图像(18,20,38,40)；

一个或多个地手动和自动将标签附加到所述关注目标周围的所述多边形以生成被分割和注释的数字图像(24,44)，其中所述标签指示所述关注目标的身份和特征中的一个或多个；以及

将与所述被分割和注释的数字图像有关的输出信息输出到输出文件(26,48)。

13.如权利要求12所述的系统，其中所述多边形包括边界框和四点多边形之一。

14.根据权利要求12所述的系统，其中在所述关注目标周围手动添加多边形包括手动识别所述多边形的一个或多个顶点、手动或自动连接所述多边形的所述顶点以及在所述多边形的所述一个或多个顶点中手动指定一个或多个参考顶点(20,22,40,42)。

15.根据权利要求12所述的系统，其中在所述关注目标周围自动添加多边形包括手动选择与所述关注目标相关联的关注区域、自动显示所述关注目标周围的一个或多个置信点和置信边缘、由所述置信点和置信边缘中的一个或多个引导手动刷拂所述关注目标的周围的边缘并且自动地凸包估算和显示包含所有刷拂像素的多边形(20,22,40,42)。

16.根据权利要求15所述的系统，其中所述凸包估算包括估算拟合于包含所有所述刷拂像素的所述多边形内的最大对角线，通过其端点指定所述最大对角线，并且在顺时针和逆时针方向上穿过包含所有所述刷拂像素的所述多边形的顶点，其中最大化由所述最大对角线和在顺时针和逆时针方向上选择的顶点形成的三角形区域的所选顶点被选择为包含所有所述刷拂像素的所述多边形的置信点(20,22,40,42)。

17.如权利要求15所述的系统，其中所述系统还被配置为手动编辑包含所有所述刷拂像素的多边形(22,42)。

18.如权利要求17所述的系统，其中所述系统还被配置为从包含所有所述刷拂像素的多边形的顶点中识别参考顶点(22,42)。

19.根据权利要求18所述的系统，其中所述系统还被配置为对所述顶点进行环形移位，使得所述参考顶点与预定参考位置重合(22,42)。

20.如权利要求12所述的系统，其中通过创建对应于所述多边形的二元掩模、梯度滤波所述数字图像的红色、绿色和蓝色平面以生成梯度滤波图像、将所述二元掩模叠加在所述梯度滤波图像上并且基于所叠加的二元掩模和梯度滤波图像的像素强度的平均值和标准偏差以表征/标记所述关注目标来确定所述关注目标的特征。

21.如权利要求12所述的系统，其中所述系统被配置为在以下一个或多个模式下操作：

标准学习模式，可操作用于生成被注释的数据集并使用被注释的数据集作为训练数据集来训练机器学习/深度学习模块以生成用于后续数据集(100,102)的自动标签；和

主动学习模式，可操作手动注释小数据集，使用被注释的小数据集来训练所述机器学习/深度学习模块并生成用于新的小数据集i＝1的注释，使用新的被注释的小数据集i＝1作为预注释数据集并对其进行手动校正，在进行所述手动校正之后使用所述新的被注释的小数据集i＝1重新训练所述机器学习/深度学习模块，按预定次数对后续新的被注释的小数据集i＝i+1重复该过程，并自动注释大数据集(100,102)。