CN118176522A - 用于生成分割掩码的方法和系统 - Google Patents

用于生成分割掩码的方法和系统 Download PDF

Info

Publication number
CN118176522A
CN118176522A CN202280072542.2A CN202280072542A CN118176522A CN 118176522 A CN118176522 A CN 118176522A CN 202280072542 A CN202280072542 A CN 202280072542A CN 118176522 A CN118176522 A CN 118176522A
Authority
CN
China
Prior art keywords
image
superpixels
tool
superpixel
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280072542.2A
Other languages
English (en)
Inventor
卢卡斯·雅尼施
本杰明·塞缪尔·卢茨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of CN118176522A publication Critical patent/CN118176522A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20101Interactive definition of point of interest, landmark or seed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • G06T2207/30164Workpiece; Machine component

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

一种用于生成至少一个图像(IM)的分割掩码(MIm,CMIm1,CMIm2)的方法,该方法包括:A)为至少一个图像(IM)生成多个超像素(SP),B)为生成的多个超像素(SP)自动生成标记,其中,该自动生成标记包括通过以下步骤生成用于基于多个分割掩码(MIm,CMIm1)训练语义分割模型的该标记:通过从参考超像素的参考数据集中识别最相似的参考超像素(RSP11,…,RSP34)来为每个超像素(SP)生成标记,其中,每个参考超像素(RSP11,…,RSP34)与类(类1,类2,类3,…,类n)相关联,用于该语义分割模型的监督训练,其中,标记的超像素形成至少一个图像(Im)的分割掩码(MIm,CMIm1);C)计算机辅助地检查生成的分割掩码(MIm)的正确性,其中,该正确性检查包括标记未标记的超像素以及通过将未正确标记的超像素分配给正确的类来校正未正确标记的超像素的标记。

Description

用于生成分割掩码的方法和系统
技术领域
本文公开的主题涉及用于基于所提供的图像生成分割掩码并基于所生成的分割掩码训练语义分割模型的系统和方法。
此外,本文公开的主题涉及一种用于通过使用上述训练的语义分割模型来监测工具、尤其是加工工具的切削刀片的状态的系统。
背景技术
在图像场景中标记对象并使用语义分割来执行该任务在现有技术中是已知的(参见例如公开为US2015/0206315 A1的美国专利申请,或arXiv:1711.05998v1[cs.CV],2017年11月16日在线)。这些高度自动的技术易于出错,其中一些超像素未被标记或被不正确地标记。
图像可以是(加工)工具磨损图像,这些图像在增材制造过程期间拍摄并且包括缺陷的图像、涂层图像等。虽然本公开中的焦点集中在加工应用上,但是本领域技术人员将理解,本文公开的方法和系统也适用于与增材制造和/或涂层过程相关的图像。
在机加工中,工件的质量,例如尺寸精度和表面粗糙度,主要取决于切削工具的状态,即其磨损。术语工具磨损是指从工具切削边缘和相邻区域的原始形状的形状变化。
工具磨损的原因有很多。根据具体情况,确定了以下主要机制:
-磨损主要由材料中的硬夹杂物引起,例如碳化物和氧化物。
-由于机械或热过载,在切削边缘区域出现裂纹和断裂。
-当切削工具具有太低的抗变形性但具有足够的韧性时,发生塑性形变。
-粘附起因于工具和工件之间的分子粘附。
-在高切割速度和切割材料互溶性下发生扩散。
切割材料被化学反应削弱、溶解并被去除。
-氧化也仅在高切割速度下发生。与大气中氧气的接触使切削工具氧化,削弱微结构。
在工具的前刀面上可能发生凹坑磨损,其中切屑流在高负载和温度下以摩擦力移动。凹坑磨损不利地改变了切削楔的角度。这通常通过选择切割条件和对工件材料不具有扩散亲和力的切割工具来避免或最小化。
在机加工过程中,在切削边缘的前刀面上会发生材料颗粒的牢固粘附沉积。这种结构被称为组合边缘(BUE)。这导致工件表面粗糙和不清洁。主要当切削速度太低,冷却润滑不充分,或刀具的前刀面粗糙时,会出现组合边缘。
工具磨损的另一种形式是凹口磨损,当工具摩擦工件的肩部时,凹口磨损发生在切割深度线处。
当切割线脱离工具切割边缘而不是磨损时,发生碎裂。加工期间的突然负载或热梯度是这种类型磨损的两个主要原因。
实际上,侧面磨损通常用作切削工具磨损的主要标准。这种类型的磨损是由切削工具的侧面与机加工工件表面之间的摩擦引起的,并且导致切削边缘的损耗。侧面磨损主要影响工件的几何精度和表面质量,因此通常对于工具的使用时间是决定性的。
对于实际的工具寿命检测,可以使用ISO标准3685。它规定了推荐的程序、典型的工具磨损轮廓及其测量。对于磨损的标准化识别,切割边缘分为三个区域:
-区域C是工具拐角处的切削边缘的弯曲部分,标记磨损区域的外端。
-区域B是切削边缘的剩余直部,由均匀磨损区域组成。
-区域N沿着主切削边缘在工具和工件之间的相互接触区域上延伸大约1至2mm。该区域的磨损是凹口型的。
当由于工具切削边缘上增加的磨损宽度而不能再保持工件的容许公差时,切削工具被认为已经达到其工具寿命。根据ISO 3685,侧面磨损宽度的测量是评价切削工具寿命的最常用参数。它在垂直于主切削边缘的切削边缘平面中的区域B内测量。只要磨损轮廓均匀,就测量其平均值。如果侧面磨损是不均匀的,则应将最大磨损宽度视为测量值。
为了使加工成本最小化,必须不仅找到对于给定加工操作最合适的切削工具和加工材料组合,而且可靠地预测工具寿命。工具磨损过程通常由三个特征部分组成:初始阶段、均匀磨损阶段和最终加速磨损阶段。一方面,机加工过程需要在适当的时间停止,以防止工具磨损的不希望的后果,而另一方面,应尽可能晚地更换工具,以提高效率和降低加工成本。因此,监测切削工具的状态在实现一致的质量和控制生产的总成本方面起着重要的作用。
通常,可以使用直接或间接方法评价工具磨损。间接方法通过将合适的传感器数据与切削工具磨损相关来实现。在这种情况下,磨损信息不是直接获得的,而是从测量特征的信号估计的。对间接TCM的研究已经利用各种信号如切削力、声发射、振动、能量消耗和温度来推断当前的工具状态。相比,诸如激光扫描仪或基于照相机的解决方案的直接观察系统测量工具的精确几何变化。为此,可以在加工工具中内置视觉传感器。
在大多数现实场景中,工具停止在固定的限定位置,在该位置处捕获工具的图像。因此,图像采集既不受切屑和冷却剂的影响,也不受机器参数(例如来自机械加工过程的振动信号)的影响。为了充分照明工具区域,可以使用灯,例如LED灯。也可以在每次拍摄之前使用压缩空气从工具侧面去除污垢和灰尘。这种方法的缺点是需要停止生产以记录切割工具。然而,基于图像的观察方法具有使用类似于前面描述的ISO 3685中定义的标准化方法的图像数据的优点。例如,这允许具有典型磨损模式知识的技术人员手动评估工具的状态。
为了便于和自动化加工工业中的直接磨损分析,可以使用计算机视觉(CV)技术。
术语人工智能(AI)、机器学习(ML)、深度学习(DL)和计算机视觉必须首先彼此区分。人工智能是指专用于开发执行先前需要人工智能的任务的系统的计算机科学领域。因此,AI是试图模仿人类智能的任何计算机程序的总括术语,因此包括机器学习,机器学习又包括深度学习。机器学习涵盖允许系统从数据中学习并改进而无需明确编程的所有方法。简言之,机器学习是用于实现AI的技术。深度学习是机器学习的子类。这里,神经网络用于以类似于人类神经系统的方式分析数据。计算机视觉是用于开发包括也可由人类视觉系统执行的所有任务的系统的跨学科领域,其可被描述为感知和理解通过提取复杂信息所看到的内容。
机器学习过程通常是被设计为从关于一组任务和性能测量的经验中学习的计算机程序。具体而言,知识是通过用复杂数学模型形式的数据进行训练而从洞察力中开发出来的。然后可以将这些模型应用于与训练数据相同种类的新数据,以便进行预测或决策。根据不同的数据和任务,存在多种不同的模型。在本文中,模型可被描述为具有可调参数的数学公式。通过用学习程序训练,这些参数被修改以随后实现更好的结果。
可以将不同的学习过程划分为
-监督学习,
-非监督学习,以及
-强化学习。
监督学习使用已经知道正确输出数据的训练数据集。通过手动地将结果分配给输入数据来创建训练数据。这个过程被称为标记并产生所谓的基本真值数据。在监督学习过程中,这些生成的数据样本被迭代地馈送到算法。在每次迭代中,模型用其当前参数生成预测,该预测与标记进行比较。如果在预测和基本真值标记之间存在差异,则计算误差率。在学习过程中,模型试图调整其参数以最小化该误差率,用于更精确的未来预测。
在无监督学习中,与监督学习不同,算法不被告知每个输入的期望输出是什么。相反,该算法试图基于其各种属性对数据进行分类。基于这种算法的模型可以用于发现未知的数据模式本身。
强化学习是一种机器学习技术,其中代理通过处理来自与环境的交互的反馈来优化后续动作并减少错误。在每个时间步骤,代理从环境接收一些观察,并且必须选择动作,然后将该动作反馈回环境。最后,代理从环境接收奖励或惩罚。然后代理选择随后的动作以及来自新观察的信息。代理的行为由从环境观察中导出动作的函数控制。尽管无监督学习的目标是找到数据点之间的相似性和差异,但自增强学习的目标是找到使代理的总奖励最大化的适当动作模型。
简单的机器学习算法,例如支持向量机或随机森林,可以解决各种重要问题。然而,它们不能解决AI的中心挑战,例如语音或对象识别。人工神经网络(ANN)提供了一种补救方法。人工神经网络具有许多分布在层上的人工神经元。所使用的层数对应于模型的深度并且可以达到几百层。深度学习是在谈论这种复杂的多层网络时使用的术语。
在每个模型中存在三种类型的层。这些包括
-输入层(接收输入数据),
-隐藏层(提取数据内的模式),以及
-输出层(产生数据处理的结果)。
在人工神经网络中,信息经由神经元之间的连接通道从一层传递到另一层。当训练模型时,调整权重,即连接通道处的数值。一个神经元的输出可被用作后续层中所有神经元的输入。如果是这种情况,则模型的神经元被完全网格化。ANN基于输入数据在输入层中做出的决策的数目是输入层中神经元的数目。第二层中的每个神经元通过对第一决策层的结果进行加权来做出另一决策。这样,第二层中的神经元可以在比第一层中的神经元更复杂和抽象的级别上做出决定。人工神经网络中的输出层是产生算法结果的最终层。输入和输出层的设计通常是微不足道的。例如,如果ANN应当在手写图像中识别它是否包含数字“5”,则网络可以被设计成将图像像素的强度编码到输入神经元中。例如,如果输入图像是64×64像素灰度图像,则将有4096个输入神经元,其具有在0和1之间的强度值。另一方面,输出层仅包含单个神经元,如果其输出值高于阈值,则检测出图像中的“5”。
反向传播是调整ANN的权重的重复过程,使得它被训练以更好地解决问题。这是通过使得输入值通过网络,将输出与预期结果进行比较,并通过成本函数计算差错率来完成的。该差错率通过网络向后级联以修改权重,从而降低差错率,并且下一次相同或相似的输入通过网络时,预测更接近于基本真值。权重通常不是在每次迭代之后而是在通过一批数据之后更新。通过存储训练的权重来保存训练的结果并使其可重复使用。
对于上述成本函数,存在用于计算和最小化网络的输出和标记数据之间的误差的各种方法。已建立的计算方法是二次成本函数,随后通过梯度下降法搜索该函数的最小值。如果结果C(成本函数)=0为真,则训练过程成功,这意味着网络的输出对应于训练数据的标记。梯度下降过程的目标是找到作为所有权重和偏置值的函数的成本函数的最小值。
机器学习模型的监督学习过程、即权重调整需要标记的训练数据来评估由网络生成的输出。数据通常被分成
-训练,
-验证,以及
-测试数据。
训练数据集被用于训练网络的权重。学习算法接收的训练数据越多,它能越好地适应其模型并降低差错率。模型的性能还取决于训练数据的质量。如果该算法被示出太多错误的例子,则它会学习错误的答案。
在训练期间,模型还预测来自验证数据集的每个输入的输出。该预测基于其从训练数据集学习的内容来执行。从验证数据集获得的经计算的成本函数结果不影响模型中权重的调整。使用验证数据集的主要原因之一是确保模型既不与训练数据过拟合也不与训练数据欠拟合。过拟合ANN能够评估来自训练数据集的数据,但不能对其未被训练的新数据进行精确预测。另一方面,欠拟合是指没有足够精确地描述数据或现实的模型。基于验证结果,可以选择模型的超参数,例如学习速率或训练持续时间。
测试数据集被用于执行最终ANN的无偏评估。
数据在不同域之间的百分比分布随任务的性质而变化很大。数据的既定划分由60%训练数据、20%验证数据和20%测试数据组成。对于具有很少要调整的超参数的ANN,验证数据集通常可以保持很小,以将数据用于较大的训练数据集。
卷积神经网络(CNN)是一种特殊类型的多层神经网络,用于处理具有已知的网格状拓扑的数据。输入示例可以包括可被表示为2D像素网格的图像数据。因此,在计算机视觉中经常使用卷积网格。CNN和ANN之间的主要区别在于CNN由卷积层而不是传统的人工神经元组成。
传统的神经网络在若干层中包括完全网格化或部分网格化的神经元。这些结构在处理图像时达到它们的极限,因为必须有大量的输入对应于像素的数量。层的数量和它们之间的连接通常非常大,因此只能由具有非常高性能的计算机处理。卷积神经网络提供了对此的解决方案。
大多数开发的CNN包括三个不同层的组合。这些是
-卷积层,
-池化层,以及
-全连接层。
为了增加不可能与输入具有线性关系的输出的非线性,卷积层可以包括激活函数(作为其分量)。激活函数的一个示例是修正线性单元(ReLU)。ReLU是分段线性函数,如果它是正的,则它将直接输出输入,否则,它将输出零。
池化层可以压缩并降低所识别特征的分辨率。这种聚集可以去除冗余信息并减少数据量,这又可以减少所需的计算能力和后续卷积层对感知特征位置的灵敏度。
与卷积层一样,池化操作符可以由固定大小的窗口组成,该窗口被推入输入中的全部区域,并为所考虑的输入数据逐步计算输出。然而,与卷积层不同,池化层不包含参数。相反,池化算子是确定性的并且通常计算聚集窗口中的元素的最大值或平均值。这些操作被称为最大池化和平均池化。
CNN的体系结构的末端由一个或多个全网状(全连接)层形成。它们加入卷积层和池化层的重复序列,并将结果映射到要识别的类或对象。
度量学习是现代机器学习领域中学习两个实体之间的适当相似性度量的流行概念。该方法的目的在于以机器学习的方式从被监控的数据自动地构建任务特定的距离度量。卷积神经网络提供输入数据的新表示,并实现自动特征提取,目的是在数据变换中实现更高级别的抽象。近年来,深度学习和度量学习已经融合在一起,以引入深度度量学习(DML)的概念。通常,神经网络学习预测多个类。这在要从数据中移除或添加新的类时会引起问题。在这种情况下,必须用整个数据集来更新和重新训练神经网络。另一方面,深度度量学习模型学习相似性函数,使得它们可以确定两个图像是相同的还是非常相似的。这允许我们在不必再训练网络的情况下对数据的新类别进行分类。
DML模型的其他优点之一是它们对类不平衡的鲁棒性。对于每个类仅有少数实例,度量学习方法足以识别新图片与这些参考图像的相似性。另一个可能的优点是训练的模型也可以与不同的对象类一起使用。例如,可以识别长颈鹿图像中的相似性的度量学习模型很可能也正确地识别其它动物的图像中的相似性。
深度度量学习模型的缺点是它们比正常网络需要更多的训练时间,因为它们需要多对图像来学习。而且,度量学习模型不输出类的概率,而是输出到参考数据集中的每个实例的距离。
经典度量学习的主要方法是学习度量以减小相同类的样本之间的距离并增加不同类的样本之间的距离。在大多数常规度量学习方法中,样本由手工特征表示。目标是学习特征映射,以使用样本之间的相似性关系将样本从原始特征空间投影到具有更有意义的区分的新空间。
利用这种方法,可以从输入数据获得良好的度量,但是手动生成的特征是任务无关的,并且可能导致信息损耗,这限制了度量的学习性能。鉴于CNN在分类任务中的成功,研究人员现在正直接从这些网络中提取嵌入。以这种方式开发的深度度量学习模型远远胜过经典的度量学习方法。此外,DML模型更可转移到新任务,因为不再需要对用于手动特征提取的参数进行微调。
为了训练DML模型,使用一组数据点X及其相应的标记Y。目标是训练CNN,这里也称为特征提取器GW,其中W是学习的权重。如果样本x1、x2∈X的标记y1、y2∈Y相等,则D(GW(x1)、GW(x2))与通常预先固定的距离度量D一起产生小的值,并且如果它们不相等,则产生较大的值。
构建深度度量学习模型时最重要的因素是网络结构、损耗函数和样本选择。孪生神经网络(SNN)可被用作主导网络结构。SNN包含两个相同的子网。“相同”在这里意味着它们(子网)具有相同的配置以及相同的参数和权重。在两个子网上将参数更新进行镜像。作为度量学习方法,孪生网络接收包括正或负样本的成对图像,以训练网络模型。一对输入样本x1和x2的距离DW可以计算为:
DW(x1,x2)=||GW(x1)-GW(x2)||2
其中GW(x1)和GW(x2)是由神经网络生成的新表示。DW用于计算损耗函数中两个输入之间的距离。可以用于计算孪生网络模型中的损耗的LContrastive是,
LConstrative=((1-Y)(DW)2+Y(max(0,m-DW)2)/2
其中Y是标记值。如果一对输入来自相同的类,则Y的值为1,否则其值为0。通过将所有的X映射到相同的点,使得所有采样之间的距离等于零,余量m对于防止网络“欺骗”是有用的。
另一种网络结构是由孪生网络启发的三胞胎网络。它包含三个对象,即正、负和锚样本。三重态损耗首先集中于使用共享权重的相同和不同类别的成对样本之间的相似性。通过比较配对样本的相似性来执行分类。与孪生网络相比,三胞胎网络通过使用类内和类间关系而更加独特。
LTriplet=max(0,||GW(X)-GW(Xp)||2-||GW(X)-GW(Xn)||2
尽管深度度量学习尤其涉及度量损耗函数,信息样本选择在深度度量学习模型中也起着重要的作用。信息样本是提高深度度量学习成功率的最重要的元素之一。采样策略可以提高网络的成功率和网络的训练速度。三重网络例如使用锚、正样本和负样本来训练网络。
一些简单的三元组由于其低判别能力而对更新模型没有影响。这些三元组造成时间和资源的浪费。为了解决这个问题,信息样本三元组而不是随机样本可以更快地训练更精确的模型。因此,引入负样本挖掘,其中在每个训练步骤上,对三元组X、xp、xn进行采样,其满足
DW(X,xn)<DW(X,xp)+α,
即网络无法辨别或无法以高置信度辨别的样本。
计算机视觉(CV)是涉及使计算机能够以与人类视觉感知相同的方式看到、识别和处理图像的技术领域。机器学习方法、具体是CNN会被应用于计算机视觉中并且在该领域中获得了巨大成功。在本公开中解决的主要CV任务是图像分类和图像分割。
图像分类是试图完整地捕获图像的任务。目标是将来自固定类别集合的标记分配给输入图像。通常,图像分类是指其中仅出现一个对象并对其进行分析的图像。这是计算机视觉的核心问题之一,尽管其简单,但其具有多种实际应用。图像分类的一些示例包括:
-分类手写数字
-是否将X射线图像标记为癌症
-将姓名分配给脸部照片
此外,其它看似独立的机器视觉任务,例如图像分割,可以简化为图像分类作业。
语义图像分割,也称为像素级分类,是对属于相同对象类的图像部分进行分组的过程。因此,从标记集合向每个像素分配标记。属于相同类别的像素采用相同的颜色值,产生经掩码的图像。该聚类的目的是识别可被用于描述图像内容的有意义的片段。在语义分割中,同一类的多个对象被视为一个实体。
相反,所谓的实例分割将相同类的多个对象视为不同的个体实例。
语义图像分割模型的一种方法是编码器-解码器结构,其中编码器部分是如分类网络中的卷积网络。不是像在分类任务中那样在卷积部分之后将数据聚集成单个类,而是附接解码器部分,它是反向卷积神经网络。它将特征表示尺寸逐层上采样为全分辨率分割图。在编码器-解码器层上,可以使用连接来传递有助于以更高精度重构掩码图像的特征。
超像素分割(有时也称为过分割)是将图像中的像素聚集成有意义的区域的方法。然后,可以使用超像素来代替原始像素,以降低复杂度,并改进许多计算机图像处理应用中的性能,例如对象定位、多类别分割和相关的计算机视觉任务。超像素可以
-定义图像的一个唯一子集,
-表示所连接的像素集,
-保存图像中对象的边界,
-具有紧凑的形状,规则分布并且在没有对象边界时具有平滑边缘,
-被高效地创建,以及
-在它们的量上是可控制的。
因此,对于要产生的区域的量,可以用两个或更多个不同的值来完成图像的分割。
存在几种超像素生成算法。简单线性迭代聚类(SLIC)算法是一种简单且计算高效的超像素分割算法。SLIC还能够产生具有良好边界匹配的超像素。
SLIC通过基于像素在图像平面中的颜色相似性和接近度对像素进行聚类来生成超像素。这可以在五维空间[li、ai、bi、xi、yi]中完成,其中[li、ai、bi]是CIELAB颜色空间中的像素颜色矢量,[xi、yi]是像素位置。CIELAB颜色空间可被分成三个通道,其中L*表示亮度,a*表示红-绿轴,b*表示黄-蓝轴。
当默认使用该算法时,该算法的唯一参数是定义所需超像素数量的k。聚类过程以k个初始聚类中心Ci=[li、ai、bi、xi、yi]T的初始化开始,这些初始聚类中心在具有S个像素的间距的规则网格上被采样。为了产生大小相等的超像素,将间隔定义为其中N是图像中的像素数目。可以将中心移动到对应于最低梯度位置的种子位置,例如在3×3像素邻域中,以避免将超像素放置在边缘上并且降低用噪声像素对超像素进行播种的概率。由于超像素的近似面积是S×S,因此可以假设属于该聚类中心的像素位于xy平面中超像素中心周围的2S×2S的面积内。每个图像像素被分配给CIELAB空间中搜索区域与该像素重叠的最近聚类中心。最后,像素被分配给最近的聚类中心,新的中心被计算为属于该聚类的所有像素的均值[1、a、b、x、y]T向量。重复分配像素和重新计算聚类中心的过程直到收敛。如果在实现完全收敛之前取消该过程,则将剩余的不相交像素分配给附近的超像素以强制连接。在下面的算法1中可以看到所描述的算法的伪码版本。
1:通过在规则网格步长S处采样像素来初始化聚类中心Ck=[lk、ak、bk、xk、yk]T
2:将聚类中心移动到3×3邻域中的最低梯度位置。
3:为每个像素i设定标记1(i)=-i。
4:为每个像素i设定距离d(i)=∞。
5:重复
6:对于每个聚类中心Ck进行
7: 对于Ck周围的2S×2S区域中的每个像素i进行
8: 计算Ck和i之间的距离D。
9: 如果D<d(i)则
10: 设定d(i)=D
11: 设定l(i)=k
12:计算新的聚类中心。
13:计算残差E。
14:直到E≤阈值
超像素采样网络(SSN)是用于生成超像素的另一种算法。SSN将用于提取图像特征、例如可以基于CNN的神经网络与超像素算法SLIC的可微分版本相结合。可微分SLIC被设计成计算像素-超像素关联并计算超像素中心,其中这两个步骤作为闭环执行。因此,该方法代表第一端到端可训练的深度超像素预测技术。
就像SLIC算法一样,输入是五维空间[li、ai、bi、xi、yi]中图像的表示。在算法的主要部分,CNN从输入图像中提取尺寸为(n×k)的深度特征F,并初始化超像素中心。其中n是图像中的像素数量,k是网络确定的通道数量。然后在像素网格上均匀采样m个超像素中心S0∈Rm×5。正如SLIC算法中所描述的,然后可以将中心移动到具有最低梯度的3×3邻域内的位置。在下一步中,可微分SLIC循环被重复v次,并且更新软像素-超像素映射Qt pi∈Rn×k以及超像素中心St。原始SLIC算法中的像素-超像素映射是硬关联的,意味着每个像素属于SLIC循环中的特定超像素。然而,在可微分SLIC算法中,这些被转换为软关联,使得算法可以从一端到另一端被训练。软关联可由以下指定:
其中当前SLIC迭代p指像素,并且i指超像素。距离计算可以被限制为仅仅少数的周围超像素(例如九个周围超像素)。这是由于计算整个超像素组的距离所需的存储器和计算能力而实现的。如果存储器和计算能力不是问题,则可以考虑更多的周围超像素。
然后使用以下公式导出新的超像素中心:
其中为归一化常数。
在伪码-算法2中可以看到由SSN进行的超像素分割的详细过程。
输入:图像
输出:像素-超像素关联Qnxm
1:使用CNN的像素特征,
2:在规则网格单元中具有平均特征的初始超像素中心,
3:对于1至v中的每个迭代t进行
4:计算每个像素p与周围超像素i之间的关联,
5:计算新的超像素中心,
可以评估和比较机器学习模型。例如,联合交叉(IoU)可被用于评估对象分割和对象检测算法。在这两个任务中,应用IoU来将检测区域与标记图像中的对象的基本真值区域(即,来自基本真值数据的图像)进行比较。
当评估用于对象检测和分类的机器学习模型时,预测通常被分配给以下四个类别之一:
-伪正(FP):尽管没有物体存在,仍检测到物体。
-伪负(FN):现有对象未被正确检测。
-真正(TP):正确地检测现有对象。
-真负(TN):还没有检测到不存在的对象。
精度值被用于测量模型的预测有多精确,即所有预测的正确百分比,并且可以被计算为TP/(TP+FP)。召回值是对基本真值对象总数进行的正确检测的数量,并且可以被计算为TP/(TP+FN)。
由此可以创建精度-召回曲线,其中精度映射在纵坐标上,召回在横坐标上。为了绘制该曲线,使用单个类的所有检测,并且相对于由模型给出的检测概率以降序列出。由于第一元素具有最高概率,所以它是TP的概率很高。对于这种情况,精度计算为1,而召回为0。当在预测排名中向下移动时,召回分数增加。另一方面,当精度值随着伪正而减小并且随着真正而再次增大时,精度值显示出Z字形图案。良好的算法应该在所有召回值上具有高精度。
为了能够将不同的CNN与所描述的度量进行比较,可以使用称为平均精度(AP)的度量。AP计算精确召回曲线下的面积。
当比较分类系统时,使用中值平均精度(mAP)可能是适当的。这通过为每个类计算AP,然后在所有类的数量N上对它们求平均来计算。
监督学习技术通过从大量训练示例中学习来构建预测模型,该训练示例伴随有指示基本真值模型输出的标记。尽管当前的技术已经取得了巨大的成功,但是值得注意的是,对于许多任务,标记过程的高成本使得难以获得大量的数据。一个好的示例是MS-COCO数据集,包括在其自然环境中的日常生活中发现的对象的图像。这里,250万个类别实例必须一次用图像级类别标记以及实例分割标记来注释。当查看图像级分类标记时,每个对象平均花费20秒。对于实例分割,必须绘制轮廓,每个对象平均花费80秒。密集像素级注释的示例是用于语义城市场景理解的城市场景数据集。在该工作中,图像的注释平均花费大约1.5小时。因此,期望分割模型以较低的监督工作量来运行。
解决受监督ML的上下文中的问题的一种可能的方法是离线生成并注释数据集。为了将这种类型的标记过程与其它技术区分开来,将其称为预标记。这种形式的标记昂贵、耗时,并且应当由专家来执行。在没有足够多的专家的情况下,在因特网上抓取图像是相对便宜和有前途的替代方式。对此的示例性应用是所谓的DALL-E模型,其中从因特网收集图像及其文本描述。然而,这可能导致其它问题,诸如多个注释器的不一致和不正确的说明文字。此外,该方法不适用于收集分割掩码。
另一种方法称为弱监督标记。弱监督方法从较弱监督输入开始重构预测。监督源与模型输出目标之间存在相关性。在监督学习的一些情况下,监督源可以等于期望的模型输出。例如,这可以是用像素标记进行训练以预测像素标记掩码。训练过程还可以从像素标记抽象到边界框或从边界框抽象到图像标记。这被称为强监督。
弱监督学习的思想是训练以低水平的监督(例如,图像标记)开始,并移动到诸如边界框的较高水平。对于语义分割,探究了弱监督的各种来源,包括图像标记、点点击、边界框、涂写以及这些的各种组合。弱监督注释还可以包括不完全监督,其中仅标记训练数据的子集。另一个相关的学科是利用不精确的监督工作,其中训练数据仅被粗略地标记。
此外,可以使用交互式标记。交互式标记方法通过建立弱监督的方法来生成注释,然后使人纠正它们,从而减少了人力。在交互式图像分割过程中,首先使用与弱监督中相同的方法粗略地标记目标对象。然后,机器学习模型提取对象作为二进制掩码。交互方面允许使用原始弱注释方法或相关方法来校正该预测。一个示例是使用边界框并使用点击来校正预测掩码的弱注释。
预标记的另一替代方案是使用主动学习,其允许在新标记的数据变得可用时连续细化先前学习的模型。主动学习假设有一个人类专家,可以咨询该专家以获得选定的未标记实例的基本真值标记。由于用户交互耗时且因此昂贵,所以主动学习旨在通过仅查询最好地提高给定模型的准确性的信息来最小化所需的用户交互的数量。为了找到用于学习的最可能有用的未标记实例,存在强烈依赖于应用且仍然在其优化方面进行研究的多个选择策略。
此外,可以应用半监督学习。它试图自动利用除标记数据之外的未标记数据来改进模型的学习性能,而不假设人为干预。在监督学习中,提供了由一些输入和相应输出值组成的一组数据点。然后,目标是创建能够估计先前未见的输入的输出值的模型。另一方面,在无监督学习中,没有提供特定的输出值。相反,人们试图从输入推断一些底层结构。这些任务的组合被称为半监督学习。基本思想是通过将可用数量的标记数据与大量的未标记数据组合而不是仅使用一个或另一个来实现更高的准确度。
计算机视觉技术在工具磨损分析中的几种应用在本领域中是已知的,参见例如Lutz等人“工具状态监测中语义图像分割的深度学习的评估”,2019年第18届IEEE国际会议上的机器学习和应用(ICMLA),第2008-2013页,IEEE,博卡拉顿,FL,美国;Bergs等人“具有深度学习的数字图像处理用于自动切割工具磨损检测”,工艺制造(ProcediaManufacturing),2020,第48期,第947-958页;Treiss等人“用于工业工具磨损分析的基于不确定性的人在回环系统”,载于arXiv:2007.07129[CS],2020。
所有这些方法仅使用有限数量的注释图像(Lutz等人中100个,Bergs等人中50个,Treiss等人中213个)。这种有限的数据集在工业中是常见的,因为获得和标记数据所需的资源和知识通常是有限的。在这些情况下,CNN有时会产生次优的结果,因为它们通常需要训练大量的数据。增加注释图像的数量需要相当大的努力。例如,使用这些现有技术方法标记单个图像(HD分辨率)需要10到20分钟。因此,标记500个图像的训练数据集将需要15天的注释工作。
因此,为了获得更好的预测模型,需要一种方法来产生图像的基本真值掩码,例如具有高精度的工具图像。
发明内容
本公开集中于在条件监测应用中机器学习开发较早阶段进一步减少人力。
为了实现这个目的,本发明提供了一种用于生成至少一个图像的分割掩码的方法,该图像例如是(机加工)工具磨损图像,在增材制造过程期间拍摄的并且包括缺陷的图像、涂层图像等。该方法包括
A)为至少一个图像、尤其是为整个图像生成多个超像素(SP),
B)为所生成的多个超像素(SP)自动生成标记,其中自动生成标记包括通过以下步骤生成用于基于多个分割掩码训练语义分割模型的该标记:通过从参考超像素的参考数据集中识别最相似的参考超像素来为每个超像素生成标记,其中每个参考超像素与用于该语义分割模型的监督训练的类相关联,其中被标记的超像素形成至少一个图像的分割掩码;
C)计算机辅助地检查所产生的分割掩码(MIm,CMIm1)的正确性,其中该正确性检查包括标记未标记的超像素和通过将未正确标记的超像素分配给正确的类来校正未正确标记的超像素的标记。
图像可以是应用特定图像,即,具有特定于特定应用的内容的图像,例如,磨损或损坏的工具的图像等。
类可以是应用特定类,即,特定于特定应用的类:例如工具磨损程度等级和/或工具磨损类型,与增材制造或涂层检查相关的缺陷等级。
使用超像素可以增加所产生的分割掩码的边界粘附性。
所提供的方法属于注释或标记方法的类。
在一个实施方式中,可以通过使用超像素采样网络来产生多个超像素。
在一个实施方式中,超像素采样网络可以基于SLIC算法和深度神经网络的组合。
在一个实施方式中,为不同的超像素产生不同的标记,尤其是为每个超像素产生一个标记。
在一个实施方式中,自动生成标记涉及计算超像素与参考数据集的参考超像素的相似性。
在一个实施方式中,计算多个超像素中的超像素与来自参考数据集的每个参考超像素的相似性,并且对于多个超像素中的每个超像素重复该计算。
在一个实施方式中,计算相似性包括设定相似性阈值。
在一个实施方式中,当所计算的相似性低于所设定的相似性阈值时,发出通知。在一个实施方式中,在通知中可以要求用户手工干预和分类特定的超像素。在这种情况下,该方法属于主动学习方法的类别。
在一个实施方式中,相似性的计算涉及将距离度量学习方法应用到超像素和参考超像素。
一般而言,工具磨损检测和缺陷检测通常面临具有有限缺陷样本的不平衡数据集的问题。当一些类几乎不存在于标准分类模型中时,它们最有可能被感知为噪声或异常值,导致该少数类比主要类更多的误分类。为了解决这个问题,在缺陷检测任务中应用深度度量学习。深度度量学习算法不易受类别不平衡的影响,因为即使在参考数据集中仅有一个图像表示缺陷类型,与该缺陷图像更相似的每个待标记图像也将被正确分类。
在一个实施方式中,该距离度量学习方法包括:利用特征提取模块(例如基于非线性CNN的特征提取模块)从图像(例如从超像素图像和/或从参考超像素图像)中提取特征,其中特征提取模块将所提取的图像特征嵌入到特征空间中,使得图像彼此越相关,则特征空间中的编码向量越接近;以及通过两个图像在特征空间中的向量的距离来定义两个图像的相似性。例如通过适当的距离度量。
在一个实施方式中,DML模型的训练可以包括使用损耗函数,例如软三元损失或代理锚定损失函数。
换言之,深度度量学习提出训练基于CNN的非线性特征提取模块(或编码器),其将语义上相似的所提取的图像特征(也称为嵌入)嵌入到附近的位置上,同时使用适当的距离度量将不同的图像特征推开。相似性度量对于区分图像之间的小差异是有效的。
在一个实施方式中,参考数据集包括一个或多个子集,其中每个子集包括与一个类(例如单个类)相关联的参考超像素,并且不同子集包括与不同类相关联的参考超像素。除了背景类别之外,用于工具的此类类别(例如切削刀片磨损)可以是侧面磨损类、刃口积屑类、凹槽类等。
在一个实施方式中,参考数据集包括一个或多个子集,其中每个子集包括与工具磨损程度类中的一个工具磨损程度类相关联的参考超像素,并且不同子集包括与不同程度和/或类型的工具磨损相关联的参考超像素。
换句话说,给定的输入图像首先通过为每个像素生成特征的深度网络。这些特征然后被传递到SLIC的修改,其执行迭代聚类,产生期望的超像素。为了获得代表甚至最小的现有工具磨损区域的边界的超像素,要达到该要求的超像素的数量根据图像分辨率被迭代地确定一次。
在一个实施方式中,不同的颜色与不同的子集相关联。
在一个实施方式中,用与子集相关联的颜色来标记超像素,它们最相似。
在一个实施方式中,该方法还包括检查分割掩码的逻辑约束。
在一个实施方式中,该方法还包括计算机辅助检查分割掩码的正确性。该分割掩码检查可以由用户、例如由加工工具专家来执行。在一个实施方式中,这包括检查和校正误检测的超像素,例如这可以由人类专家来执行,该人类专家检查一些超像素是否未被标记或被不正确地标记,并通过将误检测的超像素关联到正确的类来校正标记。
在一个实施方式中,可以要求人检查所得到的掩码中的错误注释并校正它们。此外,当在计算相似性的同时设定了特定超像素的阈值时,可以主动要求人检查该特定超像素与参考组的超像素的相似性低于该阈值。
为了实现上述目的,本发明还提供了一种用于生成至少一个图像的分割掩码的系统,该系统包括用于提供至少一个图像的图像提供设备和与图像提供设备相关联的计算设备,其中计算设备被配置为接收至少一个图像并执行上述方法的步骤。
图像提供设备可以包括图像获取设备和/或数据库等,以便于提供至少一个图像。
本领域技术人员将理解,计算设备包括存储机器可执行组件的存储器和可操作地耦合到存储器并被配置为执行机器可执行组件的处理器。
为了实现上述目的,本发明还提供了一种用于监控加工工具的工具的状态的系统,其中该系统包括:图像获取设备,其与加工工具相关联并被设计为获取工具的图像;以及计算系统,其与图像获取设备相关联并包括语义分割模型,该语义分割模型在根据上述方法产生的多个分割掩码上训练以执行工具的图像的分析。
为了实现上述目的,本发明还提供了一种计算机可读介质,其包括具有用于执行上述方法的指令的计算机程序。
本发明的上述和其它目的和优点将在考虑以下对某些方面的详细描述时变得明显,这些方面仅指示可实践的几种可能方式。结合附图进行描述,其中相同的附图标记始终表示相同的部件,并且其中:
附图说明
图1示出了用于生成至少一个加工工具磨损图像的分割掩码的方法的流程图,
图2示出了用于产生参考或训练数据集的实施方式的流水线。
图3示出了用于产生分割掩码的系统。
图4示出了图像和手动标记的图像。
图5示出了注释工具,以及
图6示出了用于监测加工工具中切削刀片状态的系统。
不同附图中的相同附图标记可以对应于相同的技术特征。
具体实施方式
图1示出了产生用于加工工具磨损图像Im的分割掩码MIm、CMIm1或CMIm2的处理流水线。该流水线对应于根据本发明的方法的实施方式。
处理流水线从生成整个图像Im的超像素SP开始(步骤A)。图像Im可以包括工具T(或工具的至少一部分)的图像,尤其是具有工具磨损区域WA和背景B的工具T的图像。使用超像素SP可以增加最终分割掩码MIm、CMIm1、CMIm2的边界粘附性。
为了产生超像素SP算法如SLIC,可以使用快速移位或分水岭算法,因为它们具有低计算成本。如果达到边界粘附,则这些算法以不同方式来执行。例如,如果超像素SP覆盖背景B和工具区域T,则图像既不能被正确标记,也不能用作深度度量学习模型的训练数据。虽然SLIC算法在表示工具T、背景B和磨损区域WA边界方面优于分水岭和快速移位算法,但是一些超像素SP仍然可以覆盖多于一个类。
超像素SP的生成也可以通过使用超像素采样网络(SSN)来执行,该SSN可以被设计为例如经修改的SLIC算法和深度神经网络的组合。该方法允许端对端训练和深度网络的使用,并且因此可以通过任务特定图像及其语义掩码来优化。
在一个实施方式中,输入图像Im可以首先通过为每个像素生成特征的深度网络。这些特征然后被传递到SLIC的修改,该SLIC的修改执行迭代聚类,产生期望的超像素SP-参见图1中的超像素化图像Sim。为了获得代表甚至最小的现有工具磨损区域WA的边界的超像素SP,达到该要求的超像素SP的数量可以根据图像分辨率迭代地确定一次。
在一个实施方式中,可以例如在BSDS500数据集上预训练SSN。当在工具图像上使用该预先训练的模型时,可以产生粘附到不同类的所有语义边界的超像素。
当使用SSN(从头开始或预训练,例如PyTorch实现方式)时,分割导致超像素边界粘附性的降低。
在一个实施方式中,用于得到对象边界的最佳表示的超像素数量N被确定为N=h×w/104,其中h是图像的像素高度,w是图像的像素宽度。
下一步骤(步骤B)涉及为每个生成的超像素SP自动生成标记,以及进而生成图像Im的掩码MIm。所得到的分割掩码或经掩码的图像MIm示出超像素被标记为三类:背景(格子区域)、工具主体或未损坏工具区域(虚线区域)和MIm中的磨损区域(未标记(白色)区域)。
在一个实施方式中,自动标记方法采用超像素SP并计算其与来自参考数据集的每个超像素RSP11、RSP12、RSP13、RSP14、RSP21、RSP22、RSP23、RSP24、RSP31、RSP32、RSP33、RSP34,…的相似性。该数据集可被组织成表示可能存在于图像Im中的不同类:类1、类2、类3、…类n的文件夹。类1(例如背景类别)、类2(例如工具主体或未磨损工具类别)、类3(例如磨损类)、…、类n(例如断裂)中的至少一部分对应于(工具)磨损等级类和/或加工工具T的磨损类型—此处为类3和类n。
在一个实施方式中,对参考数据集中的每个超像素RSP11、RSP12、RSP13、RSP14、RSP21、RSP22、RSP23、RSP24、RSP31、RSP32、RSP33、RSP34执行相似性计算。当完成相似性计算时,检查具有最高相关性的参考数据集超像素以确定其被标记的类。在一个实施方式中,不同的颜色可以与不同的类:类1、类2、类3、…、类n相关联。在一个实施方式中,然后可以用与这个最相似的参考数据集超像素RSP11、RSP12、RSP13、RSP14、RSP21、RSP22、RSP23、RSP24、RSP31、RSP32、RSP33、RSP34相关联的类的颜色来标记图像Im中的超像素SP。在分割掩码中使用颜色有助于可视化,例如通过web应用6(见下文),并且有助于区分不同的检测到的工具缺陷。
在一个实施方式中,当检查相似性时,可以设定相似性阈值。如果给定超像素与最相似的参考超像素的相似度值没有达到该阈值,则它将不被标记或着色。这可以简化错误标记的超像素SP的后续校正。
在一个实施方式中,对图像Im中的每个超像素SP重复该过程(相似性计算)。通过这种方法,分割任务变为图像级分类任务。
在一个实施方式中,为了计算超像素SP与参考数据超像素RSP11、RSP12、RSP13、RSP14、RSP21、RSP22、RSP23、RSP24、RSP31、RSP32、RSP33、RSP34的相似性,可以应用距离度量学习。尤其地,可以使用深度度量学习方法,其中特征提取模块从超像素图像中、尤其是从每个超像素的图像中提取特征。特征提取模块可以基于卷积神经网络,例如基于非线性CNN。这种特征提取模块有时被称为编码器。然后将图像特征(也称为嵌入)投影到嵌入空间中,该嵌入空间将相关图像映射到附近的编码矢量和远离的不相关编码矢量上。然后,两个(超像素)图像的相似性由它们的向量在嵌入空间中的距离来定义。例如,超像素图像到相同类的超像素图像的距离较短,而它们到其它类的超像素图像的距离较大。
换句话说,应用深度度量学习可以包括训练基于CNN的非线性特征提取模块(或编码器),其将语义上相似的所提取的图像特征(也称为嵌入)嵌入到附近的位置上,同时使用适当的距离度量将不同的图像特征推开。相似性度量对于区分图像之间的小差异是有效的。
为了训练深度度量学习模型,可以生成工具图像的超像素以用作训练数据(例如见图2)。例如,可以使用多个不同切削工具侧面的一系列图像和掩码。在一个实施方式中,在两类侧面磨损和刃口积屑(BUE)之间没有区别,因为它们在外观上非常相似,并且通常不可能由度量学习模型或人类操作者来区分。在一个实施方式中,如果其他类型的磨损仅很少出现在数据集中并且难以与未损坏的工具区域区分开,则在训练过程中也可以忽略这些磨损。这有助于深度度量学习模型的收敛。
在一个实施方式中,DML模型的训练可以包括使用损失函数,例如软三元损失函数或代理锚损失函数。当使用软三元损失时,该模型收敛于低得多的损失值。利用软三元损失可以获得更好的训练结果。为了选择最佳权重,可以使用验证数据集上的结果。
使用深度度量学习算法增加了对该方法的类不平衡的不敏感性,因为DML不受当前类不平衡的严重影响。当在标准分类模型中几乎不存在类别时,它们最有可能被感知为噪声或异常值,导致该少数类比主要类更多的误分类。DML有助于此。即例如:即使在参考数据集中仅有一个侧面磨损超像素,图像中的每个侧面磨损超像素也将被正确地标记,只要其看起来不与另一个类的任何超像素更相似。深度度量学习方法的另一个优点是它不仅可以比较它所训练的类的超像素,而且可以比较未见过的类的超像素。如果类的外观变化也是如此,因为只要参考数据集覆盖这些变化,就会检测到超像素。
在一个实施方式中,可以产生相同原始图像Im的多个经掩码的图像MIm,同时在产生每个经掩码的图像MIm之后将超像素添加到参考数据集。这可以提高参考数据集的质量,从而提高经掩码的图像MIm的质量。
在一个实施方式中,当生成分割掩码MIm时,可以使用检查结果MIm的逻辑约束的算法。这些专门针对给定的用例来设定,并针对其他分割场景(其他用例)进行更改或禁用。逻辑限制的一个示例是不能有仅被背景超像素包围的磨损等级WS的超像素,因为磨损只能发生在工具上或发生在工具T的没有磨损的主体的超像素上(见图1中的经掩码的图像MIm)。被检测为工具T的背景区域B或未磨损区域中的磨损的单个超像素可以用背景类或未磨损工具类来自动地重新标记。结果,可以产生校正的经掩码的图像CMIm1。
在一个实施方式中,该方法集成了用户对误检测和/或未标记的超像素的检查和校正。这可能是有用的,因为可能存在逻辑约束不能解决的不正确检测。当操作者满意并完成标记过程时,最终掩码CMIm2可被用于分析磨损本身或作为全自动图像分割模型的训练数据。分割掩码的这种后续校正可以减少标记图像所花费的(计算)时间量。
在一个实施方式中,经标记/经注释的图像MIm、CMIm1或CMIm2的所有超像素可以根据它们被注释的类别被添加到参考数据集。由此,参考数据集随着每个注释图像而变得更加广泛,这使得在随后的待标记的图像中的分割掩码预测变得更好。
关于图1描述的算法可被概括为伪码。
算法“交互式图像分割”
1:程序主动图像分割(图像、参考数据集、阈值)
2:对于参考数据集中的每个超像素进行
3:生成编码,E←度量学习
4:生成图像的超像素,S←超像素采样网络
5:对于S中的每个超像素进行
6: 生成编码,SupEn←度量学习
7: 对于E中的每个RefEn进行
8: 从RefEn和SupEn计算距离,d←相似性函数
9: 如果d≤阈值则
10: 阈值←d
11: 保存RefEn类,SP类←RefEn类
12:根据SClasses→经掩码的图像来着色图像中的超像素
13:经掩码的图像的自动逻辑校正
14:人对经掩码的图像的校正
15:对于S中的每个超像素进行
16:将超像素及其类保存至参考数据集
17:返回经掩码的图像
所产生的参考或训练数据可被分成大约90%的训练和10%的测试数据。
为了在不必创建更多图片的情况下增加用于训练的数据量和种类,有用的是生成已经存在的图像的修改副本。在该过程中,图像可被随机翻转、旋转和/或进行仿射变换。此外,可以在训练周期之前随机修改亮度对比度和饱和度的图像值。
在一个实施方式中,参考数据集中的每个类包括十个或更少的超像素。可以通过手动标记一个图像或两个图像来容易地提供该数量的参考数据。
图2示出了用于产生可以在图1的处理流水线中使用的DML模型的参考或训练数据集的实施方式的流水线。
本领域技术人员应当理解,利用与标记方法(例如图1的方法)的后续应用中相同的算法设定来产生超像素SP(产生超像素化图像SIm)。为了确定超像素的类别,可以手动标记原始图像Im,产生手动标记的图像MLIm。随后,确定超像素化图像Sim中的超像素SP的位置处的掩码MLIm的注释类(这由图2中的箭头A1示出)。然后可以将超像素SP保存在与类相对应的文件夹中,类1具有参考超像素图像RSIm1,类2具有参考超像素图像RSIm2,类3具有参考超像素图像RSIm3,等等。这可以针对图像Sim中的每个超像素SP来完成(图2中的箭头A2)。为了将超像素保存为分离的图像,可以提取它们的区域,并且可以将黑色像素添加到边界。然后可以使用具有图像标记的超像素SP来训练DML模型。以相同的方式,因为可以生成训练数据,所以可以将超像素SP存储在参考数据集中,以供以后使用该方法。关于标记程序的开始,仅需要少量参考。
在一个实施方式中,只有少数(一个或两个)手动标记的图像足以创建参考数据集。在一个实施方式中,参考数据集包括每个类具有10个或更少图像的类。
图3示出了用于产生分割掩码的系统1。该系统可以包括用于获取关注图像的图像获取设备2。例如,图像获取设备2可以获取在铣削过程中使用的切削工具(例如铣刀头)的图像。这些工具可以具有一个或多个,例如四个切割侧面,从而可以产生多个工具侧面图像。为了捕获图像,图像获取设备2可以包括数字显微镜3或与数字显微镜3相关联。显微镜可以具有确定的分辨率,图像可以被剪切到该分辨率,以从像背景的区域中去除不必要的信息。
在一个实施方式中,图片示出了未损坏的工具主体和背景。取决于工具的状态,存在描绘不同工具磨损缺陷的区域。本发明的缺陷可以例如分成侧面磨损、刃口积屑和凹槽。
为了产生标记的训练数据,铣刀头工具的一些图像(例如一个或两个图像)可以由专家注释以提供初始参考数据集。也可以另外提供初始数据集,例如从数据库下载。这可以借助于与图像获取设备2相关联的计算设备4来执行。手动标记过程的结果掩码可以是根据当前类完全着色的图像。图4示出了图像和标记图像。
计算设备4还可以包括算法5,例如:被设计为包括指令的软件,当由计算设备4执行时,指令例如根据图1的处理流水线产生掩码图像MIm或校正的掩码图像CMIm1。
在一个实施方式中,计算机设备4可以包括存储经掩码的图像MIm或校正的经掩码的图像CMIm1、CMIm2的存储介质。
此外,计算设备4可以包括服务,例如:以web应用6的形式,该web应用可以由用户例如经由GUI来使用并且被设计成允许注释方法的验证,并且便于进行经掩码的图像MIm或校正的经掩码的图像CMIm1的人类校正。
web应用6的实施方式的注释视图在图5中示出。注释视图可以被设计为与键盘和鼠标一起使用,并且可以包括若干快捷方式和手势以提高注释效率。
生成注释的第一步是选择类。这可以在右侧栏中完成,如图5中放大所示,通过点击类后方的加按钮。随后的注释被分配给该类并以相应的颜色出现。在相同的边栏中,可以添加或删除类,并且可以改变它们的颜色代码。
各种功能可以用于生成图像注释,其可在左导航栏中选择和执行。经典的注释技术在这里是可用的。
选择工具是注释视图中的默认工具,允许直接在画布上选择和修改注释。用户可以执行以下任何操作来修改注释:
-点击并拖动点以将它们移动到它们的预期位置,
-按住键盘shift键并点击以移除点,
-点击形状轮廓上的任意点以添加更多的点。
边界框工具允许用户设定定义矩形的大小和位置的两个点。随后,可以用选择工具通过点击、拖动和释放来调整框属性。
多边形工具允许用户在对象周围点击拖拽释放以注释它们,而系统自动沿边界分配点。在生成多边形之后,选择工具可被用于独立地单独移动每个顶点以微调最终形状。
刷具提供了另一种手动标记功能。这里,用户可以首先选择以像素为单位的直径,然后点击图像以创建圆形多边形。
此外,可以产生具有选定直径的多边形。与多边形工具一样,可以用选择工具调整所得到的区域。
当用户对由上述功能之一创建的多边形满意时,它可以例如通过点击着色按钮来完成标记。这将以适当的类颜色对多边形区域进行上墨。
如果用户后来不同意先前着色的区域,则可以应用擦除按钮。为此,必须使用先前描述的功能用多边形标记要删除的期望区域。点击擦除按钮将恢复定义区域中的原始图像信息。
超像素工具可被用于生成整个图像的聚类区域,例如通过应用上述超像素采样网络。然后可以通过例如用细黄线(对应于图1和图2的超像素图像SIm中的灰线)标记边界来可视化预测的超像素。用户可以在任何时间在超像素图像和原始图像之间切换。由此可以在两个视图中编辑所做出的注释。一方面,超像素视图可被用于调整手动注释,并且另一方面,超像素区域本身可作为整体自动着色。为此,首先,可以使用超像素着色工具。随后,选择所需的类,通过在它们的边界内单击来选择任意数量的超像素。当选择完成时,可以通过按下左导航栏中的复选按钮来触发着色。
在工具导航栏的底部,可以实现几个辅助功能。复位按钮恢复图像的输出状态,从而删除所有注释。利用鼠标滚轮,可以改变图像的大小。因此,当鼠标从该位置放大和缩小时,鼠标位置可能是重要的。如果用户在缩放导航中丢失,则图像居中工具可以用于以其原始尺寸和位置显示图像。此外,还有隐藏和显示所做注释的功能。这允许用户比较掩码是否匹配原始图像。
当图像的注释完成时,可以通过鼠标左击按钮将超像素添加到参考集。从而,每个超像素可以根据其注释类被添加到一个特定文件夹。然后,当应用预测功能时,附加参考数据将用于数据集的下一图像。
对于将错误标记的超像素输出到参考数据集的情况,可以实现称为度量学习的另一app视图。在该视图中,可以显示每个现有数据集的参考数据。当访问特定的参考数据集时,向用户呈现组织超像素图像的文件夹的可视化。在每个文件夹中,特定图像和某类的超像素图像由缩略图定位和显示。这里,用户可以选择要删除的整个文件夹或单个图像。
生成的分割掩码MIm、CMIm1和/或CMIm2可以用于训练模型,例如语义分割模型。掩码MIm、CMIm1和/或CMIm2也可用作相似性检测步骤的附加参考数据,以标记下一图像。通过每次迭代,自动生成的掩码将因此得到更好的效果,同时减少了人力。
在一个实施方式中,计算设备4可以包括存储介质,用于存储经掩码的图像MIm或校正的经掩码的图像CMIm1、CMIm2。替代地或附加地,计算设备4可以包括接口,例如云接口,以将图像存储在云中,例如存储在特定参考数据库中。
生成的分割掩码MIm、CMIm1或CMIm2可被用于训练语义分割模型。语义分割模型可以基于卷积神经网络。在一个实施方式中,计算设备4可以包括基于分割掩码训练语义分割模型的算法。
图6示出了用于监测加工工具11中的切削刀片状态的系统10。该系统可以包括图像获取设备2,该图像获取设备与加工工具11相关联并且被设计成获取在加工工具11中使用的用于加工的切削刀片的图像。
在获取切削刀片的图像之后,将其发送到计算系统12,例如发送到边缘计算设备或云平台或类似物处的服务,该计算系统被设计为执行图像的分析。为此,计算系统12包括训练的语义分割模型13,其可以基于CNN,并且已经预先在由上述方法提供的分割掩码MIm、CMIm1、CMIm2上进行了训练。
在一个实施方式中,计算系统12可被提供有允许用户选择要分析的图像并可视化分析结果的界面。分析的一个可能结果可以是向加工工具操作者的推荐。例如:警告消息指示切割工具断裂,应停止加工工具的运行以避免机器损坏,或工具的状态良好,并可继续操作。
在一个实施方式中,分析结果包括磨损相关的关键性能指标,这些指标可借助于计算系统12被存储和/或可视化给例如加工工具操作者。
在此公开的方法和系统减少了标记工具图像所需的人力,同时保持或增加了所创建的标记的准确性。因此,减少了标记图像所花费的时间量。使用这样的图像来训练用于监测工具或过程的状况的语义分割模型提供了更准确的结果。
当单个超像素的相似性值低于阈值时,可以要求人进行干预的实施方式属于主动学习方法的范畴。
关于参考数据集的大小的影响,值得注意的是,已经利用每类仅10个超像素的少量,通过DML模型实现了高预测质量。增加参考数据集的大小实现进一步的改进。
此外,已经观察到,即使在参考数据集中仅有一个磨损超像素,图像中的几乎所有磨损超像素都将被正确地标记,只要它们看起来不与来自另一类的任何超像素更相似。这表明本文公开的方法对类不平衡显示出很大的不敏感性。
附图和权利要求中使用的附图标记用于说明目的,而不应被认为是对对应权利要求特征的限制。
出于说明而非限制的目的呈现本发明的上述实施方式。尤其地,关于附图描述的实施方式仅是介绍部分中描述的实施方式的几个示例。关于系统描述的技术特征可以应用于增强这里公开的方法,反之亦然。

Claims (17)

1.用于生成至少一个图像(Im)的分割掩码(MIm,CMIm1,CMIm2)的方法,所述方法包括
A)为所述至少一个图像(Im)生成多个超像素(SP),
B)为生成的所述多个超像素(SP)自动生成标记,其中,所述自动生成标记包括
通过以下步骤生成用于基于多个分割掩码(MIm,CMIm1)训练语义分割模型的所述标记:通过从参考超像素(RSP11,…,RSP34)的参考数据集中识别最相似的参考超像素(RSP11,…,RSP34)来为每个超像素(SP)生成标记,其中,每个参考超像素(RSP11,…,RSP34)与类(类1,类2,类3,…,类n)相关联,用于所述语义分割模型的监督训练,其中,标记的超像素形成所述至少一个图像(Im)的所述分割掩码(MIm);
C)计算机辅助地检查所生成的分割掩码(MIm)的正确性,其中,正确性检查包括标记未标记的超像素以及通过将未正确标记的超像素(WS)分配给正确的类来校正未正确标记的超像素(WS)的标记。
2.根据权利要求1所述的方法,其中,生成所述多个所述超像素是通过使用超像素采样网络来完成的。
3.根据权利要求2所述的方法,其中,所述超像素采样网络基于简单线性迭代聚类算法和深度神经网络的组合。
4.根据权利要求1至3中任一项所述的方法,其中,自动生成标记包括计算超像素(SP)与所述参考数据集的所述参考超像素(RSP11,…,RSP34)的相似性。
5.根据权利要求4所述的方法,其中,计算多个所述超像素(SP)中的超像素与来自所述参考数据集的每个参考超像素(RSP11,…,RSP34)的相似性,并且对于多个所述超像素中的每个超像素重复该计算。
6.根据权利要求4或5所述的方法,其中,计算所述相似性包括设定相似性阈值。
7.根据权利要求6所述的方法,其中,当所计算的相似性低于所设定的相似性阈值时,发出通知。
8.根据权利要求4至7中任一项所述的方法,其中,计算所述相似性包括将距离度量学习方法应用于所述超像素(SP)和所述参考超像素(RSP11,…,RSP34)。
9.根据权利要求8所述的方法,其中,所述距离度量学习方法包括
-用特征提取模块从超像素图像提取特征,其中,所述特征提取模块将所提取的超像素图像特征嵌入到特征空间中,使得所述超像素图像彼此越相关,则所述特征空间中的编码向量越接近,以及
-通过超像素图像在所述特征空间中的矢量的距离来定义两个超像素图像的所述相似性。
10.根据权利要求4至9中任一项所述的方法,其中,所述参考数据集包括一个或多个子集(类1,类2,类3,…,类n),其中,每个子集包括与所述类中的一个类相关联的参考超像素(RSP11,…,
RSP34),并且不同子集包括与不同类相关联的参考超像素。
11.根据权利要求1至10中任一项所述的方法,还包括:检查所述分割掩码(MIm)的逻辑约束。
12.一种用于训练语义分割模型的方法,所述方法包括:
根据权利要求1至11中任一项所述的方法生成至少一个图像(Im)的至少一个分割掩码(MIm,CMIm1,CMIm2);
在所述至少一个分割掩码(MIm,CMIm1)上训练语义分割模型;
提供经训练的语义分割模型。
13.一种使用根据权利要求12所述的方法训练的语义分割模型来监测加工工具(11)的工具的状态的方法。
14.一种用于生成至少一个图像(Im)的分割掩码(MIm,CMIm1,CMIm2)的系统,所述系统(1)包括用于提供所述至少一个图像(Im)的成像设备(2)和与所述成像设备(2)相关联的计算设备(4,12),其中,所述计算设备(4,12)被配置为接收所述至少一个图像(Im)并执行根据权利要求1至11中任一项所述的方法的步骤。
15.一种包括计算机程序的计算机可读介质,所述计算机程序具有用于执行根据权利要求1至11中任一项所述的方法的指令。
16.一种用于监测加工工具(11)的工具的状态的系统,其中,所述系统(10)包括:成像设备(2),该成像设备与加工工具(11)相关联并且被设计成采集所述工具的图像;以及计算系统(12),该计算系统与所述成像设备(2)相关联并且包括经训练的语义分割模型(13),用于执行所述工具的图像的分析,以推断所述工具的所述状态,其中,根据权利要求12所述的方法提供所述经训练的语义分割模型(13)。
17.一种用于监测加工工具(11)的工具的状态的系统,包括根据权利要求14所述的系统,其中,所述成像设备(2)与加工工具(11)相关联,并且被设计为获取所述工具的图像以推断所述工具的所述状态,其中,所述计算设备(4,12)包括经训练的语义分割模型(13),以执行所述工具的所述图像的分析,其中,根据权利要求12所述的方法来提供所述经训练的语义分割模型(13)。
CN202280072542.2A 2021-10-29 2022-10-21 用于生成分割掩码的方法和系统 Pending CN118176522A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP21205589.1 2021-10-29
EP21205589.1A EP4174766A1 (en) 2021-10-29 2021-10-29 Generating segmentation masks for training a semantic segmentation model
PCT/EP2022/079332 WO2023072744A1 (en) 2021-10-29 2022-10-21 Methods and systems for generating segmentation masks

Publications (1)

Publication Number Publication Date
CN118176522A true CN118176522A (zh) 2024-06-11

Family

ID=78414523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280072542.2A Pending CN118176522A (zh) 2021-10-29 2022-10-21 用于生成分割掩码的方法和系统

Country Status (3)

Country Link
EP (2) EP4174766A1 (zh)
CN (1) CN118176522A (zh)
WO (1) WO2023072744A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116309653B (zh) * 2023-05-18 2023-08-29 中国科学技术大学 弱监督图像语义分割方法、系统、设备及存储介质
CN116485787B (zh) * 2023-06-15 2023-08-22 东莞市立时电子有限公司 一种数据线成型外模外观缺陷检测方法
CN117436551B (zh) * 2023-12-18 2024-06-21 杭州宇谷科技股份有限公司 一种智能客服模型的训练方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9396546B2 (en) * 2014-01-21 2016-07-19 Adobe Systems Incorporated Labeling objects in image scenes

Also Published As

Publication number Publication date
WO2023072744A1 (en) 2023-05-04
EP4388496A1 (en) 2024-06-26
EP4174766A1 (en) 2023-05-03

Similar Documents

Publication Publication Date Title
Sarlin et al. Superglue: Learning feature matching with graph neural networks
CN108805170B (zh) 形成用于全监督式学习的数据集
CN118176522A (zh) 用于生成分割掩码的方法和系统
CN110826638B (zh) 基于重复注意力网络的零样本图像分类模型及其方法
Pape et al. Utilizing machine learning approaches to improve the prediction of leaf counts and individual leaf segmentation of rosette plant images
CN112990054A (zh) 紧凑的无语言面部表情嵌入和新颖三元组的训练方案
CN113272827A (zh) 卷积神经网络中分类决策的验证
CN112837344B (zh) 一种基于条件对抗生成孪生网络的目标跟踪方法
JP2015087903A (ja) 情報処理装置及び情報処理方法
CN109886297A (zh) 一种用于从二维图像识别三维模型对象的方法
CN113221956B (zh) 基于改进的多尺度深度模型的目标识别方法及装置
CN116229189B (zh) 基于荧光内窥镜的图像处理方法、装置、设备及存储介质
Soumya et al. Emotion recognition from partially occluded facial images using prototypical networks
Pramunendar et al. A Robust Image Enhancement Techniques for Underwater Fish Classification in Marine Environment.
JP2015508501A (ja) 顕微鏡画像に含まれている細胞を分類するための教師付き分類方法
Diers et al. A survey of methods for automated quality control based on images
KR20220060722A (ko) 이미지 데이터 라벨링 학습 방법 및 그 장치
Anouncia et al. A knowledge model for gray scale image interpretation with emphasis on welding defect classification—An ontology based approach
CN116452826A (zh) 基于机器视觉的遮挡情况下煤矸石轮廓估计方法
CN110942463A (zh) 一种基于生成对抗网络的视频目标分割方法
CN115578574A (zh) 一种基于深度学习和拓扑感知的三维点云补全方法
Robotyshyn et al. Surface defect detection based on deep learning approach.
CN111488882B (zh) 一种用于工业零件测量的高精度图像语义分割方法
CN113313210A (zh) 用于数据处理的方法和设备
Stritt et al. Supervised Machine Learning Methods for Quantification of Pulmonary Fibrosis.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination