CN115705694A - 用于分割任务的无监督学习的系统和方法 - Google Patents

用于分割任务的无监督学习的系统和方法 Download PDF

Info

Publication number
CN115705694A
CN115705694A CN202210942308.2A CN202210942308A CN115705694A CN 115705694 A CN115705694 A CN 115705694A CN 202210942308 A CN202210942308 A CN 202210942308A CN 115705694 A CN115705694 A CN 115705694A
Authority
CN
China
Prior art keywords
loss
image
determining
clustering
box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210942308.2A
Other languages
English (en)
Inventor
杨月唯
M.埃尔-卡米
刘青峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN115705694A publication Critical patent/CN115705694A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

提供了通过确定用于无监督图像分割的损失函数来训练特征提取模型的设备和方法。一种方法包括:从图像确定聚类损失;基于所述聚类损失使用聚类伪标签来确定所述图像的弱监督对比损失;基于所述聚类损失和所述弱监督对比损失来确定所述损失函数。

Description

用于分割任务的无监督学习的系统和方法
相关申请的交叉引用
本申请是基于并要求于2021年8月13日在美国专利商标局中提交的美国临时专利申请序列号63/232,848的优先权,所述专利申请的全部内容通过引用并入本文。
技术领域
本公开整体涉及用于使用聚类(clustering)和对比方法以无监督方式进行图像分割的系统和方法。
背景技术
图像语义分割是用于标记图像中的每个像素的计算机视觉任务。深度学习模型已展示了从图像提取视觉特征并准确地对每个像素的目标类别进行分类的能力。监督学习模型最小化目标类与预测类之间的交叉熵。然而,获得大量图像中的每个像素的标签是资源密集型且低效的。
图像分类的当前趋势是经由无监督学习算法来预训练深度学习模型。在这些算法之中,聚类和对比学习是有效方法。聚类和对比学习的一般构思是在嵌入空间中将相似的特征分组/聚类得更近,而将不相似的特征分开得更远。聚类方法可以处理原始图像的像素特征,但常规的对比学习方法需要来自同一图像的变换视图的特征。
发明内容
因此,本公开被提供来解决至少上述问题和/或缺点并且提供下文所述的优点中的至少一些。
本公开的一个方面在于提供了用于使用聚类和对比方法以无监督方式进行图像分割的系统和方法。
本公开的另一个方面在于提供了用于使用区域级采样和池化以维持相邻像素的连续性来进行图像分割的系统和方法。
本公开的另一方面在于提供了用于使用聚类效应和对比效应以在训练期间提供稳定质心学习来进行图像分割的系统和方法。
本公开的另一方面在于提供了用于使用框采样(box sampling)以通过平均池化区域到方形特征图而保留相邻像素之间的相似性来进行图像分割的系统和方法。
根据本公开的一个方面,提供了通过确定用于无监督图像分割的损失函数来训练特征提取模型的方法。所述方法包括:从图像确定聚类损失;基于所述聚类损失使用聚类伪标签来确定所述图像的弱监督对比损失;并且基于所述聚类损失和所述弱监督对比损失来确定所述损失函数。
根据本公开的另一方面,提供了通过确定用于无监督图像分割的损失函数来训练特征提取模型的设备。所述设备包括:处理器;以及存储器,所述存储器被配置为存储指令,所述指令在执行时控制处理器以从图像确定聚类损失,基于所述聚类损失使用聚类伪标签来确定所述图像的弱监督对比损失,并且基于所述聚类损失和所述弱监督对比损失来确定所述损失函数。
根据本公开的另一方面,提供了通过确定用于无监督图像分割的损失函数来训练特征提取模型的方法。所述方法包括:从图像确定聚类损失;确定所述图像的框采样损失;并且基于所述聚类损失和所述框采样损失来确定所述损失函数。
根据本公开的另一方面,提供了通过确定用于无监督图像分割的损失函数来训练特征提取模型的设备。所述设备包括:处理器;以及存储器,所述存储器被配置为存储指令,所述指令在执行时控制处理器以从图像确定聚类损失,确定所述图像的框采样损失;并且基于所述聚类损失和所述框采样损失来确定所述损失函数。
附图说明
本公开的某些实施例的以上和其他方面、特征和优点将从结合附图进行的以下详细描述变得更明显,其中:
图1示出了使用不变性和同变性(PiCIE)和用于生成多视图特征的变换的像素级特征聚类的概述;
图2示出了视图之间的交换分配(SwAV)方法的概述;
图3示出了根据实施例的对用于分割的监督对比损失的修改的示例;
图4示出了根据实施例的框采样过程的示例;
图5是示出了根据实施例的计算损失函数的方法的流程图;并且
图6示出了根据实施例的网络环境中的电子装置。
具体实施方式
在下文中,参考附图详细描述本公开的实施例。应当注意,尽管在不同的附图中示出了相同的元件,但是它们将由相同的附图标记表示。在以下描述中,提供诸如详细配置和部件等具体细节仅仅是为了帮助全面理解本公开的实施例。因此,对于本领域技术人员来说,很明显,在不脱离本公开的范围的情况下,可以对这里描述的实施例进行各种改变和修改。此外,为了清楚和简洁起见,省略了对众所周知的功能和构造的描述。下文描述的术语是在本公开中的功能的考量中定义的术语,且可根据用户、用户的意图或习惯而不同。因此,术语的定义应基于贯穿整个说明书的内容来确定。
本公开可以具有各种变型和各种实施例,其中以下参考附图详细描述实施例。然而,应当理解,本公开不限于实施例,而是包括本公开范围内的所有修改、等效物和替代物。
尽管可以使用包括诸如第一、第二等的序数的术语来描述各种元件,但是结构元件不受术语的限制。术语仅仅是用于将一个要素与另一个要素进行区分。例如,在不脱离本公开的范围的情况下,第一结构元件可以被称为第二结构元件。类似地,第二结构元件也可以被称为第一结构元件。如本文所使用,术语“和/或”包括一个或多个相关联项目的任一者和所有组合。
本文使用的术语仅用于描述本公开的各种实施例,而无意于限制本公开。除非上下文另有明确说明,否则单数形式旨在包括复数形式。在本公开中,应理解,术语“包括”或“具有”表示存在特征、数字、步骤、操作、结构元件、部件或其组合,并且不排除一个或多个其他特征、数字、步骤、操作、结构元件、部件或其组合的存在或可能性。
除非另外定义,否则本文使用的所有术语与本公开所属领域的技术人员理解的那些具有相同的含义。诸如常用词典中所定义的术语等术语被解释为具有等同于相关技术领域中的上下文含义的含义,并且除非本描述中清楚地定义,否则不被解释为具有理想或过于正式的含义。
根据一个实施例的电子装置可以是各种类型的电子装置中的一者。所述电子装置可以包括例如,便携式通信装置(例如,智能手机)、计算机、便携式多媒体装置、便携式医疗装置、相机、可穿戴装置,和/或家用电器等。根据本公开的一个实施例,电子装置不限于上述那些装置。
在本公开中使用的术语并非旨在限制本公开,而是旨在包括对应实施例的各种改变、等同或替换。关于附图的描述,可以使用类似的参考标号来指类似或有关的元件。对应于项目的名词的单数形式可以包括事物中的一个或多个,除非相关上下文另有清楚指示。如本文所使用,例如“A或B”、“A和B中的至少一个”、“A或B中的至少一个”、“A、B或C”、“A、B和C中的至少一个”以及“A、B或C中的至少一个”等短语中的每一个可包括所述短语中的对应一个中一起枚举的项目的所有可能组合。如本文所使用,例如“第1”、“第2”或“第一”和“第二”等术语可以用于区别对应部件与另一部件,但不在其他方面(例如,重要性或次序)方面限制所述部件。意思是,如果在有或无术语“操作地”或“通信地”的情况下,元件(例如,第一元件)被称为“与......耦合”、“耦合到”、“与......连接”或“连接到”另一元件(例如,第二元件),那么其指示所述元件可直接(例如,有线)、无线或经由第三元件与所述另一元件耦合。
如本文所使用,术语“模块”可包括以硬件、软件或固件实施的单元,并且可与其他术语互换使用,例如“逻辑”、“逻辑块”、“部件”或“电路系统”。模块可以是被适配为执行一个或更多个功能的单个集成部件或者是该单个集成部件的最小单元或部分。例如,根据一个实施例,可以以专用集成电路(ASIC)的形式实施模块。
图像分割是将图像中的每个像素分类为目标类的计算机视觉任务。监督学习通过基于所标记数据进行训练来学习分类。与图像分类任务相比,分割任务需要更多的标签,因为图像中的所有数十万像素都应当被标记。
另一方面,无监督学习在没有任何地面真值(ground truth)标签的情况下学习分类。无监督学习方法可用于基于未标记数据对模型进行训练,以减少用像素标签注释图像的人力。例如,聚类是无监督学习的示例,其基于相似性对特征进行分组。
随着用于图像分类任务的对比学习的最新进展,根据本公开的实施例,提供了一种用于对具有聚类损失和对比损失的模型进行训练以在不获得任何地面真值标签的情况下对像素进行分类的方法。
此外,根据本公开的实施例,引入了框采样过程以从特征图提取随机设定大小的区域并与像素特征联合计算对比损失。这种机制鼓励模型将相同的标签分配给一个区域,从而保持相邻像素之间的标签连续性。
还提供了这项工作的扩展,其用有限数量的地面真值标签联合训练监督损失和无监督损失。
根据本公开的实施例,提供了一种使用聚类方法和对比方法两者以无监督方式进行图像分割的系统和方法。
通常,用于图像分割的常规的聚类方法学习聚类质心并且针对训练像素生成伪标签。然而,所生成的伪标签通常非常嘈杂,因为属于同一类的像素可由于纹理的差异而被分配不同的标签。
相比之下,对比学习鼓励将具有高相似性的像素一起映射得更近,并且远离不相似的像素。这种吸引和排斥效应可以缓解聚类学习中的一部分噪声问题。
除了对比学习损失之外,还开发了用于从输出特征图随机采样框并且然后在所提取区域上应用对比损失的一种类似于对象检测任务中区域采样的新机制。
本公开的一些方面包括:
1)聚类损失:在每个训练时期之前,使用当前像素特征来学习聚类质心。此后,每个像素都被赋予聚类标签作为伪标签。在训练时期期间,伪标签与预测标签之间的交叉熵被最小化。
2)弱监督对比损失:无监督对比损失的弱点是在对比期间包含许多假负(falsenegative)。通过使图像分类对比损失适应像素分类,假负的量进一步增加。为了避免这种假负问题,可以通过使用聚类伪标签作为引导监督对比损失的线索来学习弱监督对比损失。对多个像素进行采样以计算监督对比损失,以便减少计算负担。
3)框采样:上面的方面1)和2)均计算关于单个像素的损失。然而,这可能会抑制同一对象/东西类别中相邻像素的连续性。为了鼓励将相同的标签分配给图像的区域,可以应用随机框采样以从特征图提取具有不同大小的矩形区域,并且对所述区域进行平均池化以产生方形特征。通过对对应区域中的多数像素伪标签进行计数,这些方形特征也可以被赋予伪标签。此后,平均池化特征和相应的伪标签可用于再次计算监督对比损失。通过学习相似区域之间的高相似性,模型更有可能将相同的标签分配给区域。
因此,本公开通过以下方式来解决上面确定的一些问题:将图像对比损失扩展提供到像素分割、加入训练聚类和弱监督对比损失以便改进学习像素表示的质量,并且除了像素级对比学习之外,还调整区域级采样和池化以保持相邻像素的连续性。
通过匹配来自不同类的特征的相似性而没有任何地面真值标签来训练模型,获取大量此类标签的努力是不必要的。
此外,用有限量的标签微调预训练模型可以为基于相同量的标签训练的完全监督模型提供更好的性能。
符号词汇表
Figure BDA0003786198060000061
来自数据域的图像。
Figure BDA0003786198060000062
来自微型训练批次的图像。
fθ(.)由θ参数化的特征提取模型。
Pi (1),Pi (2)随机光度变换。
Gi随机几何变换。
μ(.)聚类质心。
y(.)聚类标签/伪标签。
Figure BDA0003786198060000063
从位置p∈[HW]处的ith图像提取的像素特征。
Figure BDA0003786198060000064
存储在存储器存储体中的像素特征。
一般来说,下文将讨论以下几点:
用于无监督分割的聚类方法(例如,PiCIE);
对比损失对图像分割的适应;
对分割的监督对比损失的修改;以及
框采样以获得更好的区域连续性。
用于无监督分割的聚类方法
DeepCluster是一种用于学习图像表示的自我监督方法。DeepCluster用标准聚类算法k-means迭代地对特征进行分组,并且使用后续分配作为监督来更新网络的权重。
与DeepCluster相似,PiCIE在每个训练时期之后对所有像素特征进行聚类,并且将聚类标签作为伪标签分配给训练数据中的每个像素。这些伪标签将引导损失函数来预测每个像素的类。
与从图像的单个视图提取特征的DeepCluster不同,PiCIE的特征为被提取的图像的两个不同视图以及计算视图内损失和交叉视图损失的两个损失。损失提高了几何变换的同变性和光度变换的不变性。
图1示出了PiCIE和用于生成多视图特征的变换的概述。
参考图1,以不同次序对图像xi应用光度变换Pi (.)和几何变换Gi,以生成所提取特征的两个视图
Figure BDA0003786198060000071
Figure BDA0003786198060000072
然后使用K-means基于两组所提取特征计算两组质心μ(1),μ(2)和伪标签y(1),y(2),。
在分配对应的伪标签之后,用不同的几何变换和光度变换再次提取特征。通过所分配的伪标签和所计算质心,学习如下文的Eq.1(等式1)所示的聚类损失函数,其中是d(.,.)距离度量。
为了利用图像的两个视图并增强表示的质量,可以应用如Eq.2中的视图内损失和如Eq.3所示的交叉视图损失来鼓励模型对于不同的光度变换和几何变换保持不变性。
Figure BDA0003786198060000073
Figure BDA0003786198060000074
Figure BDA0003786198060000075
Figure BDA0003786198060000076
PiCIE用训练图像的两个视图来学习聚类损失,如Eq.4所示。尽管PiCIE展示了所学习特征与光度变换和几何变换的同变性和不变性,但由于伪标签非常嘈杂且生成耗时,因此训练花费最多的时间来生成这些标签,并且在经过较长时间的训练之后聚类效果会减弱。
对比损失对图像分割的适应
对比学习是学习图像级表示的另一种工具。对比学习的想法是在嵌入空间中将相似的特征(例如,正)映射得更近,而将不相似的特征(例如,负)映射得更远。
为了学习,可以经由噪声对比估计(NCE)损失来训练模型,如Eq.5所示,其中d(.,.)是余弦距离,zi是ith图像的图像特征,并且
Figure BDA0003786198060000081
Figure BDA0003786198060000082
是相对于zi的正特征和负特征。
在无监督图像分类中,正(positive)是从具有不同视图的同一图像提取的特征,而负(negative)是从所有其他图像提取的特征。成功的方法包括视觉表示对比学习的简单框架(SimCLR)、动量对比(MoCo)、引导您自己的潜伏(BYOL)、简单连体(SimSiam)等。相同的算法可适应于图像分割任务,例如,如下表1所示。
Figure BDA0003786198060000083
表1:对比损失对分割的适应
Figure BDA0003786198060000084
Figure BDA0003786198060000091
对于小批次
Figure BDA0003786198060000092
中的图像,将两组不同的光度变换,但相同的几何变换应用于每个图像。从每个图像的两个视图提取特征,并且然后将所述特征用于计算对比损失。
对于SimCLR,同一位置处的像素特征是正对,而每隔一个位置处的像素特征是负对。
对于MoCo,同一位置处的像素特征是正对,并且在先前时期提取并存储在存储器存储体中的像素特征是负特征。使用用动量更新的第二编码器提取负特征。
对于BYOL,未明确使用负特征,但批次数据的均值模式是通过网络进行批范数运算的负特征。也可以使用第二编码器来提取要预测的特征。
对于SimSiam,对单个编码器进行训练,但要预测的特征不计算梯度。
SwAV是一种自我监督学习方法,其利用对比方法而无需计算成对比较。具体地,SwAV是一种聚类学习方法,其在强制针对同一图像的不同增强(或视图)产生的聚类分配之间保持一致性时同时对数据进行聚类,而不是如对比学习那样直接比较特征。简而言之,SwAV使用交换预测机制,其从一个视图的表示预测另一个视图的聚类分配。
图2示出了SwAV方法的概述。
参考图2,与使用所计算的质心作为非参数分类器的权重的PiCI E不同,SwAV训练可学习原型,并且基于特征与最近原型之间的距离计算代码。然后交换代码以通过来自不同视图的特征进行预测。
对比学习展示了学习图像级特征的主要性能,这些特征将图像分类为接近监督学习上限而没有任何标签。尽管如此,对图像分割进行适应并不简单,因为分割数据存在两个问题:
1.训练批次中的假负(false negative)的数量相对较大;以及
2.分割数据集中的类非常不平衡。
由于仅同一位置处的像素特征是正的,而所有其他特征都是负的,因此存在在损失函数中被视为负的属于同一类的许多像素特征。这会导致嘈杂的学习信号。
在分割数据集中,某些类别类占总像素的一部分,诸如CityScapes数据集中的道路、建筑物等。因此,由于上述问题,直接使图像分类对比学习损失适应于图像分割的益处是有限的。
为了消除上述类型的缺点,根据本公开的实施例,提供了用于使用聚类方法和对比方法以无监督方式进行图像分割的系统和方法。
对分割的监督对比损失的修改
为了解决假负和数据不平衡问题,代替完全无监督对比损失,开发了用于图像分割的弱监督对比损失。
如上所述,PiCIE可用于针对每个像素生成伪标签。然后可以将这些伪标签用作指示属于同一类的相似特征的引导。使用伪标签,可以开发Eq.5的监督版本。
图3示出了根据实施例的对用于分割的监督对比损失的修改的示例。
参考图3,在提取像素特征之后,除了聚类损失之外,可以基于伪标签计算监督对比损失。所有像素特征的随机样本可用于监督对比损失,因此计算需求略有增加。
在Eq.6中,|Z(i)|是具有同一类标签i的多个特征。在这个损失函数中,正和负是基于所生成的伪标签yi决定的。在采样期间引入了一个另外的超参数,即样本数Nsamples
Figure BDA0003786198060000111
更具体地,参考图3,在每个训练时期之前,使用当前像素特征来学习聚类质心。此后,每个像素都被赋予聚类标签作为伪标签。
此后,在训练时期期间,伪标签与预测标签之间的交叉熵被最小化。
无监督对比损失的弱点是在对比期间包含许多假负。此外,通过使图像分类对比损失适应于像素分类,假负的量可进一步增加。
因此,为了缓和这种假负问题,可以通过使用聚类伪标签作为引导监督对比损失的线索来学习弱监督对比损失。对多个像素进行采样以计算监督对比损失以减少计算负担。
用于更好的区域连续性的框采样
为了改进相邻像素之间的标签分配连续性,可以在对象检测任务中使用框采样或区域采样。
更具体地,再次参考图3,在通过主干网络提取密集特征之后,可以从特征图提取随机设定大小的区域/框,并且将每个区域/框分类为对象或非对象。
在分割任务中,应用框采样以便从特征图提取Nregions个区域,并且对所采样区域s×s执行平均池化以输出特征
Figure BDA0003786198060000121
所得特征计算区域中所有像素的平均信息。
为了计算这些特征的监督对比损失,通过计算区域中的多数标签
Figure BDA0003786198060000122
来为平均池化特征中的所有特征向量赋予相同的标签
Figure BDA0003786198060000123
其中|yi|是采样框中yi的数量。
图4示出了根据实施例的框采样过程的示例。
参考图4,对所采样区域执行平均池化以2×2输出特征。然后通过计算区域中的多数标签,为平均池化特征中的所有特征向量赋予相同的标签。例如,伪标签2在区域401中给出,伪标签4在区域402中给出,并且伪标签1在区域403中给出。
因此,除了Eq.5和Eq.6之外,还可以在Eq.7中计算随机采样的方形特征上的另一个监督对比损失。
Figure BDA0003786198060000124
用于训练系统的最终损失函数可以表示为Eq.8。
Figure BDA0003786198060000125
表2
Figure BDA0003786198060000126
Figure BDA0003786198060000131
超参数列于下表3。
表3:超参数列表
Figure BDA0003786198060000132
图5是示出了根据实施例的计算损失函数的方法的流程图。
参考图5,在步骤501中,例如移动电话的设备从图像确定聚类损失
Figure BDA0003786198060000141
在步骤502中,设备基于聚类损失使用聚类伪标签来确定图像的弱监督对比损失
Figure BDA0003786198060000142
在步骤503,设备确定图像的框采样损失
Figure BDA0003786198060000143
在步骤504中,设备例如使用Eq.8基于聚类损失、弱监督对比损失和框采样损失确定损失函数
Figure BDA0003786198060000144
尽管图5示出了使用聚类损失、弱监督对比损失和框采样损失来计算损失函数的方法,但本公开不限于此。例如,设备可以基于聚类损失和弱监督对比损失(例如,其中
Figure BDA0003786198060000145
)或基于聚类损失和框采样损失(例如,其中
Figure BDA0003786198060000146
)来确定损失函数
Figure BDA0003786198060000147
用于图像分割的半监督训练
根据本公开的实施例,可以对所标记图像和未标记图像进行训练。
更具体地,可以通过最小化在预测标签与地面真值标签之间的交叉熵来对所标记图像进行训练。如上所述,可以通过计算聚类损失
Figure BDA0003786198060000148
和对比损失
Figure BDA0003786198060000149
两者来对未标记图像进行训练。
也可以包括框采样作为加强区域中标签连续性的机制。基于有限的地面真值标签联合训练监督损失的益处在于,与计算对比损失时相比,在无监督训练期间学习的质心将更加稳健,从而引入更少的噪声。
表4
Figure BDA0003786198060000151
图6示出了根据实施例的网络环境中的电子装置。
参考图6,网络环境600中的电子装置601(例如,包括GPS功能性的移动终端)可以经由第一网络698(例如,短程无线通信网络)与电子装置602通信,或者经由第二网络699(例如,远程无线通信网络)与电子装置604或服务器608通信。电子装置601可以经由服务器608与电子装置604通信。电子装置601可以包括处理器620、存储器630、输入装置650、声音输出装置655、显示装置660、音频模块670、传感器模块676、接口677、触觉模块679、相机模块680、电力管理模块688、电池689、通信模块690以及订户识别模块(SIM)696或包括GNSS天线的天线模块697。在一个实施例中,可以从电子装置601省略所述部件中的至少一个(例如,显示装置660或相机模块680),或者可以在电子装置601中添加一个或多个其他部件。在一些实施例中,部件中的一些可以实施为单个集成电路(IC)。例如,传感器模块676(例如,指纹传感器、虹膜传感器或光照传感器)可以嵌入显示装置660(例如,显示器)中。
处理器620可以执行(例如)软件(例如,程序640)来控制与处理器620耦接的电子装置601的至少一个其他部件(例如,硬件或软件部件),并且可以执行各种数据处理或计算。作为数据处理或计算的至少一部分,处理器620可以将从另一部件(例如,传感器模块676或通信模块690)接收到命令或数据加载在易失性存储器632中,处理存储在易失性存储器632中的命令或数据,并将所得数据存储在非易失性存储器634中。处理器620可以包括主要处理器621(例如,中央处理单元(CPU)或应用程序处理器),以及辅助处理器623(例如,图形处理单元(GPU)、图像信号处理器(ISP)、传感器中心处理器或通信处理器(CP)),其可与主要处理器621独立或结合所述主要处理器操作。另外地或替代地,辅助处理器623可以适用于消耗比主要处理器621少的功率,或执行特定功能。辅助处理器623可以实施为与主要处理器621分开或作为主要处理器的一部分。
在主处理器621处于未激活(例如,睡眠)状态时,辅助处理器623可代替主处理器621控制与电子装置601的部件之中的至少一个部件(例如,显示装置660、传感器模块676或通信模块690)相关的功能或状态中的至少一些,或者在主处理器621处于激活状态(例如,运行应用)时,辅助处理器123可与主处理器621一起来进行上述控制。根据一个实施例,可将辅助处理器623(例如,图像信号处理器或通信处理器)实现为在功能上与辅助处理器623相关的另一部件(例如,相机模块680或通信模块690)的部分。
存储器630可存储由电子装置601的至少一个部件(例如,处理器620或传感器模块676)使用的各种数据。所述各种数据可包括例如软件(例如,程序640)以及用于与之有关的命令的输入数据或输出数据。存储器630可包括易失性存储器632或非易失性存储器634。
程序640可作为软件存储在存储器630中,且可包括例如操作系统(OS)642、中间件644或应用程序646。
输入装置650可从电子装置601的外部(例如,用户)接收将由电子装置601的其他部件(例如,处理器620)使用的命令或数据。输入装置650可包括例如麦克风、鼠标或键盘。
声音输出装置655可将声音信号输出到电子装置601的外部。声音输出装置655可包括例如扬声器或接收器。扬声器可以用于通用目的,诸如播放多媒体或录音,并且接收器可以用于接收传入呼叫。根据一个实施例,接收器可以被实现为与扬声器分离或为扬声器的一部分。
显示装置660可以向电子装置601的外部(例如,用户)在视觉上提供信息。显示装置660可包括例如显示器、全息图装置或投影仪,以及控制所述显示器、全息图装置和投影仪中的对应一者的控制电路。根据一个实施例,显示装置660可包括被适配为检测触摸的触摸电路或被适配为测量由触摸引起的力的强度的传感器电路(例如,压力传感器)。
音频模块670可以将声音转换成电信号,反之亦然。根据一个实施例,音频模块670可以经由输入装置650获得声音,或经由声音输出装置655或与电子装置601直接(例如,有线)或无线耦合的外部电子装置602的头戴式耳机输出声音。
传感器模块676可检测电子装置601的操作状态(例如,功率或温度)或电子装置601外部的环境状态(例如,用户的状态),且接着产生对应于检测到的状态的电信号或数据值。传感器模块676可以包括例如手势传感器、陀螺仪传感器、大气压力传感器、磁性传感器、加速度传感器、抓握传感器、接近传感器、色彩传感器、红外线(IR)传感器、生物计量传感器、温度传感器、湿度传感器或光照传感器。
接口677可以支持将用于将直接(例如,有线)或无线与外部电子装置602耦合的电子装置601的一个或多个指定协议。根据一个实施例,接口677可包括例如高清多介质接口(HDMI)、通用串行总线(USB)接口、安全数字(SD)卡接口或音频接口。
连接端678可以包括电子装置601可以经由其与外部电子装置602物理连接的连接件。根据一个实施例,连接端678可包括例如HDMI连接件、USB连接件、SD卡连接件,或音频连接件(例如,头戴式耳机连接件)。
触觉模块679可以将电信号转换成可以由用户经由触觉感觉或动觉感觉来辨识的机械刺激(例如,震动或移动)或电刺激。根据一个实施例,触觉模块679可包括例如马达、压电元件或电刺激器。
相机模块680可捕获静止图像或移动图像。根据一个实施例,相机模块680可包括一个或多个镜头、图像传感器、图像信号处理器或闪光灯。
电力管理模块688可管理供应到电子装置601的电力。电力管理模块688可以实施为例如电力管理集成电路(PMIC)的至少一部分。
电池689可以向电子装置601的至少一个部件供电。根据一个实施例,电池689可包括例如不可再充电的原电池、可再充电的蓄电池、或燃料电池。
通信模块690可支持建立电子装置601与外部电子装置(例如,电子装置602、电子装置604或服务器608)之间的直接(例如,有线)通信信道或无线通信信道,且经由所建立的通信信道执行通信。通信模块690可包括能够与处理器620(例如,应用处理器)独立操作的一个或更多个通信处理器,并支持直接(例如,有线)通信或无线通信。根据一个实施例,通信模块690可包括无线通信模块692(例如,蜂窝通信模块、短距离无线通信模块或全球导航卫星系统(GNSS)通信模块)或有线通信模块694(例如,局域网(LAN)通信模块或电力线通信(PLC)模块)。这些通信模块中的对应一者可以经由第一网络698(例如,短程通信网络,诸如BluetoothTM、无线保真(Wi-Fi)直连或红外线数据协会(IrDA)标准)或第二网络699(例如,远程通信网络,诸如蜂窝网络、互联网或计算机网络(例如,LAN或广域网(WAN))与外部电子装置通信。这些各种类型的通信模块可以实施为单个部件(例如,单个IC),或者可以实施为彼此分开的多个部件(例如,多个IC)。无线通信模块692可以使用存储在订户识别模块696中的订户信息(例如,国际移动订户身份(IMSI))来识别并验证通信网络(诸如第一网络698或第二网络699)中的电子装置601。
天线模块697可将信号或电力发射到电子装置601的外部(例如,外部电子装置)或从外部接收信号或电力。根据一个实施例,天线模块697可包括一个或多个天线,且因此,可例如通过通信模块690(例如,无线通信模块692)来选择对于通信网络(例如第一网络698或第二网络699)中使用的通信方案来说适当的至少一个天线。然后经由选定的至少一个天线,在通信模块690与外部电子装置之间传输或接收信号或电力。
上文所述的部件中的至少一些可以相互耦合,并经由外围间通信方案(例如,总线、通用输入和输出(GPIO)、串行外围接口(SPI)或移动产业处理器接口(MIPI))在其间传送信号(例如,命令或数据)。
根据一个实施例,可经由与第二网络699耦合的服务器608,在电子装置601与外部电子装置604之间发射或接收命令或数据。电子装置602和604中的每一个可以是与电子装置601相同类型或不同类型的装置。可以在外部电子装置602、604或608中的一个或多个处执行在电子装置601处执行的操作中的全部或一些。例如,如果电子装置601应自动执行功能或服务,或响应于来自用户或另一装置的请求,电子装置601代替于或除执行所述功能或所述服务之外,可以请求一个或多个外部电子装置执行所述功能或所述服务的至少一部分。接收到所述请求的一个或多个外部电子装置可以执行所请求的功能或服务的至少一部分,或者与所述请求相关的额外功能或额外服务,并且将执行的结果传送给电子装置601。电子装置601可在对所述结果进行进一步处理的情况下或者在不对所述结果进行进一步处理的情况下将所述结果提供作为对所述请求的至少部分答复。为此,可使用例如云计算技术、分布式计算技术或客户机-服务器计算技术。
一个实施例可以实施为软件(例如,程序640),其包括存储在可由机器(例如,电子装置601)读取的存储介质(例如,内部存储器636或外部存储器638)中的一个或多个指令。例如,电子装置601的处理器可以调用存储在存储介质中的一个或多个指令中的至少一者,并在处理器的控制下,使用或不使用一个或多个其他部件来执行所述指令。因此,可以操作机器来根据所调用的至少一个指令来执行至少一个功能。所述一个或多个指令可以包括由编译程序生成的代码或可由翻译程序执行的代码。可以以非暂时性存储介质的形式提供机器可读存储介质。术语“非暂时性”指示存储介质是有形装置并且不包括信号(例如,电磁波),但此术语不区分数据半永久地存储于存储介质中的位置与数据临时地存储于存储介质中的位置。
根据一个实施例,本公开的方法可以被包括且设置在计算机程序产品中。计算机程序产品可作为产品在销售者和购买者之间进行交易。所述计算机程序产品可以以机器可读存储介质(例如,压缩光盘只读存储器(CD-ROM))的形式分发,或经由应用程序商店(例如,PlayStoreTM)在线分发(例如,下载或上载),或直接在两个用户装置(例如,智能电话)之间分发。如果在线分发,那么所述计算机程序产品的至少一部分可以临时生成或至少临时存储在机器可读存储介质(例如制造商的服务器、应用程序商店的服务器或中继服务器的存储器)中。
根据一个实施例,上述部件中的每个部件(例如,模块或程序)可以包括单个实体或多个实体。可以省略上述部件中的一个或多个,或者可以添加一个或多个其他部件。替代地或另外,多个部件(例如,模块或程序)可以集成到单个部件中。在此情况下,集成部件可以仍以与在集成之前由多个部件中的对应一个执行相同或相似的方式执行所述多个部件中的每一个的一个或多个功能。模块、程序或另一部件所执行的操作可以循序地、并行地、重复地或启发式地进行,或者所述操作中的一个或多个可以不同次序执行或省略,或者可以添加一个或多个其他操作。
尽管已经在本公开的详细描述中描述了本公开的某些实施例,但是在不脱离本公开的范围的情况下,可以以各种形式修改本公开。因此,本公开的范围不应仅基于所描述的实施例来确定,而是应基于所附权利要求及其等同物来确定。

Claims (20)

1.一种通过确定用于无监督图像分割的损失函数来训练特征提取模型的方法,所述方法包括:
从图像确定聚类损失
Figure FDA0003786198050000011
基于所述聚类损失使用聚类伪标签来确定所述图像的弱监督对比损失
Figure FDA0003786198050000012
以及
基于所述聚类损失和所述弱监督对比损失来确定所述损失函数
Figure FDA0003786198050000013
2.如权利要求1所述的方法,还包括:确定所述图像的框采样损失
Figure FDA0003786198050000014
3.如权利要求2所述的方法,还包括:进一步基于所述聚类损失、所述弱监督对比损失和所述框采样损失来确定所述损失函数。
4.如权利要求3所述的方法,其中,使用以下项确定所述损失函数:
Figure FDA0003786198050000015
其中η1是关于所述弱监督对比损失的尺度,并且η2是关于所述框采样损失的尺度。
5.如权利要求2所述的方法,其中,确定所述图像的所述框采样损失包括:
从所述图像的特征图提取随机设定大小的框;
对所提取框中的每一个执行平均池化;以及
基于相应框中的大多数标签,用同一标签指定每个框的平均池化特征中的所有特征向量。
6.如权利要求2所述的方法,其中,确定所述图像的所述框采样损失是使用以下项执行的:
Figure FDA0003786198050000016
其中
Figure FDA0003786198050000017
其中|yi|是采样框中yi的数量,
Figure FDA0003786198050000018
表示采样框中所有像素的平均信息,d是距离度量,并且|Z(i)|是具有同一类标签i的特征数量。
7.如权利要求1所述的方法,其中,确定所述图像的所述弱监督对比损失是使用以下项执行的:
Figure FDA0003786198050000021
其中d是距离度量,并且|Z(i)|是具有同一类标签i的特征数量。
8.一种用于通过确定用于无监督图像分割的损失函数来训练特征提取模型的设备,所述设备包括:
处理器;以及
存储器,所述存储器被配置为存储指令,所述指令在执行时控制所述处理器以:
从图像确定聚类损失
Figure FDA0003786198050000022
基于所述聚类损失使用聚类伪标签来确定所述图像的弱监督对比损失
Figure FDA0003786198050000023
并且
基于所述聚类损失和所述弱监督对比损失来确定所述损失函数
Figure FDA0003786198050000024
9.如权利要求8所述的设备,其中,所述指令进一步控制所述处理器以确定所述图像的框采样损失
Figure FDA0003786198050000025
10.如权利要求9所述的设备,其中所述指令进一步控制所述处理器以进一步基于所述聚类损失、所述弱监督对比损失和所述框采样损失来确定所述损失函数。
11.如权利要求10所述的方法,其中,所述指令进一步控制所述处理器以使用以下项确定所述损失函数:
Figure FDA0003786198050000026
其中η1是关于所述弱监督对比损失的尺度,并且η2是关于所述框采样损失的尺度。
12.如权利要求9所述的设备,其中,所述指令进一步控制所述处理器以通过以下项确定所述图像的所述框采样损失:
从所述图像的特征图提取随机设定大小的框;
对所提取框中的每一个执行平均池化;并且
基于相应框中的大多数标签,用同一标签指定每个框的平均池化特征中的所有特征向量。
13.如权利要求9所述的设备,其中,所述指令进一步控制所述处理器以使用以下项确定所述图像的所述框采样损失:
Figure FDA0003786198050000031
其中
Figure FDA0003786198050000032
其中|yi|是采样框中yi的数量,
Figure FDA0003786198050000033
表示采样框中所有像素的平均信息,d是距离度量,并且|Z(i)|是具有同一类标签i的特征数量。
14.如权利要求8所述的设备,其中,所述指令进一步控制所述处理器以使用以下项确定所述图像的所述弱监督对比损失:
Figure FDA0003786198050000034
其中d是距离度量,并且|Z(i)|是具有同一类标签i的特征数量。
15.一种通过确定用于无监督图像分割的损失函数来训练特征提取模型的方法,所述方法包括:
从图像确定聚类损失
Figure FDA0003786198050000035
确定所述图像的框采样损失
Figure FDA0003786198050000036
以及
基于所述聚类损失和所述框采样损失来确定所述损失函数
Figure FDA0003786198050000037
16.如权利要求15所述的方法,其中,确定所述图像的所述框采样损失包括:
从所述图像的特征图提取随机设定大小的框;
对所提取框中的每一个执行平均池化;并且
基于相应框中的大多数标签,用同一标签指定每个框的平均池化特征中的所有特征向量。
17.如权利要求15所述的方法,其中,确定所述图像的所述框采样损失是使用以下项执行的:
Figure FDA0003786198050000038
其中
Figure FDA0003786198050000039
其中|yi|是采样框中yi的数量,
Figure FDA00037861980500000310
表示采样框中所有像素的平均信息,d是距离度量,并且|Z(i)|是具有同一类标签i的特征数量。
18.一种用于通过确定用于无监督图像分割的损失函数来训练特征提取模型的设备,所述设备包括:
处理器;以及
存储器,所述存储器被配置为存储指令,所述指令在执行时控制所述处理器以:
从图像确定聚类损失
Figure FDA0003786198050000041
确定所述图像的框采样损失
Figure FDA0003786198050000042
并且
基于所述聚类损失和所述框采样损失来确定所述损失函数
Figure FDA0003786198050000043
19.如权利要求18所述的设备,其中,所述指令进一步控制所述处理器以通过以下项确定所述图像的所述框采样损失:
从所述图像的特征图提取随机设定大小的框;
对所提取框中的每一个执行平均池化;以及
基于相应框中的大多数标签,用同一标签指定每个框的平均池化特征中的所有特征向量。
20.如权利要求18所述的设备,其中,所述指令进一步控制所述处理器以使用以下项确定所述图像的所述框采样损失:
Figure FDA0003786198050000044
其中
Figure FDA0003786198050000045
其中|yi|是采样框中yi的数量,
Figure FDA0003786198050000046
表示采样框中所有像素的平均信息,d是距离度量,并且|Z(i)|是具有同一类标签i的特征数量。
CN202210942308.2A 2021-08-13 2022-08-08 用于分割任务的无监督学习的系统和方法 Pending CN115705694A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202163232848P 2021-08-13 2021-08-13
US63/232,848 2021-08-13
US17/825,391 2022-05-26
US17/825,391 US20230050573A1 (en) 2021-08-13 2022-05-26 System and method for unsupervised learning of segmentation tasks

Publications (1)

Publication Number Publication Date
CN115705694A true CN115705694A (zh) 2023-02-17

Family

ID=85040053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210942308.2A Pending CN115705694A (zh) 2021-08-13 2022-08-08 用于分割任务的无监督学习的系统和方法

Country Status (5)

Country Link
US (1) US20230050573A1 (zh)
KR (1) KR20230025337A (zh)
CN (1) CN115705694A (zh)
DE (1) DE102022114631A1 (zh)
TW (1) TW202307789A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117746079B (zh) * 2023-11-15 2024-05-14 中国地质大学(武汉) 一种高光谱图像的聚类预测方法、系统、存储介质及设备

Also Published As

Publication number Publication date
TW202307789A (zh) 2023-02-16
DE102022114631A1 (de) 2023-02-16
US20230050573A1 (en) 2023-02-16
KR20230025337A (ko) 2023-02-21

Similar Documents

Publication Publication Date Title
EP4167130A1 (en) Neural network training method and related device
CN111476306A (zh) 基于人工智能的物体检测方法、装置、设备及存储介质
TWI822987B (zh) 用於確定影像的深度資訊的系統及方法
CN111914812B (zh) 图像处理模型训练方法、装置、设备及存储介质
TWI813802B (zh) 藉由共用表示進行多個隨機變數之間的隨機性推斷的方法及系統
CN111950570B (zh) 目标图像提取方法、神经网络训练方法及装置
CN112733970B (zh) 图像分类模型处理方法、图像分类方法及装置
JP2022177232A (ja) 画像処理方法、テキスト認識方法及び装置
US10769475B2 (en) Method of identifying objects based on region of interest and electronic device supporting the same
CN114118196A (zh) 用于训练用于图像分类的模型的方法和设备
CN113435568A (zh) 计算机实施的用于训练神经网络的方法和电子系统
CN113490947A (zh) 检测模型训练方法、装置、检测模型使用方法及存储介质
CN113392180A (zh) 文本处理方法、装置、设备及存储介质
CN113822427A (zh) 一种模型训练的方法、图像匹配的方法、装置及存储介质
CN114817612A (zh) 多模态数据匹配度计算和计算模型训练的方法、相关装置
CN113569607A (zh) 动作识别方法、装置、设备以及存储介质
CN115705694A (zh) 用于分割任务的无监督学习的系统和方法
CN109886089A (zh) 掌纹识别方法、装置和计算机设备
US11687780B2 (en) Method and apparatus for data efficient semantic segmentation
CN116048682A (zh) 一种终端系统界面布局对比方法及电子设备
CN115222047A (zh) 一种模型训练方法、装置、设备及存储介质
CN111695419B (zh) 一种图像数据处理方法及相关装置
US11575453B2 (en) Method and apparatus for providing enhanced reference signal received power estimation
CN116824196A (zh) 图像分类模型的训练方法、图像分类方法、装置以及设备
CN116958992A (zh) 一种文本识别方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication