CN114821045A - 语义分割方法、装置、电子设备及存储介质 - Google Patents

语义分割方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114821045A
CN114821045A CN202210294719.5A CN202210294719A CN114821045A CN 114821045 A CN114821045 A CN 114821045A CN 202210294719 A CN202210294719 A CN 202210294719A CN 114821045 A CN114821045 A CN 114821045A
Authority
CN
China
Prior art keywords
sample
image
semantic segmentation
network
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210294719.5A
Other languages
English (en)
Inventor
高斌斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210294719.5A priority Critical patent/CN114821045A/zh
Publication of CN114821045A publication Critical patent/CN114821045A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种语义分割方法、装置、电子设备及存储介质,可应用于云技术、人工智能、智慧交通、辅助驾驶、工业缺陷质检等各种场景,该方法包括:获取支撑图像和待分割的查询图像;将支撑图像和查询图像输入语义分割网络,得到查询图像的语义分割结果;语义分割网络为基于标注有第一样本类别标注结果的少量几张样本支撑图像和标注有第二样本类别标注结果的样本查询图像,对预设语义分割网络中的第一分支网络和第二分支网络进行训练得到。本申请实施例基于第一分支网络和第二分支网络进行训练得到语义分割网络,但在测试过程中使用第一分支网络就能够提高查询图像的语义分割精度,因无需第二分支网络所以也未增加额外增加系统资源的消耗。

Description

语义分割方法、装置、电子设备及存储介质
技术领域
本申请属于计算机技术领域,具体涉及一种语义分割方法、装置、电子设备及存储介质。
背景技术
小样本分割方法指的是,使用少量带掩码标注的支撑图像(Support image)和需要预测的查询图像(Query image)作为输入,输出在查询图像上的语义分割结果。
相关技术中通常使用原型来表示支持图像中前景对象的典型信息,并对比原型与查询图像的像素级特征,根据特征对比结果预测查询图像的语义分割结果。然而相关技术中的网络在训练过程中通常会将新类别的目标当作背景,导致在网络测试阶段仍然错误的预测新类别目标为背景,从而降低网络在测试阶段的语义分割精度。
发明内容
为了解决上述问题,本申请提供一种语义分割方法、装置、电子设备及存储介质。
一方面,本申请提出了一种语义分割方法,所述方法包括:
获取支撑图像和待分割的查询图像;
将所述支撑图像和所述查询图像输入语义分割网络,得到所述查询图像的语义分割结果;
其中,所述语义分割网络为基于标注有第一样本类别标注结果的样本支撑图像和标注有第二样本类别标注结果的样本查询图像,对预设语义分割网络中的第一分支网络和第二分支网络进行训练得到,所述第一分支网络用于对比学习所述样本支撑图像的第一样本图像特征和所述样本查询图像的第二样本图像特征,所述第二分支网络用于对比学习至少两个第二样本子图像特征,所述至少两个第二样本子图像特征为对所述第二样本图像特征中的样本背景图像特征进行聚类得到。
另一方面,本申请实施例提供了一种语义分割装置,所述装置包括:
图像获取模块,用于获取支撑图像和待分割的查询图像;
输入模块,用于将所述支撑图像和所述查询图像输入语义分割网络,得到所述查询图像的语义分割结果;
其中,所述语义分割网络为基于标注有第一样本类别标注结果的样本支撑图像和标注有第二样本类别标注结果的样本查询图像,对预设语义分割网络中的第一分支网络和第二分支网络进行训练得到,所述第一分支网络用于对比学习所述样本支撑图像的第一样本图像特征和所述样本查询图像的第二样本图像特征,所述第二分支网络用于对比学习至少两个第二样本子图像特征,所述至少两个第二样本子图像特征为对所述第二样本图像特征中的样本背景图像特征进行聚类得到。
另一方面,本申请提出了一种电子设备,该电子设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现如上述所述的语义分割方法。
另一方面,本申请提出了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述所述的语义分割方法。
另一方面,本申请提出了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述所述的语义分割方法。
本申请实施例提出的语义分割方法、装置、设备及存储介质,通过标注有第一样本类别标注结果的样本支撑图像和标注有第二样本类别标注结果的样本查询图像,对预设语义分割网络中的第一分支网络和第二分支网络进行训练得到语义分割网络,其中,该第一分支网络用于对比学习样本支撑图像的第一样本图像特征和样本查询图像的第二样本图像特征,该第二分支网络用于对比学习至少两个第二样本子图像特征,该至少两个第二样本子图像特征为对第二样本图像特征中的样本背景图像特征进行聚类得到。由于语义分割网络的训练过程不仅能够学习类别可知的样本支撑图像的第一样本图像特征和样本查询图像的第二样本图像特征之间的比对,还可以学习类别不可知的至少两个第二样本子图像特征之间的比对,从而丰富了小样本语义分割的特征比较学习的方式,可以帮助网络学习到更精准的特征表示,充分挖掘潜在的类别,避免在训练过程中将新类别的目标当作背景,从而减缓系统偏见问题,提高语义分割网络的训练精度。此外,使用该训练精度较高的语义分割网络,能够提高小样本语义分割场景中的查询图像的语义分割精度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是根据一示例性实施例示出的一种语义分割方法的实施环境示意图。
图2是根据一示例性实施例示出的一种语义分割方法的流程示意图。
图3是根据一示例性实施例示出的一种语义分割网络的训练方法流程图。
图4是根据一示例性实施例示出的另一种获取语义分割网络的流程图。
图5是根据一示例性实施例示出的一种得到样本查询图像的第一样本语义分割结果的流程图。
图6是根据一示例性实施例示出的一种至少两个第二样本子图像特征的获取方法的流程图。
图7是根据一示例性实施例示出的一种对样本背景图像特征进行聚类,得到至少两个第二样本子图像特征的示意图。
图8是根据一示例性实施例示出的一种得到第二样本融合特征的流程图。
图9是根据一示例性实施例示出的一种得到上述语义分割网络的流程图。
图10是根据一示例性实施例示出的一种得到上述查询图像的语义分割结果的流程图。
图11是根据一示例性实施例示出的一种语义分割结果效果对比图。
图12是根据一示例性实施例示出的一种语义分割装置框图。
图13是根据一示例性实施例示出的一种语义分割方法的服务器的硬件结构框图。
具体实施方式
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
具体地,本申请实施例中的获取所述语义分割网络的过程涉及AI中的深度学习中的人工神经网络技术。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1是根据一示例性实施例示出的一种语义分割方法的实施环境示意图。如图1所示,该实施环境至少可以包括终端01和服务器02。终端01和服务器02之间可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例在此不做限制。
具体地,该终端01可以用于采集支撑图像和待分割的查询图像。可选地,该终端01可以包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
具体地,该服务器02可以用于获取支撑图像和待分割的查询图像;以及用于将支撑图像和上查询图像输入语义分割网络,得到查询图像的语义分割结果。以及用于基于标注有第一样本类别标注结果的样本支撑图像和标注有第二样本类别标注结果的样本查询图像,对预设语义分割网络中的第一分支网络和第二分支网络进行训练,得到语义分割网络。
可选地,该服务器02可以是独立的物理设备、物理服务器。也可以是多个物理服务器构成的服务器集群或者分布式系统。还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
需要说明的是,图1仅仅是一种示例。在其他场景中,还可以包括其他实施环境。例如,包括终端的场景,由终端获取支撑图像和待分割的查询图像;以及由终端将第一图像特征和上述第二图像特征输入语义分割网络,得到查询图像的语义分割结果。以及由终端基于标注有第一样本类别标注结果的样本支撑图像和标注有第二样本类别标注结果的样本查询图像,对预设语义分割网络中的第一分支网络和第二分支网络进行训练,得到语义分割网络。
图2是根据一示例性实施例示出的一种语义分割方法的流程示意图。该方法可以用于图1中的实施环境中。本说明书提供了如实施例或流程图上述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,该方法可以包括:
S101.获取支撑图像和待分割的查询图像。
可选地,该支撑图像标注有目标的类别标注结果。例如,该支撑图像中包含有手机、羊、人物等目标,则可以分别为手机、羊、人物等标注相应的类别标注结果。示例性地,该类别标注结果可以通过前景掩码来体现,前景掩码用于描述目标在支撑图像中所占的区域,即对支撑图像中的目标进行标注,以标注出支撑图像中的目标所在的区域。需要说明的是,可以将支撑图像中除目标所在区域以外的区域(即未标注的区域)之外的区域,作为背景掩码。
示例性地,该前景掩码和背景掩码均可以为与支撑图像具有相同高估和宽度的二值图。二值图中的像素与支持图像中同位置的像素一一对应。当前景掩码中任一像素的像素值为1,说明在支持图像中与该像素对应的像素属于前景,换而言之,属于目标;当前景掩码中任一像素的像素值为0,说明在支持图像中与该像素对应的像素属于背景。当背景掩码中任一像素的像素值为1,说明在支持图像中与该像素对应的像素属于背景;当背景掩码中任一像素的像素值为0,说明在支持图像中与该像素对应的像素属于前景。
可选地,该查询图像为待接受语义分割的图像。
在一种方式中,支撑图像和查询图像中可以包含相同的目标。即支撑图像和查询图像中均存在待识别的目标类别对应的目标。通过借助支撑图像的信息,可以将查询图像中的目标分割出来。例如,支撑图像和查询图像中均包含的目标为“手机”,则在对查询图像进行语义分割的时候,可以将“手机”分割出来。
在另一种方式中,支撑图像和查询图像中可以不包含相同的目标。即支撑图像和查询图像中并非均存在待识别的目标类别对应的目标。通过借助支撑图像的信息,可以将查询图像中的相应的背景分割出来。例如,支撑图像中包含的目标为“手机”,而查询图像中不包含该“手机”,则在对查询图像进行语义分割的时候,可以将相应的背景分割出来。
S103.将上述支撑图像和上述查询图像输入语义分割网络,得到上述查询图像的语义分割结果;其中,上述语义分割网络为基于标注有第一样本类别标注结果的样本支撑图像和标注有第二样本类别标注结果的样本查询图像,对预设语义分割网络中的第一分支网络和第二分支网络进行训练得到,上述第一分支网络用于对比学习上述样本支撑图像的第一样本图像特征和上述样本查询图像的第二样本图像特征,上述第二分支网络用于对比学习至少两个第二样本子图像特征,上述至少两个第二样本子图像特征为对上述第二样本图像特征中的样本背景图像特征进行聚类得到。
本申请实施例中,在将第一图像特征和上述第二图像特征输入语义分割网络后,语义分割网络会对第一图像特征和上述第二图像特征进行处理,得到查询图像的语义分割结果。
在一种方式中,该语义分割结果可以为查询图像中的目标为某一类别的结果。例如,该语义分割结果为查询图像中的目标为“羊”。
在另一种方式中,该语义分割结果可以为查询图像中的目标,属于某一类别的概率。例如,语义分割结果为查询图像中的目标为“羊”的概率为90%等。
在另一种方式中,该语义分割结果可以为查询图像中的目标的掩码图像,该掩码图像用于描述查询图像中的目标所在的位置区域。
需要说明的是,本申请实施例的应用场景为小样本分割场景,在小样本分割场景中,支撑图像的数量为少量几张。即通过预先训练好的语义分割网络,借助少量几张标注的支撑图像的信息,对查询图像进行语义分割,得到查询图像的语义分割结果。
本申请实施例中,由于语义分割网络的训练过程不仅能够学习类别可知的样本支撑图像的第一样本图像特征和样本查询图像的第二样本图像特征之间的比对,还可以学习类别不可知的至少两个第二样本子图像特征之间的比对,从而丰富了小样本语义分割的特征比较学习的方式,可以帮助网络学习到更精准的特征表示,充分挖掘潜在的类别,避免在训练过程中将新类别的目标当作背景,从而减缓系统偏见问题,提高语义分割网络的训练精度,使用该训练精度较高的语义分割网络,能够在测试过程中,避免将新类别的目标当作背景,能够提高小样本语义分割场景中的查询图像的语义分割结果的确定精度。
以下,介绍语义分割网络的训练过程。
图3是根据一示例性实施例示出的一种语义分割网络的训练方法流程图。如图3所示,在一个可选的实施例中,语义分割网络的训练方法可以包括:
S201.获取上述样本支撑图像和上述样本查询图像。
可选地,该样本支撑图像标注有样本目标的第一样本类别标注结果。例如,该支撑图像中包含有手机、羊、人物等目标,则可以分别为手机、羊、人物等标注相应的类别标注结果。该样本查询图像为待接受语义分割的图像,其标注有样本目标的第二样本类别标注结果。
可选地,样本支撑图像和样本查询图像中包含相同的样本目标。即样本支撑图像和样本查询图像中均存在待识别的样本目标类别对应的样本目标。通过借助样本支撑图像的信息,可以将样本查询图像中的样本目标分割出来。例如,样本支撑图像和样本查询图像中均包含的样本目标为“电视”,则在对样本查询图像进行语义分割的时候,可以将“电视”分割出来。
可选地,该第一样本类别标注结果和第二样本类别标注结果均可以通过样本前景掩码来体现。以样本支撑图像为例,样本前景掩码用于描述样本目标在样本支撑图像中所占的样本区域(样本支撑图像的样本前景区域),即对样本支撑图像中的样本目标(即前景)进行标注,以标注出样本支撑图像中的样本目标所在的样本区域。需要说明的是,可以将样本支撑图像中除样本目标所在区域以外的区域(即未标注的区域),作为样本支撑图像的样本背景掩码。以样本查询图像为例,样本前景掩码用于描述样本目标在样本查询图像中所占的样本区域(样本查询图像的样本前景区域),即对样本查询图像中的样本目标(即前景)进行标注,以标注出样本查询图像中的样本目标所在的样本区域。需要说明的是,可以将样本查询图像中除样本目标所在区域以外的区域(即未标注的区域),作为样本查询图像的样本背景掩码。
示例性地,该样本前景掩码和样本背景掩码均可以为与样本支撑图像或样本查询图像具有相同高估和宽度的二值图。
需要说明的是,本申请实施例的应用场景为小样本分割场景,在小样本分割场景中,样本支撑图像的数量为少量几张,即通过少量几张标注的样本支撑图像和样本查询图像,对预设神经网络进行训练,得到该语义分割网络。
S203.基于上述第一分支网络对上述第一样本图像特征和上述第二样本图像特征进行对比学习,得到上述样本查询图像的第一样本语义分割结果。
图4是根据一示例性实施例示出的另一种获取语义分割网络的流程图。如图4所示,在一种实施方式中,在将样本支撑图像和样本查询图像输入预设语义分割网络之前,可以通过预先训练好的特征提取网络,提取得到该样本支撑图像的第一样本图像特征,以及该查询图像的第二样本图像特征。示例性地,该特征提取网络可以由残差神经网络(Residual Neural Network,ResNet),视觉几何群网络(Visual Geometry GroupNetwork,VGG),宽残差网络(Wide Residual Network,Wide ResNet)等深度神经网络训练得到。
示例性地,该第一样本图像特征和第二样本图像特征均可以为特征图(featuremap)。
在另一种方式中,还可以在预设语义分割网络中设置特征提取模块,通过该特征提取模块提取得到该样本支撑图像的第一样本图像特征和查询图像的第二样本图像特征。
可选地,继续如图4所示,该预设神经网络可以包括两个分支网络,即第一分支网络和第二分支网络。该第一分支网络用于对第一样本图像特征和第二样本图像特征进行对比学习,由于样本支撑图像和样本查询图像的均进行了类别标注,类别均是可知的,即该第一分支网络可以理解为类别可知分支网络,其可以学习类别可知的第一样本图像特征与第二样本图像特征之间的比对。该第二分支网络用于对至少两个第二样本子图像特征进行对比学习,由于至少两个第二样本子图像特征是对样本背景图像特征进行聚类得到,样本查询图像的标注是将目标样本标注出来,即对前景进行标注,并未对背景区域进行标注,至少两个第二样本子图像特征的类别是未知的,即该第二分支网络可以理解为类别不可知分支网络,其用于学习样本查询图像的样本背景图像特征对应的至少两个第二样本子图像特征之间的比对。上述新型的学习范式丰富了特征比较学习的方式,可以帮助网络学习到更精准的特征表示,充分挖掘潜在的类别,避免在训练过程中将新类目标当作背景,从而减缓系统偏见问题,提高语义分割网络的训练精度。
图5是根据一示例性实施例示出的一种得到样本查询图像的第一样本语义分割结果的流程图,如图5所示,在一个可选的实施例中,在上述步骤S203中,上述得到上述样本查询图像的第一样本语义分割结果,可以包括:
S2031.将上述第一样本图像特征和上述第一样本类别标注结果,输入上述第一分支网络。
S2033.基于上述第一分支网络对上述第一样本图像特征和上述第一样本类别标注结果进行全局平均池化处理,得到上述样本支撑图像的样本前景区域对应的样本前景原型;样本支撑图像的样本前景区域为第一样本类别标注结果所在的区域。
S2035.基于上述第一分支网络融合上述样本前景原型和上述第二样本图像特征,得到第一样本融合特征。
S2037.基于上述第一分支网络对上述第一样本融合特征进行编码,得到上述第一样本语义分割结果。
可选地,在上述步骤S2031中,继续如图4所示,可以将第一样本图像特征和上述第一样本类别标注结果,作为第一分支网络的输入。
可选地,在上述步骤S2033中,继续如图4所示,该第一分支网络可以对第一样本图像特征和上述第一样本类别标注结果进行全局平均池化处理,得到该样本前景原型。其中,原型可以指的是在输入图像和目标类别之间的一个关系映射,也可以理解为图像中目标类别的一种抽象表达。样本前景原型可以指的是样本支撑图像和样本类别之间的一个关系映射,也可以理解为样本支撑图像中样本类别的一种抽象表达。
示例性地,以第一样本类别标注结果用于描述支撑图像中的样本目标在样本支撑图像中所占的样本区域,即样本前景掩码为例,则可以采用如下公式计算该样本前景原型:
Figure BDA0003561452310000111
其中,
Figure BDA0003561452310000112
指的是样本前景原型,
Figure BDA0003561452310000113
指的是第一样本图像特征,
Figure BDA0003561452310000114
指的是第一样本类别标注结果(比如,样本前景掩码),⊙指的元素级别的乘法运算。
可选地,在上述步骤S2035中,第一分支网络可以将样本前景原型
Figure BDA0003561452310000115
分配到样本查询图像的第二样本图像特征的每个空间位置,并学习特征比较来识别查询图像中呈现的前景对象。在一种实施方式中,在上述步骤S2035中,上述得到第一样本融合特征可以包括:
基于上述第一分支网络将上述样本前景原型的尺寸扩展至上述第二样本图像特征的尺寸,得到扩展后的样本前景原型。
基于上述第一分支网络对上述扩展后的样本前景原型和上述第二样本图像特征进行融合,得到上述第一样本融合特征。
示例性地,继续如图4所示,可以将样本前景原型
Figure BDA0003561452310000121
的尺寸扩展为与样本查询图像的第二样本图像特征(Fq)相同的尺寸,使二者形状相同,然后在Fq的通道维度上,将扩展后的样本前景原型和第二样本图像特征融合拼接起来,得到第一样本融合特征,融合公式可以如下:
Figure BDA0003561452310000122
其中,Es指的是样本前景原型
Figure BDA0003561452310000123
的扩展操作,Fq指的是第二样本图像特征,
Figure BDA0003561452310000124
指的是融合,Xsq指的是第一样本融合特征。
本申请实施例选中,通过将样本前景原型的尺寸扩展至第二样本图像特征的尺寸,并对扩展后的样本前景原型和第二样本图像特征进行融合,能够提高第一样本融合特征的确定精度,进而提高小样本语义分割场景中的第一样本语义分割结果的确定精度。
在一个可行的实施例中,为了在样本查询图像上获取更好的语义分割结果,在上述步骤S2037中,继续如图4所示,可以通过第一分支网络中的卷积模块对上述第一样本融合特征进行编码,得到上述第一样本语义分割结果,公式可以如下:
Figure BDA0003561452310000125
其中,Xsq指的是第一样本融合特征,gφ指的是卷积,
Figure BDA0003561452310000126
指的是第一样本语义分割结果。
可选地,gφ可以采用二值分类的方式进行像素级特征比较,在卷积编码过程中,验证第二样本图像特征中的像素,是否与扩展后的样本前景原型对应位置的原型相匹配,如果匹配,则
Figure BDA0003561452310000127
为1,否则,
Figure BDA0003561452310000128
为0。
在一种方式中,该第一样本语义分割结果可以为样本查询图像中的样本目标为某一类别的结果。例如,该第一样本语义分割结果为样本查询图像中的样本目标为“羊”。
在另一种方式中,该第一样本语义分割结果可以为样本查询图像中的样本目标,属于某一类别的概率。例如,该第一样本语义分割结果为样本查询图像中的样本目标为“羊”的概率为90%等。
在另一种方式中,该第一样本语义分割结果可以为样本查询图像中的样本目标的样本掩码图像,该样本掩码图像用于描述样本查询图像中的样本目标所在的位置区域。
本申请实施例中,通过第一分支网络对第一样本图像特征和上述第一样本类别标注结果进行全局平均池化处理,得到样本前景原型,融合上述样本前景原型和上述第二样本图像特征,得到第一样本融合特征,对上述第一样本融合特征进行编码,得到上述第一样本语义分割结果,实现了对类别可知的第一样本图像特征和第二样本图像特征进行对比学习,丰富了小样本语义分割场景中的特征比较学习的方式,可以帮助网络学习到更精准的特征表示,充分挖掘潜在的类别,避免在训练过程中将新类目标当作背景,从而减缓系统偏见问题,提高语义分割网络的训练精度。
S205.基于上述第二分支网络对上述至少两个第二样本子图像特征进行对比学习,得到上述样本查询图像的第二样本语义分割结果。
图6是根据一示例性实施例示出的一种至少两个第二样本子图像特征的获取方法的流程图。如图6所示,在一个可选的实施例中,上述方法还可以包括获取上述至少两个第二样本子图像特征,该至少两个第二样本子图像特征的获取方法可以包括:
S301.将上述样本查询图像中,除上述第二样本类别标注结果所在区域之外的区域,作为上述样本查询图像的样本背景区域。
S303.获取上述第二样本图像特征中,与上述样本背景区域对应的上述样本背景图像特征。
S305.基于上述样本背景图像特征中的特征之间的距离,对上述样本背景图像特征进行聚类,得到上述至少两个第二样本子图像特征。
可选地,为了获取样本查询图像的样本背景原型,可以对样本查询图像的样本背景区域进行聚类,从而将样本背景区域对应的样本背景图像特征划分为至少两个第二样本子图像特征。
可选地,在第二样本类别标注结果用于描述样本查询图像中的样本目标在样本查询图像中所占的样本区域的情况下,在上述步骤S301中,可以根据该第二样本类别标注结果确定出样本查询图像中的样本背景区域。示例性地,可以将样本查询图像中除第二样本类别标注结果所在区域之外的区域,作为该样本背景区域,即将样本查询图像中标注出的样本前景所在区域之外的区域,作为该样本背景区域。
可选地,在上述步骤S303中,可以从第二样本图像特征中,将与该样本背景区域对应的图像特征提取出来,得到该样本背景图像特征。其中,该样本背景图像特征可以用于描述该样本背景区域对应的深度特征。
在一种方式中,在上述步骤S305中,可以采用k均值聚类算法(k-means聚类算法)将样本背景图像特征划分为若干个分块,得到至少两个第二样本子图像特征。作为一种示例,可以采用k-means聚类算法,在特征空间对样本背景图像特征中的特征之间的距离进行聚类,得到至少两个特征簇,将该至少两个特征簇作为该至少两个第二样本子图像特征,该至少两个特征簇中的特征尽量紧密连接在一起,不同的特征簇之间的距离尽量的大。在另一种方式中,在上述步骤S305中,还可以采用固定网格的划分方式将样本背景图像特征划分为若干个分块。
示例性地,该样本背景图像特征可以为样本背景特征图,该第二样本子图像特征可以为第二样本子特征图。在该情况下,对样本背景图像特征进行聚类,相当于是将样本背景图像特征划分为若干个图像特征区域。
图7是根据一示例性实施例示出的一种对样本背景图像特征进行聚类,得到至少两个第二样本子图像特征的示意图。如图7所示,使用k-means聚类算法聚类产生的划分区域更加合理,每一个区域都有相对明确的语义信息。以图7中的第1列为例进行说明,图7中的第1列的样本前景为“自行车”,样本背景区域为除了“自行车”所在区域之外的区域,使用k-means聚类算法,在特征空间对样本背景图像特征中的特征之间的距离进行聚类,得到三个分块(分块1、分块2、分块3),该三个分块指示三个第二样本子图像特征。
本申请实施例中,由于样本背景区域是样本查询图像中,除第二样本类别标注结果所描述的样本目标所占的样本区域之外的区域(样本前景所在区域之外的区域),该样本背景区域是无标注的,使用k-means聚类算法以无监督的形式,对样本背景区域进行划分,即将样本背景图像特征划分为若干个分块,得到多个类别不可知的代理特征(即至少两个第二样本子图像特征),使得后续能够针对每个分块取得对应的样本背景原型,由于分块内的每个像素都应该和对应的背景原型相似,便于为无标签的目标寻找原型,也便于后续根据第二分支网络对多个类别不可知的代理特征以自我对比的方式进行特征比对,充分挖掘出潜在的类别,避免在训练过程中将新类目标当作背景,从而减缓小样本语义分割场景中的系统偏见问题,从而提高语义分割网络的训练精度。
图8是根据一示例性实施例示出的一种得到第二样本融合特征的流程图,如图8所示,在一个可选的实施例中,在上述步骤S205中,上述得到第二样本融合特征可以包括:
S2051.将上述至少两个第二样本子图像特征输入上述第二分支网络。
S2053.基于上述第二分支网络对上述至少两个第二样本子图像特征和上述第二样本类别标注结果进行全局平均池化处理,得到上述至少两个第二样本子图像特征各自对应的样本背景原型。
可选地,在上述步骤S2051中,可以将至少两个第二样本子图像特征作为第二分支网络的输入,由第二分支网络对该至少两个第二样本子图像特征进行类别不可知的代理特征之间的自比对。
可选地,在上述步骤S2053中,继续如图4所示,该第二分支网络可以对第二样本图像特征和第二样本类别标注结果进行全局平均池化处理,得到至少两个第二样本子图像特征各自对应的样本背景原型。例如,至少两个第二样本子图像特征为3个,则会生成3个样本背景原型。
示例性地,样本背景原型可以指的是样本查询图像和样本类别之间的一个关系映射,也可以理解为样本查询图像中样本类别的一种抽象表达。
示例性地,以第二样本类别标注结果用于描述样本查询图像中的样本目标在样本查询图像中所占的样本区域,即前景掩码为例,则可以采用如下公式计算该样本背景原型:
Figure BDA0003561452310000161
其中,
Figure BDA0003561452310000162
指的是样本背景原型,
Figure BDA0003561452310000163
指的至少两个第二样本图像特征,
Figure BDA0003561452310000164
指的是第二样本类别标注结果,⊙指的元素级别的乘法运算,h为
Figure BDA0003561452310000165
的高,w为
Figure BDA0003561452310000166
的宽。
S2055.基于上述第二分支网络融合上述至少两个第二样本子图像特征和上述至少两个第二样本子图像特征各自对应的样本背景原型,得到第二样本融合特征。
在一种方式中,第二分支网络中可以包括融合单元,通过融合单元对至少两个第二样本子图像特征和上述至少两个第二样本子图像特征各自对应的样本背景原型件融合,得到该第二样本融合特征。
在另一种方式中,在上述步骤S2055中,上述得到第二样本融合特征可以包括:
基于上述第二分支网络将每个样本背景原型的尺寸扩展至对应的第二样本子图像特征的尺寸,得到上述每个样本背景原型对应的扩展后的样本背景原型。
对上述每个样本背景原型对应的扩展后的样本背景原型以及对应的第二样本子图像特征进行融合,得到上述第二样本融合特征。
可选地,可以扩展每个样本背景原型
Figure BDA0003561452310000167
的尺寸,填充
Figure BDA0003561452310000168
为1的相应位置,从而为每个背景原型扩展得到一个区域样本背景原型,即扩展后的样本背景原型。然后,将所有展开的样本背景原型
Figure BDA0003561452310000169
及其对应的第二样本子图像特征在深度维度上串联,其中,“对应的第二样本子图像特征”指的是生成该样本背景原型所使用的第二样本子图像特征。通过这种方式,实现了对每个样本背景原型的正对构造(即样本背景原型与对应的第二样本子图像特征)。同时,还可以从所有的样本背景原型中随机选择一个样本背景原型,并将其与样本查询图像中的前景特征(即样本前景区域对应的特征)的每个位置密集配对,该配对方式会得到一个平凡的解,即得到一个整张图都为1的掩码。
示例性地,可以采用如下公式,对上述每个样本背景原型对应的扩展后的样本背景原型以及对应的第二样本子图像特征进行融合:
Figure BDA0003561452310000171
其中,Xqq指的是第二样本融合特征,
Figure BDA0003561452310000172
指的是至少两个第二样本子图像特征各自对应的样本背景原型,Fq指的是第二样本子图像特征,Eq指的是对样本背景原型的展开操作。
本申请实施例选中,通过将样本背景原型的尺寸扩展至对应的第二样本图像特征的尺寸,并对扩展后的样本背景原型和对应的第二样本图像特征进行融合,能够提高第二样本融合特征的确定精度,进而提高第二样本语义分割结果的确定精度。
S2057.基于上述第二分支网络对上述第二样本融合特征进行编码,得到上述第二样本语义分割结果。
在一个可行的实施例中,为了在样本图像上获取更好的语义分割结果,在上述步骤S2057中,继续如图4所示,可以在第二分支网络中设置卷积模块,通过该卷积模块对上述第二样本融合特征进行编码,得到第二样本语义分割结果,公式可以如下:
Figure BDA0003561452310000173
其中,Xqq指的是第二样本融合特征,gφ指的是卷积,
Figure BDA0003561452310000174
指的是第二样本语义分割结果。
可选地,gφ采用二值分类的方式进行像素级特征比较,在卷积编码过程中,验证第二样本子图像特征中的像素,是否与扩展后的样本背景原型对应位置的原型相匹配,如果匹配,则
Figure BDA0003561452310000181
为1,否则,
Figure BDA0003561452310000182
为0。
在一种方式中,该第二样本语义分割结果可以为样本查询图像中的样本目标为某一类别的结果。例如,该第二样本语义分割结果为样本查询图像中的样本目标为“羊”。
在另一种方式中,该第二样本语义分割结果可以为样本查询图像中的样本目标,属于某一类别的概率。例如,该第二样本语义分割结果为样本查询图像中的样本目标为“羊”的概率为90%等。
在另一种方式中,该第二样本语义分割结果可以为样本查询图像中的样本目标的样本掩码图像,该样本掩码图像用于描述样本查询图像中的样本目标所在的位置区域。
本申请实施例中,通过第二分支网络对至少两个第二样本子图像特征和上述第二样本类别标注结果进行全局平均池化处理,得到至少两个第二样本子图像特征各自对应的样本背景原型,融合至少两个第二样本子图像特征和各自对应的样本背景原型,得到第二样本融合特征,对第二样本融合特征进行编码,得到第二样本语义分割结果,实现了对类别不可知的至少两个第二样本子图像特征之间的自对比学习,可以最小化每一个代理特征和对应的特征区域,最大化前景特征和任一个类别不可知的代理特征,丰富了小样本语义分割场景中的特征比较学习的方式,可以帮助网络学习到更精准的特征表示,充分挖掘潜在的类别,避免在训练过程中将新类目标当作背景,从而减缓小样本语义分割场景中的系统偏见问题,提高语义分割网络的训练精度;且能够针对每个分块取得对应的样本背景原型,由于分块内的每个像素都应该和对应的背景原型相似,降低了寻找无标签的目标原型的难度,进一步提高了语义分割网络的训练精度。
S207.根据上述第一样本语义分割结果、上述第二样本语义分割结果和上述第二样本类别标注结果,对上述预设语义分割网络中的网络参数进行更新,直至上述网络参数满足预设条件,得到上述语义分割网络。
图9是根据一示例性实施例示出的一种得到上述语义分割网络的流程图,如图9所示,在一个可选的实施例中,在上述步骤S207中,上述得到上述语义分割网络可以包括:
S2071.基于上述第一样本语义分割结果和上述第二样本类别标注结果,确定第一损失值。
S2073.基于上述第二样本语义分割结果和非类别标注结果,确定第二损失值;上述非类别标注结果表征上述第二样本类别标注结果与1的差值。
S2075.根据第一损失值和上述第二损失值,确定目标损失值。
S2077.基于上述目标损失值对上述预设语义分割网络中的网络参数进行更新,直至上述网络参数满足预设条件,得到上述语义分割网络。
本申请实施例中,继续如图4所示,
Figure BDA0003561452310000191
是基于Xsq的编码输出,其结合了样本前景原型和样本查询的第一样本图像特征,而
Figure BDA0003561452310000192
是由Xqq利用样本背景原型原和样本背景图像特征的至少两个第二样本子图像特征得到的。即
Figure BDA0003561452310000193
Figure BDA0003561452310000194
的共同特点是前景与背景的特征比较,无论是Xsq还是Xqq,如果比较是在相同的语义上(即相同的前景类或背景簇),网络应该在这些位置输出预测为1的结果,否则输出预测为0的结果。也就是说,对于类别可知分支网络,其目标标签应该是样本查询图像的掩码Mq(即第二样本类别标注结果),而对于类别不可知网络分支,其目标标签应该是Mq
因此,可以使用交叉熵损失训练得到上述语义分割网络。可选地,在上述步骤S2071中,可以根据第一样本语义分割结果和上述第二样本类别标注结果之间的相似度,确定第一损失值。
可选地,在上述步骤S2073中,可以根据第二样本语义分割结果和非类别标注结果(即
Figure BDA0003561452310000195
)之间的相似度,确定第二损失值。
可选地,在上述步骤S2075,可以确定根据第一损失值的第一权重和上述第二损失值的第二权重,计算第一损失值与第一权重之间的第一乘积,计算第二损失值与第二权重之间的第二乘积,将第一乘积和第二乘积的和,作为目标损失值。
可选地,在上述步骤S2077中,可以基于上述目标损失值对预设语义分割网络中的网络参数进行更新,直至上述网络参数满足预设条件,得到该语义分割网络。其中,目标损失值的计算公式可以如下:
Figure BDA0003561452310000201
其中,L为目标损失值,(1-λ)为第一权重,λ为第二权重,L1为第一损失值,L2为第二损失值。
本申请实施例中,由于
Figure BDA0003561452310000202
是基于Xsq的编码输出,其结合了样本前景原型和样本查询的第一样本图像特征,而
Figure BDA0003561452310000203
是由Xqq利用样本背景原型原和样本背景图像特征的至少两个第二样本子图像特征得到的,通过由第一样本语义分割结果和上述第二样本类别标注结果确定的第一损失值,以及由第二样本语义分割结果和非类别标注结果确定的第二损失值,对预设语义分割网络中的网络参数进行更新,使得语义分割网络的训练过程,即可以学习类别可知的第一样本图像特征与第二样本图像特征之间的比对,还可以学习类别不可知的至少两个第二样本子图像特征之间的比对,该新型的学习范式丰富了特征比较学习的方式,可以帮助网络学习到更精准的特征表示,充分挖掘潜在的类别,避免在训练过程中将新类目标当作背景,从而减缓小样本语义分割场景中的系统偏见问题,提高语义分割网络的训练精度。
图10是根据一示例性实施例示出的一种得到上述查询图像的语义分割结果的流程图,如图10所示。在一个可选的实施例中,在上述步骤S103中,上述支撑图像标注有类别标注结果,上述将上述支撑图像和上述查询图像输入语义分割网络,得到上述查询图像的语义分割结果,可以包括:
S1031.基于上述语义分割网络对上述支撑图像的第一图像特征和上述类别标注结果进行全局平均池化处理,得到上述支撑图像的前景区域对应的前景原型;前景区域为类别标注结果所在的区域。
S1033.基于上述语义分割网络融合上述前景原型和上述查询图像的第二图像特征,得到融合特征。
S1035.基于上述语义分割网络对上述融合特征进行编码,得到上述语义分割结果。
在一种实施方式中,可以将该查询图像输入预先训练好的特征提取网络,提取得到该支撑图像的第一图像特征,将该支撑图像输入预先训练好的特征提取网络,提取得到该查询图像的第二图像特征。示例性地,该特征提取网络可以由残差神经网络(ResidualNeural Network,ResNet),视觉几何群网络(Visual Geometry Group Network,VGG),宽残差网络(Wide Residual Network,Wide ResNet)等深度神经网络训练得到。
示例性地,该第一图像特征和第二图像特征均可以为特征图(feature map)。
在另一种实施方式中,语义分割网络中还可以设置特征提取模块,通过该特征提取模块提取该支撑图像的第一图像特征和该查询图像的第二图像特征。
需要说明的是,虽然在语义分割网络的训练阶段通过第一分支网络对比学习类别可知的样本支撑图像的第一样本图像特征和样本查询图像的第二样本图像特征,通过第二分支网络对比学习类别不可知的至少两个第二样本子图像特征,但在语义分割网络的实际使用阶段,由于查询图像是待分割图像,查询图像并未做任何标注。因此,在语义分割网络的实际使用阶段,不需要类别不可知分支网络,只需要使用类别可知分支网络对第一图像特征和上述第二图像特征进行处理,即可得到查询图像的语义分割结果。
需要说明的是,语义分割网络的实际使用阶段,类别可知分支网络的原理与训练过程类型。可选地,在上述步骤S1031中,可以使用语义分割网络中的类别可知分支网络对上述第一图像特征和上述类别标注结果进行全局平均池化处理,得到支撑图像的前景区域对应的前景原型,该前景区域为类别标注结果所在的区域,计算前景原型的方式与上述步骤S2033中计算样本前景原型的方式相似,在此不再具体赘述。
可选地,在上述步骤S1033中,可以基于上述语义分割网络中的类别可知分支网络,融合上述前景原型和上述第二图像特征,得到融合特征。融合过程与上述步骤S2035相似,在此不再赘述。
可选地,在上述步骤S1035,可以基于语义分割网络中的编码网络,对上述融合特征进行编码,得到上述语义分割结果。编码过程与上述步骤S2037相似,在此不再赘述。
本申请实施例中,由于语义分割网络的训练过程中既可以学习类别可知特征之间的比对,又可以学习类别不可知特征之间的比对,对于背景中出现未知的新类目标,语义分割网络能够有机会将其预测为前景,而不是始终将其预测为背景,提高了小样本分割场景中的语义分割精度;此外,在语义分割网络的实际使用阶段,不需要类别不可知分支网络,只需要使用类别可知分支网络对第一图像特征和上述第二图像特征进行处理,即可得到查询图像的语义分割结果,因此并没有带来任何额外的计算代价和超参,即并未额外消耗系统资源,也没有增加额外的推理时间。
图11是根据一示例性实施例示出的一种语义分割结果效果对比图。现有方法可能会由于先验偏见使得新类别目标的一小部分被分割或完全无法分割,例如图11中的第2列中手机和第4列中的公交车,以及第7列中的人。即使查询图像的背景包含一些其它目标,采用本申请实施例中的方法也能够做出正确的预测,例如图11中的第3列和8列。当支持图像和查询图像中的目标在较大的尺度差异时,采用本申请实施例选中的方法也能很好的分割出查询图像中的前景目标,例如图11中的第1列图中的羊,第5列中的盆栽。需要说明的是,当前景中出现一些小物体(例如第6列电视上的人)时,采用本申请实施例选中的方法可能会将人预测为背景,因为电视中的人也是一类目标。
在一个可行的实施例中,S203中的第一样本语义分割结果、S205中的第二样本语义分割结果、S2035中的第一样本融合特征、S2055中的第二样本融合特征中的至少在一个可以存储于区块链系统中。
图12是根据一示例性实施例示出的一种语义分割装置框图,如图12所示,该装置可以至少包括:
图像获取模块401,用于获取支撑图像和待分割的查询图像。
输入模块403,用于将上述支撑图像和上述查询图像输入语义分割网络,得到上述查询图像的语义分割结果。
其中,上述语义分割网络为基于标注有第一样本类别标注结果的样本支撑图像和标注有第二样本类别标注结果的样本查询图像,对预设语义分割网络中的第一分支网络和第二分支网络进行训练得到,上述第一分支网络用于对比学习上述样本支撑图像的第一样本图像特征和上述样本查询图像的第二样本图像特征,上述第二分支网络用于对比学习至少两个第二样本子图像特征,上述至少两个第二样本子图像特征为对上述第二样本图像特征中的样本背景图像特征进行聚类得到。
在一个可选的实施例中,上述支撑图像标注有类别标注结果,上述输入模块403,可以包括:
前景原型获取单元,用于基于上述语义分割网络对上述支撑图像的第一图像特征和上述类别标注结果进行全局平均池化处理,得到上述支撑图像的前景区域对应的前景原型;上述前景区域为上述类别标注结果所在的区域。
融合特征获取单元,用于基于上述语义分割网络融合上述前景原型和上述查询图像的第二图像特征,得到融合特征。
语义分割结果确定单元,用于基于上述语义分割网络对上述融合特征进行编码,得到上述语义分割结果。
在一个可选的实施例中,上述装置还包括:
样本图像获取模块,用于获取上述样本支撑图像和上述样本查询图像。
第一样本语义分割结果获取模块,用于基于上述第一分支网络对上述第一样本图像特征和上述第二样本图像特征进行对比学习,得到上述样本查询图像的第一样本语义分割结果。
第二样本语义分割结果获取模块,用于基于上述第二分支网络对上述至少两个第二样本子图像特征进行对比学习,得到上述样本查询图像的第二样本语义分割结果。
更新模块,用于根据上述第一样本语义分割结果、上述第二样本语义分割结果和上述第二样本类别标注结果,对上述预设语义分割网络中的网络参数进行更新,直至上述网络参数满足预设条件,得到上述语义分割网络。
在一个可选的实施例中,上述装置还包括:
样本背景区域确定模块,用于将上述样本查询图像中,除上述第二样本类别标注结果所在区域之外的区域,作为上述样本查询图像的样本背景区域。
背景图像特征获取模块,用于获取上述第二样本图像特征中,与上述样本背景区域对应的上述样本背景图像特征。
聚类模块,用于基于上述样本背景图像特征中的特征之间的距离,对上述样本背景图像特征进行聚类,得到上述至少两个第二样本子图像特征。
在一个可选的实施例中,上述第一样本语义分割结果获取模块可以包括:
第一输入单元,用于将上述第一样本图像特征和上述第一样本类别标注结果,输入上述第一分支网络。
样本前景原型获取单元,用于基于上述第一分支网络对上述第一样本图像特征和上述第一样本类别标注结果进行全局平均池化处理,得到上述样本支撑图像的样本前景区域对应的样本前景原型;上述样本支撑图像的样本前景区域为上述第一样本类别标注结果所在的区域。
第一样本融合特征获取单元,用于基于上述第一分支网络融合上述样本前景原型和上述第二样本图像特征,得到第一样本融合特征。
第一编码单元,用于基于上述第一分支网络对上述第一样本融合特征进行编码,得到上述第一样本语义分割结果。
在一个可选的实施例中,第一样本融合特征获取单元,包括:
第一扩展子单元,用于基于上述第一分支网络将上述样本前景原型的尺寸扩展至上述第二样本图像特征的尺寸,得到扩展后的样本前景原型。
第一融合子单元,用于基于上述第一分支网络对上述扩展后的样本前景原型和上述第二样本图像特征进行融合,得到上述第一样本融合特征。
在一个可选的实施例中,上述第二样本语义分割结果获取模块,包括:
第二输入单元,用于将上述至少两个第二样本子图像特征输入上述第二分支网络。
样本背景原型获取单元,用于基于上述第二分支网络对上述至少两个第二样本子图像特征和上述第二样本类别标注结果进行全局平均池化处理,得到上述至少两个第二样本子图像特征各自对应的样本背景原型。
第二样本融合特征获取单元,用于基于上述第二分支网络融合上述至少两个第二样本子图像特征和上述至少两个第二样本子图像特征各自对应的样本背景原型,得到第二样本融合特征。
第二编码单元,用于基于上述第二分支网络对上述第二样本融合特征进行编码,得到上述第二样本语义分割结果。
在一个可选的实施例中,上述第二样本融合特征获取单元,包括:
第二扩展子单元,用于基于上述第二分支网络将每个样本背景原型的尺寸扩展至对应的第二样本子图像特征的尺寸,得到上述每个样本背景原型对应的扩展后的样本背景原型。
第二融合子单元,用于对上述每个样本背景原型对应的扩展后的样本背景原型以及对应的第二样本子图像特征进行融合,得到上述第二样本融合特征。
在一个可选的实施例中,上述更新模块,包括:
第一损失值确定单元,用于基于上述第一样本语义分割结果和上述第二样本类别标注结果,确定第一损失值。
第二损失值确定单元,用于基于上述第二样本语义分割结果和非类别标注结果,确定第二损失值;上述非类别标注结果表征上述第二样本类别标注结果与1的差值。
目标损失值确定单元,用于根据第一损失值和上述第二损失值,确定目标损失值。
语义分割网络确定单元,用于基于上述目标损失值对上述网络参数进行更新,直至上述网络参数满足预设条件,得到上述语义分割网络。
需要说明的是,本申请实施例提供的装置实施例与上述方法实施例基于相同的发明构思。
本申请实施例还提供了一种语义分割的电子设备,该电子设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现如上述方法实施例提供的语义分割方法。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可设置于终端之中以保存用于实现方法实施例中一种语义分割相关的至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现如上述方法实施例提供的语义分割方法。
可选地,在本说明书实施例中,存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书实施例存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用程序以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法实施例提供的语义分割方法。
本申请实施例所提供的语义分割方法实施例可以在终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图13是根据一示例性实施例示出的一种语义分割方法的服务器的硬件结构框图。如图13所示,该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)510(中央处理器510可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器530,一个或一个以上存储应用程序523或数据522的存储介质520(例如一个或一个以上海量存储设备)。其中,存储器530和存储介质520可以是短暂存储或持久存储。存储在存储介质520的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器510可以设置为与存储介质520通信,在服务器500上执行存储介质520中的一系列指令操作。服务器500还可以包括一个或一个以上电源560,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口540,和/或,一个或一个以上操作系统521,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口540可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器500的通信供应商提供的无线网络。在一个实例中,输入输出接口540包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口540可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图13所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器500还可包括比图13中所示更多或者更少的组件,或者具有与图13所示不同的配置。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (13)

1.一种语义分割方法,其特征在于,所述方法包括:
获取支撑图像和待分割的查询图像;
将所述支撑图像和所述查询图像输入语义分割网络,得到所述查询图像的语义分割结果;
其中,所述语义分割网络为基于标注有第一样本类别标注结果的样本支撑图像和标注有第二样本类别标注结果的样本查询图像,对预设语义分割网络中的第一分支网络和第二分支网络进行训练得到,所述第一分支网络用于对比学习所述样本支撑图像的第一样本图像特征和所述样本查询图像的第二样本图像特征,所述第二分支网络用于对比学习至少两个第二样本子图像特征,所述至少两个第二样本子图像特征为对所述第二样本图像特征中的样本背景图像特征进行聚类得到。
2.根据权利要求1所述的语义分割方法,其特征在于,所述支撑图像标注有类别标注结果,所述将所述支撑图像和所述查询图像输入语义分割网络,得到所述查询图像的语义分割结果,包括:
基于所述语义分割网络对所述支撑图像的第一图像特征和所述类别标注结果进行全局平均池化处理,得到所述支撑图像的前景区域对应的前景原型;所述前景区域为所述类别标注结果所在的区域;
基于所述语义分割网络融合所述前景原型和所述查询图像的第二图像特征,得到融合特征;
基于所述语义分割网络对所述融合特征进行编码,得到所述语义分割结果。
3.根据权利要求1所述的语义分割方法,其特征在于,所述语义分割网络的训练方法包括:
获取所述样本支撑图像和所述样本查询图像;
基于所述第一分支网络对所述第一样本图像特征和所述第二样本图像特征进行对比学习,得到所述样本查询图像的第一样本语义分割结果;
基于所述第二分支网络对所述至少两个第二样本子图像特征进行对比学习,得到所述样本查询图像的第二样本语义分割结果;
根据所述第一样本语义分割结果、所述第二样本语义分割结果和所述第二样本类别标注结果,对所述预设语义分割网络中的网络参数进行更新,直至所述网络参数满足预设条件,得到所述语义分割网络。
4.根据权利要求3所述的语义分割方法,其特征在于,所述至少两个第二样本子图像特征的获取方法包括:
将所述样本查询图像中,除所述第二样本类别标注结果所在区域之外的区域,作为所述样本查询图像的样本背景区域;
获取所述第二样本图像特征中,与所述样本背景区域对应的所述样本背景图像特征;
基于所述样本背景图像特征中的特征之间的距离,对所述样本背景图像特征进行聚类,得到所述至少两个第二样本子图像特征。
5.根据权利要求3所述的语义分割方法,其特征在于,所述基于所述第一分支网络对所述第一样本图像特征和所述第二样本图像特征进行对比学习,得到所述样本查询图像的第一样本语义分割结果,包括:
将所述第一样本图像特征和所述第一样本类别标注结果,输入所述第一分支网络;
基于所述第一分支网络对所述第一样本图像特征和所述第一样本类别标注结果进行全局平均池化处理,得到所述样本支撑图像的样本前景区域对应的样本前景原型;所述样本支撑图像的样本前景区域为所述第一样本类别标注结果所在的区域;
基于所述第一分支网络融合所述样本前景原型和所述第二样本图像特征,得到第一样本融合特征;
基于所述第一分支网络对所述第一样本融合特征进行编码,得到所述第一样本语义分割结果。
6.根据权利要求5所述的语义分割方法,其特征在于,所述基于所述第一分支网络融合所述样本前景原型和所述第二样本图像特征,得到第一样本融合特征,包括:
基于所述第一分支网络将所述样本前景原型的尺寸扩展至所述第二样本图像特征的尺寸,得到扩展后的样本前景原型;
基于所述第一分支网络对所述扩展后的样本前景原型和所述第二样本图像特征进行融合,得到所述第一样本融合特征。
7.根据权利要求3所述的语义分割方法,其特征在于,所述基于所述第二分支网络对所述至少两个第二样本子图像特征进行对比学习,得到所述样本查询图像的第二样本语义分割结果,包括:
将所述至少两个第二样本子图像特征输入所述第二分支网络;
基于所述第二分支网络对所述至少两个第二样本子图像特征和所述第二样本类别标注结果进行全局平均池化处理,得到所述至少两个第二样本子图像特征各自对应的样本背景原型;
基于所述第二分支网络融合所述至少两个第二样本子图像特征和所述至少两个第二样本子图像特征各自对应的样本背景原型,得到第二样本融合特征;
基于所述第二分支网络对所述第二样本融合特征进行编码,得到所述第二样本语义分割结果。
8.根据权利要求7所述的语义分割方法,其特征在于,所述基于所述第二分支网络融合所述至少两个第二样本子图像特征和所述至少两个第二样本子图像特征各自对应的样本背景原型,得到第二样本融合特征,包括:
基于所述第二分支网络将每个样本背景原型的尺寸扩展至对应的第二样本子图像特征的尺寸,得到所述每个样本背景原型对应的扩展后的样本背景原型;
对所述每个样本背景原型对应的扩展后的样本背景原型以及对应的第二样本子图像特征进行融合,得到所述第二样本融合特征。
9.根据权利要求3至8中任一项所述的语义分割方法,其特征在于,所述根据所述第一样本语义分割结果、所述第二样本语义分割结果和所述第二样本类别标注结果,对所述预设语义分割网络中的网络参数进行更新,直至所述网络参数满足预设条件,得到所述语义分割网络,包括:
基于所述第一样本语义分割结果和所述第二样本类别标注结果,确定第一损失值;
基于所述第二样本语义分割结果和非类别标注结果,确定第二损失值;所述非类别标注结果表征所述第二样本类别标注结果与1的差值;
根据第一损失值和所述第二损失值,确定目标损失值;
基于所述目标损失值对所述网络参数进行更新,直至所述网络参数满足预设条件,得到所述语义分割网络。
10.一种语义分割装置,其特征在于,所述装置包括:
图像获取模块,用于获取支撑图像和待分割的查询图像;
输入模块,用于将所述支撑图像和所述查询图像输入语义分割网络,得到所述查询图像的语义分割结果;
其中,所述语义分割网络为基于标注有第一样本类别标注结果的样本支撑图像和标注有第二样本类别标注结果的样本查询图像,对预设语义分割网络中的第一分支网络和第二分支网络进行训练得到,所述第一分支网络用于对比学习所述样本支撑图像的第一样本图像特征和所述样本查询图像的第二样本图像特征,所述第二分支网络用于对比学习至少两个第二样本子图像特征,所述至少两个第二样本子图像特征为对所述第二样本图像特征中的样本背景图像特征进行聚类得到。
11.一种语义分割的电子设备,其特征在于,所述电子设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1至9中任一项所述的语义分割方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至9中任一项所述的语义分割方法。
13.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的语义分割方法。
CN202210294719.5A 2022-03-23 2022-03-23 语义分割方法、装置、电子设备及存储介质 Pending CN114821045A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210294719.5A CN114821045A (zh) 2022-03-23 2022-03-23 语义分割方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210294719.5A CN114821045A (zh) 2022-03-23 2022-03-23 语义分割方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114821045A true CN114821045A (zh) 2022-07-29

Family

ID=82530940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210294719.5A Pending CN114821045A (zh) 2022-03-23 2022-03-23 语义分割方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114821045A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115565177A (zh) * 2022-08-16 2023-01-03 北京百度网讯科技有限公司 文字识别模型训练、文字识别方法、装置、设备及介质
CN115861858A (zh) * 2023-02-16 2023-03-28 之江实验室 基于背景过滤的小样本学习农作物冠层覆盖度计算方法
CN117409413A (zh) * 2023-12-14 2024-01-16 江西师范大学 一种基于背景信息挖掘的小样本语义分割方法及系统
WO2024108382A1 (en) * 2022-11-22 2024-05-30 Intel Corporation Methods and apparatus to perform many-to-one feature distillation in neural networks

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115565177A (zh) * 2022-08-16 2023-01-03 北京百度网讯科技有限公司 文字识别模型训练、文字识别方法、装置、设备及介质
WO2024108382A1 (en) * 2022-11-22 2024-05-30 Intel Corporation Methods and apparatus to perform many-to-one feature distillation in neural networks
CN115861858A (zh) * 2023-02-16 2023-03-28 之江实验室 基于背景过滤的小样本学习农作物冠层覆盖度计算方法
CN117409413A (zh) * 2023-12-14 2024-01-16 江西师范大学 一种基于背景信息挖掘的小样本语义分割方法及系统
CN117409413B (zh) * 2023-12-14 2024-04-05 江西师范大学 一种基于背景信息挖掘的小样本语义分割方法及系统

Similar Documents

Publication Publication Date Title
CN111898696B (zh) 伪标签及标签预测模型的生成方法、装置、介质及设备
CN114821045A (zh) 语义分割方法、装置、电子设备及存储介质
CN113919344B (zh) 文本处理方法和装置
CN111046275B (zh) 基于人工智能的用户标签确定方法及装置、存储介质
CN109948710B (zh) 基于api相似度的微服务识别方法
CN114663670A (zh) 一种图像检测方法、装置、电子设备及存储介质
CN113298197B (zh) 数据聚类方法、装置、设备及可读存储介质
CN108304376B (zh) 文本向量的确定方法、装置、存储介质及电子装置
CN111563192A (zh) 实体对齐方法、装置、电子设备及存储介质
CN114881315A (zh) 行程到达时间确定方法、装置、电子设备和存储介质
CN112418037A (zh) 卫星图片中车道线识别方法、系统、电子设备及存储介质
CN115131698A (zh) 视频属性确定方法、装置、设备及存储介质
CN115082790A (zh) 一种基于连续学习的遥感图像场景分类方法
CN114418021B (zh) 模型优化方法、装置及计算机程序产品
CN113868351A (zh) 一种地址聚类方法、装置、电子设备及存储介质
CN113434722A (zh) 图像分类方法、装置、设备及计算机可读存储介质
CN113704276A (zh) 地图更新方法、装置、电子设备及计算机可读存储介质
CN114548192A (zh) 样本数据处理方法、装置、电子设备及介质
CN115773744A (zh) 模型训练和路网处理方法、装置、设备、介质和产品
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质
CN114648679A (zh) 神经网络训练、目标检测的方法及装置、设备及存储介质
CN112307371A (zh) 小程序子服务识别方法、装置、设备及存储介质
CN113407837A (zh) 基于人工智能的智慧医疗大数据处理方法及智慧医疗系统
CN111797984A (zh) 一种用于多任务神经网络的量化和硬件加速方法及装置
CN112417260A (zh) 本地化推荐方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination