CN115205305A - 一种实例分割模型训练方法、实例分割方法及装置 - Google Patents

一种实例分割模型训练方法、实例分割方法及装置 Download PDF

Info

Publication number
CN115205305A
CN115205305A CN202210901145.3A CN202210901145A CN115205305A CN 115205305 A CN115205305 A CN 115205305A CN 202210901145 A CN202210901145 A CN 202210901145A CN 115205305 A CN115205305 A CN 115205305A
Authority
CN
China
Prior art keywords
loss function
training
mask
prediction result
foreground
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210901145.3A
Other languages
English (en)
Inventor
宋萍
袁泽寰
卢靓妮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youzhuju Network Technology Co Ltd
Original Assignee
Beijing Youzhuju Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youzhuju Network Technology Co Ltd filed Critical Beijing Youzhuju Network Technology Co Ltd
Priority to CN202210901145.3A priority Critical patent/CN115205305A/zh
Publication of CN115205305A publication Critical patent/CN115205305A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种实例分割模型训练方法,获取训练样本,该训练样本包括多张训练图片,该多张训练图片对应相同的原始图片,该原始图片中包括多个实例。不同训练图片对应的标注信息不同,该标注信息包括像素级的掩码标注,该掩码标注反映训练图片中所包括的实例。将多张训练图片各自对应的掩码标注进行叠加,获得前景标注。针对任一训练图片,将该训练图片输入初始模型,获得预测结果,该预测结果包括N个实例各自对应的掩码预测结果以及第一前景预测结果。基于预测结果、标注信息以及前景标注确定初始模型对应的损失函数,以最小化损失函数为目标,对初始模型的参数调整,直至初始模型收敛,获得实例分割模型。

Description

一种实例分割模型训练方法、实例分割方法及装置
技术领域
本申请涉及计算机技术领域,具体涉及一种实例分割模型训练方法、实例分割方法及装置。
背景技术
目标实例分割是计算机视觉中的基础任务之一,目前的训练处的实例分割模型只能够分割出训练集中存在的物体种类,对于训练集中不存在的物体种类或者未标注的物体种类,模型会认为其是背景。
发明内容
有鉴于此,本申请实施例提供一种实例分割模型训练方法、实例分割方法及装置,以实现训练生成的实例分割模型具有分割出图片中所包括的各种物体的能力。
为实现上述目的,本申请提供的技术方案如下:
在本申请第一方面,提供了一种实例分割模型训练方法,该方法包括:
获取训练样本,所述训练样本包括多张训练图片,所述多张训练图片对应相同的原始图片,所述原始图片中包括多个实例,所述多张训练图片中每张训练图片对应的标注信息不同,所述标注信息包括像素级的掩码标注,所述掩码标注用于反映所述训练图片中所包括的实例;
将所述多张训练图片各自对应的掩码标注进行叠加,获得前景标注;
针对所述多张训练图片中任一训练图片,将所述训练图片输入初始模型,获得所述初始模型输出的预测结果,所述预测结果包括预测的N个实例各自对应的掩码预测结果以及第一前景预测结果,所述N大于所述训练图片中所标注的实例个数;
基于所述预测结果、所述标注信息以及所述前景标注确定所述初始模型对应的损失函数,以最小化所述损失函数为目标,对所述初始模型的参数进行调整,直至所述初始模型收敛,获得实例分割模型。
在本申请第二方面,提供了一种实例分割方法,所述方法包括:
获取待处理图片,所述待处理图片包括待分割的实例;
将所述待处理图片输入实例分割模型,获得输出结果,所述输出结果包括N个实例对应的掩码预测结果,所述实例分割模型是基于第一方面所述的方法训练生成的;
根据所述输出结果以及掩码阈值确定所述待处理图片中所包括的实例。
在本申请实施例第三方面,提供了一种实例分割模型训练装置,所述装置包括:
第一获取单元,用于获取训练样本,所述训练样本包括多张训练图片,所述多张训练图片对应相同的原始图片,所述原始图片中包括多个实例,所述多张训练图片中每张训练图片对应的标注信息不同,所述标注信息包括像素级的掩码标注,所述掩码标注用于反映所述训练图片中所包括的实例;
第二获取单元,用于将所述多张训练图片各自对应的掩码标注进行叠加,获得前景标注;
第三获取单元,用于针对所述多张训练图片中任一训练图片,将所述训练图片输入初始模型,获得所述初始模型输出的预测结果,所述预测结果包括预测的N个实例各自对应的掩码预测结果以及第一前景预测结果,所述N大于所述训练图片中所标注的实例个数;
第四获取单元,用于基于所述预测结果、所述标注信息以及所述前景标注确定所述初始模型对应的损失函数,以最小化所述损失函数为目标,对所述初始模型的参数进行调整,直至所述初始模型收敛,获得实例分割模型。
在本申请第四方面,提供了一种实例分割装置,所述装置包括:
第一获取单元,用于获取待处理图片,所述待处理图片包括待分割的实例;
第二获取单元,用于将所述待处理图片输入实例分割模型,获得输出结果,所述输出结果包括N个实例对应的掩码预测结果,所述实例分割模型是基于第一方面所述的方法训练生成的;
确定单元,用于根据所述输出结果以及掩码阈值确定所述待处理图片中所包括的实例。
在本申请第五方面,提供了一种电子设备,所述设备包括:处理器和存储器;
所述存储器,用于存储指令或计算机程序;
所述处理器,用于执行所述存储器中的所述指令或计算机程序,以使得所述电子设备第一方面或第二方面所述的方法。
在本申请第六方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在设备上运行时,使得所述设备执行第一方面或第二方面所述的方法。
在本申请第七方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现第一方面或第二方面所述的方法。
由此可见,本申请实施例具有如下有益效果:
本申请实施例中,首先获取训练样本,该训练样本包括多张训练图片,该多张训练图片对应相同的原始图片,该原始图片中包括多个实例。其中,多张训练图片中每张训练图片对应标注信息,不同训练图片对应的标注信息不同,该标注信息包括像素级的掩码标注,该掩码标注用于反映训练图片中所包括的实例。其中,多张训练图片的标注信息进行合并即可得到原始图片中所有的实例。将多张训练图片各自对应的掩码标注进行叠加,获得前景标注,该前景标注为原始图片中所有实例对应掩码标注的集合。针对多张训练图片中的任一训练图片,将该训练图片输入初始模型,获得初始模型输出的预测结果,该预测结果包括预测的N个实例各自对应的掩码对结果以及第一前景预测结果。基于预测结果、标注信息以及前景标注确定初始模型对应的损失函数,以最小化损失函数为目标,对初始模型的参数进行调整,直至初始模型收敛,获得实例分割模型。即,本申请在训练生成实例分割模型时,通过获得前景标注以及预测的第一前景预测结果,训练该实例分割模型的预测能力,以使得该实例分割模型能够分割出训练图片中未标注的实例,提供实例分割模型的分割能力。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种实例分割模型训练方法流程图;
图2为本申请实施例提供的一种实例分割模型结构示意图;
图3为本申请实施例提供的一种实例分割方法流程图;
图4为本申请实施例提供的一种实例分割模型训练装置结构图;
图5为本申请实施例提供的一种实例分割装置结构图;
图6为本申请实施例提供的一种电子设备结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前实例分割模型只能分割出训练集中存在的物体,对于训练集中不存在的物体种类或未标注的物体种类,实例分割模型认为其是背景。然而,在实际应用中,要求实例分割模型能够检测出真实世界中的各类物体,但是训练集中难以包含所有物体种类。如果要求训练集中包含真实世界中的所有物体种类,需要对训练集中的物体进行像素级的标注,成本较高,难以实现。
基于此,本申请提出了一种实例分割模型,首先获取训练样本集,该训练样本集包括多张训练图片,该多张训练图片对应同一张原始图片。其中,多张训练图片中每张训练图片对应有标注信息,不同训练图片对应的标注信息不同,该标注信息包括像素级的掩码标注,该掩码标注可以反映训练图片中所包括的实例。将多张训练图片各自对应的掩码标注进行叠加,获得前景标注。针对任一训练图片,将该训练图片输入初始模型,获得该初始模型输出的预测结果,该预测结果包括预测的N个实例各自对应的掩码预测结果以及第一前景预测结果。基于预测结果、标注信息以及前景标注确定初始模型对应的损失函数,以最小化损失函数为目标,对初始模型的参数进行优化,直至该初始模型收敛,获得实例分割模型。即,本申请在训练生成实例分割模型时,通过获得前景标注以及第一前景预测结果,训练该实例分割模型的预测能力,以使得该实例分割模型能够分割出训练图片中未标注的实例,提供实例分割模型的分割能力。
为便于理解本申请提供的技术方案,下面将结合附图进行说明。
参见图1,该图为本申请实施例提供的一种实例分割模型训练方法流程图,该方法可以由实例分割模型训练设备执行,该训练设备可以为电子设备或服务器。其中,电子设备可以包括移动电话、平板电脑、笔记本电脑、台式电脑、车载终端、可穿戴电子设备、一体机、智能家居设备等具有通信功能的设备,也可以是虚拟机或者模拟器模拟的设备。如图1所示,该方法可以包括如下步骤:
S101:获取训练样本,该训练样本包括多张训练图片,该多张训练图片对应相同的原始图片。
为训练生成实例分割模型,首先获取训练样本,该训练样本包括多张训练图片,该多张训练图片对应相同的原始图片,且原始图片中包括多个示例。其中,多张训练图片中每张训练图片对应的标注信息不同,该标注信息包括训练图片中像素级的掩码标注,即标注信息包括该训练图片中每个像素对应的掩码标注,该掩码标注指示训练图片中所包括的实例。其中,该掩码标注与实例类别无关,其具体取值可以反映该像素是否存在实例。例如,当掩码标注为1时,表示有实例;当掩码标注为0时,表示无实例。
例如,原始图片中包括4个实例,分别为实例1、实例2、实例3和实例4,将该原始图片进行复制,获得3个训练图片。其中,训练图片1对应的标注信息中包括实例1所在区域的像素点对应的掩码标注为1、实例2所在区域的像素点对应的掩码标注为1,其他像素点对应的掩码标注为0;训练图片2中对应的标注信息中包括实例3所在区域的像素点对应的掩码标注为1,其他像素点对应的掩码标注为0。训练图片3中对应的标注信息中包括实例4所在区域的像素点对应的掩码标注为1,其他像素点对应的掩码标注为0。
S102:将多张训练图片各自对应的掩码标注进行叠加,获得前景标注。
在获得包括多张训练图片后,将该多张训练图片各自对应的掩码标注进行叠加,获得前景区域对应的前景标注,该前景标注可以包括原始图片中所有实例对应的掩码标注。
其中,将多张训练图片各自对应的掩码标注进行叠加,获得前景标注,包括:针对多张训练图片中相同位置的像素点,将相同位置的像素点在不同训练图片中对应的掩码标注进行或运算,获得前景标注。例如,训练图1中像素点(x0,y0)的掩码标注为1,像素点(x1,y1)的掩码标注为1,训练图片2中像素点(x0,y0)的掩码标注为0,像素点(x1,y1)的掩码标注为1,则叠加后,该像素点(x0,y0)的掩码标注为1,像素点(x1,y1)的掩码标注为1。
S103:针对多张训练图片中任一训练图片,将训练图片输入初始模型,获得预测结果,该预测结果包括预测的N个实例各自对应的掩码预测结果以及第一前景预测结果。
针对获取的多张训练图片中任一训练图片,将该训练图片输入初始模型,由初始模型对训练图片中所包括的实例进行预测,获得预测结果。其中,预测结果中包括预测的N个实例各自对应的掩码预测结果以及第一前景预测结果。其中,N大于训练图片中所标注的实例个数,具体取值可以根据实际应用场景确定。例如,训练图片1中仅标注了2个实例,N为100。
具体地,初始分割模型中包括前景预测模块,以对输入的训练图片中可能的实例进行掩码预测。即第一前景预测结果包括了针对训练图片中所预测的前景区域中的所有实例的预测。需要说明的是,预测结果中的掩码预测结果的取值位于0到1之间。
S104:基于预测结果、标注信息以及前景标注确定初始模型对应的损失函数,以最小化损失函数为目标,对初始模型的参数进行调整,直至初始模型收敛,获得实例分割模型。
在基于初始模型获得针对训练图片的预测结果后,可以根据该预测结果以及训练图片对应的真实标签确定该初始模型的损失函数,进而通过最小化损失函数,约束初始模型训练收敛,从而获得实例分割模型。
在本公开的一个实施例中,可以通过以下方式确定初始模型的损失函数,具体为:基于N个实例各自对应的掩码预测结果以及多张训练图片中各个实例对应的掩码标注计算第一损失函数;基于前景标注以及第一前景预测结果计算第二损失函数;对第一损失函数和第二损失函数进行加权求和,获得初始模型对应的损失函数。其中,第一损失函数表示真实掩码标注与预测掩码之间的掩码损失,第二损失函数表示真实前景标注和预测的前景之间的前景损失。
其中,第一损失函数和第二损失函数均可以包括DICE损失函数和交叉熵损失函数,第一损失函数为基于N个实例各自对应的掩码预测结果以及多张训练图片中各个实例对应的掩码标注计算的DICE损失函数和交叉熵损失函数进行加权求和获得的损失函数,第二损失函数为基于前景标注以及第一前景预测结果计算获得的DICE损失函数和交叉熵损失函数进行加权求和获得的损失函数。其中,DICE损失函数,即骰子损失,是一种用于评估两个对象之间相似性度量的函数,取值范围为0~1,值越大表示两个值的相似度越高。交叉熵损失函数中交叉熵表示为真实概率分布与预测概率分布之间的差异,并且交叉熵的值越小,说明模型预测结果越好。其通常与softmax搭配进行分类任务的损失计算。
进一步地,为提高训练精度,预测结果还可以包括N个实例各自对应的置信度,该置信度用于反映预测的掩码属于实例的概率。则在确定初始模型对应的损失函数时,还可以基于N个实例各自对应的置信度以及多张训练图片中各个实例的掩码标注计算第三损失函数;基于N个实例各自对应的掩码预测结果确定第二前景预测结果,并基于第一前景预测结果和第二前景预测结果计算第四损失函数;基于第一损失函数、第二损失函数、第三损失函数以及第四损失函数进行加权求和,获得初始模型对应的损失函数。其中,第三损失函数可以包括二值交叉熵损失函数,第四损失函数可以包括交叉熵损失函数。
在一种可能的实现方式中,基于N个实例各自对应的掩码预测结果确定第二前景预测结果,包括:对N个实例各自对应的掩码预测结果进行自身累加,获得第二前景预测结果。即,对N个实例组成的掩码预测结果集合在第三维进行自我累加,获得第二前景预测结果。
通常情况下,向初始模型输入的是(h,w,3)的训练图片,输出的是(h,w,N)的掩码预测结果S。其中,N为预测的实例个数。因此,将S在第三维(即N个实例对应的掩码预测结果)上进行自我累加,获得第二前景标注。
其中,为提高训练精度,在对N个实例各自对应的掩码预测结果进行累加之前,根据预测结果中各实例对应的置信度进行筛选,从N个实例中筛选出置信度大于或等于预设置信度阈值的目标实例,将该多个目标实例对应的掩码预测结果进行累加,获得第二前景预测结果。
可选地,在根据N各实例各自对应的掩码预测结果与真实掩码标注计算第一损失函数时,也可以根据各实例对应的置信度进行筛选,从N个实例中筛选出置信度大于或等于预设置信度阈值的目标实例,从而根据该多个目标实例对应的掩码预测结果与真实掩码标注计算第一损失函数,减少置信度较小的实例对损失函数的影响,提高训练速度。
本实施例中,在确定出真实标注结果与预测结果之间的损失函数后,以最小化损失函数为目标,对初始模型的参数进行调整,直至初始模型收敛,获得实例分割模型。
可见,本申请在训练生成实例分割模型时,通过获得前景标注以及第一前景预测结果,训练该实例分割模型的预测能力,以使得该实例分割模型能够分割出训练图片中未标注的实例,提供实例分割模型的分割能力。
为便于理解本申请提供的训练框架,参见图2,该图为本申请实例提供的一种实例分割模型结构示意图,该实例分割模型包括物体预测分支、掩码预测分子以及前景预测分支。将训练图片输入实例分割模型,通过物体预测分支可以获得预测的N个实例对应掩码属于物体的置信度O、通过掩码预测分支可以获得预测的N个实例对应的掩码预测结果S以及通过前景预测分支获得第一前景预测结果P。
基于此,基于物体置信度O对预测的掩码预测结果S进行筛选,获得筛选结果,基于筛选结果以及训练图片所包括的各实例对应的真实掩码标注GT计算第一损失函数(maskloss)、基于第一前景预测结果P和基于真实掩码标注叠加获得的前景标注计算第二损失函数(forground loss)、基于预测的物体置信度O以及训练图片中的物体标注计算第三损失函数(objectness loss)、基于筛选结果进行自我累加,并经过sigmod函数后获得的第二前景预测结果,与第一前景预测结果计算获得第四损失函数(align loss),约束两者之间的协同一致性关系。
可见,通过本实施例提供的一种单阶段实例分割模型,主模块中掩码预测分支可以为每个实例预测一个掩码,主模块中,掩码置信度预测分支为每个预测的掩码计算其对应的质量得分。辅助模块中,前景预测分支用来预测图片的前景区域。基于协同一致性损失函数的跨任务约束每个掩码和前景预测结果图之间的继承关系(即将每个掩码叠加在一起的预测结果应该和前景预测结果一致)。最终掩码预测分支输出的掩码即为预测的物体实例掩码。基于,通过本实施例的实例分割模型可以分割出在训练集中未出现的物体,在未知的挑战场景下会有更加鲁棒的表现。
在基于图1所示方法示例训练生成实例分割模型后,可以将该实例分割模型应用于各种应用场景,例如自动驾驶、医疗影像分析等。下面将结合附图对实例分割模型的应用进行说明。
参见图3,该图为本申请实施例提供的一种实例分割方法流程图,如图3所示,该方法可以由实例分割设备执行,该实例分割设备中部署有基于图1所述方法训练生成的实例分割模型,该实例分割设备可以为电子设备或服务器。其中,电子设备可以包括移动电话、平板电脑、笔记本电脑、台式电脑、车载终端、可穿戴电子设备、一体机、智能家居设备等具有通信功能的设备,也可以是虚拟机或者模拟器模拟的设备。如图3所示,该方法可以包括如下步骤:
S301:获取待处理图片,该待处理图片包括待分割的实例。
S302:将待处理图片输入实例分割模型,获得输出结果,该输出结果包括N个实例对应的掩码标注。
本实施例中,由于在训练实例分割模型时,设置的预测实例的个数为N,则在利用实例分割模型进行实例分割时,获得输出结果中将包括N个实例对应的掩码预测结果。其中,N个实例对应的掩码预测结果为0到1的取值。
S303:根据输出结果以及掩码阈值确定待处理图片中所包括的实例。
在获得输出结果后,将该输出结果中的每个掩码预测结果与掩码阈值进行比较,当掩码预测结果大于或等于掩码阈值时,则确定该掩码预测结果对应的实例为待处理图片中的实例;如果掩码预测结果小于掩码阈值,则确定待处理图片中不包括该掩码预测结果对应的实例。
可见,通过本申请提供的方法,可以分割出训练集中未出现的物体,提高实例分割模型的分割能力,可以适用于更多的应用场景。
基于上述方法实施例,本申请实施例提供了一种实例分割模型训练装置、实例分割装置及设备,下面将结合附图进行说明。
参见图4,该图为本申请实施例提供的一种实例分割模型训练装置结构图,如图4所示,该装置400包括:第一获取单元401、第二获取单元402、第三获取单元403和第四获取单元404。
第一获取单元401,用于获取训练样本,所述训练样本包括多张训练图片,所述多张训练图片对应相同的原始图片,所述原始图片中包括多个实例,所述多张训练图片中每张训练图片对应的标注信息不同,所述标注信息包括像素级的掩码标注,所述掩码标注用于反映所述训练图片中所包括的实例;
第二获取单元402,用于将所述多张训练图片各自对应的掩码标注进行叠加,获得前景标注;
第三获取单元403,用于针对所述多张训练图片中任一训练图片,将所述训练图片输入初始模型,获得所述初始模型输出的预测结果,所述预测结果包括预测的N个实例各自对应的掩码预测结果以及第一前景预测结果,所述N大于所述训练图片中所标注的实例个数;
第四获取单元404,用于基于所述预测结果、所述标注信息以及所述前景标注确定所述初始模型对应的损失函数,以最小化所述损失函数为目标,对所述初始模型的参数进行调整,直至所述初始模型收敛,获得实例分割模型。
在本公开的一个实施例中,所述第四获取单元404,具体用于基于所述N个实例各自的掩码预测结果、所述多张训练图片中各个实例对应的掩码标注计算第一损失函数;基于所述前景标注以及所述第一前景预测结果计算第二损失函数;对所述第一损失函数和所述第二损失函数进行加权求和,获得所述初始模型对应的损失函数。
在本公开的一个实施例中,所述预测结果还包括所述N个实例各自对应的置信度,所述置信度用于反映掩码预测结果属于实例的概率,所述第四获取单元404,具体用于基于所述N个实例各自对应的置信度以及所述多张训练图片中各个实例的掩码标注计算第三损失函数;基于所述N个实例各自对应的掩码预测结果确定第二前景预测结果,并基于所述第一前景预测结果以及所述第二前景预测结果计算第四损失函数;基于第一损失函数、第二损失函数、第三损失函数以及第四损失函数进行加权求和,获得所述初始模型对应的损失函数。
在本公开的一个实施例中,所述第一损失函数包括骰子DIEC损失函数和/或交叉熵损失函数、所述第二损失函数包括DICE损失函数和/或交叉熵损失函数、第三损失函数包括二值交叉熵损失函数、所述第四损失函数包括交叉熵损失函数。
在本公开的一个实施例中,所述第四获取单元404,具体用于对所述N个实例各自对应的掩码预测结果进行自身累加,获得第二前景预测结果。
在本公开的一个实施例中,所述第二获取单元402,具体用于针对所述多张训练图片中相同位置的像素点,将所述相同位置的像素点在不同训练图片中对应的掩码标注进行或运算,获得前景标注。
需要说明的是,本实施例中各个单元的具体实现可以参见上述方法实施例中的相关描述。
参见图5,该图为本申请实施例提供的一种实例分割装置结构图,如图5所示,所述装置500包括:第一获取单元501、第二获取单元502和确定单元503。
第一获取单元501,用于获取待处理图片,所述待处理图片包括待分割的实例;
第二获取单元502,用于将所述待处理图片输入实例分割模型,获得输出结果,所述输出结果包括N个实例对应的掩码预测结果,所述实例分割模型是基于图1所示的方法训练生成的;
确定单元503,用于根据所述输出结果以及掩码阈值确定所述待处理图片中所包括的实例。
需要说明的是,本实施例中各个单元的具体实现可以参见上述方法实施例中的相关描述。
本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。本申请实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。例如,上述实施例中,处理单元和发送单元可以是同一个单元,也可以是不同的单元。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
参见图6,其示出了适于用来实现本公开实施例的电子设备600的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM602被安装。在该计算机程序被处理装置601执行时,执行本公开实施例的方法中限定的上述功能。
本公开实施例提供的电子设备与上述实施例提供的方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例与上述实施例具有相同的有益效果。
本公开实施例提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例所提供的方法。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(Hyper Text TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备可以执行上述方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元/模块的名称在某种情况下并不构成对该单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种实例分割模型训练方法,其特征在于,所述方法包括:
获取训练样本,所述训练样本包括多张训练图片,所述多张训练图片对应相同的原始图片,所述原始图片中包括多个实例,所述多张训练图片中每张训练图片对应的标注信息不同,所述标注信息包括像素级的掩码标注,所述掩码标注用于反映所述训练图片中所包括的实例;
将所述多张训练图片各自对应的掩码标注进行叠加,获得前景标注;
针对所述多张训练图片中任一训练图片,将所述训练图片输入初始模型,获得所述初始模型输出的预测结果,所述预测结果包括预测的N个实例各自对应的掩码预测结果以及第一前景预测结果,所述N大于所述训练图片中所标注的实例个数;
基于所述预测结果、所述标注信息以及所述前景标注确定所述初始模型对应的损失函数,以最小化所述损失函数为目标,对所述初始模型的参数进行调整,直至所述初始模型收敛,获得实例分割模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述预测结果、所述标注信息以及所述前景标注确定所述初始模型对应的损失函数,包括:
基于所述N个实例各自的掩码预测结果、所述多张训练图片中各个实例对应的掩码标注计算第一损失函数;
基于所述前景标注以及所述第一前景预测结果计算第二损失函数;
对所述第一损失函数和所述第二损失函数进行加权求和,获得所述初始模型对应的损失函数。
3.根据权利要求1所述的方法,其特征在于,所述预测结果还包括所述N个实例各自对应的置信度,所述置信度用于反映掩码预测结果属于实例的概率,所述基于所述预测结果、所述标注信息以及所述前景标注确定所述初始模型对应的损失函数,包括:
基于所述N个实例各自对应的置信度以及所述多张训练图片中各个实例的掩码标注计算第三损失函数;
基于所述N个实例各自对应的掩码预测结果确定第二前景预测结果,并基于所述第一前景预测结果以及所述第二前景预测结果计算第四损失函数;
基于第一损失函数、第二损失函数、第三损失函数以及第四损失函数进行加权求和,获得所述初始模型对应的损失函数。
4.根据权利要求3所述的方法,其特征在于,所述第一损失函数包括骰子DIEC损失函数和/或交叉熵损失函数、所述第二损失函数包括DICE损失函数和/或交叉熵损失函数、第三损失函数包括二值交叉熵损失函数、所述第四损失函数包括交叉熵损失函数。
5.根据权利要求3所述的方法,其特征在于,所述基于所述N个实例各自对应的掩码预测结果确定第二前景预测结果,包括:
对所述N个实例各自对应的掩码预测结果进行自身累加,获得第二前景预测结果。
6.根据权利要求1所述的方法,其特征在于,所述将所述多张训练图片各自对应的掩码标注进行叠加,获得前景标注,包括:
针对所述多张训练图片中相同位置的像素点,将所述相同位置的像素点在不同训练图片中对应的掩码标注进行或运算,获得前景标注。
7.一种实例分割方法,其特征在于,所述方法包括:
获取待处理图片,所述待处理图片包括待分割的实例;
将所述待处理图片输入实例分割模型,获得输出结果,所述输出结果包括N个实例对应的掩码预测结果,所述实例分割模型是基于权利要求1-6任一项所述的方法训练生成的;
根据所述输出结果以及掩码阈值确定所述待处理图片中所包括的实例。
8.一种实例分割模型训练装置,其特征在于,所述装置包括:
第一获取单元,用于获取训练样本,所述训练样本包括多张训练图片,所述多张训练图片对应相同的原始图片,所述原始图片中包括多个实例,所述多张训练图片中每张训练图片对应的标注信息不同,所述标注信息包括像素级的掩码标注,所述掩码标注用于反映所述训练图片中所包括的实例;
第二获取单元,用于将所述多张训练图片各自对应的掩码标注进行叠加,获得前景标注;
第三获取单元,用于针对所述多张训练图片中任一训练图片,将所述训练图片输入初始模型,获得所述初始模型输出的预测结果,所述预测结果包括预测的N个实例各自对应的掩码预测结果以及第一前景预测结果,所述N大于所述训练图片中所标注的实例个数;
第四获取单元,用于基于所述预测结果、所述标注信息以及所述前景标注确定所述初始模型对应的损失函数,以最小化所述损失函数为目标,对所述初始模型的参数进行调整,直至所述初始模型收敛,获得实例分割模型。
9.一种实例分割装置,其特征在于,所述装置包括:
第一获取单元,用于获取待处理图片,所述待处理图片包括待分割的实例;
第二获取单元,用于将所述待处理图片输入实例分割模型,获得输出结果,所述输出结果包括N个实例对应的掩码预测结果,所述实例分割模型是基于权利要求1-6任一项所述的方法训练生成的;
确定单元,用于根据所述输出结果以及掩码阈值确定所述待处理图片中所包括的实例。
10.一种电子设备,其特征在于,所述设备包括:处理器和存储器;
所述存储器,用于存储指令或计算机程序;
所述处理器,用于执行所述存储器中的所述指令或计算机程序,以使得所述电子设备执行权利要求1-7任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在设备上运行时,使得所述设备执行权利要求1-7任一项所述的方法。
CN202210901145.3A 2022-07-28 2022-07-28 一种实例分割模型训练方法、实例分割方法及装置 Pending CN115205305A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210901145.3A CN115205305A (zh) 2022-07-28 2022-07-28 一种实例分割模型训练方法、实例分割方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210901145.3A CN115205305A (zh) 2022-07-28 2022-07-28 一种实例分割模型训练方法、实例分割方法及装置

Publications (1)

Publication Number Publication Date
CN115205305A true CN115205305A (zh) 2022-10-18

Family

ID=83584943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210901145.3A Pending CN115205305A (zh) 2022-07-28 2022-07-28 一种实例分割模型训练方法、实例分割方法及装置

Country Status (1)

Country Link
CN (1) CN115205305A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115527035A (zh) * 2022-11-01 2022-12-27 北京安德医智科技有限公司 图像分割模型优化方法、装置、电子设备及可读存储介质
CN115578564A (zh) * 2022-10-25 2023-01-06 北京医准智能科技有限公司 实例分割模型的训练方法、装置、电子设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115578564A (zh) * 2022-10-25 2023-01-06 北京医准智能科技有限公司 实例分割模型的训练方法、装置、电子设备及存储介质
CN115578564B (zh) * 2022-10-25 2023-05-23 北京医准智能科技有限公司 实例分割模型的训练方法、装置、电子设备及存储介质
CN115527035A (zh) * 2022-11-01 2022-12-27 北京安德医智科技有限公司 图像分割模型优化方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN115205305A (zh) 一种实例分割模型训练方法、实例分割方法及装置
CN110365973B (zh) 视频的检测方法、装置、电子设备及计算机可读存储介质
CN110288549B (zh) 视频修复方法、装置及电子设备
CN110059623B (zh) 用于生成信息的方法和装置
CN111784712B (zh) 图像处理方法、装置、设备和计算机可读介质
CN112907628A (zh) 视频目标追踪方法、装置、存储介质及电子设备
CN115326099A (zh) 局部路径规划方法、装置、电子设备和计算机可读介质
CN113610034A (zh) 识别视频中人物实体的方法、装置、存储介质及电子设备
CN114037716A (zh) 图像分割方法、装置、设备及存储介质
CN111915532B (zh) 图像追踪方法、装置、电子设备及计算机可读介质
CN110852242A (zh) 基于多尺度网络的水印识别方法、装置、设备及存储介质
CN114125485B (zh) 图像处理方法、装置、设备及介质
CN115269978A (zh) 一种视频标签生成方法、装置、设备及介质
CN112764629B (zh) 增强现实界面展示方法、装置、设备和计算机可读介质
CN111680754B (zh) 图像分类方法、装置、电子设备及计算机可读存储介质
CN114445813A (zh) 一种字符识别方法、装置、设备及介质
CN112488947A (zh) 模型训练和图像处理方法、装置、设备和计算机可读介质
CN113177176A (zh) 特征构建方法、内容显示方法及相关装置
CN112233207A (zh) 图像处理方法、装置、设备和计算机可读介质
CN110991312A (zh) 生成检测信息的方法、装置、电子设备和介质
CN112070163B (zh) 图像分割模型训练和图像分割方法、装置、设备
CN114359673B (zh) 基于度量学习的小样本烟雾检测方法、装置和设备
CN112766285B (zh) 图像样本生成方法、装置和电子设备
CN113744259B (zh) 基于灰度值增加数量序列的森林火灾烟雾检测方法和设备
CN112906551A (zh) 视频处理方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination