CN114067119B - 全景分割模型的训练方法、全景分割方法及装置 - Google Patents
全景分割模型的训练方法、全景分割方法及装置 Download PDFInfo
- Publication number
- CN114067119B CN114067119B CN202210046507.5A CN202210046507A CN114067119B CN 114067119 B CN114067119 B CN 114067119B CN 202210046507 A CN202210046507 A CN 202210046507A CN 114067119 B CN114067119 B CN 114067119B
- Authority
- CN
- China
- Prior art keywords
- model
- segmentation
- network model
- panoramic
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 331
- 238000000034 method Methods 0.000 title claims abstract description 92
- 238000012549 training Methods 0.000 title claims abstract description 64
- 238000013140 knowledge distillation Methods 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 5
- 238000002372 labelling Methods 0.000 abstract description 8
- 230000009286 beneficial effect Effects 0.000 description 18
- 238000004590 computer program Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000003709 image segmentation Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 244000025254 Cannabis sativa Species 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 101000630267 Homo sapiens Probable glutamate-tRNA ligase, mitochondrial Proteins 0.000 description 1
- 102100026125 Probable glutamate-tRNA ligase, mitochondrial Human genes 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种全景分割模型的训练方法、全景分割方法及装置,通过分别获取第一数量的有标签图像样本和第二数量的无标签图像样本,根据有标签图像样本,更新初始教师网络模型的网络参数,得到教师网络模型,根据教师网络模型和无标签图像样本,更新初始全景分割模型中的第一初始学生网络模型的网络参数,得到全景分割模型。在本申请中,通过使用少量的标签数据和大量的未标签数据对全景分割模型进行训练,可以大大减少数据标注的工作量,解决图像数据难以标注的问题,并且可以提高全景分割模型的训练效率。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种全景分割模型的训练方法、全景分割方法及装置。
背景技术
在计算机视觉中,图像分割任务是指根据一定的规则将图像分割成若干特定的、唯一的区域,并提取出感兴趣的对象的技术和过程。目前,图像分割任务已经发展到以下几个子领域:语义分割、实例分割和新兴的全景分割领域。图像语义分割的任务是预测每个像素点的语义类别;实例分割的任务是预测每个实例物体包含的像素区域。全景分割最先由FAIR 与德国海德堡大学联合提出,其任务是为图像中每个像素点赋予类别 Label 和实例ID,生成全局的、统一的分割图像。
目前,对全景分割模型的训练通常是通过监督学习来进行的,而监督学习需要大量的标注数据,标注的质量直接影响到模型的训练。
然而,在一幅图像中只标注一个对象就需要几十秒,并且标注一幅图像需要大量的先验知识,因此,在使用监督学习方法对全景分割模型进行训练时,存在着图像数据难以标注的问题,导致全景分割模型的训练效率较低。
发明内容
本申请提供一种全景分割模型的训练方法、全景分割方法及装置,用以解决现有技术中图像数据难以标注的问题,从而可以提高全景分割模型的训练效率。
第一方面,本申请提供一种全景分割模型的训练方法,包括:
分别获取第一数量的有标签图像样本和第二数量的无标签图像样本。
根据有标签图像样本,更新初始教师网络模型的网络参数,得到教师网络模型。
根据教师网络模型和无标签图像样本,更新初始全景分割模型中的第一初始学生网络模型的网络参数,得到全景分割模型。
可选的,根据教师网络模型和无标签图像样本,更新初始全景分割模型中的第一初始学生网络模型的网络参数,得到全景分割模型,包括:
对教师网络模型进行知识蒸馏,得到教师网络模型的网络参数。
根据教师网络模型的网络参数,修改第一初始学生网络模型的网络参数,得到第二初始学生网络模型。
根据无标签图像样本,更新第二初始学生网络模型的网络参数,得到全景分割模型。
可选的,根据无标签图像样本,更新第二初始学生网络模型的网络参数,得到全景分割模型,包括:
将各无标签图像样本输入教师网络模型中,得到各无标签图像样本各自对应的伪标签信息。
根据无标签图像样本和伪标签信息,更新第二初始学生网络模型的网络参数,得到全景分割模型。
可选的,根据无标签图像样本和伪标签信息,更新第二初始学生网络模型的网络参数,得到全景分割模型,包括:
分别将无标签图像样本输入第二初始学生网络模型中的语义分割模型和实例分割模型中,得到语义分割结果和实例分割结果。
根据语义分割结果和伪标签信息,确定第一损失信息。
根据实例分割结果和伪标签信息,确定第二损失信息。
根据第一损失信息和第二损失信息,更新第二初始学生网络模型的网络参数,得到全景分割模型。
可选的,根据第一损失信息和第二损失信息,更新第二初始学生网络模型的网络参数,得到全景分割模型,包括:
获取语义分割模型和实例分割模型各自对应的权重值。
根据权重值、第一损失信息和第二损失信息,确定目标损失信息。
根据目标损失信息,更新第二初始学生网络模型的网络参数,得到全景分割模型。
可选的,根据教师网络模型和无标签图像样本,更新初始全景分割模型中的第一初始学生网络模型的网络参数,得到全景分割模型,包括:
根据教师网络模型和无标签图像样本,更新第一初始学生网络模型的网络参数,得到学生网络模型。
将有标签图像样本输入学生网络模型中,以更新学生网络模型的网络参数,得到全景分割模型。
第二方面,本申请提供一种全景分割方法,包括:
获取待分割图像。
将待分割图像输入全景分割模型的语义分割模型和实例分割模型中,得到语义分割结果和实例分割结果;该全景分割模型为基于上述第一方面的全景分割模型的训练方法训练得到的。
将语义分割结果和实例分割结果进行融合,得到全景分割结果。
第三方面,本申请提供一种全景分割模型的训练装置,包括:
获取模块,用于分别获取第一数量的有标签图像样本和第二数量的无标签图像样本。
更新模块,用于根据有标签图像样本,更新初始教师网络模型的网络参数,得到教师网络模型。
更新模块,还用于根据教师网络模型和无标签图像样本,更新初始全景分割模型中的第一初始学生网络模型的网络参数,得到全景分割模型。
可选的,更新模块,具体用于:
对教师网络模型进行知识蒸馏,得到教师网络模型的网络参数。
根据教师网络模型的网络参数,修改第一初始学生网络模型的网络参数,得到第二初始学生网络模型。
根据无标签图像样本,更新第二初始学生网络模型的网络参数,得到全景分割模型。
可选的,更新模块,具体用于:
将各无标签图像样本输入教师网络模型中,得到各无标签图像样本各自对应的伪标签信息。
根据无标签图像样本和伪标签信息,更新第二初始学生网络模型的网络参数,得到全景分割模型。
可选的,更新模块,具体用于:
分别将无标签图像样本输入第二初始学生网络模型中的语义分割模型和实例分割模型中,得到语义分割结果和实例分割结果。
根据语义分割结果和伪标签信息,确定第一损失信息。
根据实例分割结果和伪标签信息,确定第二损失信息。
根据第一损失信息和第二损失信息,更新第二初始学生网络模型的网络参数,得到全景分割模型。
可选的,更新模块,具体用于:
获取语义分割模型和实例分割模型各自对应的权重值。
根据权重值、第一损失信息和第二损失信息,确定目标损失信息。
根据目标损失信息,更新第二初始学生网络模型的网络参数,得到全景分割模型。
可选的,更新模块,具体用于:
根据教师网络模型和无标签图像样本,更新第一初始学生网络模型的网络参数,得到学生网络模型。
将有标签图像样本输入学生网络模型中,以更新学生网络模型的网络参数,得到全景分割模型。
第四方面,本申请提供一种全景分割装置,包括:
获取模块,用于获取待分割图像。
输入模块,用于将待分割图像输入全景分割模型的语义分割模型和实例分割模型中,得到语义分割结果和实例分割结果;该全景分割模型为基于上述第一方面的全景分割模型的训练方法训练得到的。
融合模块,用于将语义分割结果和实例分割结果进行融合,得到全景分割结果。
第五方面,本申请提供一种电子设备,包括:存储器和处理器。
存储器,用于存储计算机程序。
处理器,用于读取存储器存储的计算机程序,并根据存储器中的计算机程序执行上述第一方面的全景分割模型的训练方法,或者,用于执行上述第二方面的全景分割方法。
第六方面,本申请提供一种可读存储介质,其上存储有计算机程序,计算机程序中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现如上述第一方面的全景分割模型的训练方法,或者,用于实现如上述第二方面的全景分割方法。
第七方面,本申请实施例还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,实现上述第一方面的全景分割模型的训练方法,或者,用于实现上述第二方面的全景分割方法。
本申请提供的全景分割模型的训练方法、全景分割方法及装置,通过分别获取第一数量的有标签图像样本和第二数量的无标签图像样本,根据有标签图像样本,更新初始教师网络模型的网络参数,得到教师网络模型,根据教师网络模型和无标签图像样本,更新初始全景分割模型中的第一初始学生网络模型的网络参数,得到全景分割模型。在本申请中,通过使用少量的标签数据和大量的未标签数据对全景分割模型进行训练,可以大大减少数据标注的工作量,解决图像数据难以标注的问题,并且可以提高全景分割模型的训练效率。
附图说明
图1为本申请实施例提供的基于半监督学习的全景分割框架;
图2为本申请实施例提供的全景分割模型的训练方法的流程示意图;
图3为本申请实施例提供的基于超分辨率重建算法的预处理方法;
图4为本申请实施例提供的新的损失函数的生成方法;
图5为本申请实施例提供的全景分割方法的流程示意图;
图6为本申请实施例提供的全景分割模型的训练装置的结构示意图;
图7为本申请实施例提供的全景分割装置的结构示意图;
图8为本申请实施例提供的电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
本申请实施例提供的技术方案可以应用于将图片进行全景分割的场景中。例如,通过对图片进行全景分割,将图片中被遮挡的部分还原出来或进行目标的识别。
目前,对全景分割模型的训练通常是通过监督学习来进行的,而监督学习需要大量的标注数据,标注的质量直接影响到模型的训练。一方面,在对图像数据进行标注时,图像中经常存在像素不平衡的问题,不同对象的标注难度也不一致。另一方面,图像分割任务通常需要大量的标注数据,在一幅图像中只标注一个对象就需要几十秒,而标注一幅图像需要的时间会更久,并且需要大量的先验知识。因此,如何解决数据标注问题成为全景分割研究的问题之一。
为了解决以上问题,本申请提出了一种全景分割模型的训练方法,即通过监督学习和非监督学习相结合的半监督学习方法对全景分割模型进行训练。半监督学习分割任务包括一个教学网络模型和一个学生网络模型,图1为基于半监督学习的全景分割框架。如图1所示,该教师网络模型是通过公开数据集中的大量有标签图像样本预训练过的初始模型,然后使用本申请数据集中少量的有标签图像样本进行参数微调,得到训练好的教师网络模型。最后,教师网络模型鼓励学生网络模型尽可能模拟教师网络模型的分割性能,并且通过本申请数据集中的大量无标签图像样本对学生网络模型进行训练,更新初始学生网络模型的网络参数,得到学生网络模型,进而得到全景分割模型。在本申请中,通过使用少量的标签数据和大量的未标签数据对全景分割模型进行训练,大大减少了数据标注的工作量,可以解决图像数据难以标注的问题。
下面以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本申请实施例提供的一种全景分割模型的训练方法的流程示意图,该全景分割模型的训练方法可以由软件和/或硬件装置执行,例如,该硬件装置可以为电子设备,如终端或服务器。示例的,请参见图2所示,该全景分割模型的训练方法可以包括:
S201、分别获取第一数量的有标签图像样本和第二数量的无标签图像样本。
在本步骤中,使用的图像样本可以来自公开数据集,如COCO、Cityscapes等,如果图像样本使用效果不理想,也可以根据实际情况制作相关数据集。有标签图像样本对应的标签可以为人工标注的。
无论是医学图像还是自然图像,对于特定的分割任务,通常无法获得大量的原始数据,数据是限制分割精度的最大瓶颈因此,对原始数据进行扩充是非常必要的。图像超分辨率重建技术(Super-resolution image reconstruction,SR)技术用于从低分辨率(Lowresolution,LR)图像或图像序列重建高分辨率(High resolution,HR)图像。因此,在对图像样本进行预处理时采用超分辨率重建技术,以生成用于图像分割任务的高质量图像样本。超分辨率重建技术由生成器和鉴别器两部分组成。生成器可用于生成接近原始图像的超分辨率图像;鉴别器可以将图像与生成网络或训练数据集区分开来。在对图像样本进行网络结构重构时,可以在生成模块中加入残差网络,以提高模型的泛化能力。
具体的,图3为基于超分辨率重建算法的预处理方法,如图3所示,将随机噪声输入至生成器中,得到生成图像,将该生成图像与原始图像输入至鉴别器中,鉴别器可以根据原始图像判断该生成图像是否为真实的原始图像,若判断结果为假,则将输入鉴别器中的生成图像与原始图像的损失值L D 反馈给生成器,生成图像继续学习原始图像的特征,生成新的生成图像,新的生成图像与原始图像的损失值为L G ,不断重复上述步骤,直至L G 小于某预设值,判别模型的判断结果为真时,生成图像足够接近于原始图像,可以以假乱真,L D 也不再需要反馈给生成器,此时,基于超分辨率重建算法的预处理方法处理完成。
示例性的,经过上述图像超分辨率重建和数据增强后,采集的图像样本包括大量无标签图像样本和少量有标签图像样本,比如将无标签图像样本和少量有标签图像样本按9:1的比例进行划分。
在本方案中,采用超分辨率重建技术对图像样本进行预处理,可以大大提高图像的清晰度,从而进一步提高全景分割的精度。
S202、根据有标签图像样本,更新初始教师网络模型的网络参数,得到教师网络模型。
在本步骤中,初始教师网络模型可以理解为通过公开数据集中的大量有标签的图像样本预训练过的初始模型。
在本方案中,根据本申请数据集中的有标签图像样本对初始教师网络模型的参数进行微调,得到训练好的教师网络模型。通过对预训练的教师网络模型进行微调,可以提高教师网络模型的准确性。
S203、根据教师网络模型和无标签图像样本,更新初始全景分割模型中的第一初始学生网络模型的网络参数,得到全景分割模型。
在本步骤中,全景分割模型包括语义分割模型和实例分割模型,无论是教师网络模型还是学生网络模型,训练任务都包括语义分割和实例分割,通过多任务学习框架同时训练语义分割模型和实例分割模型,以获得最终的全景分割模型。训练过程中,初始全景分割模型包括初始教师网络模型和初始学生网络模型,而训练好的全景分割模型只包括学生网络模型,教师网络模型只是为了指导学生网络模型的训练。
具体的,根据是否有固定形状,图像样本中的内容可分为事物things类别和事物stuff类别。其中,人、车等形状固定的物体属于事物things类别;没有固定形状的对象(如天空和草)属于事物stuff类别。语义分割更注重类别之间的区分,而实例分割则注重个体之间的区分。语义分割的重点是将前景中的人群与背景中的树木、天空和草地分开,但并不区分人群中的个体。实例分割将关注人群中每个人的分割,但不关心草、树和天空的分割。全景分割是语义分割和实例分割相结合的一种分割方法,将事物类别和相同事物类别的不同个体区分开。
具体的,教师网络模型鼓励学生网络模型尽可能模拟教师网络模型的分割性能,并且通过本申请数据集中的大量无标签图像样本对初始学生网络模型进行训练,更新第一初始学生网络模型的网络参数,得到学生网络模型,进而得到全景分割模型。
示例性的,在根据教师网络模型和无标签图像样本,更新初始全景分割模型中的第一初始学生网络模型的网络参数时,首先对教师网络模型进行知识蒸馏,得到教师网络模型的网络参数,然后根据教师网络模型的网络参数,修改第一初始学生网络模型的网络参数,得到第二初始学生网络模型,再根据无标签图像样本,更新第二初始学生网络模型的网络参数,得到全景分割模型。
在本步骤中,知识蒸馏可以理解为模型压缩的一种常用的方法,不同于模型压缩中的剪枝和量化,知识蒸馏是通过构建一个轻量化的小模型,利用性能更好的大模型的监督信息,来训练这个小模型。
具体的,首先对教师网络模型进行知识蒸馏,得到教师网络模型的网络参数,然后根据教师网络模型的网络参数,修改第一初始学生网络模型的网络参数,得到第二初始学生网络模型,因此,教师网络模型即为性能更好的大模型,而学生网络模型即为轻量化的小模型,教学网络模型比学生网络模型更为复杂。例如,教学网络模型可以采用改进了U-net网络模型和剩余网络模型的结构,并在网络模型中加入了自我注意机制;学生网络模型可以使用原始的U-net模型。最后,根据无标记标签图像样本,更新第二初始学生网络模型的网络参数,得到全景分割模型。
在本方案中,通过对相对比较复杂的教师网络模型进行知识蒸馏,来指导相对比较简单的学生网络模型进行训练,不仅可以使得学生网络模型达到较好的性能和精度,还可以减少训练学生网络模型的时间成本。
示例性的,在根据无标签图像样本,更新第二初始学生网络模型的网络参数时,首先将各无标签图像样本输入教师网络模型中,得到各无标签图像样本各自对应的伪标签信息,然后根据无标签图像样本和伪标签信息,更新第二初始学生网络模型的网络参数,得到全景分割模型。
具体的,伪标签可以理解为不必再手工标注图像样本,只需要使用经过训练的模型来预测无标签图像样本的标签,从而创建伪标签。
具体的,首先将各无标签图像样本输入训练好的教师网络模型中,得到各无标签图像样本各自对应的伪标签信息,然后根据无标签图像样本和伪标签信息,对第二初始学生网络模型进行训练,更新第二初始学生网络模型的网络参数。
在本方案中,根据无标签图像样本和伪标签信息,对学生网络模型进行训练,可以减少训练学生网络模型时手工标注图像样本的时间成本。
示例性的,在根据无标签图像样本和伪标签信息,更新第二初始学生网络模型的网络参数时,首先分别将无标签图像样本输入第二初始学生网络模型中的语义分割网络和实例分割网络中,得到语义分割结果和实例分割结果,再根据语义分割结果和伪标签信息,确定第一损失信息,根据实例分割结果和伪标签信息,确定第二损失信息,然后根据第一损失信息和第二损失信息,更新第二初始学生网络模型的网络参数,得到全景分割模型。
具体的,对于学生网络模型来说,首先分别将无标签图像样本输入第二初始学生网络模型中的语义分割网络和实例分割网络中,得到语义分割结果和实例分割结果,再根据分割结果和伪标签信息,确定损失信息,然后根据损失信息,更新第二初始学生网络模型的网络参数。对于教师网络来说,首先分别将有标签图像样本输入初始教师网络模型中的语义分割网络和实例分割网络中,得到语义分割结果和实例分割结果,再根据分割结果和标签信息,确定损失信息,然后根据损失信息,更新初始教师网络模型的网络参数。
在本方案中,通过损失信息,更新教师网络模型和学生网络模型的参数,可以进一步提高网络模型的准确性。
示例性的,在根据第一损失信息和第二损失信息,更新第二初始学生网络模型的网络参数时,首先获取语义分割模型和实例分割模型各自对应的权重值,然后根据权重值、第一损失信息和第二损失信息,确定目标损失信息,最后根据目标损失信息,更新第二初始学生网络模型的网络参数,得到全景分割模型。
示例性的,在模型训练过程中,可以采用一种新的损失函数。图4为新的损失函数的生成方法,如图4所示,以语义分割模型和实例分割模型的损失函数均为均方误差函数为例,图像样本分别输入至语义分割模型和实例分割模型后,得到各自的均方差损失函数L MSE1 和L MSE2 ,然后通过自动加权损失模块确定各自损失函数的权重L S 和L I ,最后通过转换模块将两个损失函数L S 和L I 融合,得到最终的损失函数L。L的表达式为:
本方案中,通过自动加权损失模块引入不确定性来确定损失函数的权重,并在每个任务的损失函数中学习另一个噪声参数,该方法可以在多任务模型的框架下传递多任务的损失函数,从而提高模型的训练效果。此外,在模型结构上,可以增加转换模块,以提高不同任务前的参数共享能力,从而提高模型的泛化能力。
示例性的,在根据教师网络模型和无标签图像样本,更新第一初始学生网络模型的网络参数,得到学生网络模型之后,将有标签图像样本输入学生网络模型中,以更新学生网络模型的网络参数,得到全景分割模型。
具体的,在根据教师网络模型和无标签图像样本训练得到学生网络模型之后,将有标签图像样本输入学生网络模型中进行参数的微调,以更新学生网络模型的网络参数,得到训练好的学生网络模型。通过有标签图像样本对学生网络模型进行微调,可以提高模型的准确性。
本申请实施例提供的全景分割模型的训练方法,通过分别获取第一数量的有标签图像样本和第二数量的无标签图像样本,根据有标签图像样本,更新初始教师网络模型的网络参数,得到教师网络模型,根据教师网络模型和无标签图像样本,更新初始全景分割模型中的第一初始学生网络模型的网络参数,得到全景分割模型。在本申请中,通过使用少量的标签数据和大量的未标签数据对全景分割模型进行训练,可以大大减少数据标注的工作量,解决图像数据难以标注的问题,并且可以提高全景分割模型的训练效率。
图5为本申请实施例提供的一种全景分割方法的流程示意图,该全景分割方法可以由软件和/或硬件装置执行,例如,该硬件装置可以为电子设备。示例的,请参见图5所示,该全景分割方法可以包括:
S501、获取待分割图像。
在本步骤中,待分割图像可以理解为在实际应用中需要进行全景分割的图像。
S502、将待分割图像输入全景分割模型的语义分割模型和实例分割模型中,得到语义分割结果和实例分割结果;该全景分割模型为根据前述任一实施例中的方式训练得到的。
在本步骤中,将待分割模型输入至经过训练的全景分割模型中,全景分割模型包括语义分割模型和实例分割模型,得到语义分割结果和实例分割结果。示例性的,目前有很多评价指标用于衡量语义或实例分割,但大部分评价指标适合于单独评价语义分割结果或实例分割结果,不能同时适用于两者,但全景质量(Panoptic Quality,PQ)功能简单且信息丰富,可用于同时测量物品。
S503、将语义分割结果和实例分割结果进行融合,得到全景分割结果。
在本步骤中,可以利用特征融合技术对不同子任务之间的结果进行融合,实现最终的图像全景分割任务。
本申请实施例提供的全景分割方法,通过获取待分割图像,并将待分割图像输入全景分割模型的语义分割模型和实例分割模型中,得到语义分割结果和实例分割结果,最后将语义分割结果和实例分割结果进行融合,得到全景分割结果。本申请基于多任务框架,分别将待分割图像输入至实例分割模型和语义分割模型中,然后通过特征融合将两个分割任务结合起来,达到全景分割的目的,可以解决模型架构问题导致的不准确分割问题,获得更准确的分割结果。
图6为本申请实施例提供的一种全景分割模型的训练装置60的结构示意图,示例的,请参见图6所示,该全景分割模型的训练装置60包括:
获取模块601,用于分别获取第一数量的有标签图像样本和第二数量的无标签图像样本。
更新模块602,用于根据有标签图像样本,更新初始教师网络模型的网络参数,得到教师网络模型。
更新模块602,还用于根据教师网络模型和无标签图像样本,更新初始全景分割模型中的第一初始学生网络模型的网络参数,得到全景分割模型。
可选的,更新模块602,具体用于:
对教师网络模型进行知识蒸馏,得到教师网络模型的网络参数。
根据教师网络模型的网络参数,修改第一初始学生网络模型的网络参数,得到第二初始学生网络模型。
根据无标签图像样本,更新第二初始学生网络模型的网络参数,得到全景分割模型。
可选的,更新模块602,具体用于:
将各无标签图像样本输入教师网络模型中,得到各无标签图像样本各自对应的伪标签信息。
根据无标签图像样本和伪标签信息,更新第二初始学生网络模型的网络参数,得到全景分割模型。
可选的,更新模块602,具体用于:
分别将无标签图像样本输入第二初始学生网络模型中的语义分割模型和实例分割模型中,得到语义分割结果和实例分割结果。
根据语义分割结果和伪标签信息,确定第一损失信息。
根据实例分割结果和伪标签信息,确定第二损失信息。
根据第一损失信息和第二损失信息,更新第二初始学生网络模型的网络参数,得到全景分割模型。
可选的,更新模块602,具体用于:
获取语义分割模型和实例分割模型各自对应的权重值。
根据权重值、第一损失信息和第二损失信息,确定目标损失信息。
根据目标损失信息,更新第二初始学生网络模型的网络参数,得到全景分割模型。
可选的,更新模块602,具体用于:
根据教师网络模型和无标签图像样本,更新第一初始学生网络模型的网络参数,得到学生网络模型。
将有标签图像样本输入学生网络模型中,以更新学生网络模型的网络参数,得到全景分割模型。
本申请实施例所示的全景分割模型的训练装置60,可以执行上述实施例中的全景分割模型的训练方法的技术方案,其实现原理以及有益效果与全景分割模型的训练方法的实现原理及有益效果类似,可参见全景分割模型的训练方法的实现原理及有益效果,此处不再进行赘述。
图7为本申请实施例提供的一种全景分割装置70的结构示意图,示例的,请参见图7所示,该全景分割装置70包括:
获取模块701,用于获取待分割图像。
输入模块702,用于将待分割图像输入全景分割模型的语义分割模型和实例分割模型中,得到语义分割结果和实例分割结果;该全景分割模型为根据前述任一实施例中的方式训练得到的。
融合模块703,用于将语义分割结果和实例分割结果进行融合,得到全景分割结果。
本申请实施例所示的全景分割装置70,可以执行上述实施例中的全景分割方法的技术方案,其实现原理以及有益效果与全景分割方法的实现原理及有益效果类似,可参见全景分割方法的实现原理及有益效果,此处不再进行赘述。
图8为本申请实施例提供的一种电子设备80的结构示意图,示例的,请参见图8所示,该电子设备80可以包括处理器801和存储器802;其中,
存储器802,用于存储计算机程序。
处理器801,用于读取存储器802存储的计算机程序,并根据存储器802中的计算机程序执行上述实施例中的全景分割模型的训练方法,或者,执行上述实施例中的全景分割方法。
可选的,存储器802既可以是独立的,也可以跟处理器801集成在一起。当存储器802是独立于处理器801之外的器件时,电子设备80还可以包括:总线,用于连接存储器802和处理器801。
可选的,本实施例还包括:通信接口,该通信接口可以通过总线与处理器801连接。处理器801可以控制通信接口来实现上述电子设备80的获取和发送的功能。
示例的,在本申请实施例中,电子设备80可以为终端,也可以为服务器,具体可以根据实际需要进行设置。
本申请实施例所示的电子设备80,可以执行上述实施例中的全景分割模型的训练方法的技术方案,其实现原理以及有益效果与全景分割模型的训练方法的实现原理及有益效果类似,可参见全景分割模型的训练方法的实现原理及有益效果,或者,执行上述实施例中的全景分割方法的技术方案,其实现原理以及有益效果与全景分割方法的实现原理及有益效果类似,可参见全景分割方法的实现原理及有益效果,此处不再进行赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现上述实施例中的全景分割模型的训练方法的技术方案,其实现原理以及有益效果与全景分割模型的训练方法的实现原理及有益效果类似,可参见全景分割模型的训练方法的实现原理及有益效果,或者,实现上述实施例中的全景分割方法的技术方案,其实现原理以及有益效果与全景分割方法的实现原理及有益效果类似,可参见全景分割方法的实现原理及有益效果,此处不再进行赘述。
本申请实施例还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,实现上述实施例中的全景分割模型的训练方法的技术方案,其实现原理以及有益效果与全景分割模型的训练方法的实现原理及有益效果类似,可参见全景分割模型的训练方法的实现原理及有益效果,或者,实现上述实施例中的全景分割方法的技术方案,其实现原理以及有益效果与全景分割方法的实现原理及有益效果类似,可参见全景分割方法的实现原理及有益效果,此处不再进行赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所展示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元展示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例方法的部分步骤。
应理解的是,上述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor, DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述计算机可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (7)
1.一种全景分割模型的训练方法,其特征在于,包括:
分别获取第一数量的有标签图像样本和第二数量的无标签图像样本;
根据所述有标签图像样本,更新初始教师网络模型的网络参数,得到教师网络模型;
根据所述教师网络模型和所述无标签图像样本,更新初始全景分割模型中的第一初始学生网络模型的网络参数,得到全景分割模型;
所述根据所述教师网络模型和所述无标签图像样本,更新初始全景分割模型中的第一初始学生网络模型的网络参数,得到全景分割模型,包括:
对所述教师网络模型进行知识蒸馏,得到所述教师网络模型的网络参数;
根据所述教师网络模型的网络参数,修改所述第一初始学生网络模型的网络参数,得到第二初始学生网络模型;
根据所述无标签图像样本,更新所述第二初始学生网络模型的网络参数,得到全景分割模型;
所述根据所述无标签图像样本,更新所述第二初始学生网络模型的网络参数,得到全景分割模型,包括:
将各所述无标签图像样本输入所述教师网络模型中,得到各所述无标签图像样本各自对应的伪标签信息;
根据所述无标签图像样本和所述伪标签信息,更新所述第二初始学生网络模型的网络参数,得到全景分割模型;
所述根据所述无标签图像样本和所述伪标签信息,更新所述第二初始学生网络模型的网络参数,得到全景分割模型,包括:
分别将所述无标签图像样本输入所述第二初始学生网络模型中的语义分割模型和实例分割模型中,得到语义分割结果和实例分割结果;
根据所述语义分割结果和所述伪标签信息,确定第一损失信息;
根据所述实例分割结果和所述伪标签信息,确定第二损失信息;
根据所述第一损失信息和所述第二损失信息,更新所述第二初始学生网络模型的网络参数,得到全景分割模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一损失信息和所述第二损失信息,更新所述第二初始学生网络模型的网络参数,得到全景分割模型,包括:
获取所述语义分割模型和所述实例分割模型各自对应的权重值;
根据所述权重值、所述第一损失信息和所述第二损失信息,确定目标损失信息;
根据所述目标损失信息,更新所述第二初始学生网络模型的网络参数,得到全景分割模型。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述教师网络模型和所述无标签图像样本,更新初始全景分割模型中的第一初始学生网络模型的网络参数,得到全景分割模型,包括:
根据所述教师网络模型和所述无标签图像样本,更新所述第一初始学生网络模型的网络参数,得到学生网络模型;
将所述有标签图像样本输入所述学生网络模型中,以更新所述学生网络模型的网络参数,得到所述全景分割模型。
4.一种全景分割方法,其特征在于,包括:
获取待分割图像;
将所述待分割图像输入全景分割模型的语义分割模型和实例分割模型中,得到语义分割结果和实例分割结果;所述全景分割模型为根据权利要求1-3任一项所述的方法训练得到的;
将所述语义分割结果和所述实例分割结果进行融合,得到全景分割结果。
5.一种全景分割模型的训练装置,其特征在于,包括:
获取模块,用于分别获取第一数量的有标签图像样本和第二数量的无标签图像样本;
更新模块,用于根据所述有标签图像样本,更新初始教师网络模型的网络参数,得到教师网络模型;
所述更新模块,还用于根据所述教师网络模型和所述无标签图像样本,更新初始全景分割模型中的第一初始学生网络模型的网络参数,得到全景分割模型;
所述更新模块,具体用于:
对所述教师网络模型进行知识蒸馏,得到所述教师网络模型的网络参数;
根据所述教师网络模型的网络参数,修改所述第一初始学生网络模型的网络参数,得到第二初始学生网络模型;
根据所述无标签图像样本,更新所述第二初始学生网络模型的网络参数,得到全景分割模型;
所述更新模块,进一步用于:
将各所述无标签图像样本输入所述教师网络模型中,得到各所述无标签图像样本各自对应的伪标签信息;
根据所述无标签图像样本和所述伪标签信息,更新所述第二初始学生网络模型的网络参数,得到全景分割模型;
所述更新模块,还用于:
分别将所述无标签图像样本输入所述第二初始学生网络模型中的语义分割模型和实例分割模型中,得到语义分割结果和实例分割结果;
根据所述语义分割结果和所述伪标签信息,确定第一损失信息;
根据所述实例分割结果和所述伪标签信息,确定第二损失信息;
根据所述第一损失信息和所述第二损失信息,更新所述第二初始学生网络模型的网络参数,得到全景分割模型。
6.一种全景分割装置,其特征在于,包括:
获取模块,用于获取待分割图像;
输入模块,用于将所述待分割图像输入全景分割模型的语义分割模型和实例分割模型中,得到语义分割结果和实例分割结果;所述全景分割模型为根据权利要求1-3任一项所述的全景分割模型的训练方法训练得到的;
融合模块,用于将所述语义分割结果和所述实例分割结果进行融合,得到全景分割结果。
7.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时用于实现如上述权利要求1-3任一项所述的全景分割模型的训练方法,或者,用于实现如上述权利要求4所述的全景分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210046507.5A CN114067119B (zh) | 2022-01-17 | 2022-01-17 | 全景分割模型的训练方法、全景分割方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210046507.5A CN114067119B (zh) | 2022-01-17 | 2022-01-17 | 全景分割模型的训练方法、全景分割方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114067119A CN114067119A (zh) | 2022-02-18 |
CN114067119B true CN114067119B (zh) | 2022-05-24 |
Family
ID=80231022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210046507.5A Active CN114067119B (zh) | 2022-01-17 | 2022-01-17 | 全景分割模型的训练方法、全景分割方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114067119B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114549840B (zh) * | 2022-02-23 | 2023-04-07 | 北京百度网讯科技有限公司 | 语义分割模型的训练方法和语义分割方法、装置 |
CN114881917A (zh) * | 2022-03-17 | 2022-08-09 | 深圳大学 | 基于自监督和语义分割的溶栓疗效预测方法及相关装置 |
CN114494275B (zh) * | 2022-04-15 | 2022-08-05 | 北京美摄网络科技有限公司 | 一种用于移动终端图像分割模型训练方法和装置 |
CN114708286B (zh) * | 2022-06-06 | 2022-08-26 | 珠海横琴圣澳云智科技有限公司 | 基于伪标注动态更新的细胞实例分割方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110853073A (zh) * | 2018-07-25 | 2020-02-28 | 北京三星通信技术研究有限公司 | 确定关注点的方法、装置、设备、系统及信息处理方法 |
CN112651975A (zh) * | 2020-12-29 | 2021-04-13 | 奥比中光科技集团股份有限公司 | 一种轻量化网络模型的训练方法、装置及设备 |
CN113538480A (zh) * | 2020-12-15 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 图像分割处理方法、装置、计算机设备和存储介质 |
CN113538441A (zh) * | 2021-01-06 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 图像分割模型的处理方法、图像处理方法及装置 |
CN113822851A (zh) * | 2021-06-15 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 图像分割方法、装置、设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11386302B2 (en) * | 2020-04-13 | 2022-07-12 | Google Llc | Systems and methods for contrastive learning of visual representations |
US11610314B2 (en) * | 2020-04-24 | 2023-03-21 | Toyota Research Institute, Inc | Panoptic generative adversarial network with explicit modeling of category and instance information |
CN113837205B (zh) * | 2021-09-28 | 2023-04-28 | 北京有竹居网络技术有限公司 | 用于图像特征表示生成的方法、设备、装置和介质 |
CN114332554A (zh) * | 2021-11-10 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 图像分割模型的训练方法、图像分割方法、装置及设备 |
-
2022
- 2022-01-17 CN CN202210046507.5A patent/CN114067119B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110853073A (zh) * | 2018-07-25 | 2020-02-28 | 北京三星通信技术研究有限公司 | 确定关注点的方法、装置、设备、系统及信息处理方法 |
CN113538480A (zh) * | 2020-12-15 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 图像分割处理方法、装置、计算机设备和存储介质 |
CN112651975A (zh) * | 2020-12-29 | 2021-04-13 | 奥比中光科技集团股份有限公司 | 一种轻量化网络模型的训练方法、装置及设备 |
CN113538441A (zh) * | 2021-01-06 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 图像分割模型的处理方法、图像处理方法及装置 |
CN113822851A (zh) * | 2021-06-15 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 图像分割方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114067119A (zh) | 2022-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114067119B (zh) | 全景分割模型的训练方法、全景分割方法及装置 | |
US11657602B2 (en) | Font identification from imagery | |
CN108537269B (zh) | 一种弱交互式的物体检测深度学习方法及其系统 | |
CN109993102B (zh) | 相似人脸检索方法、装置及存储介质 | |
CN109919252B (zh) | 利用少数标注图像生成分类器的方法 | |
US20240257423A1 (en) | Image processing method and apparatus, and computer readable storage medium | |
CN111741330A (zh) | 一种视频内容评估方法、装置、存储介质及计算机设备 | |
CN111274981B (zh) | 目标检测网络构建方法及装置、目标检测方法 | |
CN110175657B (zh) | 一种图像多标签标记方法、装置、设备及可读存储介质 | |
CN113128478A (zh) | 模型训练方法、行人分析方法、装置、设备及存储介质 | |
CN113837290A (zh) | 一种基于注意力生成器网络的无监督非成对图像翻译方法 | |
CN114330588A (zh) | 一种图片分类方法、图片分类模型训练方法及相关装置 | |
Wang et al. | Small vehicle classification in the wild using generative adversarial network | |
Abodo et al. | Detecting work zones in shrp 2 nds videos using deep learning based computer vision | |
CN110659724A (zh) | 一种基于目标尺度范围的目标检测卷积神经网络构建方法 | |
CN114511733A (zh) | 基于弱监督学习的细粒度图像识别方法、装置及可读介质 | |
CN112560668B (zh) | 一种基于场景先验知识的人体行为识别方法 | |
CN113570509A (zh) | 数据处理方法以及计算机设备 | |
CN111914850B (zh) | 图片特征提取方法、装置、服务器和介质 | |
CN114519404B (zh) | 一种图像样本分类标注方法、装置、设备、存储介质 | |
CN116977260A (zh) | 目标物的缺陷检测方法、装置、电子设备及存储介质 | |
CN115359468A (zh) | 一种目标网站识别方法、装置、设备及介质 | |
Farkaš | Object tracking and detection with YOLOv8 and StrongSORT algorithms captured by drone | |
Savant et al. | Modeling uncertainty for Gaussian Splatting | |
CN113343979B (zh) | 用于训练模型的方法、装置、设备、介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 518000 Guangdong Shenzhen Baoan District Xixiang street, Wutong Development Zone, Taihua Indus Industrial Park 8, 3 floor. Patentee after: Shenzhen Haiqing Zhiyuan Technology Co.,Ltd. Address before: 518000 Guangdong Shenzhen Baoan District Xixiang street, Wutong Development Zone, Taihua Indus Industrial Park 8, 3 floor. Patentee before: SHENZHEN HIVT TECHNOLOGY Co.,Ltd. |
|
CP01 | Change in the name or title of a patent holder |