CN116168242A - 像素级标签的生成方法、模型训练方法及设备 - Google Patents

像素级标签的生成方法、模型训练方法及设备 Download PDF

Info

Publication number
CN116168242A
CN116168242A CN202310105696.3A CN202310105696A CN116168242A CN 116168242 A CN116168242 A CN 116168242A CN 202310105696 A CN202310105696 A CN 202310105696A CN 116168242 A CN116168242 A CN 116168242A
Authority
CN
China
Prior art keywords
image
pixel
level
processed
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310105696.3A
Other languages
English (en)
Other versions
CN116168242B (zh
Inventor
于超辉
周强
王志斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202310105696.3A priority Critical patent/CN116168242B/zh
Publication of CN116168242A publication Critical patent/CN116168242A/zh
Application granted granted Critical
Publication of CN116168242B publication Critical patent/CN116168242B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供了一种像素级标签的生成方法、模型训练方法及设备。其中,像素级标签的生成方法包括:获取待处理图像以及与待处理图像相对应的图像级标签;对待处理图像和图像级标签进行处理,获得带有语义信息的第一掩码信息;对第一掩码信息和待处理图像进行处理,获得未带有语义信息的第二掩码信息;基于第一掩码信息和第二掩码信息,生成与待处理图像相对应的像素级标签。本实施例提供的技术方案,能够基于图像的图像级标签生成像素级标签,有效地解决了人为标注像素级标签时所存在的费时费力问题,降低了像素级标签的标注成本,并保证了像素级标签的质量和效率,另外,生成的像素级标签能够用于模型训练操作,有效地提高了该方法的实用性。

Description

像素级标签的生成方法、模型训练方法及设备
技术领域
本发明涉及图像处理技术领域,尤其涉及一种像素级标签的生成方法、模型训练方法及设备。
背景技术
语义分割是计算机视觉中的一项常见分类任务,旨在为图像中的每个像素分配一个类别标签。在过去的几年中,使用深度学习来实现语义分割操作已取得了长足的进步。
目前,监督语义分割的方法通常是基于已发布的具有像素级注释(或者像素级标签)的分割数据集,上述分割数据集中的像素级标签往往是人为进行标注的,这样能够保证像素级标签获取的准确率。然而,对图像进行像素级标签的标注操作不仅费时费力,并且标注成本高、标注效率低。
发明内容
本发明实施例提供了一种像素级标签的生成方法、模型训练方法及设备,能够通过图像级标签自动获取图像的像素级标签,保证了对像素级标签进行获取的效率,同时也降低了像素级标签的标注成本。
第一方面,本发明实施例提供一种像素级标签的生成方法,包括:
获取待处理图像以及与所述待处理图像相对应的图像级标签;
对所述待处理图像和所述图像级标签进行处理,获得带有语义信息的第一掩码信息;
对所述第一掩码信息和所述待处理图像进行处理,获得未带有语义信息的第二掩码信息;
基于所述第一掩码信息和所述第二掩码信息,生成与所述待处理图像相对应的像素级标签。
第二方面,本发明实施例提供一种像素级标签的生成装置,包括:
第一获取模块,用于获取待处理图像以及与所述待处理图像相对应的图像级标签;
第一处理模块,用于对所述待处理图像和所述图像级标签进行处理,获得带有语义信息的第一掩码信息;
所述第一处理模块,用于对所述第一掩码信息和所述待处理图像进行处理,获得未带有语义信息的第二掩码信息;
第一生成模块,用于基于所述第一掩码信息和所述第二掩码信息,生成与所述待处理图像相对应的像素级标签。
第三方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第一方面中的像素级标签的生成方法。
第四方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第一方面中的像素级标签的生成方法。
第五方面,本发明实施例提供了一种计算机程序产品,包括:计算机程序,当所述计算机程序被电子设备的处理器执行时,使所述处理器执行上述第一方面所示的像素级标签的生成方法中的步骤。
第六方面,本发明实施例提供了一种模型优化方法,包括:
获取待优化的第一网络模型,所述第一网络模型用于对第一类图像和第二类图像进行图像分割操作,其中,所述第一类图像对应有标准像素级标签,所述第二类图像未对应有标准像素级标签;
确定新增训练数据以及与多个图像类别相对应的历史训练数据,其中,所述新增训练数据包括多个参考图像以及与部分的参考图像相对应的多个参考像素级标签,所述历史训练数据包括历史训练图像以及与所述历史训练图像相对应的标准像素级标签;
基于所述新增训练数据和所述历史训练数据对所述第一网络模型进行优化,获得优化后的第一网络模型。
第七方面,本发明实施例提供了一种模型优化装置,包括:
第二获取模块,用于获取待优化的第一网络模型,所述第一网络模型用于对第一类图像和第二类图像进行图像分割操作,其中,所述第一类图像对应有标准像素级标签,所述第二类图像未对应有标准像素级标签;
第二确定模块,用于确定新增训练数据以及与多个图像类别相对应的历史训练数据,其中,所述新增训练数据包括多个参考图像以及与部分的参考图像相对应的多个参考像素级标签,所述历史训练数据包括历史训练图像以及与所述历史训练图像相对应的标准像素级标签;
第二处理模块,用于基于所述新增训练数据和所述历史训练数据对所述第一网络模型进行优化,获得优化后的第一网络模型。
第八方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第六方面中的模型优化方法。
第九方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第六方面中的模型优化方法。
第十方面,本发明实施例提供了一种计算机程序产品,包括:计算机程序,当所述计算机程序被电子设备的处理器执行时,使所述处理器执行上述第六方面所示的模型优化方法中的步骤。
第十一方面,本发明实施例提供了一种模型训练方法,包括:
获取多个第一类训练图像以及多个第二类训练图像,其中,所述第一类训练图像对应有标准像素级标签,所述第二类训练图像对应有标准图像级标签;
基于所述标准图像级标签,确定与所述第二类训练图像相对应的预测像素级标签;
基于所述多个第一类训练图像、多个第二类训练图像以及与所述第二类模型训练图像相对应的预测像素级标签进行模型训练操作,获得网络模型,所述网络模型用于对第一类图像和第二类图像进行图像分割操作,其中,所述第一类图像对应有标准像素级标签,所述第二类图像未对应有标准像素级标签。
第十二方面,本发明实施例提供了一种模型训练装置,包括:
第三获取模块,用于获取多个第一类训练图像以及多个第二类训练图像,其中,所述第一类训练图像对应有标准像素级标签,所述第二类训练图像对应有标准图像级标签;
第三确定模块,用于基于所述标准图像级标签,确定与所述第二类训练图像相对应的预测像素级标签;
第三处理模块,用于基于所述多个第一类训练图像、多个第二类训练图像以及与所述第二类模型训练图像相对应的预测像素级标签进行模型训练操作,获得网络模型,所述网络模型用于对第一类图像和第二类图像进行图像分割操作,其中,所述第一类图像对应有标准像素级标签,所述第二类图像未对应有标准像素级标签。
第十三方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第十一方面中的模型训练方法。
第十四方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第十一方面中的模型训练方法。
第十五方面,本发明实施例提供了一种计算机程序产品,包括:计算机程序,当所述计算机程序被电子设备的处理器执行时,使所述处理器执行上述第十一方面中的模型训练方法中的步骤。
本实施例提供的技术方案,通过获取待处理图像以及与所述待处理图像相对应的图像级标签,而后对所述待处理图像和所述图像级标签进行处理,获得带有语义信息的第一掩码信息,并对所述第一掩码信息和所述待处理图像进行处理,获得未带有语义信息的第二掩码信息;之后基于所述第一掩码信息和所述第二掩码信息生成与所述待处理图像相对应的像素级标签,从而实现了能够基于图像级标签自动生成与图像相对应的像素级标签,这样有效地解决了相关技术中基于人为操作获得像素级标签时所存在的费时费力的问题,并且降低了像素级标签的标注成本,同时也保证了对像素级标签进行标注的质量和效率,另外,所获得的像素级标签能够用于进行模型训练操作或者模型优化操作,进一步提高了该方法的实用性,有利于市场的推广与应用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种像素级标签的生成方法的场景示意图;
图2为本发明实施例提供的一种像素级标签的生成方法的流程示意图;
图3为本发明实施例提供的对所述待处理图像和所述图像级标签进行处理,获得带有语义信息的第一掩码信息的流程示意图;
图4为本发明实施例提供的利用所述图像处理模型对所述待处理图像进行处理的示意图;
图5为本发明实施例提供的利用所述文本处理模型对所述图像级标签进行处理的示意图;
图6为本发明实施例提供的对所述第一掩码信息和所述待处理图像进行处理,获得未带有语义信息的第二掩码信息的流程示意图;
图7为本发明实施例提供的另一种像素级标签的生成方法的流程示意图;
图8为本发明实施例提供的又一种像素级标签的生成方法的流程示意图;
图9为本发明实施例提供的一种模型优化方法的流程示意图;
图10为本发明实施例提供的一种模型训练方法的流程示意图;
图11为本发明应用实施例提供的一种基于基础模型驱动的弱监督增量分割方法的原理示意图;
图12为本发明实施例提供的一种像素级标签的生成装置的结构示意图;
图13为与图12所示实施例提供的像素级标签的生成装置对应的电子设备的结构示意图;
图14为本发明实施例提供的一种模型优化装置的结构示意图;
图15为与图14所示实施例提供的模型优化装置对应的电子设备的结构示意图;
图16为本发明实施例提供的一种模型训练装置的结构示意图;
图17为与图16所示实施例提供的模型训练装置对应的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
术语定义:
FMWISS:Foundation Model Drives Weakly Incremental Learning forSemantic Segmentation,基础模型驱动语义分割的弱增量学习。
为了方便本领域技术人员理解本实施例中技术方案的具体实现过程,下面先对相关技术进行简要说明:
语义分割是计算机视觉中的一项常见分类任务,旨在为图像中的每个像素分配一个类别标签。在过去几年中,使用深度学习来实现语义分割操作已取得了长足的进步。
目前,监督语义分割的方法通常是基于已发布的具有像素级注释(或者像素级标签)的分割数据集,上述分割数据集中的像素级标签往往是人为进行标注的,这样能够保证像素级标签获取的准确率。然而,对图像进行像素级标签的标注操作不仅费时费力,并且标注成本高、标注效率低。
由于人为标注像素级标签时存在费时费力且标注成本较高的问题,因此,相关技术在进行弱监督增量分割操作时,在增量学习步骤中会尽量使用图片级标签而不使用像素级标签,从而避免了对耗时昂贵的像素级标注的依赖。但是,若仅使用图片级标签训得激活特征作为分割的监督信号,由于图像级标签无法提供的用于准确定位图像片段的信息,因此不能很好的利用图片级标注的潜在信息,从而降低了网络模型的训练质量和效果。
为了解决上述技术问题,本实施例提出了一种像素级标签的生成方法、模型优化方法及设备,其中,像素级标签的生成方法的执行主体可以为像素级标签的生成装置,该像素级标签的生成装置可以实现为本地服务器或者云端的服务器,在像素级标签的生成装置实现为云端的服务器时,该像素级标签的生成方法可以在云端来执行,在云端可以部署有若干计算节点(云服务器),每个计算节点中都具有计算、存储等处理资源。在云端,可以组织由多个计算节点来提供某种服务,当然,一个计算节点也可以提供一种或多种服务。云端提供该服务的方式可以是对外提供服务接口,用户调用该服务接口以使用相应的服务。服务接口包括软件开发工具包(Software Development Kit,简称SDK)、应用程序接口(Application Programming Interface,简称API)等形式。
具体的,参考附图1所示,该像素级标签的生成装置可以通信连接有客户端或者请求端,针对本发明实施例提供的方案,云端可以提供有像素级标签的生成服务的服务接口,用户可以通过客户端/请求端调用该像素级标签的生成服务接口,以向云端触发调用该像素级标签的生成服务接口的请求。云端确定响应该请求的计算节点,利用该计算节点中的处理资源执行像素级标签的生成的具体处理操作。
客户端/请求端可以是任何具有一定数据传输能力的计算设备,具体实现时,客户端/请求端可以是手机、个人电脑PC、平板电脑、设定应用程序等等。此外,客户端/请求端的基本结构可以包括:至少一个处理器。处理器的数量取决于客户端/请求端的配置和类型。客户端/请求端也可以包括存储器,该存储器可以为易失性的,例如RAM,也可以为非易失性的,例如只读存储器(Read-Only Memory,简称ROM)、闪存等,或者也可以同时包括两种类型。存储器内通常存储有操作系统(Operating System,简称OS)、一个或多个应用程序,也可以存储有程序数据等。除了处理单元和存储器之外,客户端/请求端还包括一些基本配置,例如网卡芯片、IO总线、显示组件以及一些外围设备等。可选地,一些外围设备可以包括,例如键盘、鼠标、输入笔、打印机等。其它外围设备在本领域中是众所周知的,在此不做赘述。
像素级标签的生成装置是指可以在网络虚拟环境中提供像素级标签的生成服务的设备,通常是指利用网络进行信息规划、像素级标签的生成操作的装置。在物理实现上,像素级标签的生成装置可以是任何能够提供计算服务,响应服务请求,并进行处理的设备,例如:可以是集群服务器、常规服务器、云服务器、云主机、虚拟中心等。像素级标签的生成装置的构成主要包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似。
在上述本实施例中,客户端可以与像素级标签的生成装置进行网络连接,该网络连接可以是无线或有线网络连接。若客户端与像素级标签的生成装置是通信连接,该移动网络的网络制式可以为2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G+(LTE+)、WiMax、5G、6G等中的任意一种。
在本申请实施例中,客户端可以生成或者获取像素级标签的生成请求,具体的,本实施例对于像素级标签的生成请求进行获取的具体实现方式不做限定,在一些实例中,像素级标签的生成请求可以通过人机交互操作所获得,此时,客户端上可以显示有交互界面,获取用户在交互界面上所输入的执行操作;基于执行操作获取像素级标签的生成请求。或者,在另一些实例中,像素级标签的生成请求不仅可以通过人机交互操作所获得,还可以通过与客户端通信连接的第三设备所获得,其中,待处理图像以及图像级标签可以存储在第三设备中,此时,获取与客户端通信连接的第三设备,基于第三设备主动或者被动地获取到像素级标签的生成请求,其中,像素级标签的生成请求可以包括待处理图像以及与待处理图像相对应的图像级标签,上述图像级标签的数量可以为一个或多个。
在获取到与像素级标签的生成请求之后,为了能够稳定地实现像素级标签的生成操作,可以将像素级标签的生成请求所对应的待处理图像以及与待处理图像相对应的图像级标签发送至像素级标签的生成装置,以使得像素级标签的生成装置可以对待处理图像和图像级标签进行分析处理。
像素级标签的生成装置,用于获取待处理图像以及与待处理图像相对应的图像级标签,在获取到待处理图像和图像级标签之后,可以对待处理图像和图像级标签进行分析处理,从而可以获得带有语义信息的第一掩码信息,而后可以对第一掩码信息和待处理图像进行分析处理,从而可以获得未带有语义信息的第二掩码信息;在获取到第一掩码信息和第二掩码信息之后,可以基于第一掩码信息和第二掩码信息生成与待处理图像相对应的像素级标签,有效地实现了基于待处理图像和图像级标签生成像素级标签的过程。
本实施例提供的技术方案,通过获取待处理图像以及与待处理图像相对应的图像级标签,而后对待处理图像和图像级标签进行处理,获得带有语义信息的第一掩码信息,对第一掩码信息和待处理图像进行处理,获得未带有语义信息的第二掩码信息;之后基于第一掩码信息和第二掩码信息生成与待处理图像相对应的像素级标签,从而实现了能够基于图像级标签自动生成与图像相对应的像素级标签,这样有效地解决了相关技术中基于人为操作获得像素级标签时所存在的费时费力的问题,并且降低了像素级标签的标注成本,同时也保证了对像素级标签进行标注的质量和效率,另外,所获得的像素级标签能够用于进行模型训练操作或者模型优化操作,进一步提高了该方法的实用性,有利于市场的推广与应用。
下面结合附图,对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
图2为本发明实施例提供的一种像素级标签的生成方法的流程示意图;参考附图2所示,本实施例提供了一种像素级标签的生成方法,该方法的执行主体可以为像素级标签的生成装置,可以理解的是,该像素级标签的生成装置可以实现为软件、或者软件和硬件的组合,具体的,在像素级标签的生成装置实现为硬件时,其具体可以是具有像素级标签的生成操作的各种电子设备,包括但不限于平板电脑、个人电脑PC、服务器等等。当像素级标签的生成装置实现为软件时,其可以安装在上述所例举的电子设备中。基于上述的像素级标签的生成装置,本实施例中的像素级标签的生成方法可以包括以下步骤:
步骤S201:获取待处理图像以及与待处理图像相对应的图像级标签。
步骤S202:对待处理图像和图像级标签进行处理,获得带有语义信息的第一掩码信息。
步骤S203:对第一掩码信息和待处理图像进行处理,获得未带有语义信息的第二掩码信息。
步骤S204:基于第一掩码信息和第二掩码信息,生成与待处理图像相对应的像素级标签。
下面对上述各个步骤的具体实现原理和实现效果进行详细说明:
步骤S201:获取待处理图像以及与待处理图像相对应的图像级标签。
在用户存在像素级标签的生成需求时,则可以使得像素级标签的生成装置获得待处理图像以及与待处理图像相对应的图像级标签,其中,与待处理图像相对应的图像级标签的数量可以为一个或多个。举例来说,在待处理图像为包括有动物的图像时,待处理图像的图像级标签可以包括以下至少之一:猫、狗、鸟等等;在待处理图像为包括有交通工具的图像时,待处理图像的图像级标签可以包括以下至少之一:小轿车、公交车、火车、飞机等等。
具体的,本实施例对于待处理图像以及与待处理图像相对应的图像级标签进行获取的实现方式不做限定,在一些实例中,待处理图像以及与待处理图像相对应的图像级标签可以预先存储在像素级标签的生成装置中的预设区域中,而后通过访问预设区域即可获取到待处理图像以及与待处理图像相对应的图像级标签。在另一些实例中,待处理图像以及与待处理图像相对应的图像级标签不仅可以存储在像素级标签的生成装置中的预设区域中,还可以存储在第三设备中,第三设备与像素级标签的生成装置通信连接,而后可以通过第三设备主动或者被动地获取到待处理图像以及与待处理图像相对应的图像级标签。
在又一些实例中,与待处理图像相对应的图像级标签不仅可以是预先标注好的标签,还可以是基于人为标注操作所获得的标签,此时,获取与待处理图像相对应的图像级标签可以包括:显示用于对待处理图像进行标注操作的交互界面;获取用户在交互界面中输入的标注操作;基于标注操作获取与待处理图像相对应的图像级标签,这样有效地保证了对待处理图像的图像级标签进行获取的准确可靠性。
步骤S202:对待处理图像和图像级标签进行处理,获得带有语义信息的第一掩码信息。
在获取到待处理图像和图像级标签之后,可以对待处理图像和图像级标签进行分析处理,获得带有语义信息的第一掩码信息。在一些实例中,第一掩码信息可以通过预先训练好的第一机器学习模型或者第一神经网络模型对待处理图像和图像级标签进行分析处理所获得,此时,对待处理图像和图像级标签进行处理,获得带有语义信息的第一掩码信息可以包括:获取预先训练好的第一机器学习模型或者第一神经网络模型;将待处理图像和图像级标签输入至第一机器学习模型或者第一神经网络模型中,从而可以获得第一机器学习模型或者第一神经网络模型输出的带有语义信息的第一掩码信息,其中,所获得的第一掩码信息的数量为一个,即一个待处理图像可以对应获得一个第一掩码信息。
步骤S203:对第一掩码信息和待处理图像进行处理,获得未带有语义信息的第二掩码信息。
在获取到待处理图像之后,若直接对待处理图像进行分析处理,可以获取到未带有语义信息的多个掩码信息,而不同的掩码信息可以对应有不同的置信度。因此,为了能够准确地获取到与待处理图像相对应的像素级标签,在获取到第一掩码信息和待处理图像之后,可以对第一掩码信息和待处理图像进行结合处理,从而获得与待处理图像相对应的未带有语义信息的第二掩码信息,所获得的第二掩码信息的数量为一个。
另外,本实施例对于第二掩码信息进行获取的实现方式不做限定,在一些实例中,第二掩码信息可以通过预先训练好的第二机器学习模型或者第二神经网络模型对第一掩码信息和待处理图像进行分析处理所获得,此时,对第一掩码信息和待处理图像进行处理,获得未带有语义信息的第二掩码信息可以包括:获取预先训练好的第二机器学习模型或者第二神经网络模型,将第一掩码信息和待处理图像输入至第二机器学习模型或者第二神经网络模型,从而可以获得第二机器学习模型或者第二神经网络模型输出的未带有语义信息的第二掩码信息。
步骤S204:基于第一掩码信息和第二掩码信息,生成与待处理图像相对应的像素级标签。
在获取到第一掩码信息和第二掩码信息之后,可以对第一掩码信息和第二掩码信息进行分析处理,从而获得与待处理图像相对应的像素级标签。其中,本实施例对于生成与待处理图像相对应的像素级标签的具体实现方式不做限定,在一些实例中,像素级标签可以通过预先训练好的机器学习模型对第一掩码信息和第二掩码信息进行分析处理所获得的。或者,在另一些实例中,像素级标签还可以通过直接对第一掩码信息和第二掩码信息进行融合处理所获得,此时,基于第一掩码信息和第二掩码信息,生成与待处理图像相对应的像素级标签可以包括:对第一掩码信息和第二掩码信息进行融合,具体的,可以对第一掩码信息和第二掩码信息进行拼接融合,从而可以稳定地生成并获得与待处理图像相对应的像素级标签。
在生成与待处理图像相对应的像素级标签之后,本实施例中的方法还可以包括:将待处理图像以及与待处理图像相对应的像素级标签作为模型训练数据,而后可以基于模型训练数据进行模型训练操作,从而能够获取到用于实现图像分割操作的图像分割模型。相类似的,不仅可以基于待处理图像以及与待处理图像相对应的像素级标签进行模型训练操作,还可以基于待处理图像以及与待处理图像相对应的像素级标签进行模型优化操作,即可以基于模型优化数据对用于实现图像分割操作的增量分割模型进行优化处理,从而可以获得优化后的增量分割模型,这样有效地提高了该方法的实用性。
本实施例提供的像素级标签的生成方法,通过获取待处理图像以及与待处理图像相对应的图像级标签,而后对待处理图像和图像级标签进行处理,获得带有语义信息的第一掩码信息,对第一掩码信息和待处理图像进行处理,获得未带有语义信息的第二掩码信息;之后基于第一掩码信息和第二掩码信息生成与待处理图像相对应的像素级标签,从而实现了能够基于图像级标签自动生成与图像相对应的像素级标签,这样有效地解决了相关技术中基于人为操作获得像素级标签时所存在的费时费力的问题,并且降低了像素级标签的标注成本,同时也保证了对像素级标签进行标注的质量和效率,另外,所获得的像素级标签能够用于进行模型训练操作或者模型优化操作,进一步提高了该方法的实用性,有利于市场的推广与应用。
图3为本发明实施例提供的对待处理图像和图像级标签进行处理,获得带有语义信息的第一掩码信息的流程示意图;在上述实施例的基础上,参考附图3所示,对于第一掩码信息而言,第一掩码信息不仅可以通过机器学习模型或者神经网络模型对待处理图像和图像级标签进行分析处理所获得,还可以通过待处理图像的嵌入信息以及图像级标签的嵌入信息所获得,此时,对待处理图像和图像级标签进行处理,获得带有语义信息的第一掩码信息可以包括:
步骤S301:分别对待处理图像和图像级标签进行处理,获得图像嵌入信息和文本嵌入信息。
由于第一掩码信息对应有语义信息,而语义信息往往与图像级标签相关,并且,第一掩码信息能够体现待处理图像的图像特征,因此,为了能够准确地获取到带有语义信息的第一掩码信息,在获取到待处理图像和图像级标签之后,可以分别对待处理图像和图像级标签进行分析处理,从而可以获得与待处理图像相对应的图像嵌入信息以及与图像级标签相对应的文本嵌入信息。
具体的,本实施例对于分别对待处理图像和图像级标签进行处理的具体实现方式不做限定,在一些实例中,图像嵌入信息和文本嵌入信息可以通过一训练好的机器学习模型分别对待处理图像和图像级标签进行分析处理所获得,此时,分别对待处理图像和图像级标签进行处理,获得图像嵌入信息和文本嵌入信息可以包括:获取预先训练好的用于对待处理图像和图像级标签进行分析处理的机器学习模型,机器学习模型可以实现为对比语言图像预训练(Contrastive Language-Image Pre-Training,简称CLIP)模型;而后可以将待处理图像输入至机器学习模型中,获得机器学习模型中所输出的图像嵌入信息;在获取到图像嵌入信息之前或者之后,可以将图像级标签输入至机器学习模型中,获得机器学习模型中所输出的文本嵌入信息。
在另一些实例中,图像嵌入信息和文本嵌入信息不仅可以通过一训练好的机器学习模型分别对待处理图像和图像级标签进行分析处理所获得,还可以通过预先训练好的不同网络模型对待处理图像和图像级标签进行分析处理所获得,此时,分别对待处理图像和图像级标签进行处理,获得图像嵌入信息和文本嵌入信息可以包括:获取用于对待处理图像进行分析处理的图像处理模型和用于对图像级标签进行分析处理的文本处理模型;利用图像处理模型对待处理图像进行处理,获得图像嵌入信息;利用文本处理模型对图像级标签进行处理,获得文本嵌入信息。
具体的,预先训练后用于实现图像处理操作的图像处理模型和用于实现文本处理操作的文本处理模型,为了能够实现图像处理操作和文本处理操作,可以获取预先训练好的图像处理模型以及文本处理模型,在获取到待处理图像之后,可以将待处理图像输入至图像处理模型中,进而可以获得图像处理模型所输出的图像嵌入信息,如图4所示,图像嵌入信息可以实现矩阵向量信息;相类似的,参考附图5所示,在获取到图像级标签之后,可以将图像级标签输入至文本处理模型中,进而可以获得文本处理模型中输出的文本嵌入信息,这样有效地保证了分别对图像嵌入信息和文本嵌入信息进行获取的准确可靠性。
需要注意的是,上述实施例中的步骤“利用图像处理模型对待处理图像进行处理,获得图像嵌入信息”与步骤“利用文本处理模型对图像级标签进行处理,获得文本嵌入信息”之间的执行顺序不做限定,在一些实例中,上述步骤“利用图像处理模型对待处理图像进行处理,获得图像嵌入信息”可以在步骤“利用文本处理模型对图像级标签进行处理,获得文本嵌入信息”之前或者之后执行,或者,步骤“利用图像处理模型对待处理图像进行处理,获得图像嵌入信息”可以与步骤“利用文本处理模型对图像级标签进行处理,获得文本嵌入信息”同步执行,本领域技术人员可以根据具体的应用场景或者应用需求对步骤之间的执行顺序进行灵活调整。
步骤S302:基于图像嵌入信息和文本嵌入信息,确定带有语义信息的第一掩码信息。
在获取到图像嵌入信息和文本嵌入信息之后,可以对图像嵌入信息和文本嵌入信息进行分析处理,从而可以获得带有语义信息的第一掩码信息。具体的,本实施例对于第一掩码信息进行确定的实现方式不做限定,在一些实例中,第一掩码信息可以通过预先训练好的机器学习模型或者神经网络模型对图像嵌入信息和文本嵌入信息进行分析处理所获得,此时,基于图像嵌入信息和文本嵌入信息,确定带有语义信息的第一掩码信息可以包括:获取预先训练好的机器学习模型或者神经网络模型,将图像嵌入信息和文本嵌入信息输入至机器学习模型或者神经网络模型中,从而可以获得机器学习模型或者神经网络模型所输出的带有语义信息的第一掩码信息。
在另一些实例中,第一掩码信息不仅可以通过预先训练好的机器学习模型或者神经网络模型对图像嵌入信息和文本嵌入信息进行分析处理所获得,还可以直接对图像嵌入信息和文本嵌入信息进行分析处理所获得,此时,基于图像嵌入信息和文本嵌入信息,确定带有语义信息的第一掩码信息可以包括:获取文本嵌入信息的转置信息;对转置信息和图像嵌入信息进行点乘处理,获得带有语义信息的第一掩码信息。
具体的,以文本嵌入信息为
Figure BDA0004074852290000101
图像嵌入信息为/>
Figure BDA0004074852290000102
为例,在获取到文本嵌入信息/>
Figure BDA0004074852290000103
之后,可以对文本嵌入信息/>
Figure BDA0004074852290000104
进行转置处理,获得文本嵌入信息/>
Figure BDA0004074852290000105
的转置信息/>
Figure BDA0004074852290000106
而后可以对转置信息/>
Figure BDA0004074852290000107
和图像嵌入信息/>
Figure BDA0004074852290000108
进行点乘处理,即/>
Figure BDA0004074852290000109
从而可以获得带有语义信息的第一掩码信息/>
Figure BDA00040748522900001010
并有效地保证了对第一掩码信息Minit进行获取的准确可靠性。
本实施例中,通过分别对待处理图像和图像级标签进行处理,获得图像嵌入信息和文本嵌入信息,而后对图像嵌入信息和文本嵌入信息进行分析处理,可以确定带有语义信息的第一掩码信息,这样有效地保证了对第一掩码信息进行获取的精确程度,而后便于保证基于第一掩码信息对像素级标签进行生成的稳定可靠性。
图6为本发明实施例提供的对第一掩码信息和待处理图像进行处理,获得未带有语义信息的第二掩码信息的流程示意图;在上述实施例的基础上,参考附图6所示,对于第二掩码信息而言,其不仅可以通过预先训练好的第二机器学习模型或者第二神经网络模型对第一掩码信息和待处理图像进行分析处理所获得,而且还可以直接对第一掩码信息和待处理图像进行分析处理获得第二掩码信息,此时,对第一掩码信息和待处理图像进行处理,获得未带有语义信息的第二掩码信息可以包括:
步骤S601:对第一掩码信息进行随机采样,获得用于辅助对待处理图像进行处理的多个种子点。
在获取到第一掩码信息之后,可以对第一掩码信息进行随机采样处理,从而可以获得用于辅助对待处理图像进行分析处理的多个种子点,在一些实例中,对第一掩码信息进行随机采样,获得用于辅助对待处理图像进行处理的多个种子点可以包括:对第一掩码信息进行二值化处理,获得二值化图,而后获取二值化图的前景,并在二值化图的前景中随机采样N个像素点作为种子点,其中,N可以为5个、6个、7个、8个或者9个等等,从而有效地实现了对多个种子点进行获取的准确可靠性。
步骤S602:对待处理图像进行处理,获得多个图像掩码。
在获取到待处理图像之后,可以对待处理图像进行分析处理,从而可以获得多个图像掩码,所获得的多个图像掩码相对于待处理图像而言,可以对应有不同的置信度。
步骤S603:基于多个种子点和多个图像掩码,获得未带有语义信息的第二掩码信息。
在获取到多个种子点和多个图像掩码之后,可以对多个种子点和多个图像掩码进行分析处理,从而可以获得未带有语义信息的第二掩码信息。在一些实例中,第二掩码信息可以通过预先训练好的机器学习模型或者神经网络模型对多个种子点和多个图像掩码进行分析处理所获得。在又一些实例中,第二掩码信息不仅可以通过机器学习模型或者神经网络模型对多个种子点和多个图像掩码进行分析处理所获得,还可以直接对多个种子点和多个图像掩码进行分析处理所获得,此时,基于多个种子点和多个图像掩码,获得未带有语义信息的第二掩码信息可以包括:在多个图像掩码中,确定与多个种子点相匹配的多个备选掩码;对多个备选掩码进行平均处理,获得第二掩码信息。
举例来说,在多个图像掩码包括12个图像掩码、多个种子点为9个种子点时,则可以在多个图像掩码中,选择与多个种子点分别匹配的多个备选掩码,具体的,可以通过每个种子点获得1个备选掩码,从而可以获得9个备选掩码。在获取到9个备选掩码之后,可以对9个备选掩码进行平均处理,获得第二掩码信息,所获得的第二掩码信息未带有语义信息,这样有效地保证了对第二掩码信息进行获取的准确可靠性。
本实施例中,通过对第一掩码信息进行随机采样,获得用于辅助对待处理图像进行处理的多个种子点,而后对待处理图像进行处理,获得多个图像掩码,并基于多个种子点和多个图像掩码来获得未带有语义信息的第二掩码信息,从而有效地保证了对第二掩码信息进行获取的准确可靠性,进一步提高了该方法的实用性。
图7为本发明实施例提供的另一种像素级标签的生成方法的流程示意图;在上述任意一个实施例的基础上,参考附图7所示,在生成与待处理图像相对应的像素级标签之后,本实施例可以基于像素级标签进行模型优化操作,具体的,本实施例中的方法还可以包括:
步骤S701:获取第一网络模型,第一网络模型用于对第一类图像和第二类图像进行图像分割操作,其中,第一类图像对应有标准像素级标签,第二类图像未对应有标准像素级标签。
在用户存在模型优化需求时,则可以使得像素级标签的生成装置获取第一网络模型,所获得的第一网络模型用于对第一类图像和第二类型图像进行图像分割操作。其中,第一类图像可以对应有标准像素级标签,即第一类图像可以为预先标注的对应有像素级标签的旧类图像;第二类图像未对应有标签像素级标签,第二类图像可以为没有标注有像素级标签的新类图像,需要注意的是,上述的标准像素级标签是指满足预设要求的像素级标签。
另外,本实施例对于第一网络模型进行获取的具体实现方式不做限定,在一些实例中,第一网络模型可以是能够对旧类图像和新类图像进行图像分割操作的网络模型,具体的,在获取第一网络模型时,可以先获取到包括多个旧类图像(第一类图像)、与旧类图像(第一类图像)相对应的像素级标签以及多个新类图像(第二类图像)的模型训练数据,基于模型训练数据进行模型训练操作,从而获得第一网络模型;其中,与旧类图像相对应的图像级标签可以是通过预先训练好的第二网络模型对旧类图像进行分析处理所获得。
在另一些实例中,第一网络模型不仅可以是通过模型训练数据进行实时训练获取,还可以通过访问预设区域或者第三设备获取第一网络模型,此时,第一网络模型可以是预先训练好的、存储在预设区域或者第三设备中。
步骤S702:在待处理图像为第二类图像时,则获取与第一网络模型通信连接的第二网络模型,第二网络模型用于预测图像的像素级标签。
在生成与待处理图像相对应的像素级标签之后,可以识别待处理图像的图像类型,在待处理图像为第二类图像(即新类图像)时,由于第二类图像是没有对应有标准像素级标签的图像,因此,为了能够监督对第一网络模型进行优化的质量和效果,可以获取与第一网络模型通信连接的第二网络模型,第二网络模型用于预测图像的像素级标签,具体实现时,第二网络模型可以实现为教师模型。
步骤S703:基于第二网络模型以及与待处理图像相对应的像素级标签获取目标损失函数。
其中,由于第二网络模型能够预测图像的像素级标签,所预测的像素级标签能够用来对第一网络模型进行训练和优化操作,因此,为了能够实现对第一网络模型的优化操作,在获取到第二网络模型以及与待处理图像相对应的像素级标签之后,可以结合第二网络模型以及与待处理图像相对应的像素级标签获得与第一网络模型相对应的目标损失函数。
在一些实例中,由于第一网络模型能够对旧类图像和新类图像进行图像分割操作,所获得的目标损失函数可以为与新类图像相对应的损失函数,此时,基于第二网络模型以及与待处理图像相对应的像素级标签获取目标损失函数可以包括:基于第二网络模型获取与待处理图像相对应的预测像素级标签,基于预测像素级标签以及与待处理图像相对应的像素级标签获得目标损失函数,此时所获得的目标损失函数可以为与第二类图像(新类图像)相对应的损失函数,该损失函数可以为交叉熵损失函数。
在另一些实例中,所获得的目标损失函数不仅可以与新类图像相对应,还可以为与旧类图像和新类图像相对应的损失函数,此时,基于第二网络模型以及与待处理图像相对应的像素级标签获取目标损失函数可以包括:基于第二网络模型和预设的第一类图像,确定第一网络模型针对第一类图像的第一损失函数;基于第二网络模型、待处理图像以及像素级标签,确定第一网络模型针对第二类图像的第二损失函数;基于第一损失函数和第二损失函数,确定目标损失函数。
在获取到第二网络模型和第一类图像之后,可以基于第二网络模型对第一类图像进行分析处理,从而可以获得第一网络模型针对第一类图像(旧类图像)的第一损失函数,具体的,基于第二网络模型和预设的第一类图像,确定第一网络模型针对第一类图像的第一损失函数可以包括:利用第二网络模型对第一类图像进行处理,获取与第一类图像相对应的第一预测标签,第一预测标签为像素级别的标签;基于第一类图像所对应的标准像素级标签和第一预测标签,确定第一网络模型针对第一类图像的第一损失函数。
在目标损失函数为与旧类图像和新类图像相对应的损失函数时,为了能够准确地获取到目标损失函数,在获取到第二网络模型、待处理图像以及像素级标签之后,可以基于第二网络模型、待处理图像以及像素级标签来确定并获得第一网络模型针对第二类图像(新类图像)的第二损失函数。具体的,基于第二网络模型、待处理图像以及像素级标签,确定第一网络模型针对第二类图像的第二损失函数可以包括:基于第二网络模型对待处理图像进行处理,获得与待处理图像相对应的第二预测标签,第二预测标签为像素级别的标签;基于第二预测标签和像素级标签,确定第一网络模型针对第二类图像的第二损失函数,从而有效地保证了对第二损失函数进行获取的准确可靠性。
在获取到第一损失函数和第二损失函数之后,可以对第一损失函数和第二损失函数进行分析处理,可以获得目标损失函数;在一些实例中,基于第一损失函数和第二损失函数,确定目标损失函数可以包括:对第一损失函数和第二损失函数进行加权求和,获得目标损失函数。
举例来说,在第一损失函数为
Figure BDA0004074852290000131
第二损失函数为/>
Figure BDA0004074852290000132
时,可以确定与第一损失函数和第二损失函数各自对应的权重信息,具体的,与第一损失函数/>
Figure BDA0004074852290000133
相对应的权重信息为k1,与第二损失函数/>
Figure BDA0004074852290000134
相对应的k2,而后可以通过以下公式获得目标损失函数,该目标损失函数可以为:/>
Figure BDA0004074852290000135
在一些实例中,k1可以等于1,k2可以等于1,此时,所获得的目标损失函数可以为/>
Figure BDA0004074852290000136
在又一些实例中,在确定与第二类图像相对应的第二损失函数之后,本实施例还可以包括基于第二损失函数对第二网络模型进行优化操作的技术方案,此时,本实施例中的方法还可以包括:基于第二预测标签和像素级标签,获得与第二网络模型相对应的对比学习损失函数;基于第二损失函数和对比学习损失函数对第二网络模型进行优化,获得优化后的第二网络模型。
具体的,在获取到第二预测标签和像素级标签之后,可以对第二预测标签和像素级标签进行分析处理,获得与第二网络模型相对应的对比学习损失函数,在一些实例中,基于第二预测标签和像素级标签,获得与第二网络模型相对应的对比学习损失函数可以包括:确定第二预测标签所对应的像素i,收集所有与像素i具有相同类别的像素级标签组成正样本集合P,并收集其他类别的像素点所对应的像素级标签组成负样本集合N,而后可以通过正样本集合P和负样本集合N可以获取对比学习损失函数,上述的对比学习损失函数可以通过以下公式获取:
Figure BDA0004074852290000137
其中,/>
Figure BDA0004074852290000138
为对比学习损失函数,i与像素点,Pi为正样本集合,Ni为负样本集合,T为预设权项(默认为0.1),q+为正样本集合中的正样本,q为负样本集合中的负样本。
在获取到第二损失函数和对比学习函数之后,可以基于第二损坏函数和对比学习损失对第二网络模型进行优化操作,获得优化后的第二网络模型。这样在通过图像级标签获取到像素级标签时,由于所获得的像素级标签往往具有干扰信息,通过优化后的第二网络模型可以通过对所获得的像素级标签进行优化处理,可以有效地减少并降低像素级标签所存在的干扰信息,从而可以获得更加精确的像素级标签,而后可以利用更加精确的像素级标签进行模型的优化以及更新操作,进一步提高了该方法的实用性。
步骤S704:基于目标损失函数对第一网络模型进行优化,获得目标网络模型。
在获取到目标损失函数之后,可以基于目标损失函数对第一网络模型进行优化操作,从而可以获得经过优化操作后的目标网络模型。
本实施例中,通过获取第一网络模型,在待处理图像为第二类图像时,则获取与第一网络模型通信连接的第二网络模型,而后基于第二网络模型以及与待处理图像相对应的像素级标签获取目标损失函数,并基于目标损失函数对第一网络模型进行优化,这样完成了对第一网络模型进行优化操作,从而可以获得目标网络模型,进一步提高了目标网络模型进行图像处理的质量和效果。
图8为本发明实施例提供的又一种像素级标签的生成方法的流程示意图;在上述实施例的基础上,参考附图8所示,由于第一网络模型能够对旧类图像和新类图像进行图像分割操作,为了避免第一网络模型对旧类图像的训练质量和效果产生灾难性遗忘,本实施例中的方法还可以包括对部分的模型训练数据进行存储操作,以便结合所存储的历史数据以及新增的训练数据进行网络模型的优化操作。此时,本实施例中的方法还可以包括:
步骤S801:获取用于对第一网络模型进行训练的模型训练数据,模型训练数据包括训练图像以及与训练图像相对应的像素级标签。
当用户存在对模型训练数据进行存储的需求时,则可以使得像素级标签的生成装置获得用于对第一网络模型进行训练的模型训练数据,其中,模型训练数据可以包括训练图像以及与训练图像相对应的像素级标签。具体的,本实施例对于模型训练数据进行获取的具体方式不做限定,本实施例中对模型训练数据进行获取的具体方式与上述实施例中对待处理图像进行获取的具体方式相类似,具体可参考上述陈述内容,在此不再赘述。
步骤S802:确定模型训练数据所对应的图像类别。
为了能够提高对模型训练数据进行存储的质量和效率,则可以按照图像类别对模型训练数据进行存储操作,为了提高数据存储的质量和效率,在获取到模型训练数据之后,可以对模型训练数据进行分析处理,从而可以获取并确定模型训练数据所对应的图像类别。
在一些实例中,图像类别可以通过预先训练好的机器学习模型或者神经网络模型对模型训练数据进行分析处理所获得,此时,确定模型训练数据所对应的图像类别可以包括:获取用于确定图像类别的机器学习模型或者神经网络模型,将模型训练数据输入至机器学习模型或者神经网络模型中,从而可以获得机器学习模型或者神经网络模型所输出的与模型训练数据所对应的图像类别。
在另一些实例中,图像类别不仅可以通过机器学习模型或者神经网络模型对模型训练数据进行分析处理所获得,还可以通过直接对模型训练数据进行分析处理所获得,此时,确定模型训练数据所对应的图像类别可以包括:对模型训练数据进行分析处理,获取模型训练数据中的预设字段,通过预设字段获取与模型训练数据所对应的图像类别。
步骤S803:在模型训练数据中,随机确定与多个图像类别相对应的目标训练数据。
在获取到模型训练数据和图像类别之后,可以在模型训练数据中随机确定与多个图像类别相对应的目标训练数据。举例来说,在模型训练数据包括数据1、数据2、数据3、数据4以及数据5时,若数据1所对应的图像类别为图像类别1、数据2和数据3所对应的图像类别为图像类别2、数据4所对应的图像类别为图像类别3、数据5所对应的图像类别为图像类别4,而后可以在上述的模型训练数据中,随机确定与多个图像类别相对应的目标训练数据,例如,可以随机确定与2个图像类别(图像类别1和图像类别4)相对应的目标训练数据(数据1以及数据5),或者,可以随机确定与3个图像类别(图像类别1、图像类别2和图像类别4)相对应的目标训练数据(数据1、数据2以及数据5)等等,从而有效地保证了对目标训练数据进行获取的灵活可靠性。
步骤S804:对目标训练数据进行存储。
在获取到目标训练数据之后,可以对目标训练数据进行存储,例如,可以将目标训练数据存储在预设区域或者与像素级标签的生成装置通信连接的第三设备中,从而有效地实现了对目标训练数据进行存储操作。
为了进一步提高该方法的实用性,在对目标训练数据进行存储之后,可以利用所存储的目标训练数据进行模型训练操作,具体的,在获取第一网络模型之后,本实施例中的方法还可以包括:获取新增训练数据以及预先存储的目标训练数据,新增训练数据包括多个参考图像以及与部分的参考图像相对应的多个参考像素级标签;在目标训练数据中,选择与多个图像类别相对应的历史训练数据;基于新增训练数据以及历史训练数据对第一网络模型进行训练,获得训练后的第一网络模型。
具体的,当用户针对第一网络模型进行模型训练需求时,则可以获取新增训练数据,所获得的新增训练数据可以包括多个参考图像以及与部分的参考图像相对应的多个参考像素级标签,由于新增训练数据对于第一网络模型而言,属于新类图像,为了避免第一网络模型对旧类图像的图像分割效果产生遗忘的问题,则可以获取预先存储的目标训练数据,为了能够提高模型训练的质量和效率,可以在目标训练数据中选择与多个图像类别相对应的历史训练数据,而后可以基于新增训练数据以及历史训练数据对第一网络模型进行训练操作,从而可以获得训练后的第一网络模型,这样有效地提高了第一网络模型的训练质量和效率。
本实施例中,通过获取用于对第一网络模型进行训练的模型训练数据,确定模型训练数据所对应的图像类别,而后在模型训练数据中随机确定与多个图像类别相对应的目标训练数据,并对目标训练数据进行存储操作,从而有效地实现了对目标训练数据进行灵活存储操作,而后可以利用所存储的目标训练数据进行模型训练或者模型优化操作,进一步提高了该方法的实用性,有利于市场的推广与应用。
图9为本发明实施例提供的一种模型优化方法的流程示意图;参考附图9所示,本实施例提供了一种模型优化方法,该方法的执行主体可以为模型优化装置,可以理解的是,该模型优化装置可以实现为软件、或者软件和硬件的组合,具体的,在模型优化装置实现为硬件时,其具体可以是具有模型优化操作的各种电子设备,包括但不限于平板电脑、个人电脑PC、服务器等等。当模型优化装置实现为软件时,其可以安装在上述所例举的电子设备中。基于上述的模型优化装置,本实施例中的模型优化方法可以包括以下步骤:
步骤S901:获取待优化的第一网络模型,第一网络模型用于对第一类图像和第二类图像进行图像分割操作,其中,第一类图像对应有标准像素级标签,第二类图像未对应有标准像素级标签。
本实施例中上述步骤的具体实现方式和实现效果与上述实施例中步骤S701的具体实现方式和实现效果相类似,具体可参考上述陈述内容,在此不再赘述。
步骤S902:确定新增训练数据以及与多个图像类别相对应的历史训练数据,其中,新增训练数据包括多个参考图像以及与部分的参考图像相对应的多个参考像素级标签,历史训练数据包括历史训练图像以及与历史训练图像相对应的标准像素级标签。
为了能够对第一网络模型进行优化操作,可以确定新增训练数据以及与多个图像类别相对应的历史训练数据,本实施例中对于新增训练数据以及历史训练数据进行获取或者确定的具体实现方式与上述实施例对新增训练数据以及历史训练数据进行获取的具体实现方式相类似,具体可参考上述实施例的描述内容,在此不再赘述。
步骤S903:基于新增训练数据和历史训练数据对第一网络模型进行优化,获得优化后的第一网络模型。
在获取到新增训练数据和历史训练数据之后,可以基于新增训练数据和历史训练数据对第一网络模型进行优化处理,从而可以获得优化后的第一网络模型,从而实现了对第一网络模型进行训练的操作,保证了第一网络模型的训练质量和效率。
此外,本实施例中的方法还可以包括上述图1-图8所示实施例的方法,本实施例未详细描述的部分,可参考对图1-图8所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图8所示实施例中的描述,在此不再赘述。
本实施例提供的模型优化方法,通过获取待优化的第一网络模型,确定新增训练数据以及与多个图像类别相对应的历史训练数据,而后基于新增训练数据和历史训练数据对第一网络模型进行优化,获得优化后的第一网络模型,有效地实现了可以结合历史训练数据和新增训练数据对第一网络模型进行优化操作,从而避免了在对第一网络模型进行优化操作时,容易产生对旧类图像的图像分割质量和效果产生遗忘的问题,这样有效地保证了对第一网络模型进行模型训练或者模型优化的质量和效果,进一步提高了该方法的实用性,有利于市场的推广与应用。
图10为本发明实施例提供的一种模型训练方法的流程示意图;参考附图10所示,本实施例提供了一种模型训练方法,该方法的执行主体可以为模型训练装置,可以理解的是,该模型训练装置可以实现为软件、或者软件和硬件的组合,具体的,在模型训练装置实现为硬件时,其具体可以是具有模型训练操作的各种电子设备,包括但不限于平板电脑、个人电脑PC、服务器等等。当模型训练装置实现为软件时,其可以安装在上述所例举的电子设备中。基于上述的模型训练装置,本实施例中的模型训练方法可以包括以下步骤:
步骤S1001:获取多个第一类训练图像以及多个第二类训练图像,其中,第一类训练图像对应有标准像素级标签,第二类训练图像对应有标准图像级标签。
本实施例中上述步骤的具体实现方式和实现效果与上述实施例中步骤S201的具体实现方式和实现效果相类似,具体可参考上述陈述内容,在此不再赘述。
步骤S1002:基于标准图像级标签,确定与第二类训练图像相对应的预测像素级标签。
由于第二类训练图像未对应有像素级标签,而是对应有标准图像级标签,为了能够稳定地获取到图像分割操作的网络模型,在获取到第二类训练图像以及所对应的标准图像级标签之后,可以对标准图像级标签进行分析处理,以确定与第二类训练图像相对应的预测像素级标签,其中,预测像素级标签的具体获取方式和实现效果与上述实施例中像素级标签的生成过程和实现效果相类似,具体可参考上述实施例的描述内容,在此不再赘述。
步骤S1003:基于多个第一类训练图像、多个第二类训练图像以及与第二类模型训练图像相对应的预测像素级标签进行模型训练操作,获得网络模型,网络模型用于对第一类图像和第二类图像进行图像分割操作,其中,第一类图像对应有标准像素级标签,第二类图像未对应有标准像素级标签。
在获取到多个第一类训练图像、多个第二类训练图像以及与第二类模型训练图像相对应的预测像素级标签之后,可以基于多个第一类训练图像、多个第二类训练图像以及与第二类模型训练图像相对应的预测像素级标签进行模型训练操作,从而可以获得能够实现图像分割操作的网络模型,并且训练获得的网络模型不仅能够对对应有标准像素级标签的图像进行图像分割操作,还能够对未对应有标准像素级标签的图像进行图像分割操作,进一步提高了该方法的实用性。
此外,本实施例中的方法还可以包括上述图1-图9所示实施例的方法,本实施例未详细描述的部分,可参考对图1-图9所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图9所示实施例中的描述,在此不再赘述。
本实施例提供的模型训练方法,通过获取多个第一类训练图像以及多个第二类训练图像,而后基于所述标准图像级标签确定与所述第二类训练图像相对应的预测像素级标签,并基于所述多个第一类训练图像、多个第二类训练图像以及与所述第二类模型训练图像相对应的预测像素级标签进行模型训练操作,可以获得能够实现图像分割操作的网络模型,所获得的网络模型不仅能够对具有标准像素级标签的图像进行图像分割操作,还能够对不具有标准像素级标签的图像进行图像分割操作,这样有效地提高了网络模型的适用范围,并保证了该方法的实用性,有利于市场的推广与应用。
具体应用时,本应用实施例提供了一种基于预训练的基础模型驱动的弱监督增量分割方法,该方法能够利用预先训练好的基础模型,在仅仅使用图像级标签的情况下,保持对旧类分割能力或者避免灾难性遗忘的同时,增量地分割出新增类目,从而可以提升和有效利用对新类图像的监督操作。本实施例中的弱监督增量分割方法可以包括基于图像级标签获得像素级标签的过程、基于像素级标签对教师模型进行优化的过程、基于教师模型对全类模型进行优化的过程;具体的,参考附图11的右侧部分,基于图像级标签获得像素级标签的过程可以包括以下步骤:
步骤1:获取待处理图像以及与待处理图像相对应的图像级标签。
其中,在待处理图像为包括一匹马正在食草的图片时,可以获取到与待处理图像相对应的图像级标签“马”。
步骤2:利用文本处理模型对图像级标签进行处理,获得文本嵌入信息;利用图像处理模型对待处理图像进行处理,获得图像嵌入信息。
其中,文本处理模型可以实现为文本预训练(Contrastive Language-Image Pre-Training,简称CLIP)模型,图像处理模型可以实现为图像预训练(Contrastive Language-Image Pre-Training,简称CLIP)模型,上述图像处理模型中的图像编码器可以采用VisionTransformer(简称ViT-L)的模型结构。
步骤3:对文本嵌入信息和图像嵌入信息进行处理,获得第一掩码信息,该第一掩码信息对应有语义信息。
举例来说,在文本嵌入信息为
Figure BDA0004074852290000181
图像嵌入信息为/>
Figure BDA0004074852290000182
为例,在获取到文本嵌入信息/>
Figure BDA0004074852290000183
之后,可以对文本嵌入信息/>
Figure BDA0004074852290000184
进行转置处理,获得文本嵌入信息/>
Figure BDA0004074852290000185
的转置信息/>
Figure BDA00040748522900001810
而后可以对转置信息/>
Figure BDA0004074852290000186
和图像嵌入信息/>
Figure BDA0004074852290000187
进行点乘处理,即/>
Figure BDA0004074852290000188
从而可以获得带有语义信息的第一掩码信息/>
Figure BDA0004074852290000189
步骤4:利用视觉自监督预训练模型对待处理图像进行处理,获得多个图像掩码,多个图像掩码未带有语义信息。
其中,视觉自监督预训练模型可以实现为使用在线标记器进行图像BERT预培训(Image BERT Pre-training with Online Tokenizer,简称iBOT)模型,具体的,视觉自监督预训练模型的主干网络backbone可以采用视觉Transformer-基础模型(VisionTransformer-Base,简称ViT-B)。在获取到待处理图像之后,可以利用视觉自监督预训练模型对待处理图像进行分析处理,从而可以获得多个图像掩码。
步骤5:在第一掩码信息中随机选择多个种子点(例如:9个种子点、12个种子点或者16个种子点等等),基于多个种子点和多个图像掩码,获得第二图像掩码。
其中,由于第一掩码信息是基于图像嵌入信息和文本嵌入信息所获得的,该第一掩码信息虽然对应有语义信息,但是其所提供的形状信息以及定位信息相比于通过视觉自监督预训练模型所获得的图像掩码而言比较粗糙,精确度较低;而多个图像掩码是基于视觉自监督预训练模型所生成的,因此,多个图像掩码具有较为准确的形状信息以及位置信息,但是,并没有对应的语义信息,因此,为了能够获得较为准确地第二图像掩码,可以对多个种子点和多个图像掩码进行分析处理,从而可以获得第二图像掩码。
具体的,基于多个种子点和多个图像掩码,获得第二图像掩码可以包括:在多个图像掩码中,获得与多个种子点各自对应的备选图像掩码,而后可以对多个备选图像掩码进行平均处理,从而获得第二图像掩码。
步骤6:基于第一掩码信息和第二掩码信息,生成与待处理图像相对应的像素级标签。
其中,基于第一掩码信息和第二掩码信息,生成与待处理图像相对应的像素级标签可以包括:对第一掩码信息和第二掩码信息进行拼接融合,从而可以生成与待处理图像相对应的像素级标签,需要注意的是,由于所生成的像素级标签的准确率并没有达到实际的像素级标签的准确率,其对应有一定的干扰信息,因此,可以将所生成的像素级标签看作为伪的像素级标签。
另外,继续参考附图11所示,本应用实施例中的基于像素级标签对教师模型进行优化的过程可以包括以下步骤:
步骤11:获取待处理图像以及与待处理图像相对应的像素级标签。
此时,与待处理图像相对应的像素级标签可以作为与待处理图像相对应的标准像素级标签。
步骤12:在待处理图像相对于教师模型为新类图像时,利用教师模型对待处理图像进行处理,获得与待处理图像相对应的预测像素标签,其中,教师模型用于预测图像的像素级标签。
其中,教师模型可以与用于对全类图像进行图像分割操作的全类网络模型通信连接,具体的,教师模型可插拔地连接在全类网络模型上,在一些实例中,教师模型可以由空洞空间卷积池化金字塔(Atrous Spatial Pyramid Pooling,简称ASPP)的网络结构来实现。
步骤13:基于像素级标签和预测像素级标签,获得与教师模型相对应的对比学习损失函数、以及教师模型关于新类图像上所存储的新类损失函数。
步骤14:基于新类损失函数和对比学习损失函数对教师模型进行优化,获得优化后的教师模型,优化后的教师模型能够准确地对图像的像素级标签进行预测。
其中,在新类损失函数为
Figure BDA0004074852290000191
对比学习损失函数为/>
Figure BDA0004074852290000192
而后则可以基于新类损失函数/>
Figure BDA0004074852290000193
以及对比学习损失函数/>
Figure BDA0004074852290000194
对教师模型进行优化,从而可以获得优化后的教师模型,通过优化后的教师模型,可以获得准确率更高的像素级标签。
此外,本应用实施例中的基于教师模型对全类模型进行优化的过程可以包括以下步骤:
步骤21:利用预先配置的训练图像以及与训练图像相对应的像素级标签pixel-level进行模型训练操作,获得基类模型,该基类模型用于对标注有像素级标签的图像进行图像分割操作。
其中,基类模型用于对旧类图像进行图像分割操作,具体的,基类模型可以实现为语义分割模型deeplab-v3、人体姿态估算(HR-NET)等架构,主干网络可以实现为残差神经网络-101(resnet-101)、残差神经网络-50(resnet-50)、残差神经网络-152(resnet-152)等等。对于基类模型而言,模型的输入可以为训练图像以及所对应的像素级标签(即pixel-level标注),模型的输出可以为基类图像的语义分割预测结果。
步骤22:利用预先配置的训练图像以及与部分的训练图像相对应的像素级标签pixel-level进行模型训练操作,获得全类模型,该全类模型用于对全类图像(包括:标注有像素级标签的图像以及未标注有像素级标签的图像)进行图像分割操作。
其中,全类模型与基类模型可以采用相同的网络架构,在对全类模型进行训练完成之后,对于全类模型而言,其输入可以为图像以及与图像相对应的图像级标签,输出可以为全类图像的语义分割预测结果。
步骤23:获取参考图像以及与参考图像相对应的图像级标签。
步骤24:利用与全类模型通信连接的教师模型对参考图像以及图像级标签进行分析处理,从而可以获得参考图像相对应的像素级标签。
步骤25:固定训练好的基类模型,基于基类模型和教师模型获得全类模型在基类图像(对应有标准的像素级标签)上所存在的基类损失函数;基于教师模型获得全类模型在新类图像(未对应有标准的像素级标签)上所存在的新类损失函数,基于基类损失函数(可以为交叉熵损失函数)和新类损失函数,确定与全类模型相对应的全类损失函数。
其中,在基类损失函数为
Figure BDA0004074852290000195
新类损失函数为/>
Figure BDA0004074852290000196
时,则可以对基类损失函数
Figure BDA0004074852290000197
和新类损失函数/>
Figure BDA0004074852290000198
获得全类损失函数/>
Figure BDA0004074852290000199
具体的,/>
Figure BDA00040748522900001910
可以等于/>
Figure BDA00040748522900001911
步骤26:基于全类损失函数对全类模型进行优化处理,获得优化后的目标模型。
举例来说,在基类损失函数能够对10个类别图像进行图像分割操作,新增图像为5个类别的图像时,那么经过训练优化之后,优化后的目标模型可以对15个类别图像进行图像分割操作。
需要注意的是,在对全类模型进行训练优化的过程中,全类模型中关于基类图像的分割预测结果受到基类模型和教师模型的共同监督,而关于新类图像的分割预测结果受到教师模型的监督,从而实现了在避免对旧类图像进行遗忘的情况出现,还保证了对新增图像进行图像分割操作的质量和效果。
本应用实施例提供的基于预训练的基础模型的联合分割策略,能够基于图像级标签获得更丰富的像素级标签的伪标注,并且,考虑到像素级标签的未标注具有噪声,可以进一步利用教师模型对所获得的伪标签进行优化操作,进一步优化了伪标签的学习过程,并能够获得更好质量的监督信号;同时,本实施例还提供了一种对内存的数据进行复制黏贴的数据增强操作,具体的,可以在基类模型进行训练过程中,将训练数据按照图像类别进行存储,构建一个记忆库,为每个基类图像存储预设数量的实例图像和对应标签,之后在对全类模型进行数据增强操作时,可以通过所构建的记忆库选择部分的历史训练数据,而后基于历史训练数据和新增训练数据对全类模型进行数据增强操作,对于本应用实施例所提供的全类模型而言,全类模型中对于基类图像的图像分割质量和效果受到基类模型和教师模型的共同监督,而对于新类图像的图像分割质量和效果受到教师模型的监督,这样能够有效地提升基类图像的图像分割性能,改善了对基类图像的灾难性遗忘问题,进一步提高了该技术方案的实用性,有利于市场的推广与应用。
图12为本发明实施例提供的一种像素级标签的生成装置的结构示意图;参考附图12所示,本实施例提供了一种像素级标签的生成装置,该像素级标签的生成装置用于执行上述图2所示的像素级标签的生成方法,具体的,该像素级标签的生成装置可以包括:
第一获取模块11,用于获取待处理图像以及与待处理图像相对应的图像级标签;
第一处理模块12,用于对待处理图像和图像级标签进行处理,获得带有语义信息的第一掩码信息;
该第一处理模块12,还用于对第一掩码信息和待处理图像进行处理,获得未带有语义信息的第二掩码信息;
第一生成模块13,用于基于第一掩码信息和第二掩码信息,生成与待处理图像相对应的像素级标签。
在一些实例中,在第一处理模块12对待处理图像和图像级标签进行处理,获得带有语义信息的第一掩码信息时,该第一处理模块12用于执行:分别对待处理图像和图像级标签进行处理,获得图像嵌入信息和文本嵌入信息;基于图像嵌入信息和文本嵌入信息,确定带有语义信息的第一掩码信息。
在一些实例中,在第一处理模块12分别对待处理图像和图像级标签进行处理,获得图像嵌入信息和文本嵌入信息时,该第一处理模块12用于执行:获取用于对待处理图像进行分析处理的图像处理模型和用于对图像级标签进行分析处理的文本处理模型;利用图像处理模型对待处理图像进行处理,获得图像嵌入信息;利用文本处理模型对图像级标签进行处理,获得文本嵌入信息。
在一些实例中,在第一处理模块12基于图像嵌入信息和文本嵌入信息,确定带有语义信息的第一掩码信息时,该第一处理模块12用于执行:获取文本嵌入信息的转置信息;对转置信息和图像嵌入信息进行点乘处理,获得带有语义信息的第一掩码信息。
在一些实例中,在第一处理模块12对第一掩码信息和待处理图像进行处理,获得未带有语义信息的第二掩码信息时,该第一处理模块12用于执行:对第一掩码信息进行随机采样,获得用于辅助对待处理图像进行处理的多个种子点;对待处理图像进行处理,获得多个图像掩码;基于多个种子点和多个图像掩码,获得未带有语义信息的第二掩码信息。
在一些实例中,在第一处理模块12基于多个种子点和多个图像掩码,获得未带有语义信息的第二掩码信息时,该第一处理模块12用于执行:在多个图像掩码中,确定与多个种子点相匹配的多个备选掩码;对多个备选掩码进行平均处理,获得第二掩码信息。
在一些实例中,在第一生成模块13基于第一掩码信息和第二掩码信息,生成与待处理图像相对应的像素级标签时,该第一生成模块13用于执行:对第一掩码信息和第二掩码信息进行融合,生成与待处理图像相对应的像素级标签。
在一些实例中,在生成与待处理图像相对应的像素级标签之后,本实施例中的第一获取模块11和第一处理模块12还用于执行以下步骤:
第一获取模块11,用于获取第一网络模型,第一网络模型用于对第一类图像和第二类图像进行图像分割操作,其中,第一类图像对应有标准像素级标签,第二类图像未对应有标准像素级标签;
第一获取模块11,还用于在待处理图像为第二类图像时,则获取与第一网络模型通信连接的第二网络模型,第二网络模型用于预测图像的像素级标签;
第一处理模块12,用于基于第二网络模型以及与待处理图像相对应的像素级标签获取目标损失函数;
第一处理模块12,还用于基于目标损失函数对第一网络模型进行优化,获得目标网络模型。
在一些实例中,在第一处理模块12基于第二网络模型以及与待处理图像相对应的像素级标签获取目标损失函数时,该第一处理模块12用于执行:基于第二网络模型和预设的第一类图像,确定第一网络模型针对第一类图像的第一损失函数;基于第二网络模型、待处理图像以及像素级标签,确定第一网络模型针对第二类图像的第二损失函数;基于第一损失函数和第二损失函数,确定目标损失函数。
在一些实例中,在第一处理模块12基于第二网络模型和预设的第一类图像,确定第一网络模型针对第一类图像的第一损失函数时,该第一处理模块12用于执行:利用第二网络模型对第一类图像进行处理,获取与第一类图像相对应的第一预测标签,第一预测标签为像素级别的标签;基于第一类图像所对应的标准像素级标签和第一预测标签,确定第一网络模型针对第一类图像的第一损失函数。
在一些实例中,在第一处理模块12基于第二网络模型、待处理图像以及像素级标签,确定第一网络模型针对第二类图像的第二损失函数时,该第一处理模块12用于执行:基于第二网络模型对待处理图像进行处理,获得与待处理图像相对应的第二预测标签,第二预测标签为像素级别的标签;基于第二预测标签和像素级标签,确定第一网络模型针对第二类图像的第二损失函数。
在一些实例中,在确定与第二类图像相对应的第二损失函数之后,本实施例中的第一获取模块11和第一处理模块12还用于以下步骤:
第一获取模块11,用于基于第二预测标签和像素级标签,获得与第二网络模型相对应的对比学习损失函数;
第一处理模块12,用于基于第二损失函数和对比学习损失函数对第二网络模型进行优化,获得优化后的第二网络模型。
在一些实例中,本实施例中的第一获取模块11和第一处理模块12还用于以下步骤:
第一获取模块11,用于获取用于对第一网络模型进行训练的模型训练数据,模型训练数据包括训练图像以及与训练图像相对应的像素级标签;
第一处理模块12,用于确定模型训练数据所对应的图像类别;在模型训练数据中,随机确定与多个图像类别相对应的目标训练数据;对目标训练数据进行存储。
在一些实例中,在获取第一网络模型之后,本实施例中的第一获取模块11和第一处理模块12还用于以下步骤:
第一获取模块11,用于获取新增训练数据以及预先存储的目标训练数据,新增训练数据包括多个参考图像以及与部分的参考图像相对应的多个参考像素级标签;
第一处理模块12,用于在目标训练数据中,选择与多个图像类别相对应的历史训练数据;
第一处理模块12,用于基于新增训练数据以及历史训练数据对第一网络模型进行训练,获得训练后的第一网络模型。
图12所示装置可以执行图1-图8、图11所示实施例的方法,本实施例未详细描述的部分,可参考对图1-图8、图11所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图8、图11所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图12所示像素级标签的生成装置的结构可实现为一电子设备,该电子设备可以是控制器、个人电脑、服务器等各种设备。如图13所示,该电子设备可以包括:第一处理器21和第一存储器22。其中,第一存储器22用于存储相对应电子设备执行上述图1-图8、图11所示实施例中提供的像素级标签的生成方法的程序,第一处理器21被配置为用于执行第一存储器22中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第一处理器21执行时能够实现如下步骤:获取待处理图像以及与待处理图像相对应的图像级标签;对待处理图像和图像级标签进行处理,获得带有语义信息的第一掩码信息;对第一掩码信息和待处理图像进行处理,获得未带有语义信息的第二掩码信息;基于第一掩码信息和第二掩码信息,生成与待处理图像相对应的像素级标签。
进一步的,第一处理器21还用于执行前述图1-图8、图11所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第一通信接口23,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图1-图8、图11所示实施例中像素级标签的生成方法所涉及的程序。
此外,本发明实施例提供了一种计算机程序产品,包括:存储有计算机指令的计算机可读存储介质,当计算机指令被一个或多个处理器执行时,致使一个或多个处理器执行上述图1-图8、图11所示方法实施例中像素级标签的生成方法中的步骤。
图14为本发明实施例提供的一种模型优化装置的结构示意图;参考附图14所示,本实施例提供了一种模型优化装置,该模型优化装置用于执行上述图9所示的模型优化方法,具体的,该模型优化装置可以包括:
第二获取模块31,用于获取待优化的第一网络模型,第一网络模型用于对第一类图像和第二类图像进行图像分割操作,其中,第一类图像对应有标准像素级标签,第二类图像未对应有标准像素级标签;
第二确定模块32,用于确定新增训练数据以及与多个图像类别相对应的历史训练数据,其中,新增训练数据包括多个参考图像以及与部分的参考图像相对应的多个参考像素级标签,历史训练数据包括历史训练图像以及与历史训练图像相对应的标准像素级标签;
第二处理模块33,用于基于新增训练数据和历史训练数据对第一网络模型进行优化,获得优化后的第一网络模型。
图14所示装置可以执行图9所示实施例的方法,本实施例未详细描述的部分,可参考对行图9所示实施例的相关说明。该技术方案的执行过程和技术效果参见行图9所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图14所示模型优化装置的结构可实现为一电子设备,该电子设备可以是手机、平板电脑、服务器等各种设备。如图15所示,该电子设备可以包括:第二处理器41和第二存储器42。其中,第二存储器42用于存储相对应电子设备执行上述图9所示实施例中提供的模型优化方法的程序,第二处理器41被配置为用于执行第二存储器42中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第二处理器41执行时能够实现如下步骤:获取待优化的第一网络模型,第一网络模型用于对第一类图像和第二类图像进行图像分割操作,其中,第一类图像对应有标准像素级标签,第二类图像未对应有标准像素级标签;确定新增训练数据以及与多个图像类别相对应的历史训练数据,其中,新增训练数据包括多个参考图像以及与部分的参考图像相对应的多个参考像素级标签,历史训练数据包括历史训练图像以及与历史训练图像相对应的标准像素级标签;基于新增训练数据和历史训练数据对第一网络模型进行优化,获得优化后的第一网络模型。
进一步的,第二处理器41还用于执行前述图9所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第二通信接口43,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图9所示方法实施例中模型优化方法所涉及的程序。
此外,本发明实施例提供了一种计算机程序产品,包括:存储有计算机指令的计算机可读存储介质,当计算机指令被一个或多个处理器执行时,致使一个或多个处理器执行上述图9所示方法实施例中模型优化方法中的步骤。
图16为本发明实施例提供的一种模型训练装置的结构示意图;参考附图16所示,本实施例提供了一种模型训练装置,该模型训练装置用于执行上述图10所示的模型训练方法,具体的,该模型训练装置可以包括:
第三获取模块51,用于获取多个第一类训练图像以及多个第二类训练图像,其中,所述第一类训练图像对应有标准像素级标签,所述第二类训练图像对应有标准图像级标签;
第三确定模块52,用于基于所述标准图像级标签,确定与所述第二类训练图像相对应的预测像素级标签;
第三处理模块53,用于基于所述多个第一类训练图像、多个第二类训练图像以及与所述第二类模型训练图像相对应的预测像素级标签进行模型训练操作,获得网络模型,所述网络模型用于对第一类图像和第二类图像进行图像分割操作,其中,所述第一类图像对应有标准像素级标签,所述第二类图像未对应有标准像素级标签。
图16所示装置可以执行图10所示实施例的方法,本实施例未详细描述的部分,可参考对图10所示实施例的相关说明。该技术方案的执行过程和技术效果参见图10所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图16所示模型训练装置的结构可实现为一电子设备,该电子设备可以是控制器、个人电脑、服务器等各种设备。如图17所示,该电子设备可以包括:第三处理器61和第三存储器62。其中,第三存储器62用于存储相对应电子设备执行上述图10所示实施例中提供的模型训练方法的程序,第三处理器61被配置为用于执行第三存储器62中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第三处理器61执行时能够实现如下步骤:获取多个第一类训练图像以及多个第二类训练图像,其中,所述第一类训练图像对应有标准像素级标签,所述第二类训练图像对应有标准图像级标签;基于所述标准图像级标签,确定与所述第二类训练图像相对应的预测像素级标签;基于所述多个第一类训练图像、多个第二类训练图像以及与所述第二类模型训练图像相对应的预测像素级标签进行模型训练操作,获得网络模型,所述网络模型用于对第一类图像和第二类图像进行图像分割操作,其中,所述第一类图像对应有标准像素级标签,所述第二类图像未对应有标准像素级标签。
进一步的,第三处理器61还用于执行前述图10所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第三通信接口63,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图10所示实施例中模型训练方法所涉及的程序。
此外,本发明实施例提供了一种计算机程序产品,包括:存储有计算机指令的计算机可读存储介质,当计算机指令被一个或多个处理器执行时,致使一个或多个处理器执行上述图10所示方法实施例中模型训练方法中的步骤。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器,使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (14)

1.一种像素级标签的生成方法,其特征在于,包括:
获取待处理图像以及与所述待处理图像相对应的图像级标签;
对所述待处理图像和所述图像级标签进行处理,获得带有语义信息的第一掩码信息;
对所述第一掩码信息和所述待处理图像进行处理,获得未带有语义信息的第二掩码信息;
基于所述第一掩码信息和所述第二掩码信息,生成与所述待处理图像相对应的像素级标签。
2.根据权利要求1所述的方法,其特征在于,对所述待处理图像和所述图像级标签进行处理,获得带有语义信息的第一掩码信息,包括:
分别对所述待处理图像和所述图像级标签进行处理,获得图像嵌入信息和文本嵌入信息;
基于所述图像嵌入信息和所述文本嵌入信息,确定带有语义信息的第一掩码信息。
3.根据权利要求2所述的方法,其特征在于,分别对所述待处理图像和所述图像级标签进行处理,获得图像嵌入信息和文本嵌入信息,包括:
获取用于对所述待处理图像进行分析处理的图像处理模型和用于对所述图像级标签进行分析处理的文本处理模型;
利用所述图像处理模型对所述待处理图像进行处理,获得所述图像嵌入信息;
利用所述文本处理模型对所述图像级标签进行处理,获得所述文本嵌入信息。
4.根据权利要求2所述的方法,其特征在于,基于所述图像嵌入信息和所述文本嵌入信息,确定带有语义信息的第一掩码信息,包括:
获取所述文本嵌入信息的转置信息;
对所述转置信息和所述图像嵌入信息进行点乘处理,获得带有语义信息的第一掩码信息。
5.根据权利要求1所述的方法,其特征在于,对所述第一掩码信息和所述待处理图像进行处理,获得未带有语义信息的第二掩码信息,包括:
对所述第一掩码信息进行随机采样,获得用于辅助对待处理图像进行处理的多个种子点;
对所述待处理图像进行处理,获得多个图像掩码;
基于所述多个种子点和所述多个图像掩码,获得未带有语义信息的第二掩码信息。
6.根据权利要求5所述的方法,其特征在于,基于所述多个种子点和所述多个图像掩码,获得未带有语义信息的第二掩码信息,包括:
在所述多个图像掩码中,确定与所述多个种子点相匹配的多个备选掩码;
对所述多个备选掩码进行平均处理,获得所述第二掩码信息。
7.根据权利要求1-6中任意一项所述的方法,其特征在于,在生成与所述待处理图像相对应的像素级标签之后,所述方法还包括:
获取第一网络模型,所述第一网络模型用于对第一类图像和第二类图像进行图像分割操作,其中,所述第一类图像对应有标准像素级标签,所述第二类图像未对应有标准像素级标签;
在所述待处理图像为第二类图像时,则获取与所述第一网络模型通信连接的第二网络模型,所述第二网络模型用于预测图像的像素级标签;
基于所述第二网络模型以及与所述待处理图像相对应的像素级标签获取目标损失函数;
基于所述目标损失函数对所述第一网络模型进行优化,获得目标网络模型。
8.根据权利要求7所述的方法,其特征在于,基于所述第二网络模型以及与所述待处理图像相对应的像素级标签获取目标损失函数,包括:
基于所述第二网络模型和预设的第一类图像,确定所述第一网络模型针对所述第一类图像的第一损失函数;
基于所述第二网络模型、所述待处理图像以及所述像素级标签,确定所述第一网络模型针对所述第二类图像的第二损失函数;
基于所述第一损失函数和所述第二损失函数,确定所述目标损失函数。
9.根据权利要求8所述的方法,其特征在于,基于所述第二网络模型和预设的第一类图像,确定所述第一网络模型针对所述第一类图像的第一损失函数,包括:
利用所述第二网络模型对所述第一类图像进行处理,获取与所述第一类图像相对应的第一预测标签,所述第一预测标签为像素级别的标签;
基于所述第一类图像所对应的标准像素级标签和所述第一预测标签,确定所述第一网络模型针对所述第一类图像的第一损失函数。
10.根据权利要求8所述的方法,其特征在于,基于所述第二网络模型、所述待处理图像以及所述像素级标签,确定所述第一网络模型针对所述第二类图像的第二损失函数,包括:
基于所述第二网络模型对所述待处理图像进行处理,获得与所述待处理图像相对应的第二预测标签,所述第二预测标签为像素级别的标签;
基于所述第二预测标签和所述像素级标签,确定所述第一网络模型针对所述第二类图像的第二损失函数。
11.根据权利要求10所述的方法,其特征在于,在确定与所述第二类图像相对应的第二损失函数之后,所述方法还包括:
基于所述第二预测标签和所述像素级标签,获得与所述第二网络模型相对应的对比学习损失函数;
基于所述第二损失函数和所述对比学习损失函数对所述第二网络模型进行优化,获得优化后的第二网络模型。
12.根据权利要求8所述的方法,其特征在于,在获取第一网络模型之后,所述方法还包括:
获取新增训练数据以及预先存储的目标训练数据,所述新增训练数据包括多个参考图像以及与部分的参考图像相对应的多个参考像素级标签;
在所述目标训练数据中,选择与多个图像类别相对应的历史训练数据;
基于所述新增训练数据以及所述历史训练数据对所述第一网络模型进行训练,获得训练后的第一网络模型。
13.一种模型训练方法,其特征在于,包括:
获取多个第一类训练图像以及多个第二类训练图像,其中,所述第一类训练图像对应有标准像素级标签,所述第二类训练图像对应有标准图像级标签;
基于所述标准图像级标签,确定与所述第二类训练图像相对应的预测像素级标签;
基于所述多个第一类训练图像、多个第二类训练图像以及与所述第二类模型训练图像相对应的预测像素级标签进行模型训练操作,获得网络模型,所述网络模型用于对第一类图像和第二类图像进行图像分割操作,其中,所述第一类图像对应有标准像素级标签,所述第二类图像未对应有标准像素级标签。
14.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现权利要求1-13中任意一项所述的方法。
CN202310105696.3A 2023-02-08 2023-02-08 像素级标签的生成方法、模型训练方法及设备 Active CN116168242B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310105696.3A CN116168242B (zh) 2023-02-08 2023-02-08 像素级标签的生成方法、模型训练方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310105696.3A CN116168242B (zh) 2023-02-08 2023-02-08 像素级标签的生成方法、模型训练方法及设备

Publications (2)

Publication Number Publication Date
CN116168242A true CN116168242A (zh) 2023-05-26
CN116168242B CN116168242B (zh) 2023-12-01

Family

ID=86414351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310105696.3A Active CN116168242B (zh) 2023-02-08 2023-02-08 像素级标签的生成方法、模型训练方法及设备

Country Status (1)

Country Link
CN (1) CN116168242B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334578A (zh) * 2019-05-05 2019-10-15 中南大学 图像级别标注自动提取高分遥感影像建筑物的弱监督方法
CN110503654A (zh) * 2019-08-01 2019-11-26 中国科学院深圳先进技术研究院 一种基于生成对抗网络的医学图像分割方法、系统及电子设备
CN111723813A (zh) * 2020-06-05 2020-09-29 中国科学院自动化研究所 基于类内判别器的弱监督图像语义分割方法、系统、装置
CN115063680A (zh) * 2022-06-20 2022-09-16 东南大学 一种基于标签及图像合成技术的桥梁病害识别方法
WO2022199137A1 (zh) * 2021-03-23 2022-09-29 中国科学院深圳先进技术研究院 语义分割网络的训练方法、图像处理方法及其设备
CN115393598A (zh) * 2022-10-31 2022-11-25 南京理工大学 一种基于非显著区域对象挖掘的弱监督语义分割方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334578A (zh) * 2019-05-05 2019-10-15 中南大学 图像级别标注自动提取高分遥感影像建筑物的弱监督方法
CN110503654A (zh) * 2019-08-01 2019-11-26 中国科学院深圳先进技术研究院 一种基于生成对抗网络的医学图像分割方法、系统及电子设备
CN111723813A (zh) * 2020-06-05 2020-09-29 中国科学院自动化研究所 基于类内判别器的弱监督图像语义分割方法、系统、装置
WO2022199137A1 (zh) * 2021-03-23 2022-09-29 中国科学院深圳先进技术研究院 语义分割网络的训练方法、图像处理方法及其设备
CN115063680A (zh) * 2022-06-20 2022-09-16 东南大学 一种基于标签及图像合成技术的桥梁病害识别方法
CN115393598A (zh) * 2022-10-31 2022-11-25 南京理工大学 一种基于非显著区域对象挖掘的弱监督语义分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
罗大钦: "基于注意力机制的弱监督图像语义分割", 国优秀硕士学位论文全文数据库 信息科技辑, pages 138 - 393 *

Also Published As

Publication number Publication date
CN116168242B (zh) 2023-12-01

Similar Documents

Publication Publication Date Title
US11928866B2 (en) Neural networks for object detection and characterization
AU2019200270B2 (en) Concept mask: large-scale segmentation from semantic concepts
AU2019360080B2 (en) Image captioning with weakly-supervised attention penalty
US11416772B2 (en) Integrated bottom-up segmentation for semi-supervised image segmentation
Li et al. A2-FPN for semantic segmentation of fine-resolution remotely sensed images
US20190065908A1 (en) Localization-Aware Active Learning for Object Detection
EP4002216A1 (en) Method for recommending object, neural network, computer program product and computer-readable storage medium
KR102664916B1 (ko) 익스플레이너블 셀프-포커스드 어텐션을 이용하여 행동 예측을 수행하는 방법 및 장치
CN111325200B (zh) 图像标注方法、装置、设备及计算机可读存储介质
CN114730486B (zh) 用于生成用于对象检测的训练数据的方法和系统
WO2023075863A1 (en) Adversarial contrastive learning and active adversarial contrastive mix (adversemix) for semi-supervised semantic segmentation
Bergler et al. ANIMAL-SPOT enables animal-independent signal detection and classification using deep learning
Chang et al. Multi-vertebrae segmentation from arbitrary spine MR images under global view
CN115496820A (zh) 图像文案的生成方法、设备及计算机存储介质
CN117132763A (zh) 电力图像异常检测方法、装置、计算机设备和存储介质
CN116168242B (zh) 像素级标签的生成方法、模型训练方法及设备
CN116468970A (zh) 模型训练方法、图像处理方法、装置、设备及介质
CN114118410A (zh) 图结构的节点特征提取方法、设备及存储介质
CN110688511A (zh) 细粒度图像检索方法、装置、计算机设备及存储介质
Marcos et al. A whale’s tail-finding the right whale in an uncertain world
Demirel Object Detection with Minimal Supervision
Blount et al. Comparison of two individual identification algorithms for snow leopards after automated detection
Dutta et al. MsMED-Net: An Optimized Multi-scale Mirror Connected Encoder-Decoder Network for Multilingual Natural Scene Text Recognition
EP4131178A1 (en) Image classification method and apparatus, and method and apparatus for improving training of an image classifier
Pally et al. Application of Image Processing and Big Data Science for Flood Label Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant