CN113822324A - 基于多任务模型的图像处理方法、装置及相关设备 - Google Patents
基于多任务模型的图像处理方法、装置及相关设备 Download PDFInfo
- Publication number
- CN113822324A CN113822324A CN202110827411.8A CN202110827411A CN113822324A CN 113822324 A CN113822324 A CN 113822324A CN 202110827411 A CN202110827411 A CN 202110827411A CN 113822324 A CN113822324 A CN 113822324A
- Authority
- CN
- China
- Prior art keywords
- image
- sample
- embedded representation
- loss
- sample pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本公开的实施例提供了一种基于多任务模型的图像处理方法、装置、电子设备及计算机可读介质,涉及计算机视觉技术领域。该方法包括:获取样本图像与类别标签;通过多任务模型中的特征提取结构对样本图像进行处理,获得图像特征;通过嵌入式表示结构对图像特征进行处理,获得样本图像的预测嵌入式表示;根据预测嵌入式表示获得第一训练阶段的多任务模型;通过与嵌入式表示结构并行的分类结构对图像特征处理获得样本图像的类别预测结果;根据类别预测结果、类别标签和预测嵌入式表示确定第二目标损失;根据第二目标损失获得训练完成的多任务模型。本公开实施例提供的技术方案能够避免嵌入式表示对分类效果的影响,并提升多任务模型的训练效果。
Description
技术领域
本公开涉及计算机视觉技术领域,具体而言,涉及一种基于多任务模型的图像处理方法、装置、电子设备及计算机可读介质。
背景技术
在图像排重检索任务中,用于表征图像似度的相似度嵌入式表示(相似度embedding)的质量非常重要,相似度embedding的目的是使得相同图像距离非常小,不同图像距离非常大。相似度embedding以图像为粒度,其与常规的分类embedding(以类别为粒度)不同,分类embedding要求同一类别图像距离小,不同类别图像距离远。常规的相似度学习不需要考虑图像类别信息,然而在一般的应用中,除了需要借助相似度embeding对图像排重外,还要对图像进行分类或打多标签,一种直接的做法是在模型相似度embedding层后加入分类的全连接层,然而相似度embedding常借助图像显著性前景目标抽取的,当一张图没有显著性前景(如湖面、草原蓝天),容易造成相似度embedding表征不佳导致分类效果不好。
因此,需要一种新的基于多任务模型的图像处理方法、装置、电子设备及计算机可读介质。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。
发明内容
本公开实施例提供一种基于多任务模型的图像处理方法、装置、电子设备及计算机可读介质,进而至少在一定程度上避免嵌入式表示对分类效果的影响,并提升多任务模型的训练效果。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
本公开实施例提出一种基于多任务模型的图像处理方法,包括:获取样本图像与所述样本图像的类别标签;通过多任务模型中的特征提取结构对所述样本图像进行处理,获得图像特征;通过所述多任务模型中的嵌入式表示结构对所述图像特征进行处理,获得所述样本图像的预测嵌入式表示;根据所述预测嵌入式表示确定第一目标损失,以根据所述第一目标损失调整所述多任务模型中所述特征提取结构和所述嵌入式表示结构的参数,获得第一训练阶段的多任务模型;通过所述多任务模型中与所述嵌入式表示结构并行的分类结构对所述图像特征进行处理,获得所述样本图像的类别预测结果;根据所述类别预测结果、所述类别标签和所述预测嵌入式表示确定第二目标损失;根据所述第二目标损失调整所述第一训练阶段的多任务模型中所述特征提取结构、所述嵌入式表示结构和所述分类结构的参数,获得训练完成的所述多任务模型,以根据训练完成的所述多任务模型进行图像分类与嵌入式表示的预测。
本公开实施例提出一种基于多任务模型的图像处理装置,包括:样本获取模块,配置为获取样本图像与所述样本图像的类别标签;特征提取模块,配置为通过多任务学习模型中的特征提取结构对所述样本图像进行处理,获得图像特征;嵌入式表示模块,配置为通过多任务模型中的嵌入式表示结构对所述图像特征进行处理,获得所述样本图像的预测嵌入式表示;第一训练模块,配置为根据所述预测嵌入式表示确定第一目标损失,以根据所述第一目标损失调整所述多任务模型中所述特征提取结构和所述嵌入式表示结构的参数,获得第一训练阶段的多任务模型;类别预测模块,配置为通过所述多任务模型中与所述嵌入式表示结构并行的分类结构对所述图像特征进行处理,获得所述样本图像的类别预测结果;第二训练模块,配置为根据所述类别预测结果、所述类别标签和所述预测嵌入式表示确定第二目标损失,根据所述第二目标损失调整所述第一训练阶段的多任务模型中所述特征提取结构、所述嵌入式表示结构和所述分类结构的参数,获得训练完成的所述多任务模型,以根据训练完成的所述多任务模型进行图像分类与嵌入式表示的预测。
在本公开的一种示例性实施例中,第一训练模块在“根据所述预测嵌入式表示确定第一目标损失”时,包括:样本对生成子模块,配置为根据所述样本图像生成样本对,所述样本对包括的两个样本图像为第一图像与第二图像,所述第一图像和所述第二图像的实际嵌入式表示的距离小于距离阈值;全局三元组子模块,配置为将与所述样本对中的第一图像的类别标签不同的样本图像和该样本对组成全局三元组样本;局部三元组子模块,配置为将与所述样本对中的第一图像的类别标签相同的样本图像和该样本对组成局部三元组样本;第一损失子模块,配置为根据所述全局三元组样本和所述局部三元组样本中每一样本图像的预测嵌入式表示生成所述第一目标损失。
在本公开的一种示例性实施例中,全局三元组子模块包括:样本对图像生成单元,配置为针对每一样本对,从其余样本对中随机选择一样本图像作为各其余样本对的样本对图像;第一样本对图像单元,配置为将类别标签与该样本对中的第一图像的类别标签不同的样本对图像确定为第一目标样本对图像;第一距离计算单元,配置为计算各第一目标样本对图像与该样本对中的第一图像的距离,获得各第一目标样本对图像的第一距离;第一距离排序单元,配置为按照所述第一距离的升序顺序对所述第一目标样本对图像排序;全局三元组单元,配置为将排序结果中的前a个第一目标样本对图像和该样本对分别组成a个所述全局三元组样本,a为大于0的整数,所述全局三元组样本包括该样本对的第一图像、第二图像以及作为第三图像的所述第一目标样本对图像。
在本公开的一种示例性实施例中,局部三元组子模块包括:样本对图像生成单元,配置为针对每一样本对,从其余样本对中随机选择一样本图像作为各其余样本对的样本对图像;第二样本对图像单元,配置为将类别标签与该样本对中的第一图像的类别标签相同的样本对图像确定为第二目标样本对图像;第二距离计算单元,配置为计算各第二目标样本对图像与该样本对中的第一图像的距离,获得各第二目标样本对图像的第二距离;第二距离排序单元,配置为按照所述第二距离的升序顺序对所述第二目标样本对图像排序;局部三元组单元,配置为将排序结果中的前b个第二目标样本对图像与该样本对分别组成b个局部三元组样本,b为大于0的整数,所述局部三元组样本包括该样本对的第一图像、第二图像以及作为第三图像的所述第二目标样本对图像。
在本公开的一种示例性实施例中,第一损失子模块包括:全局嵌入式表示损失计算单元,配置为根据所述全局三元组样本中第一图像、第二图像以及第三图像的预测嵌入式表示确定全局嵌入式表示损失;局部嵌入式表示损失计算单元,配置为根据所述局部三元组样本中第一图像、第二图像以及第三图像的预测嵌入式表示确定局部嵌入式表示损失;第一损失计算单元,配置为根据所述全局嵌入式表示损失以及所述局部嵌入式表示损失的加权计算结果确定所述第一目标损失。
在本公开的一种示例性实施例中,全局嵌入式表示损失计算单元包括:第一正样本对距离计算子单元,配置为计算所述全局三元组样本中第一图像和第二图像的预测嵌入式表示的距离,获得所述全局三元组样本的正样本对距离;第一负样本对距离计算子单元,配置为计算所述全局三元组样本中第一图像和第三图像的预测嵌入式表示的距离,获得所述全局三元组样本的负样本对距离;全局嵌入式表示损失计算子单元,配置为根据所述全局三元组样本的正样本对距离和所述负样本对距离确定所述全局嵌入式表示损失。
在本公开的一种示例性实施例中,局部嵌入式表示损失计算单元包括:第二正样本对距离计算子单元,配置为计算所述局部三元组样本中第一图像和第二图像的预测嵌入式表示的距离,获得所述局部三元组样本的正样本对距离;第二负样本对距离计算子单元,配置为计算所述局部三元组样本中第一图像和第三图像的预测嵌入式表示的距离,获得所述局部三元组样本的负样本对距离;局部嵌入式表示损失计算子单元,配置为根据所述局部三元组样本的正样本对距离和所述负样本对距离确定所述局部嵌入式表示损失。
在本公开的一种示例性实施例中,第二训练模块包括:分类损失计算子模块,配置为根据所述样本图像的类别预测结果和所述类别标签确定分类损失;第二损失计算子模块,配置为根据所述分类损失和所述第一目标损失的加权计算结果确定所述第二目标损失。
在本公开的一种示例性实施例中,分类损失计算子模块包括:类别预测结果划分单元,配置为确定所述样本图像的类别预测结果在所述样本图像的类别标签下的第一预测结果以及在所述样本图像的类别标签外的其他Nc-1个类别下的Nc-1个第二预测结果,Nc为类别的总数,Nc为大于1的整数;标注类别损失计算单元,配置为根据所述第一预测结果以及所述样本图像的类别标签和第一权重确定标注类别损失;单一非标注类别损失计算单元,配置为根据Nc-1个第二预测结果以及所述样本图像的类别标签和第二权重确定Nc-1个单一非标注类别损失,所述第一权重和所述第二权重为预设值,所述第一权重和所述第二权重的和为固定数值;非标注类别损失计算单元,配置为将所述Nc-1个单一非标注类别损失的平均值确定为非标注类别损失;分类损失计算单元,配置为根据所述标注类别损失和所述非标注类别损失确定所述分类损失。
在本公开的一种示例性实施例中,所述分类结构包括依次连接的卷积单元和全连接单元;其中,类别预测模块包括:卷积运算子模块,配置为根据所述卷积单元对所述图像特征进行卷积运算,获得卷积输出;分类预测子模块,配置为通过所述全连接单元对所述卷积输出进行处理,获得所述样本图像的类别预测结果。
在本公开的一种示例性实施例中,第二训练模块在“根据训练完成的所述多任务模型进行图像分类与嵌入式表示的预测”时包括:图像获取子模块,配置为获得待预测图像;图像预测子模块,配置为通过所述训练完成的多任务模型对所述待预测图像进行处理,获得所述待预测图像的嵌入式表示和分类结果。
本公开实施例提出一种电子设备,包括:至少一个处理器;存储装置,用于存储至少一个程序,当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现如上述实施例中所述的基于多任务模型的图像处理方法。
本公开实施例提出一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中所述的基于多任务模型的图像处理方法。
在本公开的一些实施例所提供的技术方案中,在利用样本图像与所述样本图像的类别标签对多任务模型进行训练时,首先利用多任务模型中的特征提取结构对所述样本图像进行处理,获得图像特征;再将图像特征同时输入分类结构和嵌入式表示结构,使得分类结构和嵌入式结构共享底层的特征提取结构,可节省特征提取的推理时间。并且分类结构和嵌入式结构的并行设计能够降低分类对嵌入式表示学习的影响。此外,首先根据预测嵌入式表示生成第一目标损失,以调整特征提取结构和嵌入式表示结构的参数,获得第一训练阶段的多任务模型,再根据预测嵌入式表示、类别预测结果和所述类别标签生成第二目标损失,以调整第一训练阶段的多任务模型中所述特征提取结构、所述嵌入式表示结构和所述分类结构的参数,获得训练完成的所述多任务模型。这一分阶段的训练学习方式能够考虑到嵌入式表示任务比分类任务难收敛的特性,通过先预训练嵌入式表示结构再联合分类结构对网络进行微调的二阶段学习实现多任务学习的效果提升,能够有效防止分类结构的过拟合并保证嵌入式表示。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示意性示出了根据相关技术的一种相似度嵌入式表示与分类联合学习模型的结构图。
图2示出了可以应用本公开实施例的基于多任务模型的图像处理方法或装置的示例性系统架构的示意图。
图3示意性示出了根据本公开的一个实施例的基于多任务模型的图像处理方法的流程图。
图4示意性示出了根据本公开的另一个实施例的基于多任务模型的图像处理方法的流程图。
图5示意性示出了根据本公开的又一个实施例的基于多任务模型的图像处理方法的流程图。
图6示意性示出了根据本公开的再一个实施例的基于多任务模型的图像处理方法的流程图。
图7示意性示出了根据本公开的再一个实施例的基于多任务模型的图像处理方法的流程图。
图8示意性示出了根据本公开的再一个实施例的基于多任务模型的图像处理方法的流程图。
图9示意性示出了根据本公开的再一个实施例的基于多任务模型的图像处理方法的流程图。
图10示意性示出了根据本公开的再一个实施例的基于多任务模型的图像处理方法的流程图。
图11示意性示出了根据本公开的再一个实施例的基于多任务模型的图像处理方法的流程图。
图12示意性示出了根据本公开的一个实施例的多任务模型的结构图。
图13示意性示出了根据本公开的另一个实施例的多任务模型的结构图。
图14示意性示出了根据本公开的一个实施例的三元组样本的示意图。
图15示意性示出了根据本公开的一实施例的基于多任务模型的图像处理装置的框图。
图16示出了适于用来实现本公开实施例的电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在至少一个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
在计算机视觉技术中,图像识别是指类别级别的识别,不考虑对象的特定实例,仅考虑对象的类别(如人、狗、猫、鸟等)进行的识别并给出对象所属类别。一个典型的例子是大型通用物体识别开源数据集(例如imagenet)中的识别任务,识别出某个物体是1000个类别中的哪一个。
相关技术的一种相似度嵌入式表示与分类联合学习模型如图1所示,在模型嵌入式表示单元101后加入分类的全连接层102,在学习中同时学习两个模型的loss(分类损失110与嵌入式表示损失120)。
然而,图1所示的相似度嵌入式表示与分类联合学习模型存在如下缺陷:模型嵌入式表示单元101对分类过拟合,全连接层102对分类的独热(one-hot)目标学习容易造成全连接层102极容易过拟合,而这种过拟合通过梯度更新直接影响了图像全局相似度embedding的表征。由此会使得相似度embedding对图像表征无法满足,进而对前景相似、但背景不同(或背景上有部分不同)的图像在相似度embedding层面无法区分。
目前的多任务模型在存在易造成在相似度嵌入式表示不佳导致分类效果的缺陷外,另一方面,相似度embeding目的是用于表征图像,原则上存在一个潜在的相对关系:相似度embedding在特征层的差异根据两张图是否在同一类别而应该有极大差别(两张不同图像但同一类的相似度embedding特征在可区分的情况下距离近,不同类距离远),当这种关系不满足,容易出现召回结果中不合理排序;最后,分类模型由于要学习独热(one-hot)的输出,故最终输出分支容易对分类任务过拟合,从而使得该分支热力图关注于图像中与分类相关的部位,这将影响全图特征embedding的表征,如何有效地保有相似度embedding在类别上的相对关系且合理联合分类任务学习是一个问题。
因此,需要一种新的基于多任务模型的图像处理方法、装置、电子设备及计算机可读介质。
图2示出了可以应用本公开实施例的基于多任务模型的图像处理方法或装置的示例性系统架构的示意图。
如图2所示,系统架构200可以包括终端设备201、202、203中的一种或多种,网络204和服务器205。网络204用以在终端设备201、202、203和服务器205之间提供通信链路的介质。网络204可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
应该理解,图2中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器205可以是单个服务器,多个服务器组成的服务器集群,或云服务器等。
用户可以使用终端设备201、202、203通过网络204与服务器205交互,以接收或发送消息等。终端设备201、202、203可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机、台式计算机、可穿戴设备、虚拟现实设备、智能家居、智能电视、智能车载设备等等。终端设备201、202、203上可以安装客户端,例如视频客户端、信息流客户端、浏览器客户端等,但本公开并不以此为限。
服务器205可以是提供各种服务的服务器。例如终端设备203(也可以是终端设备201或202)向服务器205上传样本图像与样本图像的类别标签。服务器205可以获取样本图像与所述样本图像的类别标签;通过多任务模型中的特征提取结构对所述样本图像进行处理,获得图像特征;通过所述多任务模型中的嵌入式表示结构对所述图像特征进行处理,获得所述样本图像的预测嵌入式表示;根据所述预测嵌入式表示确定第一目标损失,以根据所述第一目标损失调整所述多任务模型中所述特征提取结构和所述嵌入式表示结构的参数,获得第一训练阶段的多任务模型;通过所述多任务模型中与所述嵌入式表示结构并行的分类结构对所述图像特征进行处理,获得所述样本图像的类别预测结果;根据所述类别预测结果、所述类别标签和所述预测嵌入式表示确定第二目标损失;根据所述第二目标损失调整所述第一训练阶段的多任务模型中所述特征提取结构、所述嵌入式表示结构和所述分类结构的参数,获得训练完成的所述多任务模型。并将训练完成的所述多任务模型反馈给终端设备203,进而终端设备203可以获得待预测图像;通过所述训练完成的多任务模型对所述待预测图像进行处理,获得所述待预测图像的嵌入式表示和分类结果。
图3示意性示出了根据本公开的一个实施例的基于多任务模型的图像处理方法的流程图。本公开实施例所提供的方法可以由任意具备计算处理能力的电子设备处理,例如上述图2实施例中的服务器205和/或终端设备,在下面的实施例中,以服务器205为执行主体为例进行举例说明,但本公开并不限定于此。
如图3所示,本公开实施例提供的基于多任务模型的图像处理方法可以包括以下步骤。
在步骤S310中,获取样本图像与样本图像的类别标签。
本公开实施例中,每个样本图像的类别标签用于表示该样本图像的分类类别,例如可参考imagenet中常出现的1000个类(如狗、猫等)。
在步骤S320中,通过多任务模型中的特征提取结构对样本图像进行处理,获得图像特征。
本公开实施例中,多任务模型可为深度学习模型,该多任务模型可用于图像的相似度嵌入式表示(下称嵌入式表示)任务与分类任务的处理。特征提取结构可例如采用101层的残差网络(ResNet-101)。在训练初始化阶段,ResNet-101中的参数可采用在ImageNet数据集上预训练的参数。
ResNet-101的结构可如表1所示。
表1 ResNet-101特征模块结构表
在步骤S330中,通过多任务模型中的嵌入式表示结构对图像特征进行处理,获得样本图像的预测嵌入式表示。
本公开实施例中,嵌入式表示结构可包括依次连接的池化层、全连接层与特征正则化层。嵌入式表示结构可如表2所示。
表2嵌入式表示结构的结构表
在表2中,N为嵌入式表示的维度,如1*123,特征正则化层可例如采用欧几里得范数正则化层(L2 normalization)。
在步骤S340中,根据预测嵌入式表示确定第一目标损失,以根据第一目标损失调整多任务模型中特征提取结构和嵌入式表示结构的参数,获得第一训练阶段的多任务模型。
本公开实施例中,可例如根据第一目标损失调整如表1、表2所示结构的参数,获得的调整后的多任务模型为第一训练阶段的多任务模型。其中,可采用0.05的学习率调整特征提取结构和嵌入式表示结构的参数。
在步骤S350中,通过多任务模型中与嵌入式表示结构并行的分类结构对图像特征进行处理,获得样本图像的类别预测结果。
本公开实施例中,多任务模型的结构图可见图12。如图12所示,多任务模型可包括特征提取结构1210、嵌入式表示结构1220以及与嵌入式表示结构1220并行的分类结构1230。
在示例性实施例中,如图12所示,分类结构1230可包括依次连接的卷积单元1231和全连接单元1232。本步骤可根据卷积单元1231对图像特征进行卷积运算,获得卷积输出;通过全连接单元1232对卷积输出进行处理,获得样本图像的类别预测结果。在图12中,由于特征提取结构1210输出的结果直接支撑嵌入式表示结构1220的相似度嵌入式表示学习,为避免特征提取结构1210的最后一层(如表1中的conv5_x)过早受到分类的影响,在该实施例中,分支结构1230额外增加卷积模块,可以避免分类的梯度回传过快到达conv5_x从而影响嵌入式表示结构1220的效果(这是因为梯度回传是从网络的输出端往回逐层网络计算梯度直到模型输出层,越靠近模型输出层的模块更容易受输出层loss的影响)。同时,能够可以使得分类结构1230可以在conv5_x的全局特征上进一步进行分类相关的关键部位特征提取,使得分类效果得到保证。
分类结构1230可如表3所示。
表3分类结构的结构表
其中,分类结构包括依次连接的卷积单元Conv6_x、池化层Pool以及全连接层Fc,预测获得Nc个分类的概率。
在步骤S360中,根据类别预测结果、类别标签和预测嵌入式表示确定第二目标损失。
本功能实施例中,可根据样本图像的类别预测结果和类别标签确定分类损失;根据分类损失和第一目标损失的加权计算结果确定第二目标损失。
在步骤S370中,根据第二目标损失调整第一训练阶段的多任务模型中特征提取结构、嵌入式表示结构和分类结构的参数,获得训练完成的多任务模型,以根据训练完成的多任务模型进行图像分类与嵌入式表示的预测。
本公开实施例中,对于分类结构可采用0.05的学习率,对特征提取结构和嵌入式表示结构可采用0.005的学习率,以避免分类结构的效果过快对特征提取结构的影响。训练完成的多任务模型可看作第二训练阶段的多任务模型,对于M个样本图像的样本集合,本公开实施例采取的二阶段学习方式可具体如下。
1)第一阶段
首先训练表1、表2分支,所有网络结构的学习率learning rate为0.05,每轮迭代计算第一目标损失,求梯度并更新网络参数。经过M/bs轮(完成一次全量数据学习)后完成1个epoch学习,继续迭代下一个epoch学习。每10个epoch学习率下降为上次的0.1倍。当达到K个epoch训练(或当连续10个epoch的平均第一目标损失没有下降)终止。
2)第二阶段
训练表1、表2、表3分支,除了表3的分类结构(学习率为0.05),其他网络结构的学习率learning rate为0.005,计算分类损失和第一目标损失,以计算第二目标损失并更新网络参数。每10个epoch学习率下降为上次的0.1倍。当达到K个epoch训练(或当连续10个epoch的平均第二目标损失没有下降)终止。
本公开实施方式提供的基于多任务模型的图像处理方法,在利用样本图像与样本图像的类别标签对多任务模型进行训练时,首先利用多任务模型中的特征提取结构对样本图像进行处理,获得图像特征;再将图像特征同时输入分类结构和嵌入式表示结构,使得分类结构和嵌入式结构共享底层的特征提取结构,可节省特征提取的推理时间。并且分类结构和嵌入式结构的并行设计能够降低分类对嵌入式表示学习的影响。此外,首先根据预测嵌入式表示生成第一目标损失,以调整特征提取结构和嵌入式表示结构的参数,获得第一训练阶段的多任务模型,再根据预测嵌入式表示、类别预测结果和类别标签生成第二目标损失,以调整第一训练阶段的多任务模型中特征提取结构、嵌入式表示结构和分类结构的参数,获得训练完成的多任务模型。这一分阶段的训练学习方式能够考虑到嵌入式表示任务比分类任务难收敛的特性,通过先预训练嵌入式表示结构再联合分类结构对网络进行微调的二阶段学习实现多任务学习的效果提升,能够有效防止分类结构的过拟合并保证嵌入式表示。
在示例性实施例中,本公开的基于多任务模型的图像处理方法还可包括如下步骤1)与步骤2)。
在步骤1)中,获得待预测图像。
本公开实施例中,待预测图像可为当前接收到的需要进行多任务识别的对象。该多任务识别包括图像嵌入式表示任务与图像分类任务。
在步骤2)中,通过训练完成的多任务模型对待预测图像进行处理,获得待预测图像的嵌入式表示和分类结果。
本公开实施例中,训练完成的多任务模型的结构可如图13所示,在训练完成后可将待预测图像作为多任务模型的输入,首先通过特征提取模块1210对待预测图像进行处理,获得图像特征输出;通过嵌入式表示结构1220对图像特征输出进行处理,获得该待预测图像的嵌入式表示1221;通过分类结构1230对图像特征输出进行处理,获得该待预测图像的分类结果1233,其中分类结构1230可包括依次连接的卷积单元1231和全连接单元1232。
本公开实施例获得的待预测图像的嵌入式表示可用于图像排重(相同、相似图去除)以及其他下游图像表征任务。
图4示意性示出了根据本公开的另一个实施例的基于多任务模型的图像处理方法的流程图。
如图4所示,上述图3实施例中的步骤S340在根据预测嵌入式表示确定第一目标损失时,可以进一步包括以下步骤。
在步骤S410中,根据样本图像生成样本对,样本对包括的两个样本图像为第一图像与第二图像,第一图像和第二图像的实际嵌入式表示的距离小于距离阈值。
本公开实施例中,第一图像的实际嵌入式表示是指该第一图像真实的嵌入式表示,第二图像的实际嵌入式表示是指该第二图像真实的嵌入式表示。距离阈值用于相似图像的度量。对于第一图像和第二图像,若其实际嵌入式表示的距离小于距离阈值,则认为该第一图像和第二图像为相似图像;若其实际嵌入式表示的距离大于或等于距离阈值,则认为该第一图像和第二图像不是相似图像。
在步骤S420中,将与样本对中的第一图像的类别标签不同的样本图像和该样本对组成全局三元组样本。
本公开实施例中,对于每一样本对,可从其余的样本对中选择与该样本对的样本对标签不同的样本对中选择样本图像,以将选中的样本图像和该样本对组成全局三元组样本。其中,样本对标签是从样本对中随机选择一样本图像(即第一图像或第二图像),以将该随机选择的样本图像的类别标签确定为该样本对的样本对标签。
在步骤S430中,将与样本对中的第一图像的类别标签相同的样本图像和该样本对组成局部三元组样本。
本公开实施例中,对于每一样本对,可从其余的样本对中选择与该样本对的样本对标签相同的样本对中选择样本图像,以将选中的样本图像和该样本对组成全局三元组样本。
在生成全局三元组样本和局部三元组样本时,对于已有的样本对图像,任意抽取一张样本图像标注图像的类别标签,标注的类别标签可参考imagenet中常出现的1000个标签(如狗、猫等)。
以样本对作为输入,在每个批次(batch)的样本对(例如bs个样本对)对中进行如下挖掘得到三元组:对某个样本对x:从剩余的bs-1个样本对(每个样本对随机选择一张图像作为该样本对的样本对图像)的样本中:(1)找到与样本对x不同类的样本对图像,计算其与样本对x的距离,按距离从小到大排序,取前10个样本对图像作为负样本,分别与样本对x组成全局三元组样本,故每个样本对产生10个全局三元组样本;(2)找到与样本对x同类的样本对图像,计算其与样本对x的距离,按距离从小到大排序,取前10个样本对图像作为负样本,分别与样本对x对组成局部三元组样本,故每个样本对产生10个局部三元组样本;整个batch得到20*bs个三元组样本(包括全局三元组样本和局部三元组样本)。
在步骤S440中,根据全局三元组样本和局部三元组样本中每一样本图像的预测嵌入式表示生成第一目标损失。
本公开实施例中,可根据全局三元组样本生成全局嵌入式表示损失,根据局部三元组样本生成局部嵌入式表示损失,并根据全局嵌入式表示损失以及局部嵌入式表示损失的加权计算结果确定第一目标损失。
图5示意性示出了根据本公开的又一个实施例的基于多任务模型的图像处理方法的流程图。
如图5所示,上述图4实施例中的步骤S420可以进一步包括以下步骤。
在步骤S510中,针对每一样本对,从其余样本对中随机选择一样本图像作为各其余样本对的样本对图像。
本公开实施例中,每一样本对的样本对图像可为该样本对的第一图像或第二图像。
在步骤S520中,将类别标签与该样本对中的第一图像的类别标签不同的样本对图像确定为第一目标样本对图像。
本公开实施例中,对于当前的样本对,将其余样本对的样本对图像与当前样本对中的第一图像的类别标签进行比较时,是将当前样本对中的第一图像看作当前样本对的样本对图像。但此处仅为便于描述,本申请中对于当前的样本对的第一图像为假设的在当前样本对中随机选择获得的样本图像,本公开实施例还可将当前样本对中的第二图像看作当前样本对的样本对图像,以与其余样本对的样本对图像的类别标签进行比较。
在步骤S530中,计算各第一目标样本对图像与该样本对中的第一图像的距离,获得各第一目标样本对图像的第一距离。
本公开实施例中,两个图像之间的距离可为根据该两个图像的实际嵌入式表示获得的欧式距离。
在步骤S540中,按照第一距离的升序顺序对第一目标样本对图像排序。
本公开实施例中,可按照第一距离从小到大进行排序。
在步骤S550中,将排序结果中的前a个第一目标样本对图像和该样本对分别组成a个全局三元组样本,a为大于0的整数,全局三元组样本包括该样本对的第一图像、第二图像以及作为第三图像的第一目标样本对图像。
本公开实施例中,a的值可例如取值为10,但此处仅为示例,本公开对a的具体取值并不作特殊限定。其中,对于每一样本对,其可组成a个全局三元组样本。
图6示意性示出了根据本公开的再一个实施例的基于多任务模型的图像处理方法的流程图。
如图6所示,上述图4实施例中的步骤S430可以进一步包括以下步骤。
在步骤S610中,针对每一样本对,从其余样本对中随机选择一样本图像作为各其余样本对的样本对图像。
本公开实施例的步骤S610可采取与步骤S510类似的步骤,此处不再赘述。
在步骤S620中,将类别标签与该样本对中的第一图像的类别标签相同的样本对图像确定为第二目标样本对图像。
对于当前的样本对,将其余样本对的样本对图像与当前样本对中的第一图像的类别标签进行比较时,是将当前样本对中的第一图像看作当前样本对的样本对图像。但此处仅为便于描述,本申请中对于当前的样本对的第一图像为假设的在当前样本对中随机选择获得的样本图像,本公开实施例还可将当前样本对中的第二图像看作当前样本对的样本对图像,以与其余样本对的样本对图像的类别标签进行比较。
在步骤S630中,计算各第二目标样本对图像与该样本对中的第一图像的距离,获得各第二目标样本对图像的第二距离。
本公开实施例中,两个图像之间的距离可为根据该两个图像的实际嵌入式表示获得的欧式距离。
在步骤S640中,按照第二距离的升序顺序对第二目标样本对图像排序。
本公开实施例中,可按照第二距离从小到大进行排序。
在步骤S650中,将排序结果中的前b个第二目标样本对图像与该样本对分别组成b个局部三元组样本,b为大于0的整数,局部三元组样本包括该样本对的第一图像、第二图像以及作为第三图像的第二目标样本对图像。
本公开实施例中,b的值可例如取值为10,但此处仅为示例,本公开对b的具体取值并不作特殊限定。其中,对于每一样本对,其可组成b个局部三元组样本。
图7示意性示出了根据本公开的再一个实施例的基于多任务模型的图像处理方法的流程图。
如图7所示,上述图4实施例中的步骤S440可以进一步包括以下步骤。
在步骤S710中,根据全局三元组样本中第一图像、第二图像以及第三图像的预测嵌入式表示确定全局嵌入式表示损失。
本公开实施例中,可根据下式(1)确定全局嵌入式表示损失Ltr1。
其中,a1为全局三元组样本中第一图像,p1为全局三元组样本中第二图像,n1为全局三元组样本中第三图像。表示全局三元组样本中第一图像和第二图像的预测嵌入式表示的欧式距离。全局三元组样本中第一图像和第三图像的预测嵌入式表示的欧式距离。α1为第一边缘值(margin),可例如取值为1.2。
该全局嵌入式表示损失的目的是使得全局三元组样本中第一图像与第二图像的距离比距离第三图像的距离大于第一边缘值。
在步骤S720中,根据局部三元组样本中第一图像、第二图像以及第三图像的预测嵌入式表示确定局部嵌入式表示损失。
本公开实施例中,可根据下式(2)确定局部嵌入式表示损失Ltr2。
其中,a2为局部三元组样本中第一图像,p2为局部三元组样本中第二图像,n2为局部三元组样本中第三图像。表示局部三元组样本中第一图像和第二图像的预测嵌入式表示的欧式距离。为局部三元组样本中第一图像和第三图像的预测嵌入式表示的欧式距离。α2为第二边缘值(margin),可例如取值为0.6。
该局部嵌入式表示损失的目的是使得局部三元组样本中第一图像与第二图像的距离比距离第三图像的距离大于第一边缘值。
在步骤S730中,根据全局嵌入式表示损失以及局部嵌入式表示损失的加权计算结果确定第一目标损失。
本公开实施例中,全局嵌入式表示损失和局部嵌入式表示损失的权重可取1,或根据经验值调整,本公开实施例对比并不做特殊限定。在获得第一目标损失后,例如图12中第一目标损失的权重为1,并将分类损失的权重设置为0,获得加权后的损失。
在该实施例中,对于全局三元组样本和局部三元组样本,其中第一图像和第二图像组成正样本对,第一图像和第二图像组成负样本对。正样本对具有相同语义的类别标签,同时是相同或极度相似的图像,全局三元组样本中的负样本对由于类别标签不同,因此不具有相同语义,局部三元组样本中的负样本对由于类别标签相同,因此具有相同语义。本实施例中的第一目标损失能够使得具有相同语义的负样本对(即局部三元组样本中的负样本对)间的距离比具有不同语义的负样本对(即全局三元组样本中的负样本对)的要更近,从而实现嵌入式表示越靠近的样本,具有的语义更相似。进而实现类间距离拉大,类内距离变小,对嵌入式表示学习与分类学习均有帮助提升效果,进而能够有效地保有相似度embedding在类别上的相对关系且合理联合分类任务学习。图14示意性示出了根据本公开的一个实施例的三元组样本(包括全局三元组样本和局部三元组样本)的示意图。如图14所示,C1、C2、C3、C4、C5、C6分别为六个类别,a、p、n1、n2为样本图像。对于全局三元组样本(a,p,n2),a为第一图像,类别标签为C1;p为第二图像,类别标签为C1;n2为第三图像,类别标签为C2。对于局部三元组样本(a,p,n1),a为第一图像,类别标签为C1;p为第二图像,类别标签为C1;n1为第三图像,类别标签为C1。上述实施例中确定的第一目标损失能够是的让不属于同一类别的负样本对(a,n2)的距离要比属于同一类别的负样本对(a,n1)的距离更大。
图8示意性示出了根据本公开的再一个实施例的基于多任务模型的图像处理方法的流程图。
如图8所示,上述图7实施例中的步骤S710可以进一步包括以下步骤。
在步骤S810中,计算全局三元组样本中第一图像和第二图像的预测嵌入式表示的距离,获得全局三元组样本的正样本对距离。
在步骤S820中,计算全局三元组样本中第一图像和第三图像的预测嵌入式表示的距离,获得全局三元组样本的负样本对距离。
在步骤S830中,根据全局三元组样本的正样本对距离和负样本对距离确定全局嵌入式表示损失。
本公开实施例中,可计算全局三元组样本的正样本对距离和负样本对距离的差值,并将差值与第一边缘值的和值与0进行比较,以将其中的较大者确定为全局嵌入式表示损失。
图9示意性示出了根据本公开的再一个实施例的基于多任务模型的图像处理方法的流程图。
如图9所示,上述图7实施例中的步骤S720可以进一步包括以下步骤。
在步骤S910中,计算局部三元组样本中第一图像和第二图像的预测嵌入式表示的距离,获得局部三元组样本的正样本对距离。
在步骤S920中,计算局部三元组样本中第一图像和第三图像的预测嵌入式表示的距离,获得局部三元组样本的负样本对距离。
在步骤S930中,根据局部三元组样本的正样本对距离和负样本对距离确定局部嵌入式表示损失。
本公开实施例中,可计算局部三元组样本的正样本对距离和负样本对距离的差值,并将差值与第二边缘值的和值与0进行比较,以将其中的较大者确定为局部嵌入式表示损失。
图10示意性示出了根据本公开的再一个实施例的基于多任务模型的图像处理方法的流程图。
如图10所示,上述图3所示实施例中的步骤S360可以进一步包括以下步骤。
在步骤S1010中,根据样本图像的类别预测结果和类别标签确定分类损失。
本公开实施例中,可基于类别预测结果和类别标签生成交叉熵损失作为该分类损失。分类损失Lclass可表示如下式(3)。
其中,pic表示样本图像i属于c分类的预测概率,yic表示样本图像i的类别标签是否为c,当是c则yic=1,否则为0。N为样本图像的数量,N为大于0的整数,Nc为类别的总数,Nc为大于1的整数。
在步骤S1020中,根据分类损失和第一目标损失的加权计算结果确定第二目标损失。
本公开实施例中,可例如由下式(4)获得第二目标损失Ltotal。
Ltotal=w1Lclass+w2Ltr1+w3Ltr2 (4)
其中,Lclass为分类损失,Ltr1为全局嵌入式表示损失,Ltr2为局部嵌入式表示损失。w1、w2和w3分别为各项的权重,可取1,或根据经验值调整。其中w2Ltr1+w3Ltr2为第一目标损失。第二目标损失可例如表示为图12中的加权后的损失。其中,w2Ltr1+w3Ltr2为第一目标损失。
图11示意性示出了根据本公开的再一个实施例的基于多任务模型的图像处理方法的流程图。
如图11所示,图10所示实施例中的步骤S1010可以进一步包括如下步骤。
在步骤S1110中,确定样本图像的类别预测结果在样本图像的类别标签下的第一预测结果以及在样本图像的类别标签外的其他Nc-1个类别下的Nc-1个第二预测结果,Nc为类别的总数,Nc为大于1的整数。
本公开实施例中,类别预测结果可包括该样本图像在每个类别下的预测结果。对于某一样本图像,其类别预测结果的形式可例如表示为(0.1,0.15,0.2,0.8,0.3),其中,0.1为该样本图像属于第一个类别的概率,0.15为样本图像属于第二个类别的概率。假设类别共5类(即Nc=5),类别标签为第4个类别。则第一预测结果为0.8,0.1为在第1个类别下的第二预测结果,0.15为在第2个类别下的第二预测结果。
在步骤S1120中,根据第一预测结果以及样本图像的类别标签和第一权重确定标注类别损失。
本公开实施例中,对于每个样本图像,可根据第一预测结果计算第一交叉熵损失并采用0.7倍加权,获得标注类别损失。ε=0.7为第一权重。标注类别损失可表示为(1-ε)*Loss1,if(i=y),其中,ε设置为0.3,Loss1为根据第一预测结果计算获得的交叉熵损失。i=y表示对标注类别的预测概率。
在步骤S1130中,根据Nc-1个第二预测结果以及样本图像的类别标签和第二权重确定Nc-1个单一非标注类别损失,第一权重和第二权重为预设值,第一权重和第二权重的和为固定数值。
本公开实施例中,对于每个第二预测结果(共Nc-1个),可计算其交叉熵损失作为其单一非标注类别损失。单一非标注类别损失可表示为ε*Loss2,if(i≠y)。ε设置为0.3,Loss2为根据各第二预测结果计算获得的交叉熵损失。其中,第一权重ε,第二权重为1-ε,第一权重与第二权重的和为1,但本公开并不以此为限。
在步骤S1140中,将Nc-1个单一非标注类别损失的平均值确定为非标注类别损失。
在步骤S1150中,根据标注类别损失和非标注类别损失确定分类损失。
本公开实施例中,对于第i个样本,其分类损失的分类可表示为式(5)所示。
进而将式(5)代入式(3)获得分类损失。
以下介绍本公开的装置实施例,可以用于执行本公开上述的基于多任务模型的图像处理方法。对于本公开装置实施例中未披露的细节,请参照本公开上述的基于多任务模型的图像处理方法所述的实施例。
图15示意性示出了根据本公开的一实施例的基于多任务模型的图像处理装置的框图。
参照图15所示,根据本公开的一个实施例的基于多任务模型的图像处理装置1500,可以包括:样本获取模块1510、特征提取模块1520、嵌入式表示模块1530、第一训练模块1540、类别预测模块1550以及第二训练模块1560。
样本获取模块1510可配置为获取样本图像与样本图像的类别标签。
特征提取模块1520可配置为通过多任务学习模型中的特征提取结构对样本图像进行处理,获得图像特征。
嵌入式表示模块1530可配置为通过多任务模型中的嵌入式表示结构对图像特征进行处理,获得样本图像的预测嵌入式表示。
第一训练模块1540可配置为根据预测嵌入式表示确定第一目标损失,以根据第一目标损失调整多任务模型中特征提取结构和嵌入式表示结构的参数,获得第一训练阶段的多任务模型。
类别预测模块1550可配置为通过多任务模型中与嵌入式表示结构并行的分类结构对图像特征进行处理,获得样本图像的类别预测结果。
第二训练模块1560可配置为根据类别预测结果、类别标签和预测嵌入式表示确定第二目标损失,根据第二目标损失调整第一训练阶段的多任务模型中特征提取结构、嵌入式表示结构和分类结构的参数,获得训练完成的多任务模型,以根据训练完成的多任务模型进行图像分类与嵌入式表示的预测。
本公开实施方式提供的基于多任务模型的图像处理装置,在利用样本图像与样本图像的类别标签对多任务模型进行训练时,首先利用多任务模型中的特征提取结构对样本图像进行处理,获得图像特征;再将图像特征同时输入分类结构和嵌入式表示结构,使得分类结构和嵌入式结构共享底层的特征提取结构,可节省特征提取的推理时间。并且分类结构和嵌入式结构的并行设计能够降低分类对嵌入式表示学习的影响。此外,首先根据预测嵌入式表示生成第一目标损失,以调整特征提取结构和嵌入式表示结构的参数,获得第一训练阶段的多任务模型,再根据预测嵌入式表示、类别预测结果和类别标签生成第二目标损失,以调整第一训练阶段的多任务模型中特征提取结构、嵌入式表示结构和分类结构的参数,获得训练完成的多任务模型。这一分阶段的训练学习方式能够考虑到嵌入式表示任务比分类任务难收敛的特性,通过先预训练嵌入式表示结构再联合分类结构对网络进行微调的二阶段学习实现多任务学习的效果提升,能够有效防止分类结构的过拟合并保证嵌入式表示。
在示例性实施例中,第一训练模块1540在“根据预测嵌入式表示确定第一目标损失”时,可包括:样本对生成子模块,可配置为根据样本图像生成样本对,样本对包括的两个样本图像为第一图像与第二图像,第一图像和第二图像的实际嵌入式表示的距离小于距离阈值;全局三元组子模块,可配置为将与样本对中的第一图像的类别标签不同的样本图像和该样本对组成全局三元组样本;局部三元组子模块,可配置为将与样本对中的第一图像的类别标签相同的样本图像和该样本对组成局部三元组样本;第一损失子模块,可配置为根据全局三元组样本和局部三元组样本中每一样本图像的预测嵌入式表示生成第一目标损失。
在示例性实施例中,全局三元组子模块可包括:样本对图像生成单元,可配置为针对每一样本对,从其余样本对中随机选择一样本图像作为各其余样本对的样本对图像;第一样本对图像单元,可配置为将类别标签与该样本对中的第一图像的类别标签不同的样本对图像确定为第一目标样本对图像;第一距离计算单元,可配置为计算各第一目标样本对图像与该样本对中的第一图像的距离,获得各第一目标样本对图像的第一距离;第一距离排序单元,可配置为按照第一距离的升序顺序对第一目标样本对图像排序;全局三元组单元,可配置为将排序结果中的前a个第一目标样本对图像和该样本对分别组成a个全局三元组样本,a为大于0的整数,全局三元组样本包括该样本对的第一图像、第二图像以及作为第三图像的第一目标样本对图像。
在示例性实施例中,局部三元组子模块可包括:样本对图像生成单元,可配置为针对每一样本对,从其余样本对中随机选择一样本图像作为各其余样本对的样本对图像;第二样本对图像单元,可配置为将类别标签与该样本对中的第一图像的类别标签相同的样本对图像确定为第二目标样本对图像;第二距离计算单元,可配置为计算各第二目标样本对图像与该样本对中的第一图像的距离,获得各第二目标样本对图像的第二距离;第二距离排序单元,可配置为按照第二距离的升序顺序对第二目标样本对图像排序;局部三元组单元,可配置为将排序结果中的前b个第二目标样本对图像与该样本对分别组成b个局部三元组样本,b为大于0的整数,局部三元组样本包括该样本对的第一图像、第二图像以及作为第三图像的第二目标样本对图像。
在示例性实施例中,第一损失子模块可包括:全局嵌入式表示损失计算单元,可配置为根据全局三元组样本中第一图像、第二图像以及第三图像的预测嵌入式表示确定全局嵌入式表示损失;局部嵌入式表示损失计算单元,可配置为根据局部三元组样本中第一图像、第二图像以及第三图像的预测嵌入式表示确定局部嵌入式表示损失;第一损失计算单元,可配置为根据全局嵌入式表示损失以及局部嵌入式表示损失的加权计算结果确定第一目标损失。
在示例性实施例中,全局嵌入式表示损失计算单元可包括:第一正样本对距离计算子单元,可配置为计算全局三元组样本中第一图像和第二图像的预测嵌入式表示的距离,获得全局三元组样本的正样本对距离;第一负样本对距离计算子单元,可配置为计算全局三元组样本中第一图像和第三图像的预测嵌入式表示的距离,获得全局三元组样本的负样本对距离;全局嵌入式表示损失计算子单元,可配置为根据全局三元组样本的正样本对距离和负样本对距离确定全局嵌入式表示损失。
在示例性实施例中,局部嵌入式表示损失计算单元可包括:第二正样本对距离计算子单元,可配置为计算局部三元组样本中第一图像和第二图像的预测嵌入式表示的距离,获得局部三元组样本的正样本对距离;第二负样本对距离计算子单元,可配置为计算局部三元组样本中第一图像和第三图像的预测嵌入式表示的距离,获得局部三元组样本的负样本对距离;局部嵌入式表示损失计算子单元,可配置为根据局部三元组样本的正样本对距离和负样本对距离确定局部嵌入式表示损失。
在示例性实施例中,第二训练模块1560可包括:分类损失计算子模块,可配置为根据样本图像的类别预测结果和类别标签确定分类损失;第二损失计算子模块,可配置为根据分类损失和第一目标损失的加权计算结果确定第二目标损失。
在示例性实施例中,分类损失计算子模块可包括:类别预测结果划分单元,可配置为确定样本图像的类别预测结果在样本图像的类别标签下的第一预测结果以及在样本图像的类别标签外的其他Nc-1个类别下的Nc-1个第二预测结果,Nc为类别的总数,Nc为大于1的整数;标注类别损失计算单元,可配置为根据第一预测结果以及样本图像的类别标签和第一权重确定标注类别损失;单一非标注类别损失计算单元,可配置为根据Nc-1个第二预测结果以及样本图像的类别标签和第二权重确定Nc-1个单一非标注类别损失,所述第一权重和所述第二权重为预设值,所述第一权重和所述第二权重的和为固定数值;非标注类别损失计算单元,可配置为将Nc-1个单一非标注类别损失的平均值确定为非标注类别损失;分类损失计算单元,可配置为根据标注类别损失和非标注类别损失确定分类损失。
在示例性实施例中,分类结构可包括依次连接的卷积单元和全连接单元;其中,类别预测模块1550可包括:卷积运算子模块,可配置为根据卷积单元对图像特征进行卷积运算,获得卷积输出;分类预测子模块,可配置为通过全连接单元对卷积输出进行处理,获得样本图像的类别预测结果。
在示例性实施例中,第二训练模块1560在根据训练完成的所述多任务模型进行图像分类与嵌入式表示的预测”时可包括:图像获取子模块,可配置为获得待预测图像;图像预测子模块,可配置为通过训练完成的多任务模型对待预测图像进行处理,获得待预测图像的嵌入式表示和分类结果。
图16示出了适于用来实现本公开实施例的电子设备的结构示意图。需要说明的是,图16示出的电子设备1600仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图16所示,电子设备1600包括中央处理单元(CPU)1601,其可以根据存储在只读存储器(ROM)1602中的程序或者从储存部分1608加载到随机访问存储器(RAM)1603中的程序而执行各种适当的动作和处理。在RAM 1603中,还存储有系统操作所需的各种程序和数据。CPU 1601、ROM 1602以及RAM 1603通过总线1604彼此相连。输入/输出(I/O)接口1605也连接至总线1604。
在有些实施例中,以下部件可以连接至I/O接口1605:包括键盘、鼠标等的输入部分1606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1607;包括硬盘等的储存部分1608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1609。通信部分1609经由诸如因特网的网络执行通信处理。驱动器1610也根据需要连接至I/O接口1605。可拆卸介质1611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1610上,以便于从其上读出的计算机程序根据需要被安装入储存部分1608。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1609从网络上被下载和安装,和/或从可拆卸介质1611被安装。在该计算机程序被中央处理单元(CPU)1601执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有至少一个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含至少一个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块和/或单元和/或子单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的模块和/或单元和/或子单元也可以设置在处理器中。其中,这些模块和/或单元和/或子单元的名称在某种情况下并不构成对该模块和/或单元和/或子单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。例如,所述的电子设备可以实现如图3或图4或图5或图6或图7或图8或图9或图10或图11所示的各个步骤。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元或者子单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元或者子单元的特征和功能可以在一个模块或者单元或者子单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元或者子单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台电子设备执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (14)
1.一种基于多任务模型的图像处理方法,其特征在于,包括:
获取样本图像与所述样本图像的类别标签;
通过多任务模型中的特征提取结构对所述样本图像进行处理,获得图像特征;
通过所述多任务模型中的嵌入式表示结构对所述图像特征进行处理,获得所述样本图像的预测嵌入式表示;
根据所述预测嵌入式表示确定第一目标损失,以根据所述第一目标损失调整所述多任务模型中所述特征提取结构和所述嵌入式表示结构的参数,获得第一训练阶段的多任务模型;
通过所述多任务模型中与所述嵌入式表示结构并行的分类结构对所述图像特征进行处理,获得所述样本图像的类别预测结果;
根据所述类别预测结果、所述类别标签和所述预测嵌入式表示确定第二目标损失;
根据所述第二目标损失调整所述第一训练阶段的多任务模型中所述特征提取结构、所述嵌入式表示结构和所述分类结构的参数,获得训练完成的所述多任务模型,以根据训练完成的所述多任务模型进行图像分类与嵌入式表示的预测。
2.如权利要求1所述的方法,其特征在于,根据所述预测嵌入式表示确定第一目标损失包括:
根据所述样本图像生成样本对,所述样本对包括的两个样本图像为第一图像与第二图像,所述第一图像和所述第二图像的实际嵌入式表示的距离小于距离阈值;
将与所述样本对中的第一图像的类别标签不同的样本图像和该样本对组成全局三元组样本;
将与所述样本对中的第一图像的类别标签相同的样本图像和该样本对组成局部三元组样本;
根据所述全局三元组样本和所述局部三元组样本中每一样本图像的预测嵌入式表示生成所述第一目标损失。
3.如权利要求2所述的方法,其特征在于,将与所述样本对中的第一图像的类别标签不同的样本图像和该样本对组成全局三元组样本包括:
针对每一样本对,从其余样本对中随机选择一样本图像作为各其余样本对的样本对图像;
将类别标签与该样本对中的第一图像的类别标签不同的样本对图像确定为第一目标样本对图像;
计算各第一目标样本对图像与该样本对中的第一图像的距离,获得各第一目标样本对图像的第一距离;
按照所述第一距离的升序顺序对所述第一目标样本对图像排序;
将排序结果中的前a个第一目标样本对图像和该样本对分别组成a个所述全局三元组样本,a为大于0的整数,所述全局三元组样本包括该样本对的第一图像、第二图像以及作为第三图像的所述第一目标样本对图像。
4.如权利要求3所述的方法,其特征在于,将与所述样本对中的第一图像的类别标签相同的样本图像和该样本对组成局部三元组样本包括:
针对每一样本对,从其余样本对中随机选择一样本图像作为各其余样本对的样本对图像;
将类别标签与该样本对中的第一图像的类别标签相同的样本对图像确定为第二目标样本对图像;
计算各第二目标样本对图像与该样本对中的第一图像的距离,获得各第二目标样本对图像的第二距离;
按照所述第二距离的升序顺序对所述第二目标样本对图像排序;
将排序结果中的前b个第二目标样本对图像与该样本对分别组成b个局部三元组样本,b为大于0的整数,所述局部三元组样本包括该样本对的第一图像、第二图像以及作为第三图像的所述第二目标样本对图像。
5.如权利要求4所述的方法,其特征在于,根据所述全局三元组样本和所述局部三元组样本中每一样本图像的预测嵌入式表示生成所述第一目标损失包括:
根据所述全局三元组样本中第一图像、第二图像以及第三图像的预测嵌入式表示确定全局嵌入式表示损失;
根据所述局部三元组样本中第一图像、第二图像以及第三图像的预测嵌入式表示确定局部嵌入式表示损失;
根据所述全局嵌入式表示损失以及所述局部嵌入式表示损失的加权计算结果确定所述第一目标损失。
6.如权利要求5所述的方法,其特征在于,根据所述全局三元组样本中第一图像、第二图像以及第三图像的预测嵌入式表示确定全局嵌入式表示损失包括:
计算所述全局三元组样本中第一图像和第二图像的预测嵌入式表示的距离,获得所述全局三元组样本的正样本对距离;
计算所述全局三元组样本中第一图像和第三图像的预测嵌入式表示的距离,获得所述全局三元组样本的负样本对距离;
根据所述全局三元组样本的正样本对距离和所述负样本对距离确定所述全局嵌入式表示损失。
7.如权利要求5所述的方法,其特征在于,根据所述局部三元组样本中第一图像、第二图像以及第三图像的预测嵌入式表示确定局部嵌入式表示损失包括:
计算所述局部三元组样本中第一图像和第二图像的预测嵌入式表示的距离,获得所述局部三元组样本的正样本对距离;
计算所述局部三元组样本中第一图像和第三图像的预测嵌入式表示的距离,获得所述局部三元组样本的负样本对距离;
根据所述局部三元组样本的正样本对距离和所述负样本对距离确定所述局部嵌入式表示损失。
8.如权利要求1所述的方法,其特征在于,根据所述类别预测结果、所述类别标签和所述预测嵌入式表示确定第二目标损失包括:
根据所述样本图像的类别预测结果和所述类别标签确定分类损失;
根据所述分类损失和所述第一目标损失的加权计算结果确定所述第二目标损失。
9.如权利要求8所述的方法,其特征在于,根据所述样本图像的类别预测结果和所述类别标签确定分类损失包括:
确定所述样本图像的类别预测结果在所述样本图像的类别标签下的第一预测结果以及在所述样本图像的类别标签外的其他Nc-1个类别下的Nc-1个第二预测结果,Nc为类别的总数,Nc为大于1的整数;
根据所述第一预测结果以及所述样本图像的类别标签和第一权重确定标注类别损失;
根据Nc-1个第二预测结果以及所述样本图像的类别标签和第二权重确定Nc-1个单一非标注类别损失,所述第一权重和所述第二权重为预设值,所述第一权重和所述第二权重的和为固定数值;
将所述Nc-1个单一非标注类别损失的平均值确定为非标注类别损失;
根据所述标注类别损失和所述非标注类别损失确定所述分类损失。
10.如权利要求1所述的方法,其特征在于,所述分类结构包括依次连接的卷积单元和全连接单元;其中,通过所述多任务模型中与所述嵌入式表示结构并行的分类结构对所述图像特征进行处理,获得所述样本图像的类别预测结果包括:
根据所述卷积单元对所述图像特征进行卷积运算,获得卷积输出;
通过所述全连接单元对所述卷积输出进行处理,获得所述样本图像的类别预测结果。
11.如权利要求1所述的方法,其特征在于,根据训练完成的所述多任务模型进行图像分类与嵌入式表示的预测包括:
获得待预测图像;
通过所述训练完成的多任务模型对所述待预测图像进行处理,获得所述待预测图像的嵌入式表示和分类结果。
12.一种基于多任务模型的图像处理装置,其特征在于,包括:
样本获取模块,配置为获取样本图像与所述样本图像的类别标签;
特征提取模块,配置为通过多任务学习模型中的特征提取结构对所述样本图像进行处理,获得图像特征;
嵌入式表示模块,配置为通过多任务模型中的嵌入式表示结构对所述图像特征进行处理,获得所述样本图像的预测嵌入式表示;
第一训练模块,配置为根据所述预测嵌入式表示确定第一目标损失,以根据所述第一目标损失调整所述多任务模型中所述特征提取结构和所述嵌入式表示结构的参数,获得第一训练阶段的多任务模型;
类别预测模块,配置为通过所述多任务模型中与所述嵌入式表示结构并行的分类结构对所述图像特征进行处理,获得所述样本图像的类别预测结果;
第二训练模块,配置为根据所述类别预测结果、所述类别标签和所述预测嵌入式表示确定第二目标损失,根据所述第二目标损失调整所述第一训练阶段的多任务模型中所述特征提取结构、所述嵌入式表示结构和所述分类结构的参数,获得训练完成的所述多任务模型,以根据训练完成的所述多任务模型进行图像分类与嵌入式表示的预测。
13.一种电子设备,其特征在于,包括:
至少一个处理器;
存储装置,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-11中任一项所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110827411.8A CN113822324A (zh) | 2021-07-21 | 2021-07-21 | 基于多任务模型的图像处理方法、装置及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110827411.8A CN113822324A (zh) | 2021-07-21 | 2021-07-21 | 基于多任务模型的图像处理方法、装置及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113822324A true CN113822324A (zh) | 2021-12-21 |
Family
ID=78912703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110827411.8A Pending CN113822324A (zh) | 2021-07-21 | 2021-07-21 | 基于多任务模型的图像处理方法、装置及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113822324A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117574179A (zh) * | 2024-01-16 | 2024-02-20 | 北京趋动智能科技有限公司 | 多任务学习模型构建方法及装置 |
-
2021
- 2021-07-21 CN CN202110827411.8A patent/CN113822324A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117574179A (zh) * | 2024-01-16 | 2024-02-20 | 北京趋动智能科技有限公司 | 多任务学习模型构建方法及装置 |
CN117574179B (zh) * | 2024-01-16 | 2024-05-28 | 北京趋动智能科技有限公司 | 多任务学习模型构建方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109117777B (zh) | 生成信息的方法和装置 | |
CN111898696B (zh) | 伪标签及标签预测模型的生成方法、装置、介质及设备 | |
CN108898186B (zh) | 用于提取图像的方法和装置 | |
CN110532996B (zh) | 视频分类的方法、信息处理的方法以及服务器 | |
CN111062871B (zh) | 一种图像处理方法、装置、计算机设备及可读存储介质 | |
CN110489582B (zh) | 个性化展示图像的生成方法及装置、电子设备 | |
US20180157743A1 (en) | Method and System for Multi-Label Classification | |
CN108960316B (zh) | 用于生成模型的方法和装置 | |
CN111476871B (zh) | 用于生成视频的方法和装置 | |
CN107609506B (zh) | 用于生成图像的方法和装置 | |
CN109919244B (zh) | 用于生成场景识别模型的方法和装置 | |
CN113378784A (zh) | 视频标签推荐模型的训练方法和确定视频标签的方法 | |
CN113515942A (zh) | 文本处理方法、装置、计算机设备及存储介质 | |
CN111046757B (zh) | 人脸画像生成模型的训练方法、装置及相关设备 | |
CN112766284B (zh) | 图像识别方法和装置、存储介质和电子设备 | |
EP4113376A1 (en) | Image classification model training method and apparatus, computer device, and storage medium | |
CN112765387A (zh) | 图像检索方法、图像检索装置和电子设备 | |
CN113140012B (zh) | 图像处理方法、装置、介质及电子设备 | |
CN113111684B (zh) | 神经网络模型的训练方法、装置和图像处理系统 | |
CN113822324A (zh) | 基于多任务模型的图像处理方法、装置及相关设备 | |
CN111292333A (zh) | 用于分割图像的方法和装置 | |
CN112308950A (zh) | 视频生成方法及装置 | |
CN112183946A (zh) | 多媒体内容评估方法、装置及其训练方法 | |
CN116975347A (zh) | 图像生成模型训练方法及相关装置 | |
CN116468970A (zh) | 模型训练方法、图像处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |