CN116994019A - 模型训练方法、相关设备、存储介质及计算机产品 - Google Patents

模型训练方法、相关设备、存储介质及计算机产品 Download PDF

Info

Publication number
CN116994019A
CN116994019A CN202211224061.7A CN202211224061A CN116994019A CN 116994019 A CN116994019 A CN 116994019A CN 202211224061 A CN202211224061 A CN 202211224061A CN 116994019 A CN116994019 A CN 116994019A
Authority
CN
China
Prior art keywords
image
enhanced
target
images
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211224061.7A
Other languages
English (en)
Other versions
CN116994019B (zh
Inventor
杨凡
吴凯
张舒翼
刘永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202211224061.7A priority Critical patent/CN116994019B/zh
Publication of CN116994019A publication Critical patent/CN116994019A/zh
Application granted granted Critical
Publication of CN116994019B publication Critical patent/CN116994019B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例涉及计算机技术领域,公开了模型训练方法、相关设备、存储介质及计算机产品,可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景,该方法包括:调用图像识别模型,先基于预测得到的各个目标增强图像的图像类别,以及图像类别的预测概率,生成概率矩阵;然后通过将各个第二增强图像的全局特征向量和局部特征向量进行融合处理的方式,得到各个第二增强图像的目标特征向量,以便将每两个第二增强图像的目标特征向量进行比对,得到相似度矩阵;最后,将概率矩阵和相似度矩阵进行对比学习处理,以优化图像识别模型的模型参数。采用本申请实施例,可优化神经网络模型的模型性能,以提升图像识别的准确性。

Description

模型训练方法、相关设备、存储介质及计算机产品
技术领域
本申请涉及计算机技术领域,尤其涉及模型训练方法、相关设备、存储介质及计算机产品。
背景技术
图像识别指的是利用计算机对图像进行处理、分析和理解,以对图像进行类别级别的识别的技术,可以应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。目前,基于无标签数据训练用于图像识别的神经网络模型的方法主要是半监督分类算法。但半监督分类算法依赖于高质量的伪标签(即准确度高的伪标签),低质量的伪标签(即准确度低的伪标签)会造成训练过程中的错误累积,从而影响神经网络模型输出的分类识别结果的准确度。该现象在真实场景中会因为部分无标签数据带有的噪声而更加严重。由于类别识别结果的准确度和神经网络模型的性能息息相关,因此为了提升图像识别结果的准确性,需要提升神经网络模型的性能。基于此,如何更好地通过模型训练来得到一个模型性能较优的神经网络模型,以提升图像识别的准确性,是目前亟需解决的问题。
发明内容
本申请实施例提供了一种模型训练方法、相关设备、存储介质及计算机产品,可以优化神经网络模型的模型性能,以提升图像识别的准确性。
一方面,本申请实施例提供了一种模型训练方法,所述方法包括:
获取多个第一训练图像中各个第一训练图像的第一增强图像,所述各个第一训练图像的多个第二增强图像,第二训练图像以及所述第二训练图像的图像类别标签,并确定多个目标增强图像;其中,对所述各个第一训练图像进行图像增强处理得到的第一增强图像的增强力度小于各个第二增强图像的增强力度;所述多个目标增强图像包括所述各个第一训练图像的第一增强图像以及所述各个第一训练图像的至少一个第二增强图像;
调用图像识别模型,对所述多个目标增强图像,所述第二训练图像,以及所述第二训练图像的图像类别标签进行半监督学习处理,预测得到各个目标增强图像的图像类别以及所述图像类别的预测概率;
基于所述各个目标增强图像的图像类别,以及所述图像类别的预测概率,生成概率矩阵;其中,所述概率矩阵用于表征:所述多个目标增强图像中每两个目标增强图像的图像类别的一致性;
获取所述各个第一训练图像的各个第二增强图像的全局特征向量和局部特征向量;
将所述各个第二增强图像的全局特征向量,以及所述各个第二增强图像的局部特征向量进行融合处理,得到所述各个第二增强图像的目标特征向量;
将所述多个第一训练图像的每两个第二增强图像的目标特征向量进行比对,得到相似度矩阵;其中,所述相似度矩阵用于表征:所述每两个第二增强图像的相似度;
将所述概率矩阵和所述相似度矩阵进行对比学习处理,以优化所述图像识别模型的模型参数,优化后的图像识别模型用于对预测图像进行图像类别的识别。
一方面,本申请实施例提供了一种模型训练装置,所述模型训练装置包括获取单元和处理单元,其中:
所述获取单元,用于获取多个第一训练图像中各个第一训练图像的第一增强图像,所述各个第一训练图像的多个第二增强图像,第二训练图像以及所述第二训练图像的图像类别标签,并确定多个目标增强图像;其中,对所述各个第一训练图像进行图像增强处理得到的第一增强图像的增强力度小于各个第二增强图像的增强力度;所述多个目标增强图像包括所述各个第一训练图像的第一增强图像以及所述各个第一训练图像的至少一个第二增强图像;
所述处理单元,用于调用图像识别模型,对所述多个目标增强图像,所述第二训练图像,以及所述第二训练图像的图像类别标签进行半监督学习处理,预测得到各个目标增强图像的图像类别以及所述图像类别的预测概率;
所述处理单元,还用于基于所述各个目标增强图像的图像类别,以及所述图像类别的预测概率,生成概率矩阵;其中,所述概率矩阵用于表征:所述多个目标增强图像中每两个目标增强图像的图像类别的一致性;
所述处理单元,还用于获取所述各个第一训练图像的各个第二增强图像的全局特征向量和局部特征向量;
所述处理单元,还用于将所述各个第二增强图像的全局特征向量,以及所述各个第二增强图像的局部特征向量进行融合处理,得到所述各个第二增强图像的目标特征向量;
所述处理单元,还用于将所述多个第一训练图像的每两个第二增强图像的目标特征向量进行比对,得到相似度矩阵;其中,所述相似度矩阵用于表征:所述每两个第二增强图像的相似度;
所述处理单元,还用于将所述概率矩阵和所述相似度矩阵进行对比学习处理,以优化所述图像识别模型的模型参数,优化后的图像识别模型用于对预测图像进行图像类别的识别。
另一方面,本申请实施例提供了一种计算机设备,所述计算机设备包括输入接口和输出接口,所述计算机设备还包括:
处理器,适于实现一条或多条计算机程序;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由所述处理器加载并执行上述模型训练方法。
另一方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由处理器加载并执行上述模型训练方法。
另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述模型训练方法。
本申请实施例能够实现以下四方面的技术效果:第一方面,本申请实施例可以通过对比学习辅助训练类别级别的图像识别。本申请实施例通过将概率矩阵和相似度矩阵的对比学习,使得概率矩阵表征的图像类别的一致性能够影响相似度矩阵中表征的图像相似性,从而实现了从图像的特征向量层面,将可能属于同一图像类别的图像进行聚类,使得对比学习可以辅助训练类别级别的图像识别。
第二方面,本申请实施例通过对比学习避免了半监督学习中识别错误的累积,有利于优化图像识别模型的模型性能,以提升图像识别的准确性。本申请实施例中图像识别模型每次训练预测得到的某个图像的图像类别及其预测概率仅仅是在本次训练的对比学习中以概率矩阵的形式,影响本次训练中该图像的特征向量在图像类别上的聚类。哪怕出现了低质量的伪标签,由于与该图像来自同一训练样本的其他图像预测得到的图像类别也是错误的可能性很小,因此该图像的特征向量由低质量的伪标签引发的聚类错误,会因为该图像的特征向量会与其他来自同一训练样本的图像的特征向量的聚类,得到一定程度的修正。由此可见,本申请实施例通过对比学习避免了半监督学习中识别错误的累积,有利于优化图像识别模型的模型性能,以提升图像识别的准确性。
第三方面,本申请实施例具有普及性。由于识别错误通常是真实场景的半监督学习过程中因为分布外数据带来的噪声导致的,因此本申请实施例中的模型训练方法也更加适合辅助真实场景中的半监督学习,具有普及性。
第四方面,本申请实施例通过提升对比学习的聚类学习效果,达到了进一步优化图像识别模型的模型性能,以提升图像识别的准确性的目的。由于需要识别的物体在图像中的占比可能会很小,而全局抽象信息往往描述的是图像中占比大的物体。也就是说,有可能出现图像的全局特征向量表征的全局抽象信息所描述的物体并不是需要识别的物体的情况。那么,原本因为需要识别的物体相似或相同而使得全局特征向量之间距离较近(即相似度高)的由同一个第一训练图像进行图像增强处理得到的相似图像或者预测得到的图像类别相同的图像,可能会因为图像的全局特征向量表征的全局抽象信息所描述的物体并不是需要识别的物体,导致全局特征向量之间的距离变得较远(即相似度低)。因此,后续对比学习过程中哪怕将由同一个第一训练图像进行图像增强处理得到的相似图像和图像类别相同的图像进行了聚类,也会因为全局特征向量之间的初始距离太远导致聚类学习效果不佳。但本申请实施例中用于对比学习的相似度矩阵是通过比对每两个图像的目标特征向量得到的,且各个图像的目标特征向量是通过融合其用于表征图像的全局抽象信息的全局特征向量,以及用于表征图像的局部细节信息的局部特征向量得到的。也就是说,本申请实施例在对比学习的聚类过程中,充分考虑了图像的全局抽象信息和局部细节信息,避免了丢失需要识别的物体的信息的情况,从特征向量层面使得相似图像或者图像类别相同的图像的初始距离更近,有利于提高后续对比学习中来自同一个训练样本或者图像类别相同的图像的聚类学习效果,从而进一步优化图像识别模型的模型性能,以提升图像识别的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的一种对比学习思想的示意图;
图1b是本申请实施例提供的另一种对比学习思想的示意图;
图2是本申请实施例提供的一种模型训练系统的架构示意图;
图3是本申请实施例提供的一种模型训练方法的流程示意图;
图4是本申请实施例提供的一种生成类感知对比矩阵的过程示意图;
图5是本申请实施例提供的另一种模型训练方法的流程示意图;
图6是本申请实施例提供的生成概率矩阵的过程示意图;
图7是本申请实施例提供的一种特征向量融合的过程示意图;
图8是本申请实施例提供的一种图像识别模型的训练过程示意图;
图9是本申请实施例提供的一种模型训练装置的结构示意图;
图10是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着互联网技术的不断发展,人工智能(Artificial Intelligence,AI)技术也随之得到更好的发展。所谓的人工智能技术是指利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术;其主要通过了解智能的实质,生产出一种新的能以人类智能相似的方式做出反应的智能机器,使得智能机器具有感知、推理与决策等多种功能。相应的,AI技术是一门综合学科,其主要包括计算机视觉技术(Computer Vision,CV)、语音处理技术、自然语言处理技术以及机器学习(MachineLearning,ML)/深度学习等几大方向。
其中,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是AI的核心,是使计算机设备具有智能的根本途径;所谓的机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科;其专门研究计算机设备怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。而深度学习则是一种利用深层神经网络系统,进行机器学习的技术;机器学习/深度学习通常可包括人工神经网络、强化学习(Reinforcement Learning,RL)、有监督学习、半监督学习、无监督学习、对比学习等多种技术。
其中,所谓的有监督学习是指采用类别已知(具有标注类别)的训练样本进行模型训练的处理方式。半监督学习指的是采用部分类别已知(具有标注类别)的训练样本,以及部分类别未知(没有被标记)的训练样本进行模型训练的处理方式。无监督学习是指采用类别未知(没有被标记)的训练样本进行模型训练的处理方式。
具体来说,传统的半监督学习的过程为:先通过预训练模型,对少量的有标签图像进行处理,预测得到各个有标签图像的图像类别以及预测得到的各个有标签图像的图像类别的第一标签概率;然后再根据各个有标签图像的图像类别,以及各个有标签图像的图像类别标签(用于指示各个有标签图像的真实图像类别),对预训练模型进行训练,从而得到训练后的预训练模型。在得到训练后的预训练模型之后,调用训练后的预训练模型对大量的无标签图像进行处理,预测得到各个无标签图像的图像类别以及预测得到的各个无标签图像的图像类别的第二标签概率。然后,需要从大量的无标签图像中筛选出置信度高的无标签图像,因此需要选取第二标签概率大于预设标签概率的无标签图像作为目标无标签图像,以便最后通过少量的有标签图像和各个有标签图像的图像类别标签,以及选取的目标无标签图像,以及选取的目标无标签图像的伪标签(即上述预测得到各个无标签图像的图像类别),对图像识别模型进行训练,得到训练后的图像识别模型。其中,预设标签概率可以是人为设定的,也可以是系统设定的,在此不限定。举例来说,可以设定预设标签概率为90%、0.89、0.66、75%等。
此外,所谓的对比学习是一种基于对比思想的判别式表示学习方法,主要是通过将样本与跟它相似的样本(即样本的正样本)和与它不相似的样本(即样本的负样本)进行对比,使样本对应的样本表示与正样本对应的样本表示在表示空间中更接近,与负样本对应的样本表示在表示空间中的距离更远。具体来说,请参见附图1a,示出了一种对比学习思想的示意图,样本A对应的样本表示在表示空间的中心位置,表示空间中的黑色圆圈指的是与样本A相似的样本在表示空间中的样本表示,表示空间中的白色圆圈指的是与样本A不相似的样本在表示空间中的样本表示,经过对比学习之后,可以看出,与样本A相似的样本对应的样本表示(即黑色圆圈)会在表示空间中聚集,与样本A相似的样本对应的样本表示(即白色圆圈)会在表示空间中远离样本A对应的样本表示,此时只需要通过判断各个样本对应的样本表示在样本空间中的距离,就可以准确、清楚地分清哪些样本是相似的,哪些样本是不相似的。也就是说,对比学习就是让相似样本更聚类,不相似样本更分散。
同时,请参见附图1b,示出了另一种对比学习思想的示意图,黑色圆圈表示与样本A相似的样本,白色圆圈表示与样本B相似的样本,灰色圆圈表示与样本A和样本B均不相似的样本。然后通过对比学习只让相似的样本对应的样本表示在表示空间中更接近,就会发现与样本A相似的样本对应的样本表示聚集在了一起,与样本B相似的样本对应的样本表示聚集在了一起;同时,相对来说,与样本B相似的样本也是与样本A不相似的样本,通过上述对比学习之后,与样本B相似的样本对应的样本表示在表示空间中也相对远离了样本A对应的样本表示,从而达到一个样本A对应的样本表示与样本A不相似的样本对应的样本表示在表示空间中距离更远的效果。此时,也可以通过判断各个样本对应的样本表示在样本空间中的距离,实现准确、清楚地分清哪些是相似的样本,哪些是不相似的样本。也就是说,对比学习通过让相似样本更聚类的方式,实现了让不相似样本更分散。
另外,图像识别指的是利用计算机对图像进行处理、分析和理解,以对图像进行类别级别的识别的技术。
基于上述的机器学习和图像识别,本申请提出了一种模型训练方法,该方法使用的训练样本包括多个第一训练图像中各个第一训练图像的第一增强图像,各个第一训练图像的多个第二增强图像,第二训练图像以及第二训练图像的图像类别标签。该方法在优化图像识别模型的过程中,会先调用图像识别模型,通过半监督学习的方式对多个目标增强图像,和类别已知的有标签图像(即第二训练图像,以及第二训练图像的图像类别标签)进行处理,预测得到各个目标增强图像的图像类别以及所述图像类别的预测概率,以便生成能够表征多个目标增强图像中每两个目标增强图像的图像类别的一致性的概率矩阵。其中,多个目标增强图像包括各个第一训练图像的第一增强图像以及至少一个第二增强图像。然后,再调用图像识别模型,通过将各个第一训练图像的各个第二增强图像的全局特征向量和局部特征向量进行融合的方式,得到各个第二增强图像的目标特征向量,以便将每两个第二增强图像的目标特征向量进行比对,得到能够表征每两个第二增强图像的相似度的相似度矩阵。最后,通过将概率矩阵和相似度矩阵进行对比学习的方式,去优化图像识别模型的模型参数。需要说明的是,优化后的图像识别模型用于对预测图像进行图像类别的识别。
其中,相似度矩阵中表征的相似度是通过比对每两个第二增强图像的目标特征向量得到的,而任一第二增强图像的目标特征向量就相当于该第二增强图像的在表示空间中的图像表示。同时,比对两个第二增强图像的目标特征向量所得到的两个第二增强图像的相似度也就是确定出两个第二增强图像对应的图像表示在表示空间中的距离。以及,概率矩阵能够表征多个目标增强图像中每两个目标增强图像的图像类别的一致性,也就相当于概率矩阵能够反映每两个目标增强图像属于同一图像类别的可能性。
不难看出,由于图像识别模型是通过将概率矩阵和相似度矩阵进行对比学习的方式去优化模型参数的,也就相当于图像识别模型确定了每两个第二增强图像在表示空间中的距离之后,在原本的减小同一第一训练图像的两个第二增强图像之间的相似度(即,减小相似图像在表示空间中的距离,以将相似图像进行聚类)的基础上,会通过概率矩阵所反映的每两个目标增强图像属于同一图像类别的可能性,在对比学习的过程中减小可能属于同一图像类别的两个目标增强图像之间的相似度(即,减小图像类别相同的图像在表示空间的距离,以将可能属于同一图像类别的图像进行聚类)。
由此可见,图像识别模型是通过将概率矩阵和相似度矩阵进行对比学习的方式,实现了从每个图像的特征向量层面,将对同一第一训练图像进行图像增强处理得到的相似图像进行聚类,以及将可能属于同一图像类别的图像进行聚类。原本的对比学习的模型训练方式侧重于将相似样本的特征向量进行聚类,虽然能够实现区分每一个图像,但不适合训练用于类别级别的图像识别模型。而本方案中在将相似图像的特征向量进行聚类的基础上,还通过将预测出的可能属于同一图像类别的图像的特征向量进行聚类,使得通过该方案适合训练用于类别级别的图像识别模型。同时,由于本方案中图像识别模型每次训练预测得到的某个图像的图像类别及其预测概率仅仅是在本次训练的对比学习中以概率矩阵的形式,影响本次训练中该图像的特征向量在图像类别上的聚类。哪怕预测得到的某个图像的图像类别是错误的(即训练过程中出现噪声),由于与该图像由同一第一训练图像进行图像增强得到的其他图像(即该图像的相似图像)预测得到的图像类别也是错误的可能性很小,因此该图像的特征向量在图像类别上的聚类的错误,会因为该图像的特征向量会与该图像的相似图像的特征向量的聚类,得到一定程度的修正。也就是说,本方案中预测得到错误的图像类别的情况不会像半监督学习一样,影响后续模型训练过程中的特征提取和分类,导致错误累积,从而使得优化后的图像识别模型无法准确识别图像的图像类别。因此,本方案通过对比学习避免了半监督学习中识别错误的累积,有利于优化图像识别模型的模型性能,以提升图像识别的准确性。
此外,通常用于对比学习的特征向量仅仅是用于表征图像的全局抽象信息的全局特征向量,因此模型训练时会更多地参考图像中显著的全局抽象信息进行聚类,导致聚类时会忽略参考图像中的局部细节信息。由于需要识别的物体在图像中的占比可能会很小,而全局抽象信息往往描述的是图像中占比大的物体。也就是说,有可能出现图像的全局特征向量表征的全局抽象信息所描述的物体并不是需要识别的物体的情况。那么,原本因为需要识别的物体相似或相同而使得全局特征向量之间距离较近(即相似度高)的由同一个第一训练图像增强得到或者预测得到的图像类别相同的图像,可能会因为图像的全局特征向量表征的全局抽象信息所描述的物体并不是需要识别的物体,导致全局特征向量之间的距离变得较远(即相似度低)。因此,后续对比学习过程中哪怕将由同一第一训练图像增强得到的图像和图像类别相同的图像进行了聚类,也会因为全局特征向量之间的初始距离太远导致聚类学习效果不佳。而本方案中用于对比学习的相似度矩阵是通过比对每两个第二增强图像的目标特征向量得到的,且各个第二增强图像的目标特征向量是通过融合其用于表征图像的全局抽象信息的全局特征向量,以及用于表征图像的局部细节信息的局部特征向量得到的。也就是说,本申请实施例在对比学习的聚类过程中,充分考虑了图像的全局抽象信息和局部细节信息,避免了丢失需要识别的物体的信息的情况,从特征向量层面使得由同一第一训练图像增强得到或者图像类别相同的图像的初始距离更近,有利于提高后续对比学习中由同一第一训练图像增强得到或者图像类别相同的图像的聚类学习效果,从而进一步优化图像识别模型的模型性能,以提升图像识别的准确性。
上述提及每一个第一训练图像有第一增强图像,以及多个第二增强图像。其中,第一训练图像指的是类别未知的图像(即无标签图像);而第一增强图像和第二增强图像都是对第一训练图像进行图像增强处理得到的,但对第一训练图像进行图像增强处理得到的第一增强图像的增强力度小于各个第二增强图像的增强力度。另外,第二训练图像的图像标签用于指示第二训练图像的实际图像类别,因此可以第二训练图像也就是半监督学习中的有标签图像。
具体来说,图像增强指的是对图像进行变化,得到一个与图像相似的相似图像,也就相当于构建样本的相似样本。对第一训练图像进行图像弱增强处理,可以得到第一增强图像。其中,图像弱增强处理的具体方式包括图像缩放、图像翻转、图像平移等。对第一训练图像进行图像强增强处理,可以得到第二增强图像。其中,图像强增强处理的具体方式包括:改变图像的灰度、随机选择图像中的一些像素点去修改像素值或灰度值等。由于图像强增强处理相当于改变了图像中的部分内容,而图像弱增强处理没有直接改变图像中的内容,只是对图像进行了位置的调整,因此第一增强图像与第一训练图像的差异会小于第二增强图像与第一训练图像的差异,即对第一训练图像进行图像增强处理得到第一增强图像的增强力度小于各个第二增强图像的增强力度。
此外,图像识别模型是一个用于图像类别识别的神经网络模型。通过上述方案可以知道,图像识别模型在训练过程中是通过半监督学习去预测图像类别,以及采用对比学习通过图像在特征向量层面进行聚类的方式去优化半监督学习的预测准确性。因此,具体来说,图像识别模型中包括半监督学习分支和对比学习分支,而对比学习分支仅是在模型训练过程中起到优化监督学习分支的作用,最后优化后的图像识别模型是通过优化后的图像识别模型中的半监督学习分支对预测图像进行图像类别的识别。
同时,多个目标增强图像包括各个第一训练图像的第一增强图像以及至少一个第二增强图像。具体来说,会抽取多个第一训练图像中的各个第一训练图像的第一增强图像和部分第二增强图像,来得到多个目标增强图像。而概率矩阵用于表征:多个目标增强图像中每两个目标增强图像的图像类别的一致性。具体来说,所述多个目标增强图像中每两个目标增强图像包括:多个目标增强图像中的任一目标增强图像与该任一目标增强图像组成的两个目标增强图像,以及多个目标增强图像中的任一目标增强图像与所述多个目标增强图像中除该任一目标增强图像以外的其他目标增强图像中的各个目标增强图像组成的两个增强图像。
举例来说,一共有3个目标增强图像,分别为目标增强图像A、目标增强图像B和目标增强图像C。那么多个目标增强图像中每两个目标增强图像包括:目标增强图像A和目标增强图像A、目标增强图像A和目标增强图像B、目标增强图像A和目标增强图像C、目标增强图像B和目标增强图像B、目标增强图像B和目标增强图像C,以及目标增强图像C和目标增强图像C。
另外,全局特征向量指的是能够表征图像的全局抽象信息的特征向量,即神经网络模型提取到的图像的深层特征向量。局部特征向量指的是能够表征图像的局部细节信息的特征向量,即神经网络模型提取到的图像的浅层特征向量和中层特征向量。
具体来说,通过神经网络模型提取图像的特征向量的过程是一个由浅层到深层的过程。以含有人脸的图像为例,该图像的浅层特征向量通常表征的是如边缘、颜色、纹理等用于描述人脸局部细节的特征;对浅层特征向量进一步处理可以得到中层特征向量,中层特征向量通常表征的是如眼睛宽度、鼻梁长度等用于描述人脸的部分结构的特征;对中层特征向量进一步处理可以得到深层特征向量,深层特征向量通常表征的是五官协调、长相端正等用于描述人脸整体的抽象信息的特征。由于浅层特征向量和中层特征向量都是描述人脸局部的特征,深层特征向量是描述人脸整体的特征,故而可以将神经网络模型中提取到浅层特征向量和中层特征向量称为局部特征向量,提取到的深层特征向量称为全局特征向量。
需要说明的是,所述将每两个第二增强图像的目标特征向量进行比对指的是计算两个第二增强图像的目标特征向量之间的相似度。因此根据将每两个第二增强图像的目标特征向量进行比对之后的比对结果,就可以得到能够表征每两个第二增强图像的相似度的相似度矩阵。最后,所述预测图像指的是需要预测图像类别的图像。
基于上述模型训练方法,本申请实施例提供了一种模型训练系统,可参见图2,图2所示的模型训练系统可以包括多个终端设备201和多个服务器202,其中任一终端设备和任一服务器之间均建立有通信连接。终端设备201可以包括智能手机、平板电脑、笔记本电脑、台式计算机、智能车载以及智能可穿戴设备中的任意一种或多种。终端设备内可运行各式各样的客户端(application,APP),如多媒体播放客户端、社交客户端、浏览器客户端、信息流客户端、教育客户端,等等。服务器202可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备201以及服务器202之间可以通过有线或无线通信方式进行直接或间接地通信连接,本申请在此不做限制。
在一个实施例中,上述模型训练方法可以仅由图2所示模型训练系统中的终端设备201,具体执行过程为:终端设备201会先获取多个第一训练图像中各个第一训练图像的第一增强图像,各个第一训练图像的多个第二增强图像,第二训练图像以及第二训练图像的图像类别标签,并确定多个目标增强图像;其中,多个目标增强图像包括各个训练样本中的第一增强图像以及至少一个第二增强图像。然后,终端设备201会调用图像识别模型,对多个目标增强图像,第二训练图像,以及第二训练图像的图像类别标签进行半监督学习处理,预测得到各个目标增强图像的图像类别以及图像类别的预测概率,以便生成能够表征多个目标增强图像中每两个目标增强图像的图像类别的一致性的概率矩阵。之后,终端设备201会通过图像识别模型,将各个第一训练图像的各个第二增强图像的全局特征向量和局部特征向量进行融合,得到各个第二增强图像的目标特征向量,以便将每两个第二增强图像的目标特征向量进行比对,得到能够表征每两个第二增强图像的相似度的相似度矩阵。最后,终端设备201通过将概率矩阵和相似度矩阵进行对比学习的方式,去优化图像识别模型的模型参数。可选地,终端设备201得到优化后的图像识别模型之后,若接收到了预测图像,就可以通过优化后的图像识别模型对预测图像进行图像类别的识别。
可选的,上述基于模型训练方法也可以仅由图2所示的模型训练系统中的服务器202执行,其具体执行过程可参见终端设备201的具体执行过程,在此不再赘述。
在另一个实施例中,上述模型训练方法可以运行在模型训练系统中,模型训练系统可以包括终端设备和服务器,其中,所述模型训练方法可由图2所示的模型训练系统中所包含的终端设备201和服务器202来共同完成,具体执行过程为:服务器202先获取多个第一训练图像中各个第一训练图像的第一增强图像,各个第一训练图像的多个第二增强图像,第二训练图像以及第二训练图像的图像类别标签,并确定多个目标增强图像;其中,多个目标增强图像包括各个训练样本中的第一增强图像以及至少一个第二增强图像。然后,服务器202会调用图像识别模型,对多个目标增强图像,第二训练图像,以及第二训练图像的图像类别标签进行半监督学习处理,预测得到各个目标增强图像的图像类别以及图像类别的预测概率,以便生成能够表征多个目标增强图像中每两个目标增强图像的图像类别的一致性的概率矩阵。之后,服务器202会通过图像识别模型,将各个第一训练图像的各个第二增强图像的全局特征向量和局部特征向量进行融合,得到各个第二增强图像的目标特征向量,以便将每两个第二增强图像的目标特征向量进行比对,得到能够表征每两个第二增强图像的相似度的相似度矩阵。最后,服务器202通过将概率矩阵和相似度矩阵进行对比学习的方式,去优化图像识别模型的模型参数。
服务器202得到优化后的图像识别模型之后,终端设备201可以响应图像选择操作,确定待识别的预测图像;终端设备201将预测图像发送至服务器202;服务器202通过优化后的图像识别模型对预测图像进行图像识别处理,得到预测图像的图像类别;最后服务器202将预测图像的图像类别发送至终端设备201。其中,图像选择操作可以是使用终端设备201的对象(人或物)发起的,在此不限定。
请参见图3,图3是本申请实施例提供的一种模型训练方法的示意流程图。该模型训练方法可以由上述提及的终端设备或者服务器执行,如图3所示,该模型训练方法包括步骤S301-S307:
S301,获取多个第一训练图像中各个第一训练图像的第一增强图像,各个第一训练图像的多个第二增强图像,第二训练图像以及第二训练图像的图像类别标签,并确定多个目标增强图像。
在本申请实施例中,所述每一个第一训练图像都对应有第一增强图像,以及多个第二增强图像。而第一增强图像和各个第二增强图像的不同之处在于,对第一训练图像进行图像增强处理得到的第一增强图像的增强力度小于各个第二增强图像的增强力度。
具体来说,第一增强图像是对第一训练图像进行图像弱增强处理得到的。第二增强图像是对第一训练图像进行图像强增强处理得到的。其中,图像强增强处理的具体方式包括:改变图像的灰度、随机选择图像中的一些像素点去修改像素值或灰度值等。由于图像强增强处理相当于改变了图像中的部分内容,而图像弱增强处理没有直接改变图像中的内容,只是对图像进行了位置的调整,因此第一增强图像与第一训练图像的差异会小于第二增强图像与第一训练图像的差异,即对第一训练图像进行图像增强处理得到第一增强图像的增强力度小于各个第二增强图像的增强力度。
此外,所述多个目标增强图像包括各个第一训练图像的第一增强图像以及至少一个第二增强图像。具体来说,所述确定多个目标增强图像的具体方式为:抽取多个第一训练图像中的各个第一训练图像的第一增强图像和部分第二增强图像作为目标增强图像,从而得到多个目标增强图像。
另外,第二训练图像的图像标签用于指示第二训练图像的实际图像类别,因此可以第二训练图像也就相当于是半监督学习中的有标签图像。
S302,调用图像识别模型,对多个目标增强图像,第二训练图像,以及第二训练图像的图像类别标签进行半监督学习处理,预测得到各个目标增强图像的图像类别以及图像类别的预测概率。
在本申请实施例中,所述图像类别的预测概率指的是预测得到各个目标增强图像的图像类别的预测概率。
上述提及图像识别模型中包括半监督学习分支,那么,所述调用图像识别模型,对多个目标增强图像,第二训练图像,以及第二训练图像的图像类别标签进行半监督学习处理的具体方式为:调用图像识别模型中的半监督学习分支,对第二训练图像和第二训练图像的图像类别标签进行监督学习处理,得到监督学习后的半监督学习分支,其中,第二训练图像的图像类别标签用于指示第二训练图像实际的图像类别;然后,通过监督学习后的半监督学习分支,对各个目标增强图像进行半监督学习处理,预测得到各个目标增强图像的图像类别以及图像类别的预测概率。需要说明的是,由于上述提及在半监督学习中预测得到的无标签图像的图像类别也可以称为伪标签,因此预测得到各个目标增强图像的图像类别也就是各个目标增强图像的伪标签,后续不再赘述。
可选地,图像类别的识别通常是多分类,如果图像识别模型中的分类函数是归一化指数函数(softmax)这种多分类函数,通常输出的图像识别结果都用于指示图像的图像类别为至少一个预设图像类别中各个预设图像类别的概率。
因此,所述调用图像识别模型,对多个目标增强图像,第二训练图像,以及第二训练图像的图像类别标签进行半监督学习处理,预测得到各个目标增强图像的图像类别以及图像类别的预测概率的具体方式还可以是:调用图像识别模型,对多个目标增强图像,第二训练图像,以及第二训练图像的图像类别标签进行半监督学习处理,得到各个目标增强图像的图像识别结果;其中,各个目标增强图像的图像识别结果用于指示各个目标增强图像的图像类别为至少一个预设图像类别中各个预设图像类别的概率;将各个目标增强图像的图像识别结果中概率最大的预设图像类别确定为所述预测得到的各个目标增强图像的图像类别,以及将各个目标增强图像的图像识别结果中的最大概率确定为预测得到的各个目标增强图像的图像类别的预测概率。
具体实现中,半监督学习处理时所使用的半监督学习算法可以是MixMatch(一种通过标准数据增强,即随机水平翻转和剪切,来实现一致性正则化的半监督学习算法)、FixMatch(一种基于一致性正则化和伪标签的半监督学习算法)、ReMixMatch(一种基于多次数据增强的半监督学习算法)等多种半监督学习算法中的任一种,在此不限定。
S303,基于各个目标增强图像的图像类别,以及图像类别的预测概率,生成概率矩阵。
在本申请实施例中,所述基于各个目标增强图像的图像类别,以及图像类别的预测概率,生成概率矩阵的具体方式可以是:
1)基于各个目标增强图像的图像类别,以及图像类别的预测概率,生成半监督对比矩阵。
其中,半监督对比矩阵用于表征:多个目标增强图像中每两个目标增强图像预测得到的图像类别是否相同。具体来说,所述多个目标增强图像中每两个目标增强图像包括:多个目标增强图像中的任一目标增强图像与该任一目标增强图像组成的两个目标增强图像,以及多个目标增强图像中的任一目标增强图像与所述多个目标增强图像中除该任一目标增强图像以外的其他目标增强图像中的各个目标增强图像组成的两个增强图像。示例性地,如果有三个目标增强图像X、Y和Z,那么,所述三个目标增强图像中每两个目标增强图像包括:XX、XY、XZ、YY、YZ和ZZ。需要说明的是,后续用于描述所有矩阵中的每两个增强图像或者两个增强图像的意思均与上述的每两个目标增强图像的意思相同,后续不再赘述。
此外,半监督对比矩阵中的每一个元素都对应有两个目标增强图像,半监督对比矩阵通过设定各个元素的元素值的方式,表征相应两个目标增强图像预测得到的图像类别是否相同。具体实现中,可以设定元素值为1时,用于表征两个目标增强图像预测得到的图像类别相同,元素值为0时,用于表征两个目标增强图像预测得到的图像类别不相同。可选地,还可以设定元素值为100时,用于表征两个目标增强图像预测得到的图像类别相同,元素值为0时,用于表征两个目标增强图像预测得到的图像类别不相同,在此不限定。另外,半监督对比矩阵中的不同元素可以对应相同的两个目标增强图像,后续的半监督对比矩阵和概率矩阵这个的不同元素也都可以对应相同的两个目标增强图像,不再赘述。
2)当半监督对比矩阵中存在用于表征图像类别相同的两个目标增强图像,且两个目标增强图像中存在预测概率小于预设阈值的目标增强图像时,将半监督对比矩阵进行更新,得到类感知对比矩阵。
其中,类感知对比矩阵用于表征:两个目标增强图像预测得到的图像类别不相同。具体实现中,分布内数据指的是与有标签数据来源于同一数据分布的无标签数据,而同一数据分布内的数据的类别和特征层面是保持一致的;分布外数据通常是存在于真实场景下的,与有标签数据来源于不同数据分布的无标签数据,不同数据分布内的数据的类别和特征层面是不同的。由于真实场景下的无标签数据存在噪声,即分布外数据会夹杂其他容易误导识别结果或者与识别结果无关的特征和信息,故而分布外数据的预测概率通常都会比较小;因此通常将伪标签的预测概率大的无标签数据(即伪标签置信度高的无标签数据,也可以称为高质量的伪标签)认定为分布内数据,将伪标签的预测概率较小的无标签数据(即伪标签置信度较低的无标签数据,也可以称为低质量的伪标签)认定为分布外数据。由于分布内数据的可信度更高,因此在训练过程中应该更多地参考分布内数据的识别结果,减小分布外数据带来的噪声的影响。
因此,可以通过将半监督对比矩阵进行更新的方式,减小在分布外数据带来的噪声的影响。具体来说,当在半监督对比矩阵中表征的图像类别相同的两个目标增强图像中的任一目标增强图像的预测概率小于预设阈值时,就将半监督对比矩阵中对应表征这两个目标增强图像的图像类别相同的元素值更新为表征这两个目标增强图像预测得到的图像类别不相同。此外,所述预设阈值可以是人为设定的,也可以是系统设定的,在此不限定。示例性地,可以设定预设阈值为90%、0.89、0.66、75%等。
举例来说,请参见附图4,示出了一种生成类感知对比矩阵的过程示意图。预先设定预设阈值为85%,以及矩阵中元素的颜色为黑色表示该元素的元素值为1,用于表征两个目标增强图像预测得到的图像类别相同;矩阵中元素的颜色为白色表示该元素的元素值为0,用于表征两个目标增强图像预测得到的图像类别不相同。
此外,目标增强图像A1在半监督学习处理后预测得到的图像类别为花朵,其图像类别的预测概率为90%;目标增强图像A2在半监督学习处理后预测得到的图像类别为花朵,其图像类别的预测概率为83%;目标增强图像B1在半监督学习处理后预测得到的图像类别为鸟,其图像类别的预测概率为96%;目标增强图像B2在半监督学习处理后预测得到的图像类别为鸟,其图像类别的预测概率为93%。
图4中的半监督对比矩阵401中的第一行第一列的元素对应的两个目标增强图像为目标增强图像A1和目标增强图像A1,第一行第二列的元素对应的两个目标增强图像为目标增强图像A1和目标增强图像A2,第一行第三列的元素对应的两个目标增强图像为目标增强图像B1和目标增强图像B1,依次类推,不再赘述。其中,A1和A2是由同一第一训练图像进行图像增强处理得到的增强图像,以及B1和B1是同一第一训练图像进行图像增强处理得到的增强图像。A1和B1是相应的第一训练图像的第一增强图像,A2和B2是相应的第一训练图像的第二增强图像。也就是说,A1和A2是相似的图像,B1和B1是相似的图像。
因此,A1和A2在半监督学习处理后预测得到的图像类别通常都是相同,以及B1和B1在半监督学习处理后预测得到的图像类别通常都是相同的。如图4中的半监督对比矩阵401所示,第一行第一列的元素的颜色为黑色,即元素值1,表征目标增强图像A1和目标增强图像A1预测得到的图像类别是相同的;第一行第三列的元素的颜色为白色,即元素值0,表征目标增强图像A1和目标增强图像B1预测得到的图像类别是不相同的,半监督对比矩阵401中的其他元素不再赘述。
由于预测概率为90%,而半监督对比矩阵401的第一行第二列的元素对应的两个目标增强图像A1和A2中,存在A2的图像类别的预测概率为83%,小于85%。因此如类感知对比矩阵402所示,类感知对比矩阵402的第一行第二列的元素的颜色变为了白色,即元素值为0,表征目标增强图像A1和目标增强图像A2预测得到的图像类别是不相同的。同理,半监督对比矩阵401的第四行第四列的元素对应的两个目标增强图像B1和B2中,由于B2的图像类别的预测概率为96%,B2的图像类别的预测概率为93%,均大于85%。因此,如类感知对比矩阵402所示,类感知对比矩阵402的第四行第四列的元素的颜色还是为黑色,即元素值为1,表征目标增强图像B1和目标增强图像B2预测得到的图像类别是相同的。
3)对类感知对比矩阵进行转换处理,得到概率矩阵。
其中,由于类感知对比矩阵中已经通过比较预设阈值,与每两个目标增强图像预测得到的图像类别的预测概率的方式,对属于同一图像类别的目标增强图像进行了一定程度筛选,而后续概率矩阵是用于影响对比学习过程中将属于同一图像类别的图像进行聚类。因此,所述对类感知对比矩阵进行转换处理,得到概率矩阵的具体方式可以是:将类感知对比矩阵确定为概率矩阵。
需要说明的是,上述提及概率矩阵用于表征多个目标增强图像中每两个目标增强图像的图像类别的一致性,而类感知对比矩阵中的各个元素的元素值是用于表征每两个目标增强图像的图像类别是否相同的,是否相同也就是是否一致,故而类感知对比矩阵可以直接作为概率矩阵。
可选地,为了进一步强调对高置信度的分布内数据的训练,所述对类感知对比矩阵进行转换处理,得到概率矩阵的具体方式还可以是:根据各个图像集中各个目标增强图像的预测概率,以及更新后的概率矩阵,得到概率矩阵。具体来说,根据每两个目标增强图像中各个目标增强图像的预测概率,以及类感知对比矩阵,得到概率矩阵的方式可以是:当两个目标增强图像是不同的目标增强图像时,根据这两个目标增强图像中各个目标增强图像的预测概率,对类感知对比矩阵中这两个目标增强图像对应的元素的元素值进行更新,得到概率矩阵。
S304,获取各个第一训练图像的各个第二增强图像的全局特征向量和局部特征向量。
在本申请实施例中,由于上述提及神经网络模型中提取到浅层特征向量和中层特征向量也就是局部特征向量,提取到的深层特征向量也就是全局特征向量,而图像识别模型是一个神经网络模型,神经网络模型中的卷积层和降采样层等网络层主要用于浅层特征和中层特征(即局部特征向量)的提取,全连接层、高斯连接层等连接层主要用于深层特征(即全部特征向量)的提取,由神经网络模型中的卷积层、降采样层和全连接层等网络层共同组成了神经网络模型中的特征提取模块。
因此,获取各个第一训练图像的各个第二增强图像的全局特征向量和局部特征向量的具体方式可以是:调用图像识别模型中的特征提取模块,对各个第一训练图像的各个第二增强图像进行局部特征提取处理,得到各个第二增强图像的局部特征向量;对各个第二增强图像的局部特征向量进行全连接处理,得到各个第二增强图像的全局特征向量。
可选地,由于图像识别模型中的特征提取模块提取到的局部特征向量主要是用于后续的局部卷积操作,不会直接保留下来,因此,获取各个第一训练图像的各个第二增强图像的全局特征向量和局部特征向量的具体方式还可以是:对各个第二增强图像进行特征提取处理,得到各个第二增强图像的特征图;将各个第二增强图像的特征图进行全连接处理,得到各个第二增强图像的全局特征向量;对各个第二增强图像的特征图进行局部卷积处理,得到各个第二增强图像的局部特征向量。其中,因为特征提取模块是通过多个卷积层和降采样层的处理,才得到最后用于全连接的特征,故而所述各个第二增强图像的特征图指的是特征提取模块中在进行全连接处理之前提取出的特征向量。需要说明的是,本领域技术人员通常也将特征向量称作特征图。
S305,将各个第二增强图像的全局特征向量,以及各个第二增强图像的局部特征向量进行融合处理,得到各个第二增强图像的目标特征向量。
在本申请实施例中,所述将各个第二增强图像的全局特征向量,以及各个第二增强图像的局部特征向量进行融合处理,得到各个第二增强图像的目标特征向量的具体方式可以是:对各个第二增强图像的全局特征向量,以及各个第二增强图像的局部特征向量进行线性映射处理,得到处理后的各个第二增强图像的全局特征向量,以及处理后的各个第二增强图像的局部特征向量;其中,处理后的各个第二增强图像的全局特征向量,以及处理后的各个第二增强图像的局部特征向量为长度和宽度均相同的特征向量;最后将处理后的各个第二增强图像的全局特征向量,以及处理后的各个第二增强图像的局部特征向量进行拼接,得到各个第二增强图像的目标特征向量。
可选地,所述将各个第二增强图像的全局特征向量,以及各个第二增强图像的局部特征向量进行融合处理,得到各个第二增强图像的目标特征向量的具体方式还可以是:对各个第二增强图像的全局特征向量,以及各个第二增强图像的局部特征向量进行正交处理,得到各个第二增强图像的正交特征向量;将各个第二增强图像的全局特征向量,以及各个第二增强图像的正交特征向量进行拼接,得到各个第二增强图像的目标特征向量。其中,正交处理指的是保留各个第二增强图像的局部特征向量中与各个第二增强图像的全局特征向量中的某个元素呈正交的元素。需要说明的是,正交指的是两向量的内积为0,即两个向量垂直。可选地,还可以通过其他方式进行拼接处理,在此不赘述。
S306,将多个第一训练图像的每两个第二增强图像的目标特征向量进行比对,得到相似度矩阵。
在本申请实施例中,所述相似度矩阵用于表征:每两个第二增强图像的相似度。此外,所述将多个第一训练图像的每两个第二增强图像的目标特征向量进行比对,得到相似度矩阵的具体方式可以是:将多个第一训练图像的每两个第二增强图像的目标特征向量进行比对,得每两个第二增强图像的目标特征向量的相似度;根据多个第一训练图像的每两个第二增强图像的目标特征向量的相似度,得到相似度矩阵。
具体来说,特征向量是图像在表示空间的图像表示,特征向量是否相似也就是特征向量在表示空间中的距离是否接近。因此,所述将多个第一训练图像的每两个第二增强图像的目标特征向量进行比对,得每两个第二增强图像的目标特征向量的相似度的具体方式可以是:计算多个第一训练图像的每两个第二增强图像的目标特征向量的距离,根据每两个第二增强图像的目标特征向量的距离,确定每两个第二增强图像的目标特征向量的相似度。其中,计算距离的具体方法可以是计算两个特征向量的欧几里德距离、曼哈顿距离(Manhattan Distance)、皮尔逊相关系数(Pearson Correlation Coefficient)或者余弦距离等,在此不限定。根据距离确定相似度可以是通过归一化函数(如softmax)对距离进行处理,以得到相似度,其为本领域技术人员所惯用的技术手段,在此不赘述。
另外,具体来说,相似度矩阵用于表征每两个第二增强图像的相似度,也就是相似度矩阵中的每一个元素都对应有两个第二增强图像,相似度矩阵可以通过设定各个元素的元素值的方式,表征相应两个第二增强图像的相似度。可选地,相似度矩阵中各个元素的元素值也可以直接是相应两个第二增强图像的相似度,在此不限定。
S307,将概率矩阵和相似度矩阵进行对比学习处理,以优化图像识别模型的模型参数。其中,优化后的图像识别模型用于对预测图像进行图像类别的识别。
在本申请实施例中,将概率矩阵和相似度矩阵进行对比学习处理的具体方式可以是:确定优化目标;其中,优化目标指的是:将同一第一训练图像的增强图像进行聚类,以及将图像类别为同一图像类别的增强图像进行聚类;然后,将概率矩阵和相似度矩阵进行对比学习处理,按照优化目标的方向,优化图像识别模型的模型参数。其中,由同一第一训练图像的增强图像包括该第一训练图像的第一增强图像和多个第二增强图像。此外,同一第一训练图像的各个增强图像互为相似图像,后续不再赘述。
具体来说,由于概率矩阵表征的是多个目标增强图像中每两个目标增强图像的图像类别的一致性,以及相似度矩阵用于表征每两个第二增强图像的相似度;而多个目标增强图像包括各个第一训练图像的第一增强图像以及至少一个第二增强图像,以及每个第一训练图像每次被选为目标增强图像的第二增强图像会有不同,也就是说,可能存在概率矩阵中的某个元素对应的两个目标增强图像,是与相似度矩阵中的某个元素对应的两个第二增强图像相同的增强图像。因此,所述将概率矩阵和相似度矩阵进行对比学习处理,按照优化目标的方向,优化图像识别模型的模型参数的方式可以是:通过概率矩阵表征的多个目标增强图像中每两个增强图像的图像类别的一致性,去影响相似度矩阵中表征的相应两个增强图像的特征向量的相似度,即增大一致性高的两个增强图像之间的相似度,以及减小一致性低的两个增强图像之间的相似度;同时,还需要增大相似度矩阵中对应的两个第二增强图像是由同一第一训练图像进行图像增强处理得到的元素所表征的相似度。
可选地,由于图像识别模型的训练过程中还涉及半监督学习,而半监督学习通常包括对有标签数据的监督学习,以及对无标签数据的半监督学习的部分。因此,所述将概率矩阵和相似度矩阵进行对比学习处理,按照优化目标的方向,优化图像识别模型的模型参数的方式还可以是:根据第二训练图像预测得到的图像类别,以及第二训练图像的图像类别标签,得到监督学习结果;其中,第二训练图像的图像类别是对第二训练图像进行监督学习处理得到的;根据预测得到各个目标增强图像的图像类别,以及各个目标增强图像识别为不同图像类别的概率,得到半监督学习结果;其中,各个目标增强图像的图像类别和识别为不同图像类别的概率是对各个目标增强图像进行半监督学习处理得到的;根据概率矩阵和相似度矩阵的对比学习处理结果,监督学习结果以及半监督学习结果,优化图像识别模型的模型参数。
具体来说,可以基于半监督学习策略构建监督学习损失函数和半监督学习损失函数;然后,调用监督学习损失函数,根据预测得到第二训练图像的图像类别或者第二训练图像的图像识别结果,以及第二训练图像的图像类别标签,得到监督学习损失值;调用半监督学习损失函数,根据各个目标增强图像预测得到的图像类别,以及各个目标增强图像的图像识别结果,得到半监督学习损失值。本实施例中的监督学习结果指的可以是上述的监督学习损失值,半监督学习结果指的可以是上述的半监督学习损失值。
其中,所述第二训练图像的图像识别结果用于指示:第二训练图像的图像类别为至少一个预设图像类别中各个预设图像类别的概率。各个目标增强图像的图像识别结果用于指示:各个目标增强图像的图像类别为至少一个预设图像类别中各个预设图像类别的概率。所述预设图像类别可以是人为设定的,也可以是系统设定的,在此不限定。举例来说,预设图像类别可以包括人、鸟、植物等。
由上述描述可知,图像识别模型将概率矩阵和相似度矩阵进行对比学习处理的过程主要是:通过概率矩阵表征的每两个增强图像的图像类别的一致性,去影响相似度矩阵中表征的相应两个增强图像的特征向量的相似度,即增大一致性高的两个增强图像之间的相似度,以及减小一致性低的两个增强图像之间的相似度;同时,还需要增大相似度矩阵中对应的两个第二增强图像是由同一第一训练图像进行图像增强得到的元素所表征的相似度。
由此可见,在本申请实施例中,通过将概率矩阵和相似度矩阵进行对比学习的方式,实现了从每个图像的特征向量层面,将由同一第一训练图像进行图像增强得到的相似图像进行聚类,以及将可能属于同一图像类别的图像进行聚类。原本的对比学习的模型训练方式侧重于将相似样本的特征向量进行聚类,不适合训练用于类别级别的图像识别模型。而本申请实施例在将相似图像的特征向量进行聚类的基础上,还通过将预测出的可能属于同一图像类别的图像的特征向量进行聚类,使得对比学习可以辅助训练类别级别的图像识别。
同时,本申请实施例中在生成概率矩阵的过程中,会通过设置预设阈值这一预测概率的选择门槛,筛选出高质量的伪标签,有利于减小分布外数据带来的噪声。以及,本申请实施例中图像识别模型每次训练预测得到的某个图像的图像类别及其预测概率仅仅是在本次训练的对比学习中以概率矩阵的形式,影响本次训练中该图像的特征向量在图像类别上的聚类。哪怕出现了低质量的伪标签,由于该图像的相似图像预测得到的图像类别也是错误的可能性很小,因此该图像的特征向量由低质量的伪标签引发的聚类错误,会因为该图像的特征向量会与其相似图像的特征向量的聚类,得到一定程度的修正。也就是说,本方案中预测得到错误的图像类别的情况不会像半监督学习一样,影响后续模型训练过程中的特征提取和分类,导致错误累积,从而使得优化后的图像识别模型无法准确识别图像的图像类别。因此,本申请实施例通过对比学习避免了半监督学习中识别错误的累积,有利于优化图像识别模型的模型性能,以提升图像识别的准确性。同时,由于识别错误通常是真实场景的半监督学习过程中因为分布外数据带来的噪声导致的,因此本申请实施例中的模型训练方法也更加适合辅助真实场景中的半监督学习,具有普及性。
此外,本申请实施例中用于对比学习的相似度矩阵是通过比对每两个第二增强图像的目标特征向量得到的,且各个第二增强图像的目标特征向量是通过融合其用于表征图像的全局抽象信息的全局特征向量,以及用于表征图像的局部细节信息的局部特征向量得到的。也就是说,本申请实施例在对比学习的聚类过程中,充分考虑了图像的全局抽象信息和局部细节信息,避免了丢失需要识别的物体的信息的情况,从特征向量层面使得由同一个第一训练图像进行图像增强得到的或者图像类别相同的图像的初始距离更近,有利于提高后续对比学习中相似图像或者图像类别相同的图像的聚类学习效果,从而进一步优化图像识别模型的模型性能,以提升图像识别的准确性。
请参见图5,图5是本申请实施例提供的另一种模型训练方法的流程示意图,该模型训练方法也可以由上述提及的终端设备或者服务器执行。如图5所示,该模型训练方法包括步骤S501-S508:
S501,获取多个第一训练图像中各个第一训练图像的第一增强图像,各个第一训练图像的多个第二增强图像,第二训练图像以及第二训练图像的图像类别标签,并确定多个目标增强图像。
S502,调用图像识别模型,对多个目标增强图像,第二训练图像,以及第二训练图像的图像类别标签进行半监督学习处理,预测得到各个目标增强图像的图像类别以及图像类别的预测概率。
需要说明的是,步骤S501-步骤S502的具体实施方式可以参见步骤S301-步骤S302中的具体实施方式,本申请在此不作赘述。
S503,基于各个目标增强图像的图像类别,以及图像类别的预测概率,生成概率矩阵。
在本申请实施例中,基于预测得到的各个目标增强图像的图像类别,以及图像类别的预测概率,生成概率矩阵的具体方式可以是:
1)基于预测得到的各个目标增强图像的图像类别,以及图像类别的预测概率,生成半监督对比矩阵;
其中,半监督对比矩阵用于表征:多个目标增强图像中每两个目标增强图像预测得到的图像类别是否相同。
2)当半监督对比矩阵中存在用于表征图像类别相同的两个目标增强图像,且两个目标增强图像中存在预测概率小于预设阈值的目标增强图像时,将初始概率矩阵进行更新,得到类感知对比矩阵。
其中,类感知对比矩阵用于表征:两个目标增强图像预测得到的图像类别不相同。
需要说明的是,步骤1)-2)的具体实施方式可以参见步骤S303中的步骤1)-2)具体实施方式,在此不作赘述。
3)根据每两个目标增强图像中各个目标增强图像的预测概率,以及类感知对比矩阵,得到概率矩阵。
具体来说,根据每两个目标增强图像中各个目标增强图像的预测概率,以及类感知对比矩阵,得到概率矩阵的具体方式可以是:根据每两个目标增强图像中各个目标增强图像的预测概率,得到每两个目标增强图像的权重值;基于每两个目标增强图像的权重值,对每两个目标增强图像在类感知对比矩阵中的相应元素进行更新,得到概率矩阵。
其中,根据每两个目标增强图像中各个目标增强图像的预测概率,得到每两个目标增强图像的权重值的具体方式可以是:将每两个目标增强图像中各个目标增强图像的预测概率相乘,得到每两个目标增强图像的权重值。而基于每两个目标增强图像的权重值,对每两个目标增强图像在类感知对比矩阵中的相应元素进行更新,得到概率矩阵的具体方式可以是:当两个目标增强图像是不同的目标增强图像时,将这两个目标增强图像的权重值,与类感知对比矩阵中这两个目标增强图像对应的元素的元素值相乘,得到更新后的类感知对比矩阵;当两个目标增强图像是相同的目标增强图像时,不对类感知对比矩阵中这两个目标增强图像对应的元素的元素值进行更新;将更新后的类感知对比矩阵作为概率矩阵。
举例来说,请参见附图6,示出了一种生成概率矩阵的过程示意图。其中,矩阵中元素的颜色的灰度深浅用于表示该元素的元素值的大小。举例来说,矩阵中元素的颜色为黑色表示该元素的元素值为1,用于表征两个目标增强图像预测得到的图像类别相同;矩阵中元素的颜色为白色表示该元素的元素值为0,用于表征两个目标增强图像预测得到的图像类别不相同。
此外,目标增强图像A1在半监督学习处理后预测得到的图像类别为花朵,其图像类别的预测概率为90%;目标增强图像A2在半监督学习处理后预测得到的图像类别为花朵,其图像类别的预测概率为83%;目标增强图像B1在半监督学习处理后预测得到的图像类别为鸟,其图像类别的预测概率为95%;目标增强图像B2在半监督学习处理后预测得到的图像类别为鸟,其图像类别的预测概率为90%。
图6中的类感知对比矩阵601中的第一行第一列的元素对应的两个目标增强图像为目标增强图像A1和目标增强图像A1,该元素的颜色为黑色,即元素值1,表征目标增强图像A1和目标增强图像A1预测得到的图像类别是相同的;第一行第二列的元素对应的两个目标增强图像为目标增强图像A1和目标增强图像A2,该元素的颜色为白色,即元素值0,表征目标增强图像A1和目标增强图像A2预测得到的图像类别是不相同的;依次类推,不再赘述。
如图6所示,类感知对比矩阵601目标增强图像A1和目标增强图像A1是相同的目标增强图像,因此不需要对类感知对比矩阵中第一行第一列的元素的元素值进行更新;目标增强图像A1和目标增强图像A2不是同一个目标增强图像,因此需要将目标增强图像A1的其图像类别的预测概率90%(即0.9),与目标增强图像A2的图像类别的预测概率83%(即0.83)相乘,得到第一行第二列的元素的权重值0.747。同理,类感知对比矩阵601中的目标增强图像B1和目标增强图像B1是相同的目标增强图像,因此不需要对类感知对比矩阵中第三行第三列的元素的元素值进行更新;目标增强图像B1和目标增强图像B2不是同一个目标增强图像,因此需要将目标增强图像B1的图像类别的预测概率95%(即0.95),与目标增强图像B2的图像类别的预测概率90%(0.90)相乘,得到第三行第四列的元素的权重值0.855;类感知对比矩阵601中的其他元素的权重值同理,不再赘述。
在得到类感知对比矩阵601中部分元素的权重值之后,将这部分元素中的各个元素的权重值与其元素值相乘,以对类感知对比矩阵601进行更新,得到概率矩阵602。具体来说,由于类感知对比矩阵601中第一行第二列的元素的元素值为0,与其权重值0.747相乘之后也为0,因此如概率矩阵602所示,概率矩阵602中第一行第二列的元素的元素值还是为0;类感知对比矩阵601中第三行第四列的元素的元素值为1,与其权重值0.855相乘之后为0.855,因此如概率矩阵602所示,概率矩阵602中第三行第四列的元素的颜色为深灰色,元素值为0.855,表征目标增强图像B1和目标增强图像B2预测得到的图像类别的一致性比较高。
S504,获取各个第一训练图像的各个第二增强图像的全局特征向量和局部特征向量。
在本申请实施例中,获取各个第一训练图像的各个第二增强图像的全局特征向量和局部特征向量的具体方式可以是:对各个第二增强图像进行特征提取处理,得到各个第二增强图像的特征图;将各个第二增强图像的特征图进行全连接处理,得到各个第二增强图像的全局特征向量;对各个第二增强图像的特征图进行局部卷积处理,得到各个第二增强图像的局部特征向量。其中,因为特征提取模块是通过多个卷积层和降采样层的处理,才得到最后用于全连接的特征,故而所述各个第二增强图像的特征图指的是特征提取模块中在进行全连接处理之前提取出的特征向量。需要说明的是,本领域技术人员通常也将特征向量称作特征图。
S505,对各个第二增强图像的全局特征向量,以及各个第二增强图像的局部特征向量进行正交处理,得到各个第二增强图像的正交特征向量。
在本申请实施例中,对各个第二增强图像的全局特征向量,以及各个第二增强图像的局部特征向量进行正交处理,得到各个第二增强图像的正交特征向量的具体方式可以是:
1)根据各个第二增强图像的全局特征向量中的各个元素值,以及各个第二增强图像的局部特征向量中对应的元素值,得到各个第二增强图像的点乘特征向量;
其中,得到各个第二增强图像的点乘特征向量的具体过程为:将根据各个第二增强图像的全局特征向量中的各个元素值,以及各个第二增强图像的局部特征向量中对应的元素值相乘,得到各个第二增强图像的点乘特征向量。
2)根据各个第二增强图像的全局特征向量的平方向量,以及各个第二增强图像的点乘特征向量,得到各个第二增强图像的全局特征向量与各个第二增强图像的局部特征向量之间的夹角;
其中,得到各个第二增强图像的全局特征向量与各个第二增强图像的局部特征向量之间的夹角的具体过程为:用各个第二增强图像的点乘特征向量除以各个第二增强图像的全局特征向量的平方向量,得到各个第二增强图像的全局特征向量与各个第二增强图像的局部特征向量之间的夹角。
3)基于夹角,将各个第二增强图像的全局特征向量转换至各个第二增强图像的局部特征向量指示的方向,得到各个第二增强图像的转换后的全局特征向量;
其中,由于可以通过向量的余弦公式,将一个向量转换到另一个向量的方向,因此,基于夹角对各个第二增强图像的全局特征向量的转换的具体方式可以是:基于夹角,生成余弦值,将余弦值与各个第二增强图像的全局特征向量相乘,得到各个第二增强图像的转换后的全局特征向量。
4)基于各个第二增强图像的局部特征向量和各个第二增强图像的转换后的全局特征向量之间的差异,生成各个第二增强图像的正交特征向量。
由于上述提及正交指的是垂直,即内积为0,而转换后的全局特征向量中的元素也就是全局特征向量中能够通过余弦公式转换到局部特征向量指示的方向的元素,说明这些元素与局部特征向量中元素并不是垂直的。因此,基于各个第二增强图像的局部特征向量和各个第二增强图像的转换后的全局特征向量之间的差异,生成各个第二增强图像的正交特征向量的具体方式可以是:用于各个第二增强图像的局部特征向量,减去各个第二增强图像的转换后的全局特征向量,得到各个第二增强图像的正交特征向量。
由此可见,通过正交处理的方式,只提取了局部特征向量中与全局特征向量正交的部分(即正交特征向量),因此正交特征向量不会与全局特征向量产生特征上的冲突,既保证了差异,又使得可以表征局部细节信息的正交特征向量比较容易和全局特征向量进行融合。
具体实现中,对各个第二增强图像的全局特征向量fg(g指的是global,表明是全局特征向量),以及各个第二增强图像的局部特征向量fl start(l指的是local,表明是局部特征向量,start指的是初始的意思,表明此时局部特征向量还未与全局特征向量进行融合)进行正交处理,得到各个第二增强图像的正交特征向量的计算公式为:
其中,fl指的是正交特征向量,由于fl是fl start(i,j)减去转换后的全局特征向量得到的,因此fl和fl start(i,j)的高和宽相同;i≤h,h指的是局部特征向量fl start的高;i≤w,w指的是局部特征向量fl start的宽。
此外,上述公式中的全局特征向量fg和局部特征向量fl start相乘的具体方式为相应元素相乘,即点乘,其具体的计算公式如下:
另外,全局特征向量fg的平方向量|fg|2的具体计算公式如下:
其中,因为全局特征向量fg和局部特征向量fl start的特征维度相同,故而C指的是全局特征向量fg中的元素的总数量,即局部特征向量fl start中的元素的总数量。同时,c指的是在点乘过程中,相应特征向量当前进行点乘的元素。具体实现中,特征向量中的一个元素也可以称为特征向量的一个通道的元素,因此C指的是特征向量的通道的总数量,c指的是特征向量的各个通道。
S506,将各个第二增强图像的全局特征向量,以及各个第二增强图像的正交特征向量进行拼接,得到各个第二增强图像的目标特征向量。
在本申请实施例中,所述将各个第二增强图像的全局特征向量,以及各个第二增强图像的正交特征向量进行拼接的具体方式可以是:对各个第二增强图像的全局特征向量,以及各个第二增强图像的正交特征向量进行线性映射处理,得到处理后的各个第二增强图像的全局特征向量,以及处理后的各个第二增强图像的正交特征向量;其中,处理后的各个第二增强图像的全局特征向量,以及处理后的各个第二增强图像的正交特征向量为长度和宽度均相同的特征向量;最后将处理后的各个第二增强图像的全局特征向量,以及处理后的各个第二增强图像的局部特征向量进行拼接,得到各个第二增强图像的目标特征向量。由于特征向量的拼接为本领域技术人员所惯用的技术手段,故而在此不再赘述。
实际应用中,可以通过拼接函数concat(*)将两个各个第二增强图像的全局特征向量,以及各个第二增强图像的正交特征向量进行拼接,具体公式如下:
z=Concat(fl,fg);
其中,z指的是各个第二增强图像的目标特征向量,fl指的是各个第二增强图像的正交特征向量,fg指的是各个第二增强图像的全局特征向量。
可选地,由于目标特征向量是用于后续比对,得到两个目标特征向量的相似度,以生成相似度矩阵的。而目标特征向量如果是高维的特征向量会使得计算量大大增加,因此,在得到了各个第二增强图像的目标特征向量之后,还可以对各个第二增强图像的目标特征向量进行线性映射处理,得到各个第二增强图像低维的目标特征向量。
具体实现中,请参见附图7,示出了一种特征向量融合的过程示意图。如图7所示,在得到了某个第二增强图像的特征图之后,可以对特征图进行全连接处理,得到全局特征向量;同时,还可以对特征图进行局部卷积处理,由于局部卷积处理所使用的卷积核的大小会小于特征图,因此对特征图进行局部卷积处理之后,可能会得到多个局部特征向量。
然后,如图7所示,可以将全局特征向量输入到局部卷积处理的分支,以便针对每一个局部特征向量,将局部特征向量与全局特征向量进行正交处理,得到正交特征向量。在得到正交特征向量之后,如图7所示,会将全局特征向量和多个正交特征向量进行融合,得到目标特征向量。最后还可以如图7所示,对目标特征向量进行线性映射处理,得到低维的目标特征向量,以便后续通过低维的目标特征向量之间的比对,得到相似度矩阵。
S507,将多个第一训练图像的每两个第二增强图像的目标特征向量进行比对,得到相似度矩阵。
需要说明的是,步骤S507的具体实施方式可以参见步骤S306中的具体实施方式,本申请在此不作赘述。
S508,将概率矩阵和相似度矩阵进行对比学习处理,以优化图像识别模型的模型参数。
在本申请实施例中,将概率矩阵和相似度矩阵进行对比学习处理,以优化图像识别模型的模型参数的具体方式可以是:确定优化目标,优化目标指的是:将同一第一训练图像的增强图像进行聚类,以及将图像类别为同一图像类别的增强图像进行聚类;将概率矩阵和相似度矩阵进行对比学习处理,按照优化目标的方向,优化图像识别模型的模型参数。
其中,将概率矩阵和相似度矩阵进行对比学习处理,按照优化目标的方向,优化图像识别模型的模型参数的方式可以是:从概率矩阵中获取图像类别相同的每两个目标增强图像相应元素的元素值;从相似度矩阵中获取图像类别相同的每两个目标增强图像的目标特征向量之间的第一特征相似度;从相似度矩阵中获取同一第一训练图像的每两个第二增强图像的目标特征向量之间的第二特征相似度;基于第一特征相似度,第二特征相似度以及确定的元素值,按照优化目标的方向,优化图像识别模型的模型参数。
可选地,将概率矩阵和相似度矩阵进行对比学习处理,以优化图像识别模型的模型参数的具体方式还可以是:确定优化目标,优化目标指的是:将同一第一训练图像的增强图像进行聚类,以及将图像类别为同一图像类别的增强图像进行聚类;根据第二训练图像预测得到的图像类别,以及第二训练图像的图像类别标签,得到监督学习结果;其中,第二训练图像预测得到的图像类别是对第二训练图像进行监督学习处理得到的;根据预测得到各个目标增强图像的图像类别,以及各个目标增强图像识别为不同图像类别的概率,得到半监督学习结果;其中,各个目标增强图像预测得到的图像类别和识别为不同图像类别的概率是对各个目标增强图像进行半监督学习处理得到的;根据概率矩阵和相似度矩阵的对比学习处理结果,监督学习结果以及半监督学习结果,优化图像识别模型的模型参数。
其中,根据概率矩阵和相似度矩阵的对比学习处理结果,监督学习结果以及半监督学习结果,优化图像识别模型的模型参数的方式可以是:从概率矩阵中获取图像类别相同的每两个目标增强图像相应元素的元素值;从相似度矩阵中获取图像类别相同的每两个目标增强图像的目标特征向量之间的第一特征相似度;从相似度矩阵中获取同一第一训练图像的每两个目标增强图像的目标特征向量之间的第二特征相似度;基于第一特征相似度,第二特征相似度以及确定的元素值,监督学习结果以及半监督学习结果,按照优化目标的方向,优化图像识别模型的模型参数。
可选地,监督学习结果除了是根据第二训练图像预测得到的图像类别,以及第二训练图像的图像类别标签得到的之外,还可以是:根据第二训练图像的增强图像预测得到的图像类别,以及第二训练图像的图像类别标签,得到监督学习结果。具体来说,可以对第二训练图像进行图像增强处理,得到第二训练图像的增强图像;然后,对第二训练图像的增强图像进行监督学习处理,预测得到第二训练图像的增强图像的图像类别;最后,根据第二训练图像的增强图像的图像类别,以及第二训练图像的图像类别标签,得到监督学习结果。其中,对第二训练图像进行图像增强处理的具体方式可以参见步骤S301提及的图像弱增强处理的具体实施方式,在此不赘述。
具体实现中,请参见附图8,示出了一种图像识别模型的训练过程示意图。图像识别模型包括数据增强模块、骨干网络模块、半监督学习分支和类感知对比学习分支。
其中,数据增强模块用于对多个第一训练图像(即无标签图像)进行图像增强处理,以得到各个第一训练图像的第一增强图像和多个第二增强图像。具体来说,如图8所示,一个批次的训练图像中包括4个第一训练图像,数据增强模块对一个批次的训练图像中的各个第一训练图像分别进行一次图像弱增强处理,和两次图像强增强处理,得到一个批次中各个第一训练图像的第一增强图像Augw(·)和两个第二增强图像Augs1(·)和Augs2(·)。
骨干网络模块用于提取图像的特征向量,具体可以是残差神经网络(resnet)的相关系列网络,宽残差神经网络(wideresnet)的相关系列网络,还可以是其他用于特征提取的神经网络,在此不限定。具体来说,骨干网络模块也可以称作特征提取模块,任一增强图像的提取公式具体为:r=F(Aug(x));其中F指的是骨干网络模块的特征提取函数,Aug(x)指的是对第一训练图像进行图像增强处理之后得到的多个增强图像中的任一增强图像。
半监督学习分支用于产生伪标签,即预测得到目标增强图像的图像类别和预测概率。其中,目标增强图像指的是任一第一训练图像的Augw(·),以及Augs1(·)或Augs2(·),也就是说,半监督学习分支会确定第一训练图像的一个第一增强图像和一个第二增强图像的伪标签。如图8所示,半监督学习分支中的分类头Pcls(·),可以通过多分类函数801,对骨干网络模块输出的目标增强图像的特征向量进行分类处理,得到目标增强图像的识别结果p;其中任一图像的识别结果用于指示目标增强图像的图像类别为至少一个预设图像类别中各个预设图像类别的概率。可选地,半监督学习分支中的分类头Pcls(·),还可以通过归一化分类函数802,直接将目标增强图像的识别结果中概率最大的预设图像类别确定为预测得到的目标增强图像的图像类别,以及最大概率确定为预测得到的目标增强图像的图像类别的预测概率。
可选地,还可以筛选高质量的伪标签用于半监督学习,因此可以根据判断预测得到的各个目标增强图像的图像类别的预测概率q是否大于预设预测概率t的方式,确定预测得到的各个目标增强图像的图像类别是否被保留下来,以用于半监督学习中的一致性训练。其中,q=max(p),也就是目标增强图像的识别结果p中最大的概率。预设预测概率t可以是人为设定的,也可以是系统设定的,在此不限定。如预设预测概率t可以为60%、0.9等。
需要说明的是,根据半监督学习分支的半监督学习策略,需要构建一个监督损失函数和一个半监督损失函数/>由于半监督学习分支中的监督学习过程是基于第二训练图像和第二训练图像的图像类别标签(即有标签图像及其图像类别标签)的,此外对于批次大小为B的有标签图像可以只计算分类任务中的交叉熵损失值。因此,监督损失函数/>的具体计算公式如下:
其中,B指的是本次训练输入的一个批次的图像中图像的数量;H(·)指的是交叉熵损失函数;Augwy(·)指的是第二训练图像的弱增强图像;而公式中的Pcls(Augwy(xi))指的是Augwy(·)的识别结果,yi指的是第二训练图像的图像类别标签。
另外,对于批次大小为N的无标签图像(即每个第一训练图像的第一增强图像和一个第二增强图像),半监督学习损失函数为无标签图像ui的一个第二增强图像Augs(·)的识别结果Pcls(Augs(ui))与其伪标签的交叉熵损失值:
其中,max(pi)≥t用于通过预设预测概率t筛选识别结果Pcls(Augs(ui))中置信度高的预测结果pi
如图8所示,类感知对比学习分支用于构建相似度矩阵806和概率矩阵805。具体来说,类感知对比学习分支会将骨干网络模块提取到的一个批次(批次大小为N)中Augw(·)的特征图,以及各个第一训练图像的Augs1(·)和Augs2(·)中的任意一个的特征图进行全连接处理和局部卷积处理,得到各个增强图像的全局特征向量和局部特征向量;然后通过将各个增强图像的全局特征向量和局部特征向量进行正交处理和融合处理,得到各个增强图像的目标特征向量ri。之后,类感知对比学习分支会通过投影头Pproj(·)将骨干网络模块提取到的各个正交特征向量ri映射成各个低维的目标特征向量zi,以得到 最后,类感知对比学习分支会通过将/>之间的点乘的方式,得到这些低维的目标特征向量的相似度矩阵S∈R2N×2N。相似度矩阵里的元素被定义为sij=exp(zi·zj/τ),其中τ是温度调整系数,i指的是相似度矩阵中元素的横坐标(即第几行),j指的是相似度矩阵中元素的纵坐标(即第几列)。
同时,如图8所示,类感知对比学习分支还根据半监督学习分支生成的伪标签,生成得到包含类别信息的半监督对比矩阵803。然后,通过预设预测概率Tpush,对半监督对比矩阵803进行更新,其更新过程主要是对半监督对比矩阵803中各个元素的元素值进行更新,得到类感知对比矩阵804(即Wclacon),类感知对比矩阵Wclacon中各元素的元素值如下表示:
进一步地,如图8所示,为了强调对高置信度的分布内数据的训练,类感知对比学习分支还可以利用骨干网络模块预测得到的各个图像的图像类别的预测概率,对类感知对比矩阵Wclacon重新加权得到目标矩阵Wtarget(即概率矩阵)。具体来说,加权过程中的权重值主要是根据骨干网络模块预测得到的各个图像的图像类别的预测概率q相乘得到的。Wtarget的每个元素的权重值的定义如下:
其中,i和j分别代表Wtarget中的行索引和列索引。
最后,如图8所示,类感知对比学习分支会根据相似度矩阵和目标矩阵Wtarget进行对比学习。具体来说,类感知对比学习分支的对比损失函数为相似度矩阵与目标矩阵的交叉熵,对于批次大小为N的图像批次,其对比损失函数为:
其中,zi指的是在该批次的图像中的任一图像ui的低维的目标特征向量;指的是在该批次的图像中与图像ui由同一第一训练图像进行图像增强处理得到的另一个图像(即图像ui的相似图像)的低维的目标特征向量;P(i)代表目标矩阵Wtarget中表征的与图像ui可能属于同一图像类别的除图像ui的相似图像以外的所有图像。wip指的是目标矩阵Wtarget中各个元素的元素值。
最后,由于图像识别模型的整个训练过程使用了监督学习损失函数Lx、半监督学习损失函数Lu,以及对比学习损失函数Lc,因此最终整个模型训练的总损失函数如下:
L=Lxu·Luc·Lc
其中,λu和λc为人为设定的超参数,可以根据模型训练情况灵活设定,在此不赘述。
本申请实施例中在生成概率矩阵的过程中,会通过设置预设阈值这一预测概率的选择门槛,筛选出高质量的伪标签,有利于减小分布外数据带来的噪声。以及,本申请实施例中图像识别模型每次训练预测得到的某个图像的图像类别及其预测概率仅仅是在本次训练的对比学习中以概率矩阵的形式,影响本次训练中该图像的特征向量在图像类别上的聚类。哪怕出现了低质量的伪标签,由于该图像的相似图像预测得到的图像类别也是错误的可能性很小,因此该图像的特征向量由低质量的伪标签引发的聚类错误,会因为该图像的特征向量会与其相似图像的特征向量的聚类,得到一定程度的修正。也就是说,本方案中预测得到错误的图像类别的情况不会像半监督学习一样,影响后续模型训练过程中的特征提取和分类,导致错误累积,从而使得优化后的图像识别模型无法准确识别图像的图像类别。因此,本申请实施例通过对比学习避免了半监督学习中识别错误的累积,有利于优化图像识别模型的模型性能,以提升图像识别的准确性。同时,由于识别错误通常是真实场景的半监督学习过程中因为分布外数据带来的噪声导致的,因此本申请实施例中的模型训练方法也更加适合辅助真实场景中的半监督学习,具有普及性。
此外,本申请实施例中用于对比学习的相似度矩阵是通过比对每两个第二增强图像的目标特征向量得到的,且各个第二增强图像的目标特征向量是通过融合其用于表征图像的全局抽象信息的全局特征向量,以及用于表征图像的局部细节信息的局部特征向量得到的。也就是说,本申请实施例在对比学习的聚类过程中,充分考虑了图像的全局抽象信息和局部细节信息,避免了丢失需要识别的物体的信息的情况,从特征向量层面使得由同一个第一训练图像进行图像增强得到的或者图像类别相同的图像的初始距离更近,有利于提高后续对比学习中相似图像或者图像类别相同的图像的聚类学习效果,从而进一步优化图像识别模型的模型性能,以提升图像识别的准确性。另外,本申请实施例中通过正交处理的方式,只提取了局部特征向量中与全局特征向量正交的部分(即正交特征向量),因此正交特征向量不会与全局特征向量产生特征上的冲突,既保证了差异,又使得可以表征局部细节信息的正交特征向量比较容易和全局特征向量进行融合。
基于上述模型训练方法的相关描述,本申请还公开了一种模型训练装置。该模型训练装置可以是运行与上述所提及的计算机设备中的一个计算机程序(包括程序代码)。该模型训练装置可以执行如图3和图5所示的模型训练方法,请参见图9,该模型训练装置至少可以包括:获取单元901和处理单元902。
所述获取单元901,获取多个第一训练图像中各个第一训练图像的第一增强图像,各个第一训练图像的多个第二增强图像,第二训练图像以及第二训练图像的图像类别标签,并确定多个目标增强图像;其中,对各个第一训练图像进行图像增强处理得到的第一增强图像的增强力度小于各个第二增强图像的增强力度;多个目标增强图像包括各个第一训练图像的第一增强图像以及各个第一训练图像的至少一个第二增强图像;
所述处理单元902,用于调用图像识别模型,对多个目标增强图像,第二训练图像,以及第二训练图像的图像类别标签进行半监督学习处理,预测得到各个目标增强图像的图像类别以及图像类别的预测概率;
所述处理单元902,还用于基于各个目标增强图像的图像类别,以及图像类别的预测概率,生成概率矩阵;其中,概率矩阵用于表征:多个目标增强图像中每两个目标增强图像的图像类别的一致性;
所述处理单元902,还用于获取各个第一训练图像的各个第二增强图像的全局特征向量和局部特征向量;
所述处理单元902,还用于将各个第二增强图像的全局特征向量,以及各个第二增强图像的局部特征向量进行融合处理,得到各个第二增强图像的目标特征向量;
所述处理单元902,还用于将多个第一训练图像的每两个第二增强图像的目标特征向量进行比对,得到相似度矩阵;其中,相似度矩阵用于表征:每两个第二增强图像的相似度;
所述处理单元902,还用于将概率矩阵和相似度矩阵进行对比学习处理,以优化图像识别模型的模型参数,优化后的图像识别模型用于对预测图像进行图像类别的识别。
在一种实施方式中,所述处理单元902在将各个第二增强图像的全局特征向量,以及各个第二增强图像的局部特征向量进行融合处理,得到各个第二增强图像的目标特征向量时,具体还可用于执行:
对各个第二增强图像的全局特征向量,以及各个第二增强图像的局部特征向量进行正交处理,得到各个第二增强图像的正交特征向量;
将各个第二增强图像的全局特征向量,以及各个第二增强图像的正交特征向量进行拼接,得到各个第二增强图像的目标特征向量。
在又一种实施方式中,所述处理单元902在对各个第二增强图像的全局特征向量,以及各个第二增强图像的局部特征向量进行正交处理,得到各个第二增强图像的正交特征向量时,还可用于执行:
根据各个第二增强图像的全局特征向量中的各个元素值,以及各个第二增强图像的局部特征向量中对应的元素值,得到各个第二增强图像的点乘特征向量;
根据各个第二增强图像的全局特征向量的平方向量,以及各个第二增强图像的点乘特征向量,得到各个第二增强图像的全局特征向量与各个第二增强图像的局部特征向量之间的夹角;
基于夹角,将各个第二增强图像的全局特征向量转换至各个第二增强图像的局部特征向量指示的方向,得到各个第二增强图像的转换后的全局特征向量;
基于各个第二增强图像的局部特征向量和各个第二增强图像的转换后的全局特征向量之间的差异,生成各个第二增强图像的正交特征向量。
在又一种实施方式中,所述处理单元902在获取各个第一训练图像的各个第二增强图像的全局特征向量和局部特征向量时,具体可用于执行:
对各个第二增强图像进行特征提取处理,得到各个第二增强图像的特征图;
将各个第二增强图像的特征图进行全连接处理,得到各个第二增强图像的全局特征向量;
对各个第二增强图像的特征图进行局部卷积处理,得到各个第二增强图像的局部特征向量。
在又一种实施方式中,所述获取单元901在基于各个目标增强图像的图像类别,以及图像类别的预测概率,生成概率矩阵时,具体可用于执行:
基于各个目标增强图像的图像类别,以及图像类别的预测概率,生成半监督对比矩阵;其中,半监督对比矩阵用于表征:多个目标增强图像中每两个目标增强图像的图像类别是否相同;
当半监督对比矩阵中存在用于表征图像类别相同的两个目标增强图像,且两个目标增强图像中存在预测概率小于预设阈值的目标增强图像时,将初始概率矩阵进行更新,得到类感知对比矩阵;其中,类感知对比矩阵用于表征:两个目标增强图像的图像类别不相同;
对类感知对比矩阵进行转换处理,得到概率矩阵。
在又一种实施方式中,所述处理单元902在对类感知对比矩阵进行转换处理,得到概率矩阵时,具体可以用于执行:
根据每两个目标增强图像中各个目标增强图像的预测概率,以及类感知对比矩阵,得到概率矩阵。
在又一种实施方式中,所述处理单元902在根据每两个目标增强图像中各个目标增强图像的预测概率,以及类感知对比矩阵,得到概率矩阵时,具体可用于执行:
根据每两个目标增强图像中各个目标增强图像的预测概率,得到每两个目标增强图像的权重值;
基于每两个目标增强图像的权重值,对每两个目标增强图像在类感知对比矩阵中的相应元素进行更新,得到概率矩阵。
在又一种实施方式中,所述处理单元902在将概率矩阵和相似度矩阵进行对比学习处理,以优化图像识别模型的模型参数时,还可以用于执行:
确定优化目标,优化目标指的是:将同一第一训练图像的增强图像进行聚类,以及将图像类别为同一图像类别的增强图像进行聚类;
将概率矩阵和相似度矩阵进行对比学习处理,按照优化目标的方向,优化图像识别模型的模型参数。
在又一种实施方式中,所述处理单元902在将概率矩阵和相似度矩阵进行对比学习处理,按照优化目标的方向,优化图像识别模型的模型参数时,还可以用于执行:
从概率矩阵中获取图像类别相同的每两个目标增强图像相应元素的元素值;
从相似度矩阵中获取图像类别相同的每两个目标增强图像的目标特征向量之间的第一特征相似度;
从相似度矩阵中获取同一第一训练图像的每两个第二增强图像的目标特征向量之间的第二特征相似度;
基于第一特征相似度,第二特征相似度以及确定的元素值,按照优化目标的方向,优化图像识别模型的模型参数。
在又一种实施方式中,所述处理单元902在将概率矩阵和相似度矩阵进行对比学习处理,以优化图像识别模型的模型参数时,还可以用于执行:
根据第二训练图像的图像类别,以及第二训练图像的图像类别标签,得到监督学习结果;其中,第二训练图像的图像类别是对第二训练图像进行监督学习处理得到的;
根据各个目标增强图像的图像类别,以及各个目标增强图像识别为不同图像类别的概率,得到半监督学习结果;其中,各个目标增强图像的图像类别和识别为不同图像类别的概率是对各个目标增强图像进行半监督学习处理得到的;
根据概率矩阵和相似度矩阵的对比学习处理结果,监督学习结果以及半监督学习结果,优化图像识别模型的模型参数。
根据本申请的一个实施例,图3和图5所示的方法所涉及各个步骤可以是由图9所示的模型训练装置中的各个单元来执行的。例如,图3所示的步骤S301可由图9所示的模型训练装置中的获取单元901来执行;步骤S302至步骤S307可由图9所示的模型训练装置中的处理单元902来执行。再如,图5所示的步骤S501可由图9所示的模型训练装置中的获取单元901来执行;步骤S502至步骤S508可由图9所示的模型训练装置中的处理单元902来执行。
根据本申请的另一个实施例,图9所示的模型训练装置中的各个单元是基于逻辑功能划分的,上述各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。在本申请的其它实施例中,上述基于模型训练装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机设备的通用计算设备上,运行能够执行如图3或图5所示的方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图9所示的模型训练装置,以及来实现本申请实施例的模型训练方法。计算机程序可以记载于例如计算机存储介质上,并通过计算机存储介质装载于上述计算机设备中,并在其中运行。
在本申请实施例中,通过将概率矩阵和相似度矩阵进行对比学习的方式,实现了从每个图像的特征向量层面,将来自同一训练样本的相似图像进行聚类,以及将可能属于同一图像类别的图像进行聚类,使得对比学习可以辅助训练类别级别的图像识别。同时,本申请实施例中图像识别模型每次训练预测得到的某个图像的图像类别及其预测概率仅仅是在本次训练的对比学习中以概率矩阵的形式,影响本次训练中该图像的特征向量在图像类别上的聚类。哪怕出现了低质量的伪标签,由于该图像的相似图像预测得到的图像类别也是错误的可能性很小,因此该图像的特征向量由低质量的伪标签引发的聚类错误,会因为该图像的特征向量会与其相似图像的特征向量的聚类,得到一定程度的修正。也就是说,错误的图像类别的情况不会像半监督学习一样,影响后续模型训练过程中的特征提取和分类,导致错误累积,从而使得优化后的图像识别模型无法准确识别图像的图像类别。因此,本申请实施例通过对比学习避免了半监督学习中识别错误的累积,有利于优化图像识别模型的模型性能,以提升图像识别的准确性。同时,由于识别错误通常是真实场景的半监督学习过程中因为分布外数据带来的噪声导致的,因此本申请实施例中的模型训练方法也更加适合辅助真实场景中的半监督学习,具有普及性。
此外,本申请实施例中用于对比学习的相似度矩阵是通过比对每两个第二增强图像的目标特征向量得到的,且各个第二增强图像的目标特征向量是通过融合其用于表征图像的全局抽象信息的全局特征向量,以及用于表征图像的局部细节信息的局部特征向量得到的。也就是说,本申请实施例在对比学习的聚类过程中,充分考虑了图像的全局抽象信息和局部细节信息,避免了丢失需要识别的物体的信息的情况,从特征向量层面使得来自同一个训练样本或者图像类别相同的图像的初始距离更近,有利于提高后续对比学习中来自同一个训练样本或者图像类别相同的图像的聚类学习效果,从而进一步优化图像识别模型的模型性能,以提升图像识别的准确性。
基于上述的方法实施例以及装置实施例,本申请还提供了一种电子设备。参见图10,为本申请实施例提供的一种电子设备的结构示意图。图10所示的电子设备可至少包括处理器1001、输入接口1002、输出接口1003以及计算机存储介质1004。其中,处理器1001、输入接口1002、输出接口1003以及计算机存储介质1004可通过总线或其他方式连接。
计算机存储介质1004可以存储在电子设备的存储器中,计算机存储介质1004用于存储计算机程序,计算机程序包括程序指令,处理器1001用于执行计算机存储介质1004存储的程序指令。处理器1001(或称CPU(Central Processing Unit,中央处理器))是电子设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现上述模型训练方法流程或相应功能。
本申请实施例还提供了一种计算机存储介质(Memory),计算机存储介质是电子设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括终端中的内置存储介质,当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器1001加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速随机存取存储器(random access memory,RAM)存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机存储介质。
在一个实施例中,可由处理器1001加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关图3和图5的模型训练方法实施例中的方法的相应步骤,具体实现中,计算机存储介质中的一条或多条指令由处理器1001加载并执行如下步骤:
处理器1001获取多个第一训练图像中各个第一训练图像的第一增强图像,各个第一训练图像的多个第二增强图像,第二训练图像以及第二训练图像的图像类别标签,并确定多个目标增强图像;其中,对各个第一训练图像进行图像增强处理得到的第一增强图像的增强力度小于各个第二增强图像的增强力度;多个目标增强图像包括各个第一训练图像的第一增强图像以及各个第一训练图像的至少一个第二增强图像;
处理器1001调用图像识别模型,对多个目标增强图像,第二训练图像,以及第二训练图像的图像类别标签进行半监督学习处理,预测得到各个目标增强图像的图像类别以及图像类别的预测概率;
处理器1001基于各个目标增强图像的图像类别,以及图像类别的预测概率,生成概率矩阵;其中,概率矩阵用于表征:多个目标增强图像中每两个目标增强图像的图像类别的一致性;
处理器1001获取各个第一训练图像的各个第二增强图像的全局特征向量和局部特征向量;
处理器1001将各个第二增强图像的全局特征向量,以及各个第二增强图像的局部特征向量进行融合处理,得到各个第二增强图像的目标特征向量;
处理器1001将多个第一训练图像的每两个第二增强图像的目标特征向量进行比对,得到相似度矩阵;其中,相似度矩阵用于表征:每两个第二增强图像的相似度;
处理器1001将概率矩阵和相似度矩阵进行对比学习处理,以优化图像识别模型的模型参数,优化后的图像识别模型用于对预测图像进行图像类别的识别。
在一个实施例中,所述处理器1001在将各个第二增强图像的全局特征向量,以及各个第二增强图像的局部特征向量进行融合处理,得到各个第二增强图像的目标特征向量时,具体可以用于执行:
对各个第二增强图像的全局特征向量,以及各个第二增强图像的局部特征向量进行正交处理,得到各个第二增强图像的正交特征向量;
将各个第二增强图像的全局特征向量,以及各个第二增强图像的正交特征向量进行拼接,得到各个第二增强图像的目标特征向量。
在一个实施例中,所述处理器1001在对各个第二增强图像的全局特征向量,以及各个第二增强图像的局部特征向量进行正交处理,得到各个第二增强图像的正交特征向量时,还可用于执行:
根据各个第二增强图像的全局特征向量中的各个元素值,以及各个第二增强图像的局部特征向量中对应的元素值,得到各个第二增强图像的点乘特征向量;
根据各个第二增强图像的全局特征向量的平方向量,以及各个第二增强图像的点乘特征向量,得到各个第二增强图像的全局特征向量与各个第二增强图像的局部特征向量之间的夹角;
基于夹角,将各个第二增强图像的全局特征向量转换至各个第二增强图像的局部特征向量指示的方向,得到各个第二增强图像的转换后的全局特征向量;
基于各个第二增强图像的局部特征向量和各个第二增强图像的转换后的全局特征向量之间的差异,生成各个第二增强图像的正交特征向量。
在一个实施例中,所述处理器1001在获取各个第一训练图像的各个第二增强图像的全局特征向量和局部特征向量时,具体还可用于执行:
对各个第二增强图像进行特征提取处理,得到各个第二增强图像的特征图;
将各个第二增强图像的特征图进行全连接处理,得到各个第二增强图像的全局特征向量;
对各个第二增强图像的特征图进行局部卷积处理,得到各个第二增强图像的局部特征向量。
在一个实施例中,所述处理器1001在基于各个目标增强图像的图像类别,以及图像类别的预测概率,生成概率矩阵时,具体可用于执行:
基于各个目标增强图像的图像类别,以及图像类别的预测概率,生成半监督对比矩阵;其中,半监督对比矩阵用于表征:多个目标增强图像中每两个目标增强图像的图像类别是否相同;
当半监督对比矩阵中存在用于表征图像类别相同的两个目标增强图像,且两个目标增强图像中存在预测概率小于预设阈值的目标增强图像时,将初始概率矩阵进行更新,得到类感知对比矩阵;其中,类感知对比矩阵用于表征:两个目标增强图像的图像类别不相同;
对类感知对比矩阵进行转换处理,得到概率矩阵。
在一个实施例中,处理器1001在对类感知对比矩阵进行转换处理,得到概率矩阵时,具体可用于执行:
根据每两个目标增强图像中各个目标增强图像的预测概率,以及类感知对比矩阵,得到概率矩阵。
在一个实施例中,所述处理器1001在根据每两个目标增强图像中各个目标增强图像的预测概率,以及类感知对比矩阵,得到概率矩阵时,具体可用于执行:
根据每两个目标增强图像中各个目标增强图像的预测概率,得到每两个目标增强图像的权重值;
基于每两个目标增强图像的权重值,对每两个目标增强图像在类感知对比矩阵中的相应元素进行更新,得到概率矩阵。
在一个实施例中,所述处理器1001在将概率矩阵和相似度矩阵进行对比学习处理,以优化图像识别模型的模型参数时,还可以用于执行:
确定优化目标,优化目标指的是:将同一第一训练图像的增强图像进行聚类,以及将图像类别为同一图像类别的增强图像进行聚类;
将概率矩阵和相似度矩阵进行对比学习处理,按照优化目标的方向,优化图像识别模型的模型参数。
在一个实施例中,所述处理器1001在将概率矩阵和相似度矩阵进行对比学习处理,按照优化目标的方向,优化图像识别模型的模型参数时,还可以用于执行:
从概率矩阵中获取图像类别相同的每两个目标增强图像相应元素的元素值;
从相似度矩阵中获取图像类别相同的每两个目标增强图像的目标特征向量之间的第一特征相似度;
从相似度矩阵中获取同一第一训练图像的每两个第二增强图像的目标特征向量之间的第二特征相似度;
基于第一特征相似度,第二特征相似度以及确定的元素值,按照优化目标的方向,优化图像识别模型的模型参数。
在一个实施例中,所述处理器1001在将概率矩阵和相似度矩阵进行对比学习处理,以优化图像识别模型的模型参数时,还可以用于执行:
根据第二训练图像的图像类别,以及第二训练图像的图像类别标签,得到监督学习结果;其中,第二训练图像的图像类别是对第二训练图像进行监督学习处理得到的;
根据各个目标增强图像的图像类别,以及各个目标增强图像识别为不同图像类别的概率,得到半监督学习结果;其中,各个目标增强图像的图像类别和识别为不同图像类别的概率是对各个目标增强图像进行半监督学习处理得到的;
根据概率矩阵和相似度矩阵的对比学习处理结果,监督学习结果以及半监督学习结果,优化图像识别模型的模型参数。
在本申请实施例中,通过将概率矩阵和相似度矩阵进行对比学习的方式,实现了从每个图像的特征向量层面,将来自同一训练样本的相似图像进行聚类,以及将可能属于同一图像类别的图像进行聚类,使得对比学习可以辅助训练类别级别的图像识别。同时,图像识别模型每次训练预测得到的某个图像的图像类别及其预测概率仅仅是在本次训练的对比学习中以概率矩阵的形式,影响本次训练中该图像的特征向量在图像类别上的聚类。哪怕出现了低质量的伪标签,由于该图像的相似图像预测得到的图像类别也是错误的可能性很小,因此该图像的特征向量由低质量的伪标签引发的聚类错误,会因为该图像的特征向量会与其相似图像的特征向量的聚类,得到一定程度的修正。也就是说,错误的图像类别的情况不会像半监督学习一样,影响后续模型训练过程中的特征提取和分类,导致错误累积,从而使得优化后的图像识别模型无法准确识别图像的图像类别。因此,本申请实施例通过对比学习避免了半监督学习中识别错误的累积,有利于优化图像识别模型的模型性能,以提升图像识别的准确性。同时,由于识别错误通常是真实场景的半监督学习过程中因为分布外数据带来的噪声导致的,因此本申请实施例中的模型训练方法也更加适合辅助真实场景中的半监督学习,具有普及性。
此外,本申请实施例中用于对比学习的相似度矩阵是通过比对每两个第二增强图像的目标特征向量得到的,且各个第二增强图像的目标特征向量是通过融合其用于表征图像的全局抽象信息的全局特征向量,以及用于表征图像的局部细节信息的局部特征向量得到的。也就是说,本申请实施例在对比学习的聚类过程中,充分考虑了图像的全局抽象信息和局部细节信息,避免了丢失需要识别的物体的信息的情况,从特征向量层面使得来自同一个训练样本或者图像类别相同的图像的初始距离更近,有利于提高后续对比学习中来自同一个训练样本或者图像类别相同的图像的聚类学习效果,从而进一步优化图像识别模型的模型性能,以提升图像识别的准确性。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述如图3和图5所示的方法实施例。其中,计算机可读存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
本发明实施例中的模型训练方法除了可应用于图像的类别级识别外的场景,还可用于其他基于半监督学习的类别级识别模型的训练,在此不限定。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (14)

1.一种模型训练方法,其特征在于,包括:
获取多个第一训练图像中各个第一训练图像的第一增强图像,所述各个第一训练图像的多个第二增强图像,第二训练图像以及所述第二训练图像的图像类别标签,并确定多个目标增强图像;其中,对所述各个第一训练图像进行图像增强处理得到的第一增强图像的增强力度小于各个第二增强图像的增强力度;所述多个目标增强图像包括所述各个第一训练图像的第一增强图像以及所述各个第一训练图像的至少一个第二增强图像;
调用图像识别模型,对所述多个目标增强图像,所述第二训练图像,以及所述第二训练图像的图像类别标签进行半监督学习处理,预测得到各个目标增强图像的图像类别以及所述图像类别的预测概率;
基于所述各个目标增强图像的图像类别,以及所述图像类别的预测概率,生成概率矩阵;其中,所述概率矩阵用于表征:所述多个目标增强图像中每两个目标增强图像的图像类别的一致性;
获取所述各个第一训练图像的各个第二增强图像的全局特征向量和局部特征向量;
将所述各个第二增强图像的全局特征向量,以及所述各个第二增强图像的局部特征向量进行融合处理,得到所述各个第二增强图像的目标特征向量;
将所述多个第一训练图像的每两个第二增强图像的目标特征向量进行比对,得到相似度矩阵;其中,所述相似度矩阵用于表征:所述每两个第二增强图像的相似度;
将所述概率矩阵和所述相似度矩阵进行对比学习处理,以优化所述图像识别模型的模型参数,优化后的图像识别模型用于对预测图像进行图像类别的识别。
2.根据权利要求1所述的方法,其特征在于,所述将所述各个第二增强图像的全局特征向量,以及所述各个第二增强图像的局部特征向量进行融合处理,得到所述各个第二增强图像的目标特征向量,包括:
对所述各个第二增强图像的全局特征向量,以及所述各个第二增强图像的局部特征向量进行正交处理,得到所述各个第二增强图像的正交特征向量;
将所述各个第二增强图像的全局特征向量,以及所述各个第二增强图像的正交特征向量进行拼接,得到所述各个第二增强图像的目标特征向量。
3.根据权利要求2所述的方法,其特征在于,所述对所述各个第二增强图像的全局特征向量,以及所述各个第二增强图像的局部特征向量进行正交处理,得到所述各个第二增强图像的正交特征向量,包括:
根据所述各个第二增强图像的全局特征向量中的各个元素值,以及所述各个第二增强图像的局部特征向量中对应的元素值,得到所述各个第二增强图像的点乘特征向量;
根据所述各个第二增强图像的全局特征向量的平方向量,以及所述各个第二增强图像的点乘特征向量,得到所述各个第二增强图像的全局特征向量与所述各个第二增强图像的局部特征向量之间的夹角;
基于所述夹角,将所述各个第二增强图像的全局特征向量转换至所述各个第二增强图像的局部特征向量指示的方向,得到所述各个第二增强图像的转换后的全局特征向量;
基于所述各个第二增强图像的局部特征向量和所述各个第二增强图像的转换后的全局特征向量之间的差异,生成所述各个第二增强图像的正交特征向量。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述获取所述各个第一训练图像的各个第二增强图像的全局特征向量和局部特征向量,包括:
对所述各个第二增强图像进行特征提取处理,得到所述各个第二增强图像的特征图;
将所述各个第二增强图像的特征图进行全连接处理,得到所述各个第二增强图像的全局特征向量;
对所述各个第二增强图像的特征图进行局部卷积处理,得到所述各个第二增强图像的局部特征向量。
5.根据权利要求1所述的方法,其特征在于,所述基于所述各个目标增强图像的图像类别,以及所述图像类别的预测概率,生成概率矩阵,包括:
基于所述各个目标增强图像的图像类别,以及所述图像类别的预测概率,生成半监督对比矩阵;其中,所述半监督对比矩阵用于表征:所述多个目标增强图像中每两个目标增强图像的图像类别是否相同;
当所述半监督对比矩阵中存在用于表征图像类别相同的两个目标增强图像,且所述两个目标增强图像中存在预测概率小于预设阈值的目标增强图像时,将所述初始概率矩阵进行更新,得到类感知对比矩阵;其中,所述类感知对比矩阵用于表征:所述两个目标增强图像的图像类别不相同;
对所述类感知对比矩阵进行转换处理,得到所述概率矩阵。
6.根据权利要求5所述的方法,其特征在于,所述对所述类感知对比矩阵进行转换处理,得到所述概率矩阵,包括:
根据所述每两个目标增强图像中各个目标增强图像的预测概率,以及所述类感知对比矩阵,得到所述概率矩阵。
7.根据权利要求6所述的方法,其特征在于,所述根据所述每两个目标增强图像中各个目标增强图像的预测概率,以及所述类感知对比矩阵,得到所述概率矩阵,包括:
根据所述每两个目标增强图像中各个目标增强图像的预测概率,得到所述每两个目标增强图像的权重值;
基于所述每两个目标增强图像的权重值,对所述每两个目标增强图像在所述类感知对比矩阵中的相应元素进行更新,得到所述概率矩阵。
8.根据权利要求1所述的方法,其特征在于,所述将所述概率矩阵和所述相似度矩阵进行对比学习处理,以优化所述图像识别模型的模型参数,包括:
确定优化目标,所述优化目标指的是:将同一第一训练图像的增强图像进行聚类,以及将图像类别为同一图像类别的增强图像进行聚类;
将所述概率矩阵和所述相似度矩阵进行对比学习处理,按照所述优化目标的方向,优化所述图像识别模型的模型参数。
9.根据权利要求8所述的方法,其特征在于,所述将所述概率矩阵和所述相似度矩阵进行对比学习处理,按照所述优化目标的方向,优化所述图像识别模型的模型参数,包括:
从所述概率矩阵中获取图像类别相同的每两个目标增强图像相应元素的元素值;
从所述相似度矩阵中获取所述图像类别相同的每两个目标增强图像的目标特征向量之间的第一特征相似度;
从所述相似度矩阵中获取同一第一训练图像的每两个第二增强图像的目标特征向量之间的第二特征相似度;
基于所述第一特征相似度,第二特征相似度以及确定的元素值,按照所述优化目标的方向,优化所述图像识别模型的模型参数。
10.根据权利要求1所述的方法,其特征在于,所述将所述概率矩阵和所述相似度矩阵进行对比学习处理,以优化所述图像识别模型的模型参数,包括:
根据所述第二训练图像的图像类别,以及所述第二训练图像的图像类别标签,得到监督学习结果;其中,所述第二训练图像的图像类别是对所述第二训练图像进行监督学习处理得到的;
根据所述各个目标增强图像的图像类别,以及所述各个目标增强图像识别为不同图像类别的概率,得到半监督学习结果;其中,所述各个目标增强图像的图像类别和识别为不同图像类别的概率是对所述各个目标增强图像进行半监督学习处理得到的;
根据所述概率矩阵和所述相似度矩阵的对比学习处理结果,所述监督学习结果以及所述半监督学习结果,优化所述图像识别模型的模型参数。
11.一种模型训练装置,其特征在于,所述模型训练装置包括获取单元和处理单元,其中:
所述获取单元,用于获取多个第一训练图像中各个第一训练图像的第一增强图像,所述各个第一训练图像的多个第二增强图像,第二训练图像以及所述第二训练图像的图像类别标签,并确定多个目标增强图像;其中,对所述各个第一训练图像进行图像增强处理得到的第一增强图像的增强力度小于各个第二增强图像的增强力度;所述多个目标增强图像包括所述各个第一训练图像的第一增强图像以及所述各个第一训练图像的至少一个第二增强图像;
所述处理单元,用于调用图像识别模型,对所述多个目标增强图像,所述第二训练图像,以及所述第二训练图像的图像类别标签进行半监督学习处理,预测得到各个目标增强图像的图像类别以及所述图像类别的预测概率;
所述处理单元,还用于基于所述各个目标增强图像的图像类别,以及所述图像类别的预测概率,生成概率矩阵;其中,所述概率矩阵用于表征:所述多个目标增强图像中每两个目标增强图像的图像类别的一致性;
所述处理单元,还用于获取所述各个第一训练图像的各个第二增强图像的全局特征向量和局部特征向量;
所述处理单元,还用于将所述各个第二增强图像的全局特征向量,以及所述各个第二增强图像的局部特征向量进行融合处理,得到所述各个第二增强图像的目标特征向量;
所述处理单元,还用于将所述多个第一训练图像的每两个第二增强图像的目标特征向量进行比对,得到相似度矩阵;其中,所述相似度矩阵用于表征:所述每两个第二增强图像的相似度;
所述处理单元,还用于将所述概率矩阵和所述相似度矩阵进行对比学习处理,以优化所述图像识别模型的模型参数,优化后的图像识别模型用于对预测图像进行图像类别的识别。
12.一种计算机设备,其特征在于,包括:
处理器,所述处理器适于实现一条或多条计算机程序;
计算机存储介质,所述计算机存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由所述处理器加载并执行如权利要求1-10任一项所述的模型训练方法。
13.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由处理器加载并执行如权利要求1-10任一项所述的模型训练方法。
14.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序适于由处理器加载并执行如权利要求1-10任一项所述的模型训练方法。
CN202211224061.7A 2022-09-30 2022-09-30 模型训练方法、相关设备、存储介质及计算机产品 Active CN116994019B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211224061.7A CN116994019B (zh) 2022-09-30 2022-09-30 模型训练方法、相关设备、存储介质及计算机产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211224061.7A CN116994019B (zh) 2022-09-30 2022-09-30 模型训练方法、相关设备、存储介质及计算机产品

Publications (2)

Publication Number Publication Date
CN116994019A true CN116994019A (zh) 2023-11-03
CN116994019B CN116994019B (zh) 2024-08-06

Family

ID=88532733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211224061.7A Active CN116994019B (zh) 2022-09-30 2022-09-30 模型训练方法、相关设备、存储介质及计算机产品

Country Status (1)

Country Link
CN (1) CN116994019B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079674A (zh) * 2019-12-22 2020-04-28 东北师范大学 一种基于全局和局部信息融合的目标检测方法
CN111291594A (zh) * 2018-12-07 2020-06-16 中国移动通信集团山东有限公司 一种图像识别方法及系统
CN113392867A (zh) * 2020-12-09 2021-09-14 腾讯科技(深圳)有限公司 一种图像识别方法、装置、计算机设备及存储介质
WO2022027987A1 (zh) * 2020-08-04 2022-02-10 杰创智能科技股份有限公司 一种图像识别模型的训练方法及图像识别方法
CN114419391A (zh) * 2021-12-27 2022-04-29 北京三快在线科技有限公司 目标图像识别方法及装置、电子设备及可读存储介质
US20220156591A1 (en) * 2020-11-13 2022-05-19 Salesforce.Com, Inc. Systems and methods for semi-supervised learning with contrastive graph regularization
CN114529765A (zh) * 2022-02-16 2022-05-24 腾讯科技(深圳)有限公司 一种数据处理方法、设备以及计算机可读存储介质
CN114549928A (zh) * 2022-02-21 2022-05-27 平安科技(深圳)有限公司 图像增强处理方法、装置、计算机设备及存储介质
CN114724148A (zh) * 2022-02-18 2022-07-08 北京百度网讯科技有限公司 生成模型、提取特征的方法、装置、设备、介质及产品
CN114782721A (zh) * 2022-04-29 2022-07-22 上海商汤临港智能科技有限公司 图像处理及目标检测方法、装置、设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291594A (zh) * 2018-12-07 2020-06-16 中国移动通信集团山东有限公司 一种图像识别方法及系统
CN111079674A (zh) * 2019-12-22 2020-04-28 东北师范大学 一种基于全局和局部信息融合的目标检测方法
WO2022027987A1 (zh) * 2020-08-04 2022-02-10 杰创智能科技股份有限公司 一种图像识别模型的训练方法及图像识别方法
US20220156591A1 (en) * 2020-11-13 2022-05-19 Salesforce.Com, Inc. Systems and methods for semi-supervised learning with contrastive graph regularization
CN113392867A (zh) * 2020-12-09 2021-09-14 腾讯科技(深圳)有限公司 一种图像识别方法、装置、计算机设备及存储介质
CN114419391A (zh) * 2021-12-27 2022-04-29 北京三快在线科技有限公司 目标图像识别方法及装置、电子设备及可读存储介质
CN114529765A (zh) * 2022-02-16 2022-05-24 腾讯科技(深圳)有限公司 一种数据处理方法、设备以及计算机可读存储介质
CN114724148A (zh) * 2022-02-18 2022-07-08 北京百度网讯科技有限公司 生成模型、提取特征的方法、装置、设备、介质及产品
CN114549928A (zh) * 2022-02-21 2022-05-27 平安科技(深圳)有限公司 图像增强处理方法、装置、计算机设备及存储介质
CN114782721A (zh) * 2022-04-29 2022-07-22 上海商汤临港智能科技有限公司 图像处理及目标检测方法、装置、设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FAN YANG 等: "Class-Aware Contrastive Semi-Supervised Learning", 《2022 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, 27 September 2022 (2022-09-27), pages 1 - 10 *
FAN YANG 等: "Class-Aware Contrastive Semi-Supervised Learning", 《ARXIV:2203.02261V1 [CS.CV]》, 4 March 2022 (2022-03-04), pages 1 - 10 *
FAN YANG 等: "Class-Aware Contrastive Semi-Supervised Learning", 《ARXIV:2203.02261V2 [CS.CV]》, 24 March 2022 (2022-03-24), pages 1 - 12 *
FAN YANG 等: "Class-Aware Contrastive Semi-Supervised Learning", 《ARXIV:2203.02261V3 [CS.CV]》, 9 September 2022 (2022-09-09), pages 1 - 12 *

Also Published As

Publication number Publication date
CN116994019B (zh) 2024-08-06

Similar Documents

Publication Publication Date Title
CN110866140B (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
Bartz et al. See: towards semi-supervised end-to-end scene text recognition
CN112308862A (zh) 图像语义分割模型训练、分割方法、装置以及存储介质
CN117011616B (zh) 一种图像内容审核方法、装置、存储介质和电子设备
Ji et al. Blind image quality assessment with semantic information
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN114332893A (zh) 表格结构识别方法、装置、计算机设备和存储介质
CN111898544A (zh) 文字图像匹配方法、装置和设备及计算机存储介质
CN114299304A (zh) 一种图像处理方法及相关设备
CN112016592B (zh) 基于交叉领域类别感知的领域适应语义分割方法及装置
CN116701706B (zh) 一种基于人工智能的数据处理方法、装置、设备及介质
CN115909336A (zh) 文本识别方法、装置、计算机设备和计算机可读存储介质
CN116681128A (zh) 一种带噪多标签数据的神经网络模型训练方法和装置
CN116994019B (zh) 模型训练方法、相关设备、存储介质及计算机产品
WO2018203551A1 (ja) 信号検索装置、方法、及びプログラム
CN115205606A (zh) 一种图像的多标签分类的方法、装置及相关产品
CN114821188A (zh) 图像处理方法、场景图生成模型的训练方法以及电子设备
CN114627085A (zh) 目标图像的识别方法和装置、存储介质及电子设备
CN115861605A (zh) 一种图像数据处理方法、计算机设备以及可读存储介质
CN117058498B (zh) 分割图评估模型的训练方法、分割图的评估方法及装置
CN118155214B (zh) 一种提示学习方法、图像分类方法及相关装置
US20240242365A1 (en) Method and apparatus with image processing
CN117037230A (zh) 人脸识别方法、相关设备、存储介质及计算机程序产品
CN117437447A (zh) 一种内容匹配方法及相关装置
CN118628813A (zh) 基于可迁移语义知识的无源领域自适应图像识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant