CN115565023A - 用于图像处理的方法、装置、电子设备和介质 - Google Patents
用于图像处理的方法、装置、电子设备和介质 Download PDFInfo
- Publication number
- CN115565023A CN115565023A CN202211034259.9A CN202211034259A CN115565023A CN 115565023 A CN115565023 A CN 115565023A CN 202211034259 A CN202211034259 A CN 202211034259A CN 115565023 A CN115565023 A CN 115565023A
- Authority
- CN
- China
- Prior art keywords
- sample
- feature
- image
- class
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本公开的实施例涉及用于图像处理的方法、装置、电子设备和介质。方法包括生成训练数据集中的图像样本的第一样本特征。方法还包括从图像分类模型的分类网络获取类别特征集合。方法还包括基于第一样本特征、类别特征集合和参考样本特征集合,生成针对图像样本的对抗正样本集合和对抗负样本集合。方法还包括基于对抗正样本集合、对抗负样本集合和类别特征集合,更新图像分类模型。基于这样的方式,能够构造出有区分难度的对抗正样本集合和对抗负样本集合,修正图像分类模型针对尾部类别的决策边界,由此能够在原始训练数据不均衡的长尾环境下对图像分类模型进行有效训练。
Description
技术领域
本公开的实施例涉及图像处理技术领域,并且更具体地,涉及用于图像处理的方法、装置、计算设备、计算机可读存储介质和计算机程序产品。
背景技术
基于深度学习的图像分类技术已经被广泛应用于图像分析。然而,在一些领域中收集图像训练数据并对训练数据进行标注是有难度的,并且训练数据可能是高度不均衡。一些类别的训练数据很多,而另一些类别的训练数据很少,存在长尾效应。这导致训练效果不理想,难以达到预期性能。
发明内容
有鉴于此,本公开的实施例提出了基于对比学习来处理图像分类任务中的长尾问题的技术方案。
根据本公开的第一方面,提供了一种用于图像处理的方法。方法包括基于图像分类模型的特征提取网络,生成训练数据集中的图像样本的第一样本特征。方法还包括从图像分类模型的分类网络获取类别特征集合,其中每个类别特征对应于与图像分类模型相关联的类别。方法还包括基于第一样本特征、类别特征集合和参考样本特征集合,生成针对图像样本的对抗正样本集合和对抗负样本集合,参考样本特征集合中的参考样本特征是基于特征提取网络从训练数据集中的多个图像样本生成的。方法还包括基于对抗正样本集合、对抗负样本集合和类别特征集合,更新图像分类模型。
这里,图像分类模型包括特征提取网络和分类网络。参考样本特征集合是图像分类模型提取出的样本特征,表示其对图像的语义理解。类别特征集合中的类别特征表示图像分类模型的类别的原型(prototype)。在本文中,类别特征和原型可互换地使用。类别特征可以被理解为针对该类别的“典型”特征,与其相似度越高,预测结果为该类别的可能性越大。图像分类模型基于类别特征和图像样本特征对图像进行分类。因此,将类别特征和参考样本特征进行有效组合,可以得到对当前图像样本来说有“难度”的对比学习样本,即,容易混淆并导致使图像分类模型产生错误预测结果的样本。通过这样的方式,能够构造出有区分难度的对抗正样本集合和对抗负样本集合,修正图像分类模型针对尾部类别的决策边界,由此能够在原始训练数据不均衡的长尾环境下对图像分类模型进行有效训练。
在第一方面的一些实施例中,图像分类模型还可以包括与特征提取网络连接的至少一个编码器,并且生成图像样本的第一样本特征包括:基于特征提取网络和至少一个编码器,从图像样本生成第一样本特征。基于这样的方式,从图像分类模型提取的用于训练的样本特征不同于用于预测的样本特征,由此能够提高模型训练的准确度。在一些实施例中,至少一个编码器可以包括第一编码器,使用第一编码器从当前的图像样本生成第一样本特征。第一编码器可以被在线更新。
在第一方面的一些实施例中,方法还可以包括:基于特征提取网络和至少一个编码器,从图像样本所在的批次中的图像样本生成样本特征;将所生成的样本特征添加到参考样本特征集合;以及从参考样本特征集合中移除最早批次的参考样本特征。基于这样的方式,能够在训练过程动态维护和更新参考样本特征集合,例如,参考样本集合通过先入先出(FIFO)的方式来维护。在一些实施例,至少一个编码器可以包括第二编码器,使用第二编码器来生成参考样本特征集合中的样本特征。第一编码器和第二编码器可以不同,并且第二编码器可以被离线更新,具体地,可以在图像分类模型的训练过程中基于第一编码器来更新,例如,通过动量机制来更新。
在第一方面的一些实施例中,分类网络可以包括全连接网络,从分类网络获取类别特征集合包括基于全连接网络的权重,确定类别特征集合。基于这样的方式,可以容易地获取表示各个类别的原型,例如,与待预测的图像的样本特征具有最大相似度的原型的类别被确定为预测结果。
在第一方面的一些实施例中,方法还可以包括,针对类别特征集合中的每个类别特征:基于特征提取网络,生成图像样本所在的批次中类别与类别特征相对应的至少一个图像样本的样本特征;基于至少一个图像样本的样本特征和类别特征,确定在该批次处的针对类别特征的局部校准因子;通过跨批次的移动平均,从局部校准因子确定针对类别特征的全局校准因子;以及利用全局校准因子来调整类别特征。基于这样的方式,能够消除或减轻训练数据不平衡带来的类别特征倾向于头部类别的问题。
在第一方面的一些实施例中,更新所述图像分类模型可以包括:基于对抗正样本集合、对抗负样本集合和类别特征集合的经调整的类别特征,更新图像分类模型。基于这样的方式,训练得到的图像分类模型在长尾类别上具有更好的性能。
在第一方面的一些实施例中,生成对抗正样本集合可以包括:确定参考样本特征集合中类别与图像样本相同的参考样本特征,以生成第一候选正样本集合;从候选正样本集合中选择具有错误预测类别的参考样本特征;将具有错误预测类别的参考样本特征和对应于错误预测类别的类别特征进行组合,以生成第二候选正样本集合;以及基于第二候选正样本集合,生成对抗正样本集合。基于这样的方式,所生成的对抗正样本的真实类别与当前图样样本相同,并且具有被图像分类模型错误预测的样本特征,属于有难度的正样本。利用这样的对抗正样本,降低了针对这一类别的假阴性的可能性,提高了图像分类模型的识别准确度。
在第一方面的一些实施例中,将具有错误预测类别的参考样本特征和对应于错误预测类别的类别特征进行组合,以生成第二候选正样本集合可以包括:对具有错误预测类别的参考样本特征和对应于错误预测类别的类别特征进行加权求和,其中,针对参考样本特征的第一权重和针对类别特征的第二权重是随机的,并且第一权重大于第二权重。基于这样的方式,能够增加对抗正样本的随机性,提高图像分类模型的泛化能力。
在第一方面的一些实施例中,生成对抗负样本集合可以包括:从参考样本特征集合中确定类别与图像样本不同的参考样本特征,以生成第一候选负样本集合;基于与第一样本特征的比较,从第一候选负样本特征集合中选择参考样本特征;以及将所选择的参考样本特征和与图像样本的类别对应的类别特征进行组合,以生成第二候选负样本集合;以及基于第二候选负样本集合,生成对抗负样本集合。基于这样的方式,所生成的对抗负样本的真实类别与当前图像样本不同,并且具有与当前图像易混淆的样本特征,属于有难度的负样本。利用这样的对抗负样本,降低了针对这一类别的假阳性的可能性,提高了图像分类模型的识别准确度。
在第一方面的一些实施例中,基于与第一样本特征的比较,从候选负样本特征集合中选择参考样本特征可以包括:确定第一候选负样本集合中的参考样本特征与第一样本特征的距离;以及选择与第一样本特征距离最近的若干个参考样本特征。基于这样的方式,可以从参考样本特征中选择与当前图像样本更为相似的样本特征,生成更有难度的对抗负样本。
在第一方面的一些实施例中,将所选择的参考样本特征和与所述图像样本的类别对应的类别特征进行组合,以生成第二候选负样本集合包括:对所选择的参考样本特征和与图像样本的类别对应的类别特征进行加权求和,其中,针对所选择的参考样本特征的第一权重和针对类别特征的第二权重是随机的,并且第一权重大于第二权重。基于这样的方式,能够增加对抗负样本的识别难度,提高图像分类模型的泛化能力。
在第一方面的一些实施例中,基于对抗正样本集合、对抗负样本集合和类别特征集合,更新图像分类模型可以包括:基于特征提取网络,生成图像样本的第二样本特征;基于第二样本特征和类别特征集合中类别不同于图像样本的类别特征的比较,以及第一样本特征和对抗负样本集合的比较,确定针对所述图像样本的第一损失;基于第二样本特征和类别特征集合中类别与图像样本相同的类别特征的比较,以及第一样本特征和对抗正样本集合的比较,确定针对所述图像样本的第二损失;以及基于第一损失和第二损失,更新图像分类模型。这里的第一损失表示图像分类模型的预测损失,第二损失表示图像分类模型的对比损失。基于这样的方式,能够使用统一的损失函数,综合预测损失和对比损失对图像分类模型进行训练,达到更好的训练效果。
根据本公开的第二方面,提供了一种用于图像处理的装置。装置包括:第一样本特征生成单元、类别特征获取单元、对抗样本集合生成单元和模型更新单元。第一样本特征生成单元被配置为基于图像分类模型的特征提取网络生成训练数据集中的图像样本的第一样本特征。类别特征获取单元被配置为从图像分类模型的分类网络获取类别特征集合,其中每个类别特征对应于与图像分类模型相关联的类别。对抗样本集合生成单元被配置为基于第一样本特征、类别特征集合和参考样本特征集合,生成针对图像样本的对抗正样本集合和对抗负样本集合,其中参考样本特征集合中的参考样本特征是基于特征提取网络从训练数据集中的多个图像样本生成的。模型更新单元被配置为基于对抗正样本集合、对抗负样本集合和类别特征集合,更新图像分类模型。
根据本公开的第三方面,提供了一种计算设备。计算设备包括至少一个处理单元和至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令,指令当由至少一个处理单元执行时,使得计算设备执行根据本公开的第一方面所述的方法。
根据本公开的第四方面,提供了一种计算机可读存储介质,包括机器可执行指令,机器可执行指令在由设备执行时使设备执行根据本公开的第一方面所述的方法。
根据本公开的第五方面,提供了一种计算机程序产品,包括机器可执行指令,机器可执行指令在由设备执行时使设备执行根据本公开的第一方面的方法。
提供该内容部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。该内容部分无意标识本公开的关键特征或必要特征,也无意限制本公开的范围。
附图说明
通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施例中,相同的参考标号通常代表相同部件。
图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图;
图2示出了根据本公开的实施例的图像分类模型的示例性框架;
图3示出了根据本公开的实施例的图像处理过程的示例流程图;
图4示出了根据本公开的实施例的生成对抗正样本和对抗负样本的示意概念图;
图5示出了根据本公开的实施例的生成对抗正样本的过程的示例流程图;
图6示出了根据本公开的实施例的生成对抗负样本的过程的示例流程图;
图7示出了根据本公开的实施例的确定图像样本的损失的过程的示例流程图;
图8示出了根据本公开的实施例的图像处理装置的示例框图。
图9示出了可以用来实施本公开内容的实施例的示例设备的示意性框图。
具体实施方式
可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。
下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
需要说明的是,本公开的使用的任何数值或数字均为示例性,绝不用于限制本公开的范围。
在本公开的实施例中,术语“模型”能够处理输入并且提供相应输出。以神经网络模型为例,其通常包括输入层、输出层以及在输入层与输出层之间的一个或多个隐藏层。在深度学习应用中使用的模型(也称为“深度学习模型”)通常包括许多隐藏层,从而延长网络的深度。神经网络模型的各个层按顺序相连以使得前一层的输出被用作其他层或自身的输入,其中输入层接收针对神经网络模型的输入,而输出层的输出作为神经网络模型的最终输出。神经网络模型的每个层包括一个或多个节点(也称为处理节点或神经元),每个节点处理来自上一层的输入。模型具有作用作在各个层内部或者层之间的参数。在本文中,术语“神经网络”、“模型”、“网络”和“神经网络模型”可互换使用。模型可以被训练以用于各种特定任务,例如,图像分析、文本处理、语音处理等。模型的参数在训练过程中被更新。
如上所提及的,在图像分类任务中,训练数据不均衡给图像分类模型的训练带来了不利影响。例如,在医学图像识别中,大量的训练数据集中头部类别(例如,指示健康),而尾部类别只有很少的训练数据(例如,有症状),这导致图像分类模型难以学习到关于尾部类别的信息,图像分类模型难以得到预期性能。传统的方案通过扩增尾部类别的训练数据量或者加大对尾部类别训练数据的权重来提高尾部类别对模型参数的影响力。然而,这种方式只能简单重复已有的训练数据的信息,模型难以学习到有区分难度的新信息,因此效果不理想。
有鉴于此,本公开的实施例提出了基于对比学习的方案,其能够有效解决或至少部分减轻训练数据不均衡的问题,提高了图像分类模型在尾部类别上的性能。在根据本公开的实施例的图像处理方法中,基于图像分类模型的特征提取网络生成训练数据集中的图像样本的第一样本特征。方法还包括从图像分类模型的分类网络获取类别特征集合,每个类别特征对应于针对图像分类模型一个类别。分类网络可以将待预测图像的特征与类别特征进行比较(例如,计算相似度),以最接近的类别作为预测结果。方法还包括提供参考样本特征集合,其中的参考样本特征是基于特征提取网络从训练数据集中的多个图像样本生成的,例如,先前批次的图像样本。参考样本特征集合也可以包括当前批次的图像样本。在方法中,基于当前图像样本的第一样本特征、类别特征集合和参考样本特征集合,生成对抗正样本集合和对抗负样本集合。方法还包括基于对抗正样本集合、对抗负样本集合和类别特征集合,更新图像分类模型。
以下参考图1至8详细描述本公开的实施例的实现细节。
图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。如图1所示,环境100包括计算设备101。计算设备101可以是具有计算能力的任何设备,例如个人计算机、平板计算机、可穿戴设备、云服务器、大型机和分布式计算系统等。
计算设备101可以获取图像分类模型110和训练数据集130,并使用训练数据集130来训练图像分类模型110,以生成经训练的图像分类模型140。可以利用任何合适的网络结构来实现图像分类模型130,包括但不限于支持向量机(SVM)模型、贝叶斯模型、随机森林模型、各种深度学习/神经网络模型,诸如卷积神经网络(CNN)、循环神经网络(RNN)、残差网络(ResNet)、深度神经网络(DNN)、深度强化学习网络(DQN)等。本公开的范围在此方面不受限制。
训练数据集130可以包括图像样本以及与每个图像样本相关联的类别。训练数据集130中的类别被认为是图像样本的真实类别信息,其可以通过任何合适的方式来获取,例如,人工标注或其他方式。在训练过程中,训练数据集130中的图像样本及其类别可以按照批次(batch)被输入到计算设备101,计算设备可以根据训练方法来更新图像分类模型110的参数。当满足训练结束条件时(例如,经过预定时间、使用预定数据量的训练数据、或者确定模型已收敛),计算设备101可以结束训练,并输出经过训练的图像分类模型140。
经训练的图像分类模型140可以被部署在与计算设备101相同或不同的任何设备处。当经训练的图像分类模型140被部署在不同于计算设备101的设备(未示出)的情况下,计算设备101可以经由通信网络将训练得到的图像分类模型的结构和参数传输至该设备。如图所示,经训练的图像分类模型140可以接收待分类的图像,并产生输出作为预测结果160。
以上参考图1描述了能够实施本公开的实施例的示例性环境。应理解,图1仅是示意性的,环境还可以包括更多的模块或组件,或者可以省略一些模块或组件,或者所示的模块或组件可以重新组合。本公开的实施例可以在与图1所示不同的环境中实施,本公开对此不做限制。
图2示出了根据本公开的实施例的图像分类模型200的示例性框架。图像分类模型200可以是图1所示的图像分类模型110的示例性实现。为方便说明,结合图1来描述图像分类模型200。
如图所示,图像分类模型200包括特征提取网络210和分类网络220。特征提取网络210用于从输入的训练数据集130中的图像样本201提取样本特征。在训练过程中,图像样本可以按照训练批次被输入到图像分类模型200的特征提取网络210。特征提取网络210可以包括骨干网络212和编码器214。在一些实施例中,骨干网络212可以被实现为残差网络,例如ResNet50。编码器214对骨干网络212的输出进行编码,并生成样本特征202作为提供给分类网络220的输入。编码器214可以被实现为包括至少一个层的全连接网络。在本文中,编码器214可以被表示为投影
分类网络220接收特征提取网络210输出的图像样本的样本特征203。并基于该样本特征来预测图像样本的分类。分类网络220可以维护与图像分类模型200的类别有关的类别特征集合221,其中,每个类别特征222对应于一个类别。分类网络220将接收到的图像样本的样本特征与每个类别特征222进行比较,并且将与样本特征最接近的类别特征的类别确定为图像样本的预测结果。例如,分类网络220可以计算图像样本的样本特征与每个类别特征222之间的点积并归一化,得到余弦相似度信息。在一些实施例中,分类网络220可以被实现为包括全连接网络,根据全连接网络的权重矩阵与样本特征的乘积来产生预测结果。在这种情况下,全连接网络的权重矩阵的各个行可以被确定为对应于相应类别的类别特征222。需要说明的是,在经过训练之后,图像分类模型200中的特征提取网络210和分类网络220还被用于预测图像的分类,而图2中的其他组件在训练过程使用,但不用于训练后的预测任务。以下描述图像分类模型210中的在训练任务中使用的那些组件。
如图所示,在特征提取网络210中,骨干网络212的输出可以被提供至用于对比学习的编码器230。编码器230可以被实现为包括一个或更多个全连接层的全连接网络,其输出尺寸可以是例如1024、2048或其他合适的值。在本文中,编码器230可以被表示为投影编码器230接收骨干网络212的输出,进一步对训练数据集130中的训练批次中的每个图像样本进行编码,得到相应的样本特征202,编码器230还可以对训练数据集130中其他样本进行编码,生成多个样本特征241并存储,作为参考样本特征,多个参考样本特征形成参考样本集合240。在一些实施例中,参考样本特征241可以是基于训练数据集130中先前训练批次中的图像样本生成的,可选地,还可以包括基于当前训练批次中的图像样本生成的。参考图像样本集合240可以被实现为先进先出(FIFO)的队列的形式,具有固定的尺寸。由此,每当添加当前训练批次的样本特征到参考图像样本集合240时,移除最早训练批次的样本特征,以更新参考图像样本集合240。参考图像样本集合240的更新可以在当前训练批次开始时、或者在当前训练批次结束时执行。
为了区分编码器230和编码器214的输出,下文中将用于对比学习的编码器230产生的样本特征202称为第一样本特征,将用于分类的编码器214产生的样本特征203称为第二样本特征。应当理解,编码器214和编码器230中任一个或二者均可以被省略。
在一些实施例中,可以基于训练批次中的每个图像样本201的第一样本特征202、参考样本特征集合240以及来自分类网络220的类别特征集合221来生成用于对比学习的对抗样本集合250。对抗样本集合250包括针对图像样本的对抗正样本集合252和对抗负样本集合254。在对比学习中,对抗正样本集合252中的样本特征可以被理解为与当前图像样本的第一样本特征202相似,并且具有相同的真实类别,而对抗负样本集合254中的样本特征被理解为与当前图像样本的第一样本特征202易混淆,并且具有不同的真实类别。下文中将参考图3至图6详细描述对抗样本集合250的生成过程。
基于所生成的对抗样本集合250和来自分类网络220的类别特征221可以被提供至损失确定模块270。考虑到在训练数据不平衡的长尾环境下,类别特征221将被训练为趋于训练数据量较多的头部类别,导致对尾部类别的性能不佳,可选地,可以使用校准器260对类别特征221进行重新校准。重新校准为每个类别特征增加一个反映每个类别的“难度”和该类别特征的“代表性”水平的校准因子。具体细节将在下文描述,这里暂不详述。
以下参考图3至图7描述图像分类模型200的训练过程中对训练数据集130中图像样本的处理过程。总体上,训练数据集130中图像样本可以按照训练批次被输入至图像分类模型110,每个批次包括多个图像样本。通过计算针对训练批次的损失,更新图像分类模型110。
图3示出了根据本公开的实施例的图像处理过程300的示例流程图。过程300可以由例如图1所示的计算设备101来实现。应当理解,过程300还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。以下结合图1和图2详细描述过程300。
在框310,计算设备101基于图像分类模型200的特征提取网络210,生成训练数据集130中的图像样本201的第一样本特征202。在本文中,训练数据集130可以包括N个训练样本,包括C个类别。在本文中,训练数据集130可以表示为图像样本201表示为(xj,yj),其中xj表示图像,yj表示图像样本的真实类别。如上所提及的,图像样本201可以经由骨干网络212和编码器230被编码为第一样本特征202。另一方面,图像样本201还可以经由骨干网络212和编码器214被编码为第二样本特征203。
编码器230可以包括至少一个编码器,例如,包括第一编码器和第二编码器,其中,第一编码器用于生成第一样本特征202,而第二编码器用于生成参考样本特征241。在训练过程中,第一编码器被在线更新,而第二编码器可以根据动量机制随第一编码器而离线更新。
在框320,计算设备101从图像分类模型200的分类网络220获取类别特征集合221。类别特征集合221中的每个类别特征222对应于与图像分类模型200相关联的类别。在本文中,类别特征集合221表示为其中pc为一个k维向量,表示类别特征,也被称为原型。
在一些实施例中,分类网络220可以包括具有权重矩阵的全连接网络。分类网络220可以将全连接网络的权重矩阵与第二样本特征203相乘,得到表示预测结果的向量,并且将预测结果的最大分量所对应的类别确定为分类结果。由此,可以基于权重矩阵来确定类别特征集合221。具体地,可以将权重矩阵中的一行权重确定为相应类别的类别特征。例如,将权重矩阵的第一行权重确定为分类网络220输出的第一个类别的类别特征,将权重矩阵的第二行权重确定为分类网络220输出的第二个类别的类别特征,以此类推。
在框330,计算设备101基于第一样本特征201、类别特征集合221和参考样本特征集合240,生成针对图像样本201的对抗正样本集合252和对抗负样本集合254。参考样本特征集合240中的参考样本特征241是基于特征提取网络211从训练数据集130中的多个图像样本生成的。在一些实施例中,计算设备101基于特征提取网络210的骨干网络212以及编码器230,从先前批次的图像样本来生成参考样本特征集合240。参考样本特征集合240可以是先进先出的队列形式,在添加新训练批次的样本特征时,删除最早训练批次的参考样本特征。在本文中,参考样本特征集合可以表示为
在一些实施例中,可以利用当前图像样本201所在的批次来更新参考样本特征集合240。具体地,计算设备101可以基于特征提取网络210(使用来自骨干网络212的中间结果)和编码器230生成该批次的样本特征,然后,将这些样本特征添加到参考样本特征集合240,并从参考样本特征集合240中移除最早批次的参考样本特征。该更新可以在该训练批次开始时或者在使用该训练批次更新图像分类模型200之后执行。
如上所提及的,对抗正样本集合252中的样本特征被理解为与第一样本特征202相似,并且它们具有相同的真实类别,而对抗负样本集合254中的样本特征与第一样本特征202易混淆,并且具有不同的真实类别。因此,通过构建对抗正样本集合252和对抗负样本集合254能够提供具有区分难度的学习样本,用于指导模型的学习方向。
继续参考图3,在框340,计算设备101基于对抗正样本集合252、对抗负样本集合254和类别特征集合220,更新图像分类模型200。
这里,对抗正样本集合252和对抗负样本集合254用于确定关于对比学习的损失。对比学习的损失包括第一样本特征202相比于对抗正样本集合252的损失和相比于对抗负样本集合254的损失。类别特征集合220来自分类网络220,用于确定分类损失,即预测结果与真实类别的差异。分类损失包括第一样本特征202相比于类别特征集合220中相同类别的类别特征的损失和相比于不同类别的类别特征的损失。将参考图7详细描述。
基于相同的方式,可以获取训练批次中的每个图像样本的损失,由此获取整个批次的总损失。可以通过诸如随机梯度下降(SGD)的优化器来更新图像分类模型200。
以上描述了根据本公开的实施例的用于训练图像分类模型的示例性图像处理过程。基于这样的方式,能够构造出有区分难度的对抗正样本集合和对抗负样本集合,修正图像分类模型针对尾部类别的决策边界,由此能够在原始训练数据不均衡的长尾环境下对图像分类模型进行有效训练。接下来参考图4至图7描述本公开的进一步的实施例,这些实施例可以与参考图1至图3描述的内容任意组合,彼此之间任意组合,本公开在这一方面不做限制。图4至图6示出了根据本公开的实施例的生成用于对比学习的样本集合的过程,图7描述了确定损失函数的过程。
图4示出了根据本公开的实施例的用于生成对抗正样本和对抗负样本的示意概念图。如图所示,将基于训练样本集合中的图像样本(xj,yj)201的第一样本特征202、类别特征集合221、参考样本特征集合240,生成用于对比学习的正样本和负样本,其中C为预定义的类别总数、M为参考样本特征集合240的尺寸。
如图4所示,首先,根据参考样本特征集合240中的参考样本特征的真实类别,将参考样本特征集合240划分为无交集的子集402和404。集合402包括真实类别与图像样本201相同的参考样本特征,而集合404包括真实类别与图像样本201相同的参考样本特征。类似地,将类别特征集合221划分为无交集的子集414和412。集合414是一个单元素集合,包括与图像样本201的真实类别对应的类别特征而集合412包括类别特征集合221中除以外的所有类别特征。将基于划分得到的集合402、404、414和412来生成用于对比学习的对抗正样本和对抗负样本。
图5示出了根据本公开的实施例的生成对抗正样本集合的过程500的示例流程图。过程500可以是图3中的框330的示例性实现的一部分。过程500可以由例如图1所示的计算设备101来实现。应当理解,过程500还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。以下结合图1至图4详细描述过程500。
在框520,计算设备101从第一候选正样本集合402中选择具有错误预测类别的参考样本特征。错误预测表明这些参考样本对图像分类模型220来说是有难度的:它们的真实类别与图像样本201相同,但是图像分类模型220曾经给出了错误的预测结果。为了控制样本规模,可以限制选择不超过γ个这样的参考样本特征,形成集合406。γ为预先设置的超参数。
在框530,计算设备101将具有错误预测类别的参考样本特征和对应于错误预测类别的类别特征进行组合409,以生成第二候选正样本集合410。在参考样本特征被错误预测的情况下,图像分类模型220错误地将类别特征集合221中的一个类别特征确定为最相似的类别特征。可以将图像分类模型220将参考样本特征以及该错误的类别特征向正确的类别引导。因此,对将参考样本特征和错误的类别特征进行组合409,作为针对当前图像样本201的对抗正样本,形成第二候选正样本集合410。
在一些实施例中,为了生成更有难度的对抗正样本,可以通过对集合406中参考样本特征和对应的错误预测类别的类别特征进行加权求和。针对参考样本特征的权重和针对错误预测类别的类别特征的权重可以是随机的。例如,可以使用归一化权重,针对集合406中第i个参考样本特征,类别特征的权重为∈i,针对参考样本特征的权重为1-∈i,∈i可以是在(0,E)之间的随机值,E为超参数,取较小值,例如0.4或其他值。也就是说,第二候选正样本集合410中的对抗正样本的主要贡献来自于参考样本特征406。在一些实施例中,还可以将对抗正样本的幅度归一化,例如,除以样本的2-范数。
在框540,计算设备101基于第二候选正样本集合410,生成对抗正样本集合252。计算设备101可以直接将第二候选正样本集合410确定为用于对比学习的对抗正样本集合252。在一些实施例中,还可以将第二候选正样本集合410和第一候选正样本集合402合并,得到对抗正样本集合252,即,
图6示出了根据本公开的实施例的生成对抗负样本集合的过程600的示例流程图。过程600可以是图3中的框330的示例性实现的一部分。过程600可以由例如图1所示的计算设备101来实现。应当理解,过程600还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。以下结合图1至图4详细描述过程600。
然后,可以根据与第一样本特征202的距离,按照升序对第一候选负样本特征集合404中的参考样本特征进行排序,并选择排名靠前的γ个参考样本特征,γ为预先设置的超参数,其可以与用于选择406的那个γ相同或不同。由此,可以得到集合412,如下:
在框630,将所选择的参考样本特征和与图像样本201的类别对应的类别特征414进行组合415,以生成第二候选负样本集合420。在一些实施例中,为了生成更有难度的对抗负样本,将参考样本特征和类别特征414进行随机的加权求和415,如下:
其中∈i∈(0,E)是针对每个图像样本的随机插值系数,并且上界E是超参数,并且集合中的对抗负样本的幅度通过2-范数被归一化。为了使参考样本特征的贡献更大,E是较小值,从而针对所选择的参考样本特征的权重大于针对类别特征的权重。
接下来,在框640,计算设备101基于第二候选负样本集合420,生成对抗负样本集合254。计算设备101可以直接将第二候选正样本集合420确定为用于对比学习的对抗正样本集合252。在一些实施例中,还可以将第二候选正样本集合420和第一候选负样本集合404合并,得到对抗负样本集合254,即,
以上参考图4至图6描述了生成对抗正样本和对抗负样本的过程。将对抗正样本和对抗负样本与类别样本集合221中的类别特征来确定针对图像样本201的损失。
鉴于训练数据的不平衡问题,分类网络220中的类别特征222可能被训练为趋于头部类别,从而导致尾部类别的性能不佳。本公开的实施例还提供了每个类别特征222进行重新校准的机制。该机制可以由图2所示的校准器270来实施。在形式上,为每个类别特征222提供校准因子,如下
其中{xj|yj=c}是具有相关联的类别c的样本子集,Nc是该样本子集的样本数,是针对图样样本xj从图像分类模型220的特征提取网络212输出的第二样本特征203。在基于批次的训练中实现端到端校准,通过移动平均的方式来获取针对每个类别特征的全局校准因子,其中通过上述公式(4)来计算在当前批次的局部校准因子,如下
其中{xj|yj=c}是每个批次中具有标签c的样本,并且β是作为平滑系数的超参数。这里,全局校准因子反映反映每个类别的“难度”和该类别特征的“代表性”水平的校准因子。最后,将校准因子应用于类别特征集合中的每个类别特征,得到校准后的类别特征,如下:
基于这样的方式,计算设备101可以基于特征提取网络212生成图像样本201所在的批次中类别与类别特征相对应的至少一个图像样本的样本特征然后,计算设备101基于至少一个图像样本的样本特征和类别特征pc,确定在该批次处的针对类别特征pc的局部校准因子ωc。然后,计算设备101可以通过跨批次的移动平均,例如,根据公式(5),从局部校准因子ωc确定针对类别特征pc的全局校准因子最后,计算设备101利用全局校准因子来调整类别特征pc。在一些实施例中,计算设备101使用经过调整的参考样本特征集合来确定针对图像样本201的损失。
接下来参考图7,其示出了根据本公开的实施例的确定图像样本的损失的过程700的示例流程图。过程700可以是图3中的框340的示例性实现,其可以由图2所示的损失确定模块270来实施。过程700可以由例如图1所示的计算设备101来实现。应当理解,过程700还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。以下结合图1至图4详细描述过程700。
总体上,计算设备101可以基于类别特征集合240、对抗正样本集合252和对抗负样本集合254来确定针对图像样本201的损失。在以下示例性描述中,类别特征集合240包括经过调整的类别特征对抗正样本集合252为对抗负样本集合254为应理解,用于确定损失的类别特征集合240、对抗正样本集合252和对抗负样本集合254还可以是不同的内容,本公开对此不做限制。
在框710,计算设备101基于特征提取网络212(包括编码器214)生成图像样本201的第二样本特征203。如上所提及的,计算设备101已基于特征提取网络212,例如经由骨干网络212和编码器230,生成图像样本201的第一样本特征202。
在框720,计算设备101基于第二样本特征203和类别特征集合240中类别不同于图像样本的类别特征的比较,以及第一样本特征202和对抗负样本集合254的比较,确定针对图像样本201的第一损失。这里,可以计算点积的方式来比较两个样本特征。在一些实施例中,通过将比较结果求和,得到第一损失。第一损失与负样本相关,表示包括来自第二样本特征203的分类损失和来自第一样本特征202的对抗损失。
在框730,计算设备101基于第二样本特征203和类别特征集合240中类别与图像样本201相同的类别特征的比较,以及第一样本特征202和对抗正样本集合252的比较,确定针对图像样本201的第二损失。类似地,通过将比较结果求和,得到第二损失。第二损失与正样本相关,包括来自第二样本特征203的分类损失和来自第一样本特征202的对抗损失。
在框740,计算设备101基于第一损失和第二损失,更新图像分类模型。在一些实施例中,来自一个图像样本201的损失可以表示如下:
基于相同的方式,可以获取训练批次中的每个图像样本的损失,由此获取整个批次的总损失。针对一个训练批次中的图像样本,可以通过并行处理设备(例如GPU)来并行地计算每个图像样本的损失。然后,利用诸如随机梯度下降的优化器来更新图像分类模型200。
以上参考图1至7描述了根据本公开的实施例的图像处理方法或过程。相比于现有的方案,本公开的实施例能够构造出有区分难度的对抗正样本集合和对抗负样本集合,修正图像分类模型针对尾部类别的决策边界,由此能够在原始训练数据不均衡的长尾环境下对图像分类模型进行有效训练。在一些实施例中,对图像分类模型的分类网络进行校准,从而进一步消除或减轻训练数据不平衡带来的类别特征倾向于头部类别的问题。在一些实施例中,还提供了统一的损失函数,综合预测损失和对比损失对图像分类模型进行训练,达到更好的训练效果。
本公开的实施例还提供了示例性的装置和设备。图8示出了根据本公开的实施例的图像处理装置800的示例框图。装置800可以被实现在图1所示的计算设备101处。
如图所示,装置800包括第一样本特征生成单元810、类别特征获取单元820、对抗样本集合生成单元830和模型更新单元840。
第一样本特征生成单元810被配置为基于图像分类模型的特征提取网络生成训练数据集中的图像样本的第一样本特征。类别特征获取单元820被配置为从图像分类模型的分类网络获取类别特征集合,其中每个类别特征对应于与图像分类模型相关联的类别。对抗样本集合生成单元830被配置为基于第一样本特征、类别特征集合和参考样本特征集合,生成针对图像样本的对抗正样本集合和对抗负样本集合,其中参考样本特征集合中的参考样本特征是基于特征提取网络从训练数据集中的多个图像样本生成的。模型更新单元840被配置为基于对抗正样本集合、对抗负样本集合和类别特征集合,更新图像分类模型。
在一些实施例中,图像分类模型还可以包括与特征提取网络连接的至少一个编码器。生成图像样本的第一样本特征可以包括:基于特征提取网络和至少一个编码器,从图像样本生成第一样本特征。
在一些实施例中,装置800还可以包括参考样本特征更新单元。参考样本特征更新单元被配置为基于特征提取网络和至少一个编码器,从图像样本所在的批次中的图像样本生成样本特征;将所生成的样本特征添加到参考样本特征集合;以及从参考样本特征集合中移除最早批次的参考样本特征。
在一些实施例中,分类网络包括全连接网络,并且类别特征获取单元820还可以被配置为:基于全连接网络的权重,确定类别特征集合。
在一些实施例中,装置800还可以包括校准单元。校准单元被配置为:针对类别特征集合中的每个类别特征,基于特征提取网络,生成图像样本所在的批次中类别与类别特征相对应的至少一个图像样本的样本特征;基于至少一个图像样本的样本特征和类别特征,确定在批次处的针对类别特征的局部校准因子;通过跨批次的移动平均,从局部校准因子确定针对类别特征的全局校准因子;以及利用全局校准因子来调整类别特征。
在一些实施例中,模型更新单元还可以被配置为:基于对抗正样本集合、对抗负样本集合和类别特征集合的经调整的类别特征,更新图像分类模型。
在一些实施例中,对抗样本集合生成单元830还可以被配置为:确定参考样本特征集合中类别与图像样本相同的参考样本特征,以生成第一候选正样本集合;从第一候选正样本集合中选择具有错误预测类别的参考样本特征;将具有错误预测类别的参考样本特征和对应于错误预测类别的类别特征进行组合,以生成第二候选正样本集合;以及基于第二候选正样本集合,生成对抗正样本集合。
在一些实施例中,对抗样本集合生成单元830还可以被配置为:从参考样本特征集合中确定类别与图像样本不同的参考样本特征,以生成第一候选负样本集合;基于与第一样本特征的比较,从第一候选负样本特征集合中选择参考样本特征;以及将所选择的参考样本特征和与图像样本的类别对应的类别特征进行组合,以生成第二候选负样本集合;以及基于第二候选负样本集合,生成对抗负样本集合。
在一些实施例中,对抗样本集合生成单元830还可以被配置为:确定第一候选负样本集合中的参考样本特征与第一样本特征的距离;以及选择与第一样本特征距离最近的若干个参考样本特征。
在一些实施例中,对抗样本集合生成单元830还可以被配置为:对所选择的参考样本特征和与所述图像样本的类别对应的类别特征进行加权求和,其中,针对所选择的参考样本特征的第一权重和针对类别特征的第二权重是随机的,并且所述第一权重大于所述第二权重。
在一些实施例中,模型更新单元840还可以被配置为:基于特征提取网络,生成图像样本的第二样本特征;基于第二样本特征和类别特征集合中类别不同于图像样本的类别特征的比较,以及第一样本特征和所述对抗负样本集合的比较,确定针对所述图像样本的第一损失;基于第二样本特征和类别特征集合中类别与图像样本相同的类别特征的比较,以及第一样本特征和对抗正样本集合的比较,确定针对图像样本的第二损失;以及基于第一损失和第二损失,更新图像分类模型。
图9示出了可以用来实施本公开内容的实施例的示例设备900的示意性框图。例如,根据本公开实施例的计算设备101由设备900来实施。如图所示,设备900包括中央处理单元(CPU)或图形处理单元(GPU)901,其可以根据存储在只读存储器(ROM)902中的计算机程序指令或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序指令,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和数据。CPU/GPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程、处理、模型或装置,可由CPU/GPU 901执行或实现。例如,在一些实施例中,方法或过程300、500和/或600可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序被加载到RAM 903并由CPU/GPU 901执行时,可以执行上文描述的方法或过程300、500和/或600的一个或多个动作、实现1和图2所示的图像分类模型110和200,或者实现图8所示的装置800。
本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施方式,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施方式。在不偏离所说明的各实施方式的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施方式的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文披露的各实施方式。
Claims (14)
1.一种用于图像处理的方法,包括:
基于图像分类模型的特征提取网络,生成训练数据集中的图像样本的第一样本特征;
从所述图像分类模型的分类网络获取类别特征集合,其中每个类别特征对应于与所述图像分类模型相关联的类别;
基于所述第一样本特征、所述类别特征集合和参考样本特征集合,生成针对所述图像样本的对抗正样本集合和对抗负样本集合,所述参考样本特征集合中的参考样本特征是基于所述特征提取网络从所述训练数据集中的多个图像样本生成的;以及
基于所述对抗正样本集合、所述对抗负样本集合和所述类别特征集合,更新所述图像分类模型。
2.根据权利要求1所述的方法,其中,所述图像分类模型还包括与所述特征提取网络连接的至少一个编码器,并且生成图像样本的第一样本特征包括:
基于所述特征提取网络和所述至少一个编码器,从所述图像样本生成所述第一样本特征。
3.根据权利要求2所述的方法,还包括:
基于所述特征提取网络和所述至少一个编码器,从所述图像样本所在的批次中的图像样本生成样本特征;
将所生成的样本特征添加到所述参考样本特征集合;以及
从所述参考样本特征集合中移除最早批次的参考样本特征。
4.根据权利要求1所述的方法,其中,所述分类网络包括全连接网络,从所述分类网络获取所述类别特征集合包括:
基于所述全连接网络的权重,确定所述类别特征集合。
5.根据权利要求1所述的方法,还包括:针对所述类别特征集合中的每个类别特征:
基于所述特征提取网络,生成所述图像样本所在的批次中类别与所述类别特征相对应的至少一个图像样本的样本特征;
基于所述至少一个图像样本的样本特征和所述类别特征,确定在所述批次处的针对所述类别特征的局部校准因子;
通过跨批次的移动平均,从所述局部校准因子确定针对所述类别特征的全局校准因子;以及
利用所述全局校准因子来调整所述类别特征。
6.根据权利要求5所述的方法,其中,更新所述图像分类模型包括:
基于所述对抗正样本集合、所述对抗负样本集合和所述类别特征集合的经调整的类别特征,更新所述图像分类模型。
7.根据权利要求1至6中任一项所述的方法,其中,生成对抗正样本集合包括:
确定所述参考样本特征集合中类别与所述图像样本相同的参考样本特征,以生成第一候选正样本集合;
从所述第一候选正样本集合中选择具有错误预测类别的参考样本特征;
将所述具有错误预测类别的参考样本特征和对应于所述错误预测类别的类别特征进行组合,以生成第二候选正样本集合;以及
基于所述第二候选正样本集合,生成所述对抗正样本集合。
8.根据权利要求1至6中任一项所述的方法,其中,生成对抗负样本集合,包括:
从所述参考样本特征集合中确定类别与所述图像样本不同的参考样本特征,以生成第一候选负样本集合;
基于与所述第一样本特征的比较,从所述第一候选负样本特征集合中选择参考样本特征;以及
将所选择的参考样本特征和与所述图像样本的类别对应的类别特征进行组合,以生成第二候选负样本集合;以及
基于所述第二候选负样本集合,生成所述对抗负样本集合。
9.根据权利要求8所述的方法,其中,基于与所述第一样本特征的比较,从所述候选负样本特征集合中选择参考样本特征包括:
确定所述第一候选负样本集合中的参考样本特征与所述第一样本特征的距离;以及
选择与所述第一样本特征距离最近的若干个参考样本特征。
10.根据权利要求8所述的方法,其中,将所选择的参考样本特征和与所述图像样本的类别对应的类别特征进行组合,以生成第二候选负样本集合包括:
对所选择的参考样本特征和与所述图像样本的类别对应的类别特征进行加权求和,其中,针对所选择的参考样本特征的第一权重和针对类别特征的第二权重是随机的,并且所述第一权重大于所述第二权重。
11.根据权利要求1至6中任一项所述的方法,其中,基于所述对抗正样本集合、所述对抗负样本集合和所述类别特征集合,更新所述图像分类模型包括:
基于所述特征提取网络,生成所述图像样本的第二样本特征;
基于所述第二样本特征和所述类别特征集合中类别不同于所述图像样本的类别特征的比较,以及所述第一样本特征和所述对抗负样本集合的比较,确定针对所述图像样本的第一损失;
基于所述第二样本特征和所述类别特征集合中类别与所述图像样本相同的类别特征的比较,以及所述第一样本特征和所述对抗正样本集合的比较,确定针对所述图像样本的第二损失;以及
基于所述第一损失和所述第二损失,更新所述图像分类模型。
12.一种用于图像处理的装置,所述装置包括:
第一样本特征生成单元,被配置为基于图像分类模型的特征提取网络生成训练数据集中的图像样本的第一样本特征;
类别特征获取单元,被配置为从所述图像分类模型的分类网络获取类别特征集合,其中每个类别特征对应于与所述图像分类模型相关联的类别;
对抗样本集合生成单元,被配置为基于所述第一样本特征、所述类别特征集合和参考样本特征集合,生成针对所述图像样本的对抗正样本集合和对抗负样本集合,所述参考样本特征集合中的参考样本特征是基于所述特征提取网络从所述训练数据集中的多个图像样本生成的;以及
模型更新单元,被配置为基于所述对抗正样本集合、所述对抗负样本集合和所述类别特征集合,更新所述图像分类模型。
13.一种计算设备,包括:
至少一个处理单元;
至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令当由所述至少一个处理单元执行时,使得所述计算设备执行根据权利要求1至11中任一项所述的方法。
14.一种计算机可读存储介质,包括机器可执行指令,所述机器可执行指令在由设备执行时使所述设备执行根据权利要求1至11中的任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211034259.9A CN115565023A (zh) | 2022-08-26 | 2022-08-26 | 用于图像处理的方法、装置、电子设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211034259.9A CN115565023A (zh) | 2022-08-26 | 2022-08-26 | 用于图像处理的方法、装置、电子设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115565023A true CN115565023A (zh) | 2023-01-03 |
Family
ID=84738978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211034259.9A Pending CN115565023A (zh) | 2022-08-26 | 2022-08-26 | 用于图像处理的方法、装置、电子设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115565023A (zh) |
-
2022
- 2022-08-26 CN CN202211034259.9A patent/CN115565023A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11829880B2 (en) | Generating trained neural networks with increased robustness against adversarial attacks | |
US11003995B2 (en) | Semi-supervised regression with generative adversarial networks | |
CN116635866A (zh) | 用于挖掘少数类数据样本以训练神经网络的方法和系统 | |
US11449731B2 (en) | Update of attenuation coefficient for a model corresponding to time-series input data | |
JP7483005B2 (ja) | データ・ラベル検証 | |
US10783452B2 (en) | Learning apparatus and method for learning a model corresponding to a function changing in time series | |
WO2022110640A1 (zh) | 一种模型优化方法、装置、计算机设备及存储介质 | |
WO2022252455A1 (en) | Methods and systems for training graph neural network using supervised contrastive learning | |
US20220414531A1 (en) | Mitigating adversarial attacks for simultaneous prediction and optimization of models | |
WO2023019456A1 (en) | Method and apparatus for evaluation of adversarial robustness | |
CN114467095A (zh) | 基于强化学习的局部可解释模型 | |
CN113822444A (zh) | 模型训练及数据处理的方法、设备和计算机可读存储介质 | |
CN113971733A (zh) | 一种基于超图结构的模型训练方法、分类方法及装置 | |
WO2021012263A1 (en) | Systems and methods for end-to-end deep reinforcement learning based coreference resolution | |
CN114581966A (zh) | 用于信息处理的方法、电子设备和计算机程序产品 | |
JP7290183B2 (ja) | データ処理の方法、ニューラルネットワークの学習方法及びデバイス | |
CN115565023A (zh) | 用于图像处理的方法、装置、电子设备和介质 | |
US20240020531A1 (en) | System and Method for Transforming a Trained Artificial Intelligence Model Into a Trustworthy Artificial Intelligence Model | |
JP7059166B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
KR20220071843A (ko) | 무인 이동체 메시지 id 시퀀스 생성을 위한 생성적 적대 신경망 모델과 그 학습 방법 | |
CN114730380A (zh) | 神经网络的深度并行训练 | |
Jalaian et al. | Uncertainty quantification in internet of battlefield things | |
CN112348161A (zh) | 神经网络的训练方法、神经网络的训练装置和电子设备 | |
CN113836438B (zh) | 用于帖子推荐的方法、电子设备和存储介质 | |
US20230401435A1 (en) | Neural capacitance: neural network selection via edge dynamics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |