CN114693993A - 一种图像处理和图像分类方法、装置、设备及存储介质 - Google Patents

一种图像处理和图像分类方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114693993A
CN114693993A CN202210294934.5A CN202210294934A CN114693993A CN 114693993 A CN114693993 A CN 114693993A CN 202210294934 A CN202210294934 A CN 202210294934A CN 114693993 A CN114693993 A CN 114693993A
Authority
CN
China
Prior art keywords
classification model
old
category
target
sample image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210294934.5A
Other languages
English (en)
Inventor
陈宸
赵博文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210294934.5A priority Critical patent/CN114693993A/zh
Publication of CN114693993A publication Critical patent/CN114693993A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供了一种图像处理和图像分类方法、装置、设备及存储介质,可应用于人工智能、云技术、智慧交通、车载等各种场景,该方法包括:采用新旧样本图像集合对原始分类模型进行迭代训练,获得候选分类模型,故候选分类模型既学习到了新类别的分类能力,同时没有遗忘旧类别的分类能力。通过候选分类模型对多个矫正样本图像进行分类预测,并基于获得的在新旧类别上的预测值确定目标偏移量,再采用目标偏移量对候选分类模型进行输出矫正,获得目标分类模型,使得目标分类模型在新旧类别上输出的预测值是平衡的,进而提高了分类模型分类的准确性,同时,无需通过重复训练实现对候选分离模型的输出矫正,从而提高了增量学习的效率。

Description

一种图像处理和图像分类方法、装置、设备及存储介质
技术领域
本申请实施例涉及人工智能技术领域,尤其涉及一种图像处理和图像分类方法、装置、设备及存储介质。
背景技术
随着人工智能技术的发展,各类机器学习模型在生活中得到了广泛应用。相关技术下,采用一段时间内采集的训练数据,对机器学习模型进行训练,获得原始模型。然而,随着时间的推移,后续会产生新的可用来训练机器学习模型的训练数据。相关技术采用增量学习的方式,利用新增的训练数据对原始模型进行迭代训练,获得目标模型,从而实现对原始模型的更新。
在具体的增量学习过程中,采用新类别对应的训练数据以及旧类别对应的训练数据,对原始模型进行迭代训练。由于新类别对应的训练数据量与旧类别对应训练数据量存在差异,因此,目标模型在新旧类别上输出的预测值存在不平衡的情况。
比如,当新类别对应的训练样本图像数据量大于旧类别对应训练样本图像数据量时,目标模型倾向于在新类别上输出较高的预测值,而在旧类别上输出较低的预测值,从而影响模型预测的准确性。
发明内容
本申请实施例提供了一种图像处理和图像分类方法、装置、设备及存储介质,用于提高模型预测的准确性。
一方面,本申请实施例提供了一种图像处理方法,该方法包括:
采用新增样本图像集合和历史样本图像集合,对原始分类模型进行迭代训练,直到满足迭代停止条件,获得候选分类模型,其中,所述新增样本图像集合对应至少一个新类别,所述历史样本图像集合对应多个旧类别;
获取多个矫正样本图像,并将每个所述矫正样本图像输入所述候选分类模型,获得相应的矫正样本图像在所述至少一个新类别对应的第一新类别预测值,以及在所述多个旧类别对应的第一旧类别预测值,每个所述矫正样本图像对应一个所述新类别或一个所述旧类别;
基于获得的第一新类别预测值和第一旧类别预测值确定目标偏移量,并采用所述目标偏移量,对所述候选分类模型进行输出矫正,获得目标分类模型。
一方面,本申请实施例提供了一种图像分类方法,该方法包括:
将待处理图像输入目标分类模型,获得所述待处理图像在多个旧类别各自对应的初始预测值,以及在至少一个新类别对应的矫正后的目标预测值,其中,所述目标分类模型是采用上述图像处理方法获得的;
基于所述多个旧类别各自对应的初始预测值,以及所述至少一个新类别各自对应的目标预测值,从所述多个旧类别和所述至少一个新类别中,确定所述待处理图像对应的目标类别。
一方面,本申请实施例提供了一种图像处理装置,该装置包括:
模型训练模块,用于采用新增样本图像集合和历史样本图像集合,对原始分类模型进行迭代训练,直到满足迭代停止条件,获得候选分类模型,其中,所述新增样本图像集合对应至少一个新类别,所述历史样本图像集合对应多个旧类别;
第一预测模块,用于获取多个矫正样本图像,并将每个所述矫正样本图像输入所述候选分类模型,获得相应的矫正样本图像在所述至少一个新类别对应的第一新类别预测值,以及在所述多个旧类别对应的第一旧类别预测值,每个所述矫正样本图像对应一个所述新类别或一个所述旧类别;
矫正模块,用于基于获得的第一新类别预测值和第一旧类别预测值确定目标偏移量,并采用所述目标偏移量,对所述候选分类模型进行输出矫正,获得目标分类模型。
可选地,所述矫正模块具体用于:
基于获得的第一新类别预测值,确定所述至少一个新类别对应的第一平均能量值;
基于获得的第一旧类别预测值,确定所述多个旧类别对应的第二平均能量值;
将所述第一平均能量值与所述第二平均能量值的差值,作为所述目标偏移量。
可选地,所述矫正模块具体用于:
在所述候选分类模型的输出层中添加所述目标偏移量,获得所述目标分类模型,其中,所述目标偏移量用于对所述至少一个新类别对应的新类别预测值进行矫正。
可选地,所述历史样本图像集合是从用于训练所述原始分类模型的历史训练数据中选取的;
所述矫正模块还用于:
采用所述目标偏移量,对所述候选分类模型进行输出矫正,获得目标分类模型之后,将所述新增样本图像集合作为历史样本添加至所述历史训练数据中,以及将所述至少一个新类别作为旧类别添加至所述多个旧类别中。
可选地,所述模型训练模块还用于:
采用新增样本图像集合和历史样本图像集合,对原始分类模型进行迭代训练之前,采用以下任意一种方式确定所述原始分类模型:将初始化的分类模型,作为所述原始分类模型;
将采用历史训练数据训练获得的分类模型,作为所述原始分类模型;
将采用历史训练数据进行训练,且采用历史偏移量进行输出矫正获得的分类模型,作为所述原始分类模型。
可选地,所述第一预测模块具体用于:
分别从所述新增样本图像集合和所述历史样本图像集合中,选取获得所述多个矫正样本图像;或者,
从所述新增样本图像集合和所述历史样本图像集合之外的其他样本集合中,选取获得所述多个矫正样本图像。
可选地,所述模型训练模块具体用于:
将所述新增样本图像集合中的每个新增样本图像输入所述原始分类模型,获得相应的新增样本图像在所述至少一个新类别对应的第二新类别预测值,以及在所述多个旧类别对应的第二旧类别预测值;
将所述历史样本图像集合中的每个历史样本图像输入所述原始分类模型,获得相应的历史样本图像在所述至少一个新类别对应的第三新类别预测值,以及在所述多个旧类别对应的第三旧类别预测值;
基于获得的第二新类别预测值、第二旧类别预测值、第三新类别预测值以及第三旧类别预测值,确定目标损失值,并采用所述目标损失值对所述原始分类模型进行参数调整。
可选地,所述模型训练模块具体用于:
基于获得的第二新类别预测值、第二旧类别预测值、第三新类别预测值以及第三旧类别预测值,确定交叉熵损失值;
基于获得的第二旧类别预测值,以及第三旧类别预测值,确定知识蒸馏损失值;
基于所述交叉熵损失值和所述知识蒸馏损失值,确定所述目标损失值。
可选地,所述原始分类模型是采用历史偏移量对相应的历史分类模型进行输出矫正后获得的;
所述模型训练模块具体用于:
将所述新增样本图像集合中的每个新增样本图像输入所述历史分类模型,获得相应的新增样本图像在所述多个旧类别对应的第一候选预测值;
将所述历史样本图像集合中的每个历史样本图像输入所述历史分类模型,获得相应的历史样本图像在所述多个旧类别对应的第二候选预测值;
基于获得的第一候选预测值、第二候选预测值、第二旧类别预测值,以及第三旧类别预测值,确定知识蒸馏损失值。
一方面,本申请实施例提供了一种图像分类装置,该装置包括:
第二预测模块,用于将待处理图像输入目标分类模型,获得所述待处理图像在多个旧类别各自对应的初始预测值,以及在至少一个新类别对应的矫正后的目标预测值,其中,所述目标分类模型是采用上述图像处理装置获得的;
分类模块,用于基于所述多个旧类别各自对应的初始预测值,以及所述至少一个新类别各自对应的目标预测值,从所述多个旧类别和所述至少一个新类别中,确定所述待处理图像对应的目标类别。
可选地,所述第二预测模块具体用于:
通过所述目标分类模型,对所述待处理图像进行特征提取,获得目标特征图像,并基于所述目标特征图像,确定所述待处理图像在所述至少一个新类别和所述多个旧类别各自对应的初始预测值;
通过所述目标分类模型,采用目标偏移量对所述至少一个新类别各自对应的初始预测值进行矫正,获得所述至少一个新类别各自对应的目标预测值。
一方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述图像处理和图像分类方法的步骤。
一方面,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行上述图像处理和图像分类方法的步骤。
一方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述图像处理和图像分类方法的步骤。
本申请实施例中,采用新旧样本图像集合对原始分类模型进行迭代训练,获得候选分类模型,故候选分类模型既学习到了新类别的分类能力,同时没有遗忘旧类别的分类能力。通过候选分类模型对多个矫正样本图像进行分类预测,并基于获得的多个矫正样本图像在新旧类别上的预测值,确定目标偏移量,再采用目标偏移量对候选分类模型进行输出矫正,获得目标分类模型,使得目标分类模型在新旧类别上输出的预测值是平衡的,进而提高了分类模型分类的准确性。另外,直接采用目标偏移量对候选分离模型进行输出矫正,无需通过重复训练实现对候选分离模型的输出矫正,从而提高了增量学习的效率,降低了训练资源消耗。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1a为本申请实施例提供的一种类别训练数据量与类别能量值之间的关联关系示意图;
图1b为本申请实施例提供的一种类别训练数据量与类别能量值之间的关联关系示意图;
图1c为本申请实施例提供的一种系统架构的结构示意图;
图2为本申请实施例提供的一种搜索界面的示意图;
图3为本申请实施例提供的一种待搜索图像的示意图;
图4为本申请实施例提供的一种搜索结果界面的示意图;
图5为本申请实施例提供的一种图像处理方法的流程示意图;
图6为本申请实施例提供的一种模型训练方法的流程示意图;
图7为本申请实施例提供的一种图像处理方法的流程示意图;
图8为本申请实施例提供的一种图像处理方法的流程示意图;
图9a为本申请实施例提供的一种效果对比结果的示意图;
图9b为本申请实施例提供的一种效果对比结果的示意图;
图10为本申请实施例提供的一种图像分类方法的流程示意图;
图11为本申请实施例提供的一种图像处理装置的结构示意图;
图12为本申请实施例提供的一种图像分类装置的结构示意图;
图13为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了方便理解,下面对本发明实施例中涉及的名词进行解释。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。本申请实施例中的图像处理方法适用于任意机器学习模型的训练和推理,尤其适应于任意基于softmax分类头的机器学习模型的训练和推理。
能量函数模型:(energy-based model,简称EBM),考虑两组随机变量
Figure BDA0003561532950000051
Figure BDA0003561532950000052
其中
Figure BDA0003561532950000053
Figure BDA0003561532950000054
分别代表变量x和y的整个分布空间。而能量函数Eθ(x,y))将一组匹配对(x,y)映射成一个标量的能量值,其中,θ表示可以训练的参数。通常越小的能量值代表匹配对(x,y)越兼容,而越大的能量值代表(x,y)越不兼容。
在实际应用中,能量值需要归一化以应用在不同场景。最常见的做法是使用玻尔兹曼分布(Blotzmann distribution)将能量值转换为一个概率密度,如公式(1)所示:
Figure BDA0003561532950000061
能量对齐:(Energy Alignment,简称EA),指不同的类别对应的能量值相同。
LwF:learning without forgetting(学会不忘记算法,一种增量学习算法)。
iCaRL:incremental classifier and representation learning(增量分类器和表示学习算法,一种增量学习算法)。
EEIL:end-to-end incremental learning(端到端增量学习算法,一种增量学习算法)。
BiC:bias correction(偏置校准算法,一种增量学习算法)。
RPS:random path selection(随机路径选择算法,一种增量学习算法)。
WA:weight aligning(权重对齐算法,一种增量学习算法)。
下面对本申请实施例的设计思想进行介绍。
在具体的增量学习过程中,采用新类别对应的训练数据以及旧类别对应的训练数据,对原始模型进行迭代训练。由于新类别对应的训练数据量与旧类别对应训练数据量存在差异,因此,目标模型在新旧类别上输出的预测值存在不平衡的情况。比如,当新类别对应的训练样本图像数据量大于旧类别对应训练样本图像数据量时,目标模型倾向于在新类别上输出较高的预测值,而在旧类别上输出较低的预测值,从而影响模型预测的准确性。
通过分析发现,分类模型fθ(x)一般是将输入x映射为C个logits输出,其中,logits输出指全连接层的输出,θ表示分类模型中可以训练的网络参数。通过softmax函数将C个logits输出映射成各个类别的预测概率,具体如以下公式(2)所示:
Figure BDA0003561532950000062
其中,Pθ(y|x)表示y在输入x下的条件概率,也表示类别y在输入x下的预测概率,fθ(x)[y]表示类别y在输入x下的logits输出。
通过对比上述公式(1)和公式(2)可知,无需更改网络参数,就可以直接将分类模型的logits输出,作为匹配对(x,y)的负能量值,具体满足以下公式(3):
-Eθ(x,y)=fθ(x)[y]……………(3)
从物理意义上可以发现,能量值越低,代表分类模型的logit输出越高,即代表网络倾向于判断输入x对应类别y;相反,能量值越高,代表分类模型的logit输出越低,即代表网络不倾向于输入x对应类别y。
进一步地,基于上述公式(1)可以获得(x,y)的联合概率,具体如以下公式(4)所示:
Figure BDA0003561532950000071
其中,
Figure BDA0003561532950000072
同时也可以获得y的边缘概率,具体如以下公式(5)所示:
Figure BDA0003561532950000073
其中,Eθ(y)为变量y的能量值,具体满足以下公式(6)所示:
Figure BDA0003561532950000074
对上述公式(5)的左右两边取对数,可以得到以下公式(7):
logpθ(y)=-Eθ(y)-logZθ……………(7)
从以上公式(7)可以看出,变量y的负能量-Eθ(y)与logPθ(y)是线性正相关的。也就是说,在训练分类模型时,若训练数据在不同类别上的分布是不平衡的,则不同类别对应的边缘概率也会是不相同的,相应的,不同类别对应的能量值也会是不相同的,进而也就导致分类模型在不同类别对应的预测值是不平衡的。
为了在采用分布不平衡的训练数据对分类模型进行增量学习时,分类模型在不同类别对应输出的预测值是平衡的,即不同类别对应的边缘概率是相同的,则需要达到不同类别对应的能量值相同的理想状态,具体如以下公式(8)所示:
-Eθ(y=i)=-Eθ(y=j)……………(8)
其中,1≤i≤C,1≤j≤C,i≠j。
然而,上述公式(8)只有在训练数据在不同类别上的分布平衡的情况下才能达到,对于训练数据在不同类别上的分布不平衡的情况,则需要通过一个偏移量对不同类别对应的能量值进行对齐,具体如以下公式(9)所示:
-Eθ(y=i)=-Eθ(y=j)+αj……………(9)
其中,αj表示偏移量。
在能量对齐的情况下,结合上述公式(3)和公式(6)可以获得变量y的能量值与分类模型fθ(.)的关联关系,具体如以下公式(10)所示:
Figure BDA0003561532950000075
进一步地,可以将以上公式(10)改写以下公式(11):
Figure BDA0003561532950000076
由以上公式(11)可以看出,在指定一个类别i为基类之后,对于任意其他类别j,均可以计算获得一个偏移量αj,采用该偏移量αj对分类模型进行输出矫正,即将分类模型预测获得的类别j的logit输出
Figure BDA0003561532950000077
与偏移量αj相加,获得矫正后的类别j的logit输出。此时,即使训练数据在类别i和类别j上的分布是不平衡的,也能使得类别i和类别j对应的能量值是相同的,进而使得分类模型在类别i和类别j对应的预测值是平衡的。
基于上述公式(11)可以进一步获得偏移量αj的计算公式,具体如公式(12)所示:
Figure BDA0003561532950000081
由以上公式(12)可以看出,基于分类模型预测获得的类别i的logit输出以及分类模型预测获得的类别j的logit输出,可以获得偏移量αj
对应到本申请中的增量学习场景中,可以将多个旧类别作为一个基类簇,将至少一个新类别作为待矫正类簇,针对待矫正类簇中的至少一个新类别,采用上述公式(12)计算获得一个偏移量,然后采用该偏移量对矫正前的分类模型进行输出矫正,获得矫正后的分类模型。
为了验证上述推导过程的准确性,本申请以类别1至类别10为例进行以下实验,其中,类别1至类别5为新类别,类别6至类别10为旧类别,新类别的训练数据量远大于旧类别的数据量,其中,训练样本为图像。
针对矫正前的分类模型,图1a示例性示出了类别训练数据量与类别能量值之间的关联关系。由图1a可知,新类别的训练数据量远大于旧类别的数据量,相应地,矫正前的分类模型在新类别上输出的负能量值也远大于在旧类别上输出的负能量值,即当新旧类别对应的训练数据量不同时,会导致矫正前的分类模型在新旧类别上输出的能量值不同,进而导致矫正前的分类模型在新旧类别上输出的预测值不平衡。
针对矫正后的分类模型,图1b示例性示出了类别训练数据量与类别能量值之间的关联关系。由图1b可知,新类别的训练数据量远大于旧类别的数据量,此时,矫正后的分类模型在新类别上输出的负能量值,与在旧类别上输出的负能量值基本接近。也就是说,即使新旧类别对应的训练数据量不同,矫正后的分类模型在新旧类别上输出的能量值也是相同的,进而使得矫正后的分类模型在新旧类别上输出的预测值是平衡的。
基于推导过程,本申请实施例提供了一种图像处理方法,该方法包括:
采用新增样本图像集合和历史样本图像集合,对原始分类模型进行迭代训练,直到满足迭代停止条件,获得候选分类模型,其中,新增样本图像集合对应至少一个新类别,历史样本图像集合对应多个旧类别。然后获取多个矫正样本图像,并将每个矫正样本图像输入所述候选分类模型,获得相应的矫正样本图像在至少一个新类别对应的第一新类别预测值,以及在多个旧类别对应的第一旧类别预测值,每个矫正样本图像对应一个新类别或一个旧类别。再基于获得的第一新类别预测值和第一旧类别预测值确定目标偏移量,并采用目标偏移量,对候选分类模型进行输出矫正,获得目标分类模型。
本申请实施例中,采用新旧样本图像集合对原始分类模型进行迭代训练,获得候选分类模型,故候选分类模型既学习到了新类别的分类能力,同时没有遗忘旧类别的分类能力。通过候选分类模型对多个矫正样本图像进行分类预测,并基于获得的多个矫正样本图像在新旧类别上的预测值,确定目标偏移量,再采用目标偏移量对候选分类模型进行输出矫正,获得目标分类模型,使得目标分类模型在新旧类别上输出的预测值是平衡的,进而提高了分类模型分类的准确性。另外,直接采用目标偏移量对候选分离模型进行输出矫正,无需通过重复训练实现对候选分离模型的输出矫正,从而提高了增量学习的效率,降低了训练资源消耗。
参见图1c,其为本申请实施例适用的一种系统架构图。该架构至少包括终端设备101以及服务器102。终端设备101的数量可以是一个或多个,服务器102的数量也可以是一个或多个,本申请对终端设备101和服务器102的数量不做具体限定。
终端设备101中可以安装有目标应用,其中,目标应用可以是客户端应用、网页版应用、小程序应用等。在实际应用场景中,目标应用可以是任意具备文本检测功能的应用。终端设备101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、智能音箱、智能手表、智能车载设备等,但并不局限于此。本申请实施例可应用于各种场景,包括但不限于地图领域、车载场景、云技术、人工智能、智慧交通、辅助驾驶。
服务器102可以是目标应用的后台服务器,为目标应用提供相应的服务,服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备101与服务器102可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请实施例中的图像处理方法和图像分类方法可以是终端设备101执行,也可以是服务器102执行,也可以由终端设备101与服务器102交互执行。
下面以图像处理方法由服务器102执行为例,进行以下具体说明:
终端设备101将新增样本图像集合发送至服务器102,服务器102采用新增样本图像集合和历史样本图像集合,对原始分类模型进行迭代训练,直到满足迭代停止条件,获得候选分类模型,其中,新增样本图像集合对应至少一个新类别,历史样本图像集合对应多个旧类别。然后获取多个矫正样本图像,并将每个矫正样本图像输入所述候选分类模型,获得相应的矫正样本图像在至少一个新类别对应的第一新类别预测值,以及在多个旧类别对应的第一旧类别预测值,每个矫正样本图像对应一个新类别或一个旧类别。再基于获得的第一新类别预测值和第一旧类别预测值确定目标偏移量,并采用目标偏移量,对候选分类模型进行输出矫正,获得目标分类模型。
在获得目标分类模型之后,将目标分类模型保存在服务器102中。
下面以图像分类方法由服务器102执行为例,进行以下具体说明:
终端设备101将待处理图像发送至服务器102。服务器102将待处理图像输入目标分类模型,获得所述待处理图像在多个旧类别各自对应的初始预测值,以及在至少一个新类别对应的矫正后的目标预测值。然后基于多个旧类别各自对应的初始预测值,以及至少一个新类别各自对应的目标预测值,从多个旧类别和至少一个新类别中,确定待处理图像对应的目标类别。
服务器102将待处理图像对应的目标类别发送至终端设备101。终端设备101在显示界面展示待处理图像对应的目标类别。
在实际应用中,本申请实施例中的图像处理方法适用于任意图像分类模型的训练,本申请实施例中的图像分类方法所适用的场景包括但不限于:智能视频分析、交通场景物体识别、车辆计数、车牌检测、图像检索、相册自动归类等。下面以图像检索场景举例来说:
图像分类模型训练阶段:
终端设备101将新增样本图像集合发送至服务器102,其中,新增样本图像集合对应两个新类别,分别为“沙发”和“餐桌”。服务器102预先保存有历史样本图像集合,历史样本图像集合对应3个旧类别,分别为“餐具”、“地毯”、“收纳盒”。
服务器102采用新增样本图像集合和历史样本图像集合,对原始分类模型进行迭代训练,直到满足迭代停止条件,获得候选分类模型。然后获取多个矫正样本图像,并将每个矫正样本图像输入候选分类模型,获得相应的矫正样本图像在至少一个新类别对应的第一新类别预测值,以及在多个旧类别对应的第一旧类别预测值,每个矫正样本图像对应一个新类别或一个旧类别。再基于获得的第一新类别预测值和第一旧类别预测值确定目标偏移量,并采用目标偏移量,对候选分类模型进行输出矫正,获得目标分类模型。在获得目标分类模型之后,将目标分类模型保存在服务器102中。
图像检索阶段:
终端设备101响应于在搜索界面中触发的搜索操作,获取待搜索图像,其中,搜索界面如图2所示,待搜索图像如图3所示。终端设备101将待搜索图像发送至服务器102。服务器102将待搜索图像输入目标分类模型,获得待搜索图像在3个旧类别各自对应的初始预测值,以及在2个新类别对应的矫正后的目标预测值。然后基于3个旧类别各自对应的初始预测值,以及2个新类别各自对应的目标预测值,从3个旧类别和2个新类别中,确定待搜索图像对应的目标类别为新类别“沙发”。
服务器102从搜索库中获得与新类别“沙发”相关的搜索结果图像,并将搜索结果图像发送至终端设备101。终端设备101在搜索结果界面中展示搜索结果图像,搜索结果界面如图4所示。
基于图1c所示的系统架构图,本申请实施例提供了一种图像处理方法的流程,如图5所示,该方法的流程可以由图1c所示的终端设备101或服务器102执行,也可以由终端设备101和服务器102交互执行,包括以下步骤:
步骤S501,采用新增样本图像集合和历史样本图像集合,对原始分类模型进行迭代训练,直到满足迭代停止条件,获得候选分类模型。
具体地,新增样本图像集合与历史样本图像集合为不重叠的样本集合。新增样本图像集合对应至少一个新类别,历史样本图像集合对应多个旧类别,至少一个新类别与多个旧类别不存在重叠的类别。
在新增样本图像集合中,每个新类别对应至少一个新增样本图像。在历史样本图像集合中,每个旧类别对应至少一个历史样本图像。
在一些实施中,迭代停止条件可以是迭代次数达到预设次数,也可以是损失值满足预设收敛条件,还可以是其他条件,对此,本申请不做具体限定。
步骤S502,获取多个矫正样本图像,并将每个矫正样本图像输入候选分类模型,获得相应的矫正样本图像在至少一个新类别对应的第一新类别预测值,以及在多个旧类别对应的第一旧类别预测值。
具体地,每个矫正样本图像对应一个新类别或一个旧类别。在多个矫正样本图像中,一个新类别对应至少一个矫正样本图像,一个旧类别对应至少一个矫正样本图像。矫正样本图像在每个新类别对应一个第一新类别预测值,第一新类别预测值表示该矫正样本图像在一个新类别的预测logits输出;矫正样本图像在每个旧类别对应一个第一旧类别预测值,第一旧类别预测值表示该矫正样本图像在一个旧类别的预测logits输出。
在一些实施例中,至少一个新类别对应的矫正样本图像的总数量与多个旧类别对应的矫正样本图像的总数量是相同的。
步骤S503,基于获得的第一新类别预测值和第一旧类别预测值确定目标偏移量,并采用目标偏移量,对候选分类模型进行输出矫正,获得目标分类模型。
具体地,采用目标偏移量,对候选分类模型进行输出矫正,可以指采用同一个目标偏移量,对候选分类模型预测获得的至少一个新类别各自对应的新类别预测值进行矫正,再输出矫正后的新类别预测值;也可以指采用同一个目标偏移量,对候选分类模型预测获得的多个旧类别各自对应的旧类别预测值进行矫正,再输出矫正后的旧类别预测值。
本申请实施例中,采用新旧样本图像集合对原始分类模型进行迭代训练,获得候选分类模型,故候选分类模型既学习到了新类别的分类能力,同时没有遗忘旧类别的分类能力。通过候选分类模型对多个矫正样本图像进行分类预测,并基于获得的多个矫正样本图像在新旧类别上的预测值,确定目标偏移量,再采用目标偏移量对候选分类模型进行输出矫正,获得目标分类模型,使得目标分类模型在新旧类别上输出的预测值是平衡的,进而提高了分类模型分类的准确性。另外,直接采用目标偏移量对候选分离模型进行输出矫正,无需通过重复训练实现对候选分离模型的输出矫正,从而提高了增量学习的效率,降低了训练资源消耗。
可选地,在上述步骤S501中,采用新增样本图像集合和历史样本图像集合,对原始分类模型进行迭代训练之前,采用以下任意一种方式确定原始分类模型:
方式一、将初始化的分类模型,作为原始分类模型。
方式二、将采用历史训练数据训练获得的分类模型,作为原始分类模型。
具体地,原始分类模型是采用历史训练数据对初始化的分类模型进行迭代训练获得的,此时,原始分类模型中的网络参数不是初始化的网络参数。
原始分类模型也可以是采用历史训练数据对已训练的分类模型进行迭代训练获得的,此时,已训练的分类模型和原始分类模型中的网络参数均不是初始化的网络参数。
方式三、将采用历史训练数据进行训练,且采用历史偏移量进行输出矫正获得的分类模型,作为原始分类模型。
具体地,原始分类模型是采用历史训练数据对初始化的分类模型进行迭代训练,并在训练结束后采用历史偏移量进行输出矫正获得的,此时,原始分类模型中的网络参数不是初始化的网络参数。
原始分类模型也可以是采用历史训练数据对已训练的分类模型进行迭代训练获得的,并在训练结束后采用历史偏移量进行输出矫正获得的,此时,已训练的分类模型和原始分类模型中的网络参数均不是初始化的网络参数。
本申请实施例中的图像处理方法适用于原始分类模型为初始化的分类模型、已训练的分类模型、已训练且进行输出矫正的分类模型等多种分类模型,适用范围广,通用性高。
可选地,在上述步骤S501中,在对原始分类模型进行迭代训练时,每次迭代过程包括以下步骤,如图6所示:
步骤S601,将新增样本图像集合中的每个新增样本图像输入原始分类模型,获得相应的新增样本图像在至少一个新类别对应的第二新类别预测值,以及在多个旧类别对应的第二旧类别预测值。
具体地,一个新增样本图像在每个新类别对应一个第二新类别预测值,第二新类别预测值表示:原始分类模型输出的该新增样本图像在一个新类别的预测logits输出;一个新增样本图像在每个旧类别对应一个第二旧类别预测值,第二旧类别预测值表示:原始分类模型输出的该新增样本图像在一个旧类别的预测logits输出。
针对每个新增样本图像,在获得新增样本图像在至少一个新类别对应的第二新类别预测值,以及在多个旧类别对应的第二旧类别预测值之后,采用上述公式(2),基于获得的各个第二新类别预测值和各个第二旧类别预测值,确定该新增样本图像在至少一个新类别和多个旧类别各自对应的预测概率。
针对每个新增样本图像,预先标记该新增样本图像对应的真实类别,并相应标记该新增样本图像在至少一个新类别和多个类别各自对应的真实概率。
举例来说,设定至少一个新类别分别为新类别1和新类别2,多个旧类别分别为旧类别1、旧类别2和旧类别3,新增样本A对应的真实类别为新类别1,则将新增样本图像A在新类别1对应的真实概率设置为1,在新类别2对应的真实概率设置为0,在旧类别1、旧类别2和旧类别3对应的真实概率均设置为0。
步骤S602,将历史样本图像集合中的每个历史样本图像输入原始分类模型,获得相应的历史样本图像在至少一个新类别对应的第三新类别预测值,以及在多个旧类别对应的第三旧类别预测值。
具体地,一个历史样本图像在每个新类别对应一个第三新类别预测值,第三新类别预测值表示:原始分类模型输出的该历史样本图像在一个新类别的预测logits输出;一个历史样本图像在每个旧类别对应一个第三旧类别预测值,第三旧类别预测值表示:原始分类模型输出的该历史样本图像在一个旧类别的预测logits输出。
针对每个历史样本图像,在获得历史样本图像在至少一个新类别对应的第三新类别预测值,以及在多个旧类别对应的第三旧类别预测值之后,采用上述公式(2),基于获得的各个第三新类别预测值和各个第三旧类别预测值,确定该历史样本图像在至少一个新类别和多个旧类别各自对应的预测概率。
针对每个历史样本图像,预先标记该历史样本图像对应的真实类别,并相应标记该历史样本图像在至少一个新类别和多个类别各自对应的真实概率。
步骤S603,基于获得的第二新类别预测值、第二旧类别预测值、第三新类别预测值以及第三旧类别预测值,确定目标损失值,并采用目标损失值对原始分类模型进行参数调整。
具体地,基于各个新增样本图像在至少一个新类别和多个旧类别各自对应的预测概率和真实概率,以及各个历史样本图像在至少一个新类别和多个旧类别各自对应的预测概率和真实概率,确定目标损失值。
可以根据目标损失值确定原始分类模型是否收敛。当确定原始分类模型未收敛时,根据目标损失值对原始分类模型进行模型参数调整。并通过参数调整后的原始分类模型进行下一轮的训练。当确定原始分类模型收敛时,结束训练,输出候选分类模型。当然,本申请实施例中也可以在迭代训练次数达到预设次数时,结束训练,输出已训练的候选分类模型,对此,本申请不做具体限定。
本申请实施例中,采用新增样本图像集合和历史样本图像集合对原始分类模型进行增量迭代训练,在训练过程中,基于多个新增样本图像分别为新旧类别的预测值,以及多个历史样本图像分别为新旧类别的预测值,调整网络参数,使得原始分类模型逐步学习识别新类别的能力,同时不遗忘旧类别的分类能力,从而提高分类模型的准确性。
可选地,在对分类模型进行迭代训练的过程中,本申请实施例至少采用以下实施方式确定目标损失值:
基于获得的第二新类别预测值、第二旧类别预测值、第三新类别预测值以及第三旧类别预测值,确定交叉熵损失值。然后基于获得的第二旧类别预测值,以及第三旧类别预测值,确定知识蒸馏损失值。再基于交叉熵损失值和知识蒸馏损失值,确定目标损失值。
具体地,基于每个新样本图像对应的第二新类别预测值和第二旧类别预测值,确定每个新增样本图像在至少一个新类别和多个旧类别各自对应的预测概率。基于每个历史样本图像对应的第三新类别预测值和第三旧类别预测值,确定每个历史样本图像在至少一个新类别和多个旧类别各自对应的预测概率。
基于各个新增样本图像在至少一个新类别和多个旧类别各自对应的预测概率和真实概率,以及各个历史样本图像在至少一个新类别和多个旧类别各自对应的预测概率和真实概率,确定交叉熵损失值,具体如以下公式(13)所示:
Figure BDA0003561532950000141
其中,
Figure BDA0003561532950000142
表示交叉熵损失值,
Figure BDA0003561532950000143
y*表示真实的类别标签,
Figure BDA0003561532950000144
表示新增样本图像集合,
Figure BDA0003561532950000145
表示历史样本图像集合,
Figure BDA0003561532950000146
表示0-1函数,pθ(i|x)表示输入x对应类别i的预测概率,C(b)表示新类别的数量,
Figure BDA0003561532950000147
表示旧类别的数量。
在确定知识蒸馏损失值时,本申请实施例至少提供以下几种实施方式:
实施方式一,原始分类模型是采用历史偏移量对相应的历史分类模型进行输出矫正后获得的。此时,结合历史分类模型和原始分类模型输出的预测值,确定知识蒸馏损失值,包括以下步骤:
将新增样本图像集合中的每个新增样本图像输入历史分类模型,获得相应的新增样本图像在多个旧类别对应的第一候选预测值。然后将历史样本图像集合中的每个历史样本图像输入历史分类模型,获得相应的历史样本图像在多个旧类别对应的第二候选预测值。再基于获得的第一候选预测值、第二候选预测值、第二旧类别预测值,以及第三旧类别预测值,确定知识蒸馏损失值。
具体地,一个新增样本图像在每个旧类别对应一个第一候选预测值,第一候选预测值表示:历史分类模型输出的该新增样本图像在一个旧类别的预测logits输出。一个历史样本图像在每个旧类别对应一个第二候选预测值,第二候选预测值表示:历史分类模型输出的该历史样本图像在一个旧类别的预测logits输出。
基于原始分类模型输出的每个新样本图像对应的第二旧类别预测值,确定每个新增样本图像在多个旧类别各自对应的已矫正预测概率。基于原始分类模型输出的每个历史样本图像对应的第三旧类别预测值,确定每个历史样本图像在多个旧类别各自对应的已矫正预测概率。
基于历史分类模型输出的每个新样本图像对应的第一候选预测值,确定每个新增样本图像在多个旧类别各自对应的未矫正预测概率。基于历史分类模型输出的每个历史样本图像对应的第二候选预测值,确定每个历史样本图像在多个旧类别各自对应的未矫正预测概率。
基于各个新增样本图像在多个旧类别各自对应的已矫正预测概率和未矫正预测概率,以及各个历史样本图像在多个旧类别各自对应的已矫正预测概率和未矫正预测概率,确定知识蒸馏损失值,具体如以下公式(14)所示:
Figure BDA0003561532950000148
其中,
Figure BDA0003561532950000149
表示知识蒸馏损失值,
Figure BDA00035615329500001410
表示旧类别的数量,
Figure BDA0003561532950000151
表示输入x对应类别i的已矫正预测概率,
Figure BDA0003561532950000152
Figure BDA0003561532950000153
表示矫正后的分类模型(原始分类模型),α表示历史偏移量;
qθ(i|x)表示输入x对应类别i的未矫正预测概率,
Figure BDA0003561532950000154
fθ(.)表示矫正前的分类模型(历史分类模型),T表示一个温度参数。
本申请实施例中,在训练分类模型的过程中,基于矫正前后的分类模型分别输出的类别预测值,确定知识蒸馏损失值,故基于知识蒸馏损失值和交叉熵损失值,确定目标损失值,并采用目标损失值进行模型参数调整时,可以使得分类模型尽可能的保留对旧类别的分类能力,进而提高分类模型的准确性。
实施方式二,原始分类模型是没有进行输出矫正的历史分类模型,此时,直接基于原始分类模型输出的各个第二旧类别预测值,以及第三旧类别预测值,确定知识蒸馏损失值。
在采用前文描述的方式确定交叉熵损失值和知识蒸馏损失值,采用以下公式(15),确定目标损失值:
Figure BDA0003561532950000155
其中,
Figure BDA0003561532950000156
表示目标损失值,λ用于平衡交叉熵损失值和知识蒸馏损失值,其值为
Figure BDA0003561532950000157
λbase为一个超参数。
本申请实施例中,在训练原始分类模型的过程中,基于知识蒸馏损失值和交叉熵损失值,确定目标损失值,并采用目标损失值进行模型参数调整,使得原始分类模型逐步学习识别新类别的能力,同时不遗忘旧类别的分类能力,从而提高分类模型的准确性。
可选地,在上述步骤S502中,可以分别从新增样本图像集合和历史样本图像集合中,选取获得多个矫正样本图像;也可以从新增样本图像集合和历史样本图像集合之外的其他样本集合中,选取获得多个矫正样本图像;还可以从新增样本图像集合、历史样本图像集合以及其他样本集合中,选取获得多个矫正样本图像。
具体实施中,每个矫正样本图像对应一个新类别或一个旧类别,可以随机从新增样本图像集合和历史样本图像集合中,抽取多个矫正样本图像。新增样本图像集合和历史样本图像集合之外的其他样本集合之外的样本集合可以是验证集合、测试集合中。多个矫正样本图像中,至少一个新类别对应的矫正样本图像的总数量与多个旧类别对应的矫正样本图像的总数量相同。
本申请实施例中的增量学习方法,支持直接从新增样本图像集合和历史样本图像集合中,选取获得多个矫正样本图像,和/或从其他样本集合中选取获得多个矫正样本图像,从而提高了获得的矫正样本图像的多样性,进而提升对模型进行输出矫正的准确性。
可选地,前文已经推导出可以采用上述公式(12)确定目标偏移量,获得目标偏移量,然而,上述公式(12)中涉及两个积分项,分别为
Figure BDA0003561532950000161
Figure BDA0003561532950000162
为了避免进行复杂的积分计算,本申请实施例采用蒙特卡洛积分对上述两个积分项分别进行近似计算。
具体地,对于类别i,采用蒙特卡洛积分将积分项
Figure BDA0003561532950000163
近似计算为以下公式(16):
Figure BDA0003561532950000164
其中,
Figure BDA0003561532950000165
表示包含第i个类别的子空间,
Figure BDA0003561532950000166
数据点
Figure BDA0003561532950000167
是从均分分布q(x)中采集出来的。
采用蒙特卡洛积分将积分项
Figure BDA0003561532950000168
进行近似计算的方式,与采用蒙特卡洛积分将积分项
Figure BDA0003561532950000169
进行近似计算的方式相同,此处不再赘述。
在将上述两个积分项进行近似计算之后,可以将偏移量的计算公式调整为以下公式(17):
Figure BDA00035615329500001610
其中,
Figure BDA00035615329500001611
Zs=fθ(xs)[i]。
另外,为了减少估计误差,可以将所有类别分成多个类簇,由于同一个类簇中的类别对应的样本数量接近,因此可以对应到同一个偏移量。鉴于此,本申请实施例中,将多个旧类别作为一个基类簇,将至少一个新类别作为待矫正类簇。将上述公式(17)适应性修改后用于:基于基类簇与待矫正类簇能量对齐的原则,计算一个目标偏移量。
具体地,将多个矫正样本图像输入候选分类模型之后,基于获得的第一新类别预测值,确定至少一个新类别对应的第一平均能量值。然后基于获得的第一旧类别预测值,确定多个旧类别对应的第二平均能量值。将第一平均能量值与第二平均能量值的差值,作为目标偏移量。
针对每个新类别,基于多个矫正样本图像各自在该新类别对应的第一新类别预测值,确定该新类别对应的能量值。然后对至少一个新类别对应的第一新类别预测值求平均值,确定第一平均能量值。
针对每个旧类别,基于多个矫正样本图像各自在该旧类别对应的第一旧类别预测值,确定该旧类别对应的能量值。然后对多个旧类别对应的第一旧类别预测值求平均值,确定第二平均能量值。
之后将第二平均能量值与第一平均能量值的差值,作为目标偏移量,具体如以下公式(18)所示:
Figure BDA0003561532950000171
其中,
Figure BDA0003561532950000172
表示基类簇,基类簇包括多个旧类别,
Figure BDA0003561532950000173
表示待矫正类簇,待矫正类簇中包括至少一个新类别,Ci表示旧类别的数量,Cj表示新类别的数量,S表示矫正样本图像的数量。
需要说明的是,在本申请实施例中,也可以将至少一个新类别作为基类簇,将多个旧类别作为待矫正类簇,对此,本申请不做具体限定。
本申请实施例中,基于基类簇与待矫正类簇能量对齐的原则,计算目标偏移量,然后采用目标偏移量对候选分类模型进行输出矫正,获得目标分类模型,从而保证了目标分类模型在新旧类别上输出的预测值是平衡的,进而提高了分类模型分类的准确性。
可选地,在上述步骤S503中,本申请实施例至少采用以下方式对候选分类模型进行输出矫正,获得目标分类模型:
在候选分类模型的输出层中添加目标偏移量,获得目标分类模型,其中,目标偏移量用于对至少一个新类别对应的新类别预测值进行矫正。
具体地,在训练获得候选分类模型之后,在候选分类模型的输出层中添加目标偏移量作为矫正参数,获得目标分类模型。那么,后续采用目标分类模型对进行分类时,该矫正参数可以用于对至少一个新类别对应的新类别预测值进行矫正,以输出准确性更高的新类别预测值。
需要说明的是,在候选分类模型的输出层中添加目标偏移量作为矫正参数之后,该矫正参数也可以用于对多个旧类别对应的旧类别预测值进行矫正,对此,本申请不做具体限定。
举例来说,如图7所示,采用新增样本集合L和历史样本集合M,对原始分类模型进行迭代训练,获得候选分类模型701,其中,历史样本集合M对应两个旧类别,分别为旧类别1和旧类别2,新增样本集合L对应两个新类别,分别为新类别1和新类别2,新增样本集合L和历史样本集合M中的样本均为图像。
随机从新增样本集合L和历史样本集合M中选取样本图像作为矫正样本图像,获得矫正样本集合N,将矫正样本集合N中的每个矫正样本图像输入候选分类模型,获得相应的矫正样本图像在2个新类别对应的第一新类别预测值,以及在2个旧类别对应的第一旧类别预测值,每个矫正样本对应一个新类别或一个旧类别。
基于获得的第一新类别预测值和第一旧类别预测值确定目标偏移量702,然后将目标偏移量702,添加至候选分类模型701的输出层,获得目标分类模型703,其中,目标分类模型703采用目标偏移量702对新类别1和新类别2各自对应的新类别预测值进行矫正。
本申请实施中,采用目标偏移量对候选分类模型进行输出矫正,获得目标分类模型,使得目标分类模型在新旧类别上输出的预测值是平衡的,进而提高了分类模型分类的准确性。另外,直接采用目标偏移量对候选分离模型进行输出矫正,无需通过重复训练实现对候选分离模型的输出矫正,从而提高了增量学习的效率,降低了训练资源消耗。
可选地,上述历史样本图像集合是从用于训练原始分类模型的历史训练数据中选取的。采用目标偏移量,对候选分类模型进行输出矫正,获得目标分类模型之后,将新增样本图像集合作为历史样本添加至历史训练数据中,以及将至少一个新类别作为旧类别添加至多个旧类别中,实现对历史训练数据以及旧类别的更新。
具体实施中,前文中描述的步骤S501至S503对应一次增量学习,在实际应用过程中,可以根据实际需求进行多次增量学习,多次增量学习对应的新类别不重叠,相应的,每次增量学习的新增样本图像集合也不重叠。每次增强学习对应的新类别数量可以是相同的,也可以是不同的。在每次增量学习之后,将本次增量学习的至少一个新类别作为旧类别添加至多个旧类别中,并将更新后的多个旧类别用于下一次的增量学习。另外,将新增样本图像集合作为历史样本添加至历史训练数据,在下一次的增量学习中,从更新后的历史训练数据中选取历史样本图像集合,此时,历史样本图像集合对应更新后的多个旧类别。每次增量学习选取的历史样本图像集合中的历史样本数量相同,每次增量学习的方式为前文中描述的步骤S501至S503,此处不再赘述。
举例来说,设定增量学习的训练数据集为
Figure BDA0003561532950000181
其中,B表示增量学习的次数,
Figure BDA0003561532950000182
为一个新增样本图像集合,
Figure BDA0003561532950000183
对应C(b)个新类别,
Figure BDA0003561532950000184
为一个历史样本图像集合,历史样本图像集合
Figure BDA0003561532950000185
是从历史训练数据
Figure BDA0003561532950000186
中选取的,历史样本图像集合
Figure BDA0003561532950000187
对应
Figure BDA0003561532950000188
个旧类别,其中,
Figure BDA0003561532950000189
并且
Figure BDA00035615329500001810
b>1。设定在每次增量学习中,历史样本图像集合中的历史样本图像数量是相同的,即
Figure BDA00035615329500001811
因此,随着类别的增加,历史样本图像集合中每个旧类别对应的历史样本数量就越少,新旧类别的不平衡就越严重。
基于此,本申请实施例提供基于能量对齐的多次增量学习的方法,如图8所示,包括以下步骤:
步骤S801,获取增量学习的训练数据集
Figure BDA00035615329500001812
步骤S802,初始化分类模型fθ
步骤S803,采用第一个新增样本图像集合
Figure BDA00035615329500001813
基于公式(13)对初始化的分类模型进行迭代训练,获得目标分类模型1。
步骤S804,将目标分类模型1作为下一次增量学习的教师模型。
具体地,将第一个新增样本图像集合
Figure BDA00035615329500001814
作为历史样本添加至历史训练数据中,将第一个新增样本图像集合
Figure BDA00035615329500001815
对应的C(1)个新类别作为旧类别添加至旧类别集合中。
步骤S805,从训练数据集中获取第b个新增样本图像集合
Figure BDA00035615329500001816
随机从历史训练数据中抽取获得第b个历史样本图像集合
Figure BDA00035615329500001817
其中,历史样本图像集合
Figure BDA0003561532950000191
对应旧类别集合中所有旧类别,其中,b大于1。
步骤S806,采用第b个新增样本图像集合
Figure BDA0003561532950000192
和第b个历史样本图像集合
Figure BDA0003561532950000193
基于上述公式(15)对上一次增量学习获得的教师模型进行迭代训练,获得候选分类模型b。
步骤S807,从第b个新增样本图像集合
Figure BDA0003561532950000194
和第b个历史样本图像集合
Figure BDA0003561532950000195
中选取多个矫正样本图像,并采用上述公式(18),基于多个矫正样本图像,确定目标偏移量。
其中,历史样本图像集合
Figure BDA0003561532950000196
对应的多个旧类别为基类簇,新增样本图像集合
Figure BDA0003561532950000197
对应的至少一个新类别为待矫正类簇。
步骤S808,采用目标偏移量对候选分类模型b进行输出矫正,获得目标分类模型b,并目标分类模型b将作为下一次增量学习的教师模型。
将第b个新增样本图像集合
Figure BDA0003561532950000198
作为历史样本添加至历史训练数据中,将第b个新增样本图像集合
Figure BDA0003561532950000199
对应的C(b)个新类别作为旧类别添加至旧类别集合中。
步骤S809,设置b=b+1。
步骤S810,判断b是否大于B,若是,则执行步骤S811,否则执行步骤S805。
步骤S811,输出目标分类模型b-1。
为了验证上述基于能量对齐的增量学习方法的效果,本申请采用训练数据集ImageNet进行了相关实验,其中,ImageNet包含120万张训练图片和5万张验证图片。ImageNet 100包含100个随机选择的类别,ImageNet1000包含有1000个类别。全部实验采用ResNet18作为主干网络,使用Pytorch实现。
实验设置上,ImageNet 100和ImageNet1000都进行10次增量学习,每次增量学习分别新增10个新类别和100个新类别。此外,每次增量学习分别保留2000和20000张旧类别的图片。最终统计每次增量学习的分类准确率和10次增量学习的平均分类准确率。
具体地,参见以下表1,为针对数据集ImageNet 100,本申请中的增量学习方法与其他增量学习算法的效果对比结果。
表1.
Figure BDA00035615329500001910
Figure BDA0003561532950000201
参见以下表1,为针对数据集ImageNet 1000,本申请中的增量学习方法与其他增量学习算法的效果对比结果。
表2.
分类准确率 1 2 3 4 5 6 7 8 9 10 平均
LwF 90.1 77.7 63.9 51.8 43.0 35.5 31.6 28.4 26.4 24.3 42.5
iCaRL 90.0 83.0 77.5 70.5 63.0 57.5 53.5 50.0 48.0 44.0 60.8
EEIL 94.9 94.9 84.7 77.8 71.7 66.8 62.5 59.0 55.2 52.3 69.4
BiC 94.1 92.5 89.6 89.1 85.7 83.2 80.2 77.5 75.0 73.2 82.9
RPS - - - - - - - - - - 78.3
WA 93.9 91.5 89.4 87.7 86.5 85.6 84.5 83.2 82.1 81.1 85.7
本申请 94.4 92.5 90.4 89.0 87.7 86.8 85.7 84.5 83.4 82.6 87.0
由以上表1和表2可以看出,本申请中的基于能量对齐的增量学习方法在数据集ImageNet 100和数据集ImageNet 1000两个数据集上均取得了最好的平均准确率,超过了其他增量学习算法。且本申请提出的基于能量对齐的增量学习方法无需更改训练方式,无需改变已训练好的模型参数,只需要对训练好的模型进行输出logit调整即可,是一种简单有效的增量学习方法,很好的处理了增量学习中的数据不平衡问题。
其次,针对数据集ImageNet 100,图9a示例性示出了本申请中的增量学习方法与其他增量学习算法在每次增量学习上的效果对比结果。针对数据集ImageNet 1000,图9b示例性示出了本申请中的增量学习方法与其他增量学习算法在每次增量学习上的效果对比结果。由以上图9a和图9b可以看出,采用本申请中基于能量对应的增量学习方法可以大大提升每次增量学习的分类准确率。
另外,通过比较本申请中的增量学习方法与其他增量学习算法的分类混淆矩阵可以看出,其他增量学习算法没有采用能量对齐,故很多本该对应旧类别的训练数据被分到了新类别,表现出很强的分类偏向性,而本申请中采用能量对齐的增量学习方法下,分类的分布比较均匀,表明了能量对齐算法对于模型偏置的矫正起到了明显的作用。
基于图1c所示的系统架构图,本申请实施例提供了一种图像分类方法的流程,如图10所示,该方法的流程可以由图1c所示的终端设备101或服务器102执行,也可以由终端设备101和服务器102交互执行,包括以下步骤:
步骤S1001,将待处理图像输入目标分类模型,获得待处理图像在多个旧类别各自对应的初始预测值,以及在至少一个新类别对应的矫正后的目标预测值。
具体地,目标分类模型是采用前文描述的图像处理方法获得的,此处不再赘述。待处理图像在每个旧类别上对应一个初始预测值,初始预测值表示待处理图像在一个旧类别的预测logits输出。待处理图像在每个新类别上对应一个目标预测值,目标预测值表示待处理图像在一个新类别的矫正后的预测logits输出。
步骤S1002,基于多个旧类别各自对应的初始预测值,以及至少一个新类别各自对应的目标预测值,从多个旧类别和至少一个新类别中,确定待处理图像对应的目标类别。
具体地,采用上述公式(2),基于多个旧类别各自对应的初始预测值,以及至少一个新类别各自对应的目标预测值,确定待处理图像在至少一个新类别和多个旧类别各自对应的目标预测概率。然后按照预测概率从大到小的顺序,对获得的各个目标预测概率进行排序,获得排序结果。将排序结果中排在第一位的目标预测概率对应的类别,作为待处理图像对应的目标类别。
本申请实施例中,由于采用能量对齐的方式训练获得目标分类模型,因此目标分类模型在新旧类别上输出的预测值是平衡的,故采用目标分类模型预测待处理图像对应的目标类别时,可有效提高分类的准确性。
可选地,在上述步骤1001中,本申请实施例至少采用以下方式获得待处理图像在多个旧类别各自对应的初始预测值,以及在至少一个新类别对应的矫正后的目标预测值:
通过目标分类模型,对待处理图像进行特征提取,获得目标特征图像,并基于目标特征图像,确定待处理图像在至少一个新类别和多个旧类别各自对应的初始预测值。通过目标分类模型,采用目标偏移量对至少一个新类别各自对应的初始预测值进行矫正,获得至少一个新类别各自对应的目标预测值。
具体地,待处理图像在每个新类别上对应一个初始预测值,初始预测值表示待处理图像在一个新类别的预测logits输出。目标分类模型在基于目标特征图像,确定待处理图像在至少一个新类别各自对应的预测logits输出之后,采用上述公式(11),基于目标偏移量,分别对至少一个新类别各自对应的初始预测值进行矫正,获得至少一个新类别各自对应的目标预测值。
以一个新类别具体来说,将目标分类模型预测获得的该新类别对应的预测logits输出与目标偏移量相加,获得该新类别对应的目标预测值(即矫正后的预测logits输出)。
本申请实施例中,基于基类簇与待矫正类簇能量对齐的原则,计算目标偏移量,然后采用目标偏移量对候选分类模型进行输出矫正,获得目标分类模型,故采用目标分类模型对待处理图像进行分类时,在获得待处理图像在至少一个新类别对应的初始预测值之后,目标分类模型通过目标偏移量对至少一个新类别对应的初始预测值进行矫正,获得准确性更高的目标预测值,进而在采用目标预测值确定待处理图像对应的类别时,提高分类的准确性。
基于相同的技术构思,本申请实施例提供了一种图像处理装置的结构示意图,如图11所示,该装置1100包括:
模型训练模块1101,用于采用新增样本图像集合和历史样本图像集合,对原始分类模型进行迭代训练,直到满足迭代停止条件,获得候选分类模型,其中,所述新增样本图像集合对应至少一个新类别,所述历史样本图像集合对应多个旧类别;
第一预测模块1102,用于获取多个矫正样本图像,并将每个所述矫正样本图像输入所述候选分类模型,获得相应的矫正样本图像在所述至少一个新类别对应的第一新类别预测值,以及在所述多个旧类别对应的第一旧类别预测值,每个所述矫正样本图像对应一个所述新类别或一个所述旧类别;
矫正模块1103,用于基于获得的第一新类别预测值和第一旧类别预测值确定目标偏移量,并采用所述目标偏移量,对所述候选分类模型进行输出矫正,获得目标分类模型。
可选地,所述矫正模块1103具体用于:
基于获得的第一新类别预测值,确定所述至少一个新类别对应的第一平均能量值;
基于获得的第一旧类别预测值,确定所述多个旧类别对应的第二平均能量值;
将所述第一平均能量值与所述第二平均能量值的差值,作为所述目标偏移量。
可选地,所述矫正模块1103具体用于:
在所述候选分类模型的输出层中添加所述目标偏移量,获得所述目标分类模型,其中,所述目标偏移量用于对所述至少一个新类别对应的新类别预测值进行矫正。
可选地,所述历史样本图像集合是从用于训练所述原始分类模型的历史训练数据中选取的;
所述矫正模块1103还用于:
采用所述目标偏移量,对所述候选分类模型进行输出矫正,获得目标分类模型之后,将所述新增样本图像集合作为历史样本添加至所述历史训练数据中,以及将所述至少一个新类别作为旧类别添加至所述多个旧类别中。
可选地,所述模型训练模块1101还用于:
采用新增样本图像集合和历史样本图像集合,对原始分类模型进行迭代训练之前,采用以下任意一种方式确定所述原始分类模型:
将初始化的分类模型,作为所述原始分类模型;
将采用历史训练数据训练获得的分类模型,作为所述原始分类模型;
将采用历史训练数据进行训练,且采用历史偏移量进行输出矫正获得的分类模型,作为所述原始分类模型。
可选地,所述第一预测模块1102具体用于:
分别从所述新增样本图像集合和所述历史样本图像集合中,选取获得所述多个矫正样本图像;或者,
从所述新增样本图像集合和所述历史样本图像集合之外的其他样本集合中,选取获得所述多个矫正样本图像。
可选地,所述模型训练模块1101具体用于:
将所述新增样本图像集合中的每个新增样本图像输入所述原始分类模型,获得相应的新增样本图像在所述至少一个新类别对应的第二新类别预测值,以及在所述多个旧类别对应的第二旧类别预测值;
将所述历史样本图像集合中的每个历史样本图像输入所述原始分类模型,获得相应的历史样本在所述至少一个新类别对应的第三新类别预测值,以及在所述多个旧类别对应的第三旧类别预测值;
基于获得的第二新类别预测值、第二旧类别预测值、第三新类别预测值以及第三旧类别预测值,确定目标损失值,并采用所述目标损失值对所述原始分类模型进行参数调整。
可选地,所述模型训练模块1101具体用于:
基于获得的第二新类别预测值、第二旧类别预测值、第三新类别预测值以及第三旧类别预测值,确定交叉熵损失值;
基于获得的第二旧类别预测值,以及第三旧类别预测值,确定知识蒸馏损失值;
基于所述交叉熵损失值和所述知识蒸馏损失值,确定所述目标损失值。
可选地,所述原始分类模型是采用历史偏移量对相应的历史分类模型进行输出矫正后获得的;
所述模型训练模块1101具体用于:
将所述新增样本图像集合中的每个新增样本图像输入所述历史分类模型,获得相应的新增样本图像在所述多个旧类别对应的第一候选预测值;
将所述历史样本图像集合中的每个历史样本图像输入所述历史分类模型,获得相应的历史样本图像在所述多个旧类别对应的第二候选预测值;
基于获得的第一候选预测值、第二候选预测值、第二旧类别预测值,以及第三旧类别预测值,确定知识蒸馏损失值。
本申请实施例中,采用新旧样本图像集合对原始分类模型进行迭代训练,获得候选分类模型,故候选分类模型既学习到了新类别的分类能力,同时没有遗忘旧类别的分类能力。通过候选分类模型对多个矫正样本图像进行分类预测,并基于获得的多个矫正样本图像在新旧类别上的预测值,确定目标偏移量,再采用目标偏移量对候选分类模型进行输出矫正,获得目标分类模型,使得目标分类模型在新旧类别上输出的预测值是平衡的,进而提高了分类模型分类的准确性。另外,直接采用目标偏移量对候选分离模型进行输出矫正,无需通过重复训练实现对候选分离模型的输出矫正,从而提高了增量学习的效率,降低了训练资源消耗。
基于相同的技术构思,本申请实施例提供了一种图像分类装置的结构示意图,如图12所示,该装置1200包括:
第二预测模块1201,用于将待处理图像输入目标分类模型,获得所述待处理图像在多个旧类别各自对应的初始预测值,以及在至少一个新类别对应的矫正后的目标预测值,其中,所述目标分类模型是采用上述图像处理装置获得的;
分类模块1202,用于基于所述多个旧类别各自对应的初始预测值,以及所述至少一个新类别各自对应的目标预测值,从所述多个旧类别和所述至少一个新类别中,确定所述待处理图像对应的目标类别。
可选地,所述第二预测模块1201具体用于:
通过所述目标分类模型,对所述待处理图像进行特征提取,获得目标特征图像,并基于所述目标特征图像,确定所述待处理图像在所述至少一个新类别和所述多个旧类别各自对应的初始预测值;
通过所述目标分类模型,采用目标偏移量对所述至少一个新类别各自对应的初始预测值进行矫正,获得所述至少一个新类别各自对应的目标预测值。
本申请实施例中,基于基类簇与待矫正类簇能量对齐的原则,计算目标偏移量,然后采用目标偏移量对候选分类模型进行输出矫正,获得目标分类模型,故采用目标分类模型对待处理图像进行分类时,在获得待处理图像在至少一个新类别对应的初始预测值之后,目标分类模型通过目标偏移量对至少一个新类别对应的初始预测值进行矫正,获得准确性更高的目标预测值,进而在采用目标预测值确定待处理图像对应的类别时,提高分类的准确性。
基于相同的技术构思,本申请实施例提供了一种计算机设备,该计算机设备可以是图1c所示的终端设备和/或服务器,如图13所示,包括至少一个处理器1301,以及与至少一个处理器连接的存储器1302,本申请实施例中不限定处理器1301与存储器1302之间的具体连接介质,图13中处理器1301和存储器1302之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。
在本申请实施例中,存储器1302存储有可被至少一个处理器1301执行的指令,至少一个处理器1301通过执行存储器1302存储的指令,可以执行上述图像处理和图像分类方法的步骤。
其中,处理器1301是计算机设备的控制中心,可以利用各种接口和线路连接计算机设备的各个部分,通过运行或执行存储在存储器1302内的指令以及调用存储在存储器1302内的数据,从而实现增量学习和图像分类。可选的,处理器1301可包括一个或多个处理单元,处理器1301可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1301中。在一些实施例中,处理器1301和存储器1302可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器1301可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器1302作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1302可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器1302是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器1302还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
基于同一发明构思,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当程序在计算机设备上运行时,使得计算机设备执行上述图像处理和图像分类方法的步骤。
基于同一发明构思,本申请实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述图像处理和图像分类方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (16)

1.一种图像处理方法,其特征在于,包括:
采用新增样本图像集合和历史样本图像集合,对原始分类模型进行迭代训练,直到满足迭代停止条件,获得候选分类模型,其中,所述新增样本图像集合对应至少一个新类别,所述历史样本图像集合对应多个旧类别;
获取多个矫正样本图像,并将每个所述矫正样本图像输入所述候选分类模型,获得相应的矫正样本图像在所述至少一个新类别对应的第一新类别预测值,以及在所述多个旧类别对应的第一旧类别预测值,每个所述矫正样本图像对应一个所述新类别或一个所述旧类别;
基于获得的第一新类别预测值和第一旧类别预测值确定目标偏移量,并采用所述目标偏移量,对所述候选分类模型进行输出矫正,获得目标分类模型。
2.如权利要求1所述的方法,其特征在于,所述基于获得的第一新类别预测值和第一旧类别预测值确定目标偏移量,包括:
基于获得的第一新类别预测值,确定所述至少一个新类别对应的第一平均能量值;
基于获得的第一旧类别预测值,确定所述多个旧类别对应的第二平均能量值;
将所述第一平均能量值与所述第二平均能量值的差值,作为所述目标偏移量。
3.如权利要求1所述的方法,其特征在于,所述采用所述目标偏移量,对所述候选分类模型进行输出矫正,获得目标分类模型,包括:
在所述候选分类模型的输出层中添加所述目标偏移量,获得所述目标分类模型,其中,所述目标偏移量用于对所述至少一个新类别对应的新类别预测值进行矫正。
4.如权利要求1所述的方法,其特征在于,所述历史样本图像集合是从用于训练所述原始分类模型的历史训练数据中选取的;
所述采用所述目标偏移量,对所述候选分类模型进行输出矫正,获得目标分类模型之后,还包括:
将所述新增样本图像集合作为历史样本添加至所述历史训练数据中,以及将所述至少一个新类别作为旧类别添加至所述多个旧类别中。
5.如权利要求1所述的方法,其特征在于,所述采用新增样本图像集合和历史样本图像集合,对原始分类模型进行迭代训练之前,采用以下任意一种方式确定所述原始分类模型:
将初始化的分类模型,作为所述原始分类模型;
将采用历史训练数据训练获得的分类模型,作为所述原始分类模型;
将采用历史训练数据进行训练,且采用历史偏移量进行输出矫正获得的分类模型,作为所述原始分类模型。
6.如权利要求1所述的方法,其特征在于,所述获取多个矫正样本图像,包括:
分别从所述新增样本图像集合和所述历史样本图像集合中,选取获得所述多个矫正样本图像;或者,
从所述新增样本图像集合和所述历史样本图像集合之外的其他样本集合中,选取获得所述多个矫正样本图像。
7.如权利要求1至6任一所述的方法,其特征在于,在对所述原始分类模型进行迭代训练时,每次迭代过程包括以下步骤:
将所述新增样本图像集合中的每个新增样本图像输入所述原始分类模型,获得相应的新增样本图像在所述至少一个新类别对应的第二新类别预测值,以及在所述多个旧类别对应的第二旧类别预测值;
将所述历史样本图像集合中的每个历史样本图像输入所述原始分类模型,获得相应的历史样本图像在所述至少一个新类别对应的第三新类别预测值,以及在所述多个旧类别对应的第三旧类别预测值;
基于获得的第二新类别预测值、第二旧类别预测值、第三新类别预测值以及第三旧类别预测值,确定目标损失值,并采用所述目标损失值对所述原始分类模型进行参数调整。
8.如权利要求7所述的方法,其特征在于,所述基于获得的第二新类别预测值、第二旧类别预测值、第三新类别预测值以及第三旧类别预测值,确定目标损失值,包括:
基于获得的第二新类别预测值、第二旧类别预测值、第三新类别预测值以及第三旧类别预测值,确定交叉熵损失值;
基于获得的第二旧类别预测值,以及第三旧类别预测值,确定知识蒸馏损失值;
基于所述交叉熵损失值和所述知识蒸馏损失值,确定所述目标损失值。
9.如权利要求8所述的方法,其特征在于,所述原始分类模型是采用历史偏移量对相应的历史分类模型进行输出矫正后获得的;
所述基于获得的第二旧类别预测值,以及第三旧类别预测值,确定知识蒸馏损失值,包括:
将所述新增样本图像集合中的每个新增样本图像输入所述历史分类模型,获得相应的新增样本图像在所述多个旧类别对应的第一候选预测值;
将所述历史样本图像集合中的每个历史样本图像输入所述历史分类模型,获得相应的历史样本图像在所述多个旧类别对应的第二候选预测值;
基于获得的第一候选预测值、第二候选预测值、第二旧类别预测值,以及第三旧类别预测值,确定知识蒸馏损失值。
10.一种图像分类方法,其特征在于,包括:
将待处理图像输入目标分类模型,获得所述待处理图像在多个旧类别各自对应的初始预测值,以及在至少一个新类别对应的矫正后的目标预测值,其中,所述目标分类模型是采用权利要求1至9任一所述的方法获得的;
基于所述多个旧类别各自对应的初始预测值,以及所述至少一个新类别各自对应的目标预测值,从所述多个旧类别和所述至少一个新类别中,确定所述待处理图像对应的目标类别。
11.如权利要求10所述的方法,其特征在于,所述将待处理图像输入目标分类模型,获得所述待处理图像在多个旧类别各自对应的初始预测值,以及在至少一个新类别对应的矫正后的目标预测值,包括:
通过所述目标分类模型,对所述待处理图像进行特征提取,获得目标特征图像,并基于所述目标特征图像,确定所述待处理图像在所述至少一个新类别和所述多个旧类别各自对应的初始预测值;
通过所述目标分类模型,采用目标偏移量对所述至少一个新类别各自对应的初始预测值进行矫正,获得所述至少一个新类别各自对应的目标预测值。
12.一种图像处理装置,其特征在于,包括:
模型训练模块,用于采用新增样本图像集合和历史样本图像集合,对原始分类模型进行迭代训练,直到满足迭代停止条件,获得候选分类模型,其中,所述新增样本图像集合对应至少一个新类别,所述历史样本图像集合对应多个旧类别;
第一预测模块,用于获取多个矫正样本图像,并将每个所述矫正样本图像输入所述候选分类模型,获得相应的矫正样本图像在所述至少一个新类别对应的第一新类别预测值,以及在所述多个旧类别对应的第一旧类别预测值,每个所述矫正样本图像对应一个所述新类别或一个所述旧类别;
矫正模块,用于基于获得的第一新类别预测值和第一旧类别预测值确定目标偏移量,并采用所述目标偏移量,对所述候选分类模型进行输出矫正,获得目标分类模型。
13.一种图像分类装置,其特征在于,包括:
第二预测模块,用于将待处理图像输入目标分类模型,获得所述待处理图像在多个旧类别各自对应的初始预测值,以及在至少一个新类别对应的矫正后的目标预测值,其中,所述目标分类模型是采用权利要求12所述的装置获得的;
分类模块,用于基于所述多个旧类别各自对应的初始预测值,以及所述至少一个新类别各自对应的目标预测值,从所述多个旧类别和所述至少一个新类别中,确定所述待处理图像对应的目标类别。
14.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~11任一所述方法的步骤。
15.一种计算机可读存储介质,其特征在于,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行权利要求1~11任一所述方法的步骤。
16.一种计算机程序产品,其特征在于,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行权利要求1-11任一项所述的方法的步骤。
CN202210294934.5A 2022-03-23 2022-03-23 一种图像处理和图像分类方法、装置、设备及存储介质 Pending CN114693993A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210294934.5A CN114693993A (zh) 2022-03-23 2022-03-23 一种图像处理和图像分类方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210294934.5A CN114693993A (zh) 2022-03-23 2022-03-23 一种图像处理和图像分类方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114693993A true CN114693993A (zh) 2022-07-01

Family

ID=82138479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210294934.5A Pending CN114693993A (zh) 2022-03-23 2022-03-23 一种图像处理和图像分类方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114693993A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117011630A (zh) * 2022-09-16 2023-11-07 腾讯科技(深圳)有限公司 一种目标检测模型的训练方法及装置
CN118261270A (zh) * 2024-04-08 2024-06-28 深圳数阔信息技术有限公司 基于模型评估指标的类别偏好设置方法及相关装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368874A (zh) * 2020-01-23 2020-07-03 天津大学 一种基于单分类技术的图像类别增量学习方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368874A (zh) * 2020-01-23 2020-07-03 天津大学 一种基于单分类技术的图像类别增量学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BOWEN ZHAO等: "Energy Aligning for Biased Models", HTTPS://ARXIV.ORG/PDF/2106.03343, 7 June 2021 (2021-06-07), pages 1 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117011630A (zh) * 2022-09-16 2023-11-07 腾讯科技(深圳)有限公司 一种目标检测模型的训练方法及装置
CN118261270A (zh) * 2024-04-08 2024-06-28 深圳数阔信息技术有限公司 基于模型评估指标的类别偏好设置方法及相关装置

Similar Documents

Publication Publication Date Title
CN111553480B (zh) 图像数据处理方法、装置、计算机可读介质及电子设备
CN110210625B (zh) 基于迁移学习的建模方法、装置、计算机设备和存储介质
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN114693993A (zh) 一种图像处理和图像分类方法、装置、设备及存储介质
CN111914908B (zh) 一种图像识别模型训练方法、图像识别方法及相关设备
US9536206B2 (en) Method and apparatus for improving resilience in customized program learning network computational environments
CN113256335B (zh) 数据筛选方法、多媒体数据的投放效果预测方法及装置
CN111563192A (zh) 实体对齐方法、装置、电子设备及存储介质
CN112560823B (zh) 基于分布学习的自适应方差和权重的人脸年龄估计方法
CN114298122A (zh) 数据分类方法、装置、设备、存储介质及计算机程序产品
CN113449012A (zh) 基于大数据预测的互联网服务挖掘方法及大数据预测系统
CN111309923B (zh) 对象向量确定、模型训练方法、装置、设备和存储介质
CN115238909A (zh) 一种基于联邦学习的数据价值评估方法及其相关设备
CN111897943A (zh) 会话记录搜索方法、装置、电子设备及存储介质
CN116227624A (zh) 面向异构模型的联邦知识蒸馏方法和系统
Hu et al. Teacher-student architecture for knowledge distillation: A survey
CN110807693A (zh) 专辑的推荐方法、装置、设备和存储介质
Dulac-Arnold et al. Sequentially generated instance-dependent image representations for classification
CN113762331A (zh) 关系型自蒸馏方法、装置和系统及存储介质
CN113591892A (zh) 一种训练数据的处理方法及装置
CN111091198A (zh) 一种数据处理方法及装置
CN116306969A (zh) 基于自监督学习的联邦学习方法和系统
CN110717037A (zh) 对用户分类的方法和装置
CN117010480A (zh) 模型训练方法、装置、设备、存储介质及程序产品
Hu et al. Data-free dense depth distillation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination