CN113963235A

CN113963235A - 一种跨类别图像识别模型重用方法和系统

Info

Publication number: CN113963235A
Application number: CN202111254295.1A
Authority: CN
Inventors: 叶翰嘉; 陆苏; 詹德川; 周志华; 姜�远
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-01-21

Abstract

本发明公开一种跨类别图像识别模型重用方法和系统，从训练数据集中随机抽取多个样本元组，并使用模型T计算这些样本元组的关系评价矩阵；使用模型S计算这些样本元组的关系评价矩阵；将T计算得到的关系评价矩阵与S计算得到的关系评价矩阵做匹配，从而优化新类模型S；从训练数据集中随机抽取多个样本小批，并使用T计算这些样本小批的新类分类置信度；使用S计算这些样本小批的新类分类置信度；将T计算得到的新类分类置信度与S计算得到的新类分类置信度做匹配，同时最小化S在这些样本小批上的交叉熵损失，从而进一步优化S；第二阶段结束后，返回训练好的新类S。本发明可以提高旧模型的可复用性。

Description

一种跨类别图像识别模型重用方法和系统

技术领域

本发明涉及一种跨类别图像识别模型重用方法和系统，涉及计算机视觉中的图像分类和机器学习中的深度学习。具体来讲，本发明的关键是使用一种特殊的关系评价方式将预训练模型的表示能力和分类能力提取出来，从而指导新模型的训练。具体来讲，本方法分为两个阶段，分别提取预训练模型在新类图像数据上的表示能力和分类能力，最终提高新模型的分类准确率。

背景技术

深度学习技术。深度学习技术是机器学习技术的一种，它使用一种称为神经网络的模型来完成对象特征的提取，使得提取的特征能够帮助后续的各项任务，比如分类、回归、聚类等。由于深度学习强大的特征提取能力，它在图像处理、视频处理、自然语言处理和语音处理等领域取得了出色的成效，进而在移动互联网的各项服务中被广泛应用。在使用深度学习技术提取对象特征时，所使用的神经网络的深度对提取能力有很大的影响。随着技术的发展，人们使用的神经网络已经越来越深，比如1994年提出的LeNet只有5层，而2017年提出的DenseNet则有一百多层。然而，极深的神经网络在更好地完成任务的同时也带来了极大的计算负担，这些网络的训练十分困难，而且训练完成之后使用起来也需要消耗不少的计算资源。

模型重用技术。为了减少极深神经网络带来的计算负担，加速其训练过程，优化其最终性能，人们尝试重用以往的经验来辅助新神经网络的训练。知识蒸馏技术是模型重用技术的一个典型代表，它可以被形象地理解为“老师”指导“学生”的过程。例如，我们有一个极深神经网络T(被称作教师模型)，它具有很强的特征提取能力并在旧任务上得到了充分训练。知识蒸馏技术可以将教师模型的能力赋予一个较小的神经网络S(被称作学生模型)，并使得学生模型获取较强的处理旧任务的能力。传统的知识蒸馏技术要求教师模型和学生模型处理相同的任务。例如，在图像识别应用中，该技术要求T处理的图像类别和S处理的图像类别完全相同，这就限制了其使用范围。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明提供一种跨类别图像识别模型重用方法和系统，分两个阶段分别提取预训练模型的新类表示能力和新类分类能力，从不同角度构建旧类模型和新类模型间的联系，最大程度上复用旧类模型，最终提高新类模型的分类准确率。

技术方案：一种跨类别图像识别模型重用方法，包含两大阶段，第一阶段：基于关系评价矩阵的模型匹配阶段，和第二阶段：基于新类分类置信度的模型匹配阶段。

可以利用在图像旧类(包含已见过的图像)上训练好的模型T来指导新类(包含未见过的图像)上模型S的训练，并使得训练后的模型能够同时识别旧类图像和新类图像。该方法首先获取在旧类上预训练好的模型T以及新类上的训练图像数据集，并初始化新类上的模型S，然后分两个阶段执行；第一阶段，从训练图像数据集中随机抽取多个样本元组，并使用模型T计算这些样本元组的关系评价矩阵；使用模型S计算这些样本元组的关系评价矩阵；将模型T计算得到的关系评价矩阵与模型S计算得到的关系评价矩阵做匹配，从而优化新类模型S；第二阶段，从训练图像数据集中随机抽取多个样本小批(样本元组)，并使用模型T计算这些样本小批的新类分类置信度；使用模型S计算这些样本小批的新类分类置信度；将模型T计算得到的新类分类置信度与模型S计算得到的新类分类置信度做匹配，同时最小化模型S在这些样本小批上的交叉熵损失，从而进一步优化模型S；第二阶段结束后，返回训练好的新类模型S。

用户输入一张图像图片(属于新类)，模型S输出该图像的类别。

本发明可以重用不同类别图像上的预训练模型，提高旧模型的可复用性。同时，由于借助了旧模型的能力，本发明还可以提高新模型的分类准确性。

基于关系评价矩阵的模型匹配阶段具体为：

步骤100，获取图像旧类上预训练好的模型T和图像新类上的训练图像数据集。

步骤101，初始化图像新类上的模型S。

步骤102，从图像新类上的训练图像数据集中随机抽取一个包含k+2个图像的样本元组，形如(x_0,x_p,x_n1,x_n2,…,x_nk)。其中，x_0与x_p来自同一个类别，而x_0与x_n1,x_n2,…,x_nk的类别不同。这里的k是一个不小于1的常数，可以由用户指定。

步骤103，使用模型T获取样本元组中所有样本的特征表示，记作(u_0,u_p,u_n1,u_n2,…,u_nk)。

步骤104，分别计算u_0和u_p,u_n1,u_n2,…,u_nk之间的欧式距离，记作d_p,d_n1,d_n2,…,d_nk。

步骤105，依据步骤104中计算得到的距欧式离计算关系评价向量A＝softmax(d_p,d_n1,d_n2,…,d_nk)，其中softmax函数是机器学习领域常用的归一化工具。

步骤106，使用模型S获取样本元组中所有样本的特征表示，记作(v_0,v_p,v_n1,v_n2,…,v_nk)。

步骤107，分别计算v_0和v_p,v_n1,v_n2,…,v_nk之间的欧式距离，记作e_p,e_n1,e_n2,…,e_nk。

步骤108，依据步骤107中计算得到的欧式距离计算关系评价向量B＝softmax(e_p,e_n1,e_n2,…,e_nk)。

步骤109，计算KL散度损失函数KL(A||B)，并使用优化技术更新模型S。

步骤110，检查迭代是否收敛，如果收敛则进入步骤111，否则回到步骤102。具体来讲，如果本轮计算得到的KL散度损失与上一轮得到的KL散度损失之间的误差不超过给定常数C，就认为迭代已经收敛；

步骤111，输出优化后的模型S，结束。

基于新类分类置信度的模型匹配阶段具体为：

步骤200，获取图像旧类上预训练好的模型T和图像新类上的训练图像数据集。

步骤201，使用模型T计算训练图像数据集上所有样本的表示，并将这些表示按照样本的类别分组。假设训练图像数据集中共包含M类样本，则此步骤将获得M组表示。

步骤202，分别计算M组表示的平均值，从而得到M个类中心，记作(c_1,c_2,…,c_M)；

步骤203，获取上一阶段优化后的模型S。

步骤204，从图像新类上的训练图像数据集中随机抽取一个包含j个样本的样本元组，形如(x_1,x_2,…,x_j)。这里的j是一个不小于1的常数，可以由用户指定。

步骤205，使用模型T获取样本元组中所有样本的特征表示，记作(u_1,u_2,…,u_j)。

步骤204，分别计算这j个样本到M个类中心的欧式距离，一共得到j*M个距离。

步骤205，基于上述这j*M个距离，使用NCM分类器获得这j个样本的新类分类置信度。其中NCM分类器是机器学习领域中一种常用的基于表示的分类器；

步骤206，使用模型S计算样本小批(x_1,x_2,…,x_j)的新类分类置信度；

步骤207，将步骤205得到的分类置信度和步骤206得到的分类置信度做匹配，计算它们之间的KL散度损失，使用优化技术更新模型S。

步骤208，计算模型S在该样本元组上的交叉熵损失，使用优化技术更新模型S。

步骤209，检查迭代是否收敛，如果收敛则进入步骤210，否则回到步骤204。具体来讲，当新类分类置信度间的KL散度损失和模型S的交叉熵损失的变化均不超过C时，就认为迭代已经收敛。

步骤210，输出进一步优化后的模型S，结束。

所述优化技术是指优化理论中的随机梯度下降法，利用该方法，我们可以对该问题的目标函数求一个局部最优解。

一种跨类别图像识别模型重用系统，包含基于关系评价矩阵的模型匹配模块，基于新类分类置信度的模型匹配模块，模型仓库，以及数据库。

所述模型仓库用于存储图像旧类上预训练好的模型T。

所述数据库存储图像新类上的训练图像数据集。

所述基于关系评价矩阵的模型匹配模块从模型仓库中获取图像旧类上预训练好的模型T，从数据库中的图像新类上的训练图像数据集中随机抽取多个样本元组，并使用模型T计算这些样本元组的关系评价矩阵；使用模型S计算这些样本元组的关系评价矩阵；将模型T计算得到的关系评价矩阵与模型S计算得到的关系评价矩阵做匹配，从而优化新类模型S，并经优化后的新类模型S传递给所述基于新类分类置信度的模型匹配模块。

所述基于新类分类置信度的模型匹配模块从模型仓库中获取图像旧类上预训练好的模型T，从训练图像数据集中随机抽取多个样本小批(样本元组)，并使用模型T计算这些样本小批的新类分类置信度；使用基于关系评价矩阵的模型匹配模块提供的模型S计算这些样本小批的新类分类置信度；将模型T计算得到的新类分类置信度与模型S计算得到的新类分类置信度做匹配，同时最小化模型S在这些样本小批上的交叉熵损失，从而进一步优化模型S；返回训练好的新类模型S。

用户输入一张图像图片(属于新类)给所述基于新类分类置信度的模型匹配模块反馈的模型S，模型S输出该图像的类别。

一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如上所述的跨类别图像识别模型重用方法。

一种计算机可读存储介质，该计算机可读存储介质存储有执行如上所述的跨类别图像识别模型重用方法的计算机程序。

有益效果：与现有技术相比，本发明所提供的跨类别图像识别模型重用方法和系统可以重用不同图像类别的预训练模型来辅助图像新类模型的训练。这一特点使得预训练模型的可复用性得到增强。另外，由于本发明提出的方法分两个阶段分别提取预训练模型的表示能力和分类能力，所以最终得到的新模型能够更准确地识别图像。

附图说明

图1为本发明实施例中基于关系评价矩阵的模型匹配阶段流程图；

图2为本发明实施例中基于新类分类置信度的模型匹配阶段流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种跨类别图像识别模型重用方法，包含基于关系评价矩阵的模型匹配阶段和基于新类分类置信度的模型匹配阶段。

基于关系评价矩阵的模型匹配阶段如图1所示，首先，从模型仓库中获取旧类上预训练好的模型T，并从数据库中获取新类上的训练图像数据集(步骤10)；然后，初始化新类上的模型S(步骤11)；之后开始第一阶段的训练过程。从训练图像数据集中采样一个包含k+2个图像的样本元组(步骤12)，其具体形式如上文所述。该元组中的样本数量可以由用户指定，其中第一个样本和第二个样本来自同一个类别，且第一个样本和其他样本来自不同类别；之后，分别使用模型T和模型S计算该样本元组上的关系评价矩阵(步骤13和步骤14)，计算方法如上文所述；第一阶段的模型匹配实际上是最小化模型T的关系评价矩阵和模型S的关系评价矩阵之间的KL散度，所以此时使用KL损失函数优化模型S(步骤15)；在步骤16中，检查当前迭代过程是否收敛，如果收敛则进入步骤17，该阶段结束，否则回到步骤12。

基于新类分类置信度的模型匹配阶段如图2所示，首先，从模型仓库中获取旧类上预训练好的模型T，并从数据库中获取新类上的训练图像数据集(步骤20)；然后，读取上一阶段中优化过的模型S(步骤21)，并开始第二阶段的训练过程。从训练图像数据集中采样一个样本小批(步骤22)，并分别计算模型T和模型S在该样本小批上的新类分类置信度(步骤23和步骤24)，之后计算KL损失(步骤25)；除此之外，阶段二还需要计算模型S在样本小批上的交叉熵损失，并使用KL损失和交叉熵损失优化模型S(步骤26)；在步骤27中，系统检查当前迭代过程是否收敛，如果收敛则进入步骤28，该阶段结束，否则回到步骤22。

跨类别图像识别模型重用系统，包含基于关系评价矩阵的模型匹配模块，基于新类分类置信度的模型匹配模块，模型仓库，以及数据库。

模型仓库用于存储图像旧类上预训练好的模型T。

数据库存储图像新类上的训练图像数据集。

基于关系评价矩阵的模型匹配模块从模型仓库中获取图像旧类上预训练好的模型T，从数据库中获取图像新类上的训练图像数据集，初始化图像新类上的模型S。

迭代如下过程：从图像新类上的训练图像数据集中随机抽取一个包含k+2个图像的样本元组，形如(x_0,x_p,x_n1,x_n2,…,x_nk)。其中，x_0与x_p来自同一个类别，而x_0与x_n1,x_n2,…,x_nk的类别不同。这里的k是一个不小于1的常数，可以由用户指定。使用模型T获取样本元组中所有样本的特征表示，记作(u_0,u_p,u_n1,u_n2,…,u_nk)。分别计算u_0和u_p,u_n1,u_n2,…,u_nk之间的欧式距离，记作d_p,d_n1,d_n2,…,d_nk。依据得到的距欧式离计算关系评价向量A＝softmax(d_p,d_n1,d_n2,…,d_nk)，其中softmax函数是机器学习领域常用的归一化工具。使用模型S获取样本元组中所有样本的特征表示，记作(v_0,v_p,v_n1,v_n2,…,v_nk)。分别计算v_0和v_p,v_n1,v_n2,…,v_nk之间的欧式距离，记作e_p,e_n1,e_n2,…,e_nk。依据得到的欧式距离计算关系评价向量B＝softmax(e_p,e_n1,e_n2,…,e_nk)。计算KL散度损失函数KL(A||B)，并使用优化技术更新模型S。

一次迭代结束，检查迭代是否收敛，如果收敛，则输出优化后的模型S。否则进行下次迭代。

基于新类分类置信度的模型匹配模块，从模型仓库中获取图像旧类上预训练好的模型T，从数据库中获取图像新类上的训练图像数据集。使用模型T计算训练图像数据集上所有样本的表示，并将这些表示按照样本的类别分组。假设训练图像数据集中共包含M类样本，则获得M组表示。分别计算M组表示的平均值，从而得到M个类中心，记作(c_1,c_2,…,c_M)；获取基于关系评价矩阵的模型匹配模块优化后的模型S。

迭代如下过程：从图像新类上的训练图像数据集中随机抽取一个包含j个样本的样本元组，形如(x_1,x_2,…,x_j)。这里的j是一个不小于1的常数，可以由用户指定。使用模型T获取样本元组中所有样本的特征表示，记作(u_1,u_2,…,u_j)。分别计算这j个样本到M个类中心的欧式距离，一共得到j*M个距离。基于上述这j*M个距离，使用NCM分类器获得这j个样本的新类分类置信度。使用模型S计算样本小批(x_1,x_2,…,x_j)的新类分类置信度；将两个分类置信度做匹配，计算它们之间的KL散度损失，使用优化技术更新模型S。计算模型S在该样本元组上的交叉熵损失，使用优化技术更新模型S。

一次迭代结束，检查迭代是否收敛，如果收敛则输出进一步优化后的模型S，否则进行下次迭代。当新类分类置信度间的KL散度损失和模型S的交叉熵损失的变化均不超过C时，就认为迭代已经收敛。

优化技术是指优化理论中的随机梯度下降法，利用该方法，我们可以对该问题的目标函数求一个局部最优解。

显然，本领域的技术人员应该明白，上述的本发明实施例的跨类别图像识别模型重用方法各步骤或跨类别图像识别模型重用系统各模块可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

Claims

1.一种跨类别图像识别模型重用方法，其特征在于，包含两大阶段，第一阶段：基于关系评价矩阵的模型匹配阶段，和第二阶段：基于新类分类置信度的模型匹配阶段；

利用在图像旧类上训练好的模型T来指导图像新类上模型S的训练，并使得训练后的模型能够同时识别旧类图像和新类图像；第一阶段，从训练图像数据集中随机抽取多个样本元组，并使用模型T计算这些样本元组的关系评价矩阵；使用模型S计算这些样本元组的关系评价矩阵；将模型T计算得到的关系评价矩阵与模型S计算得到的关系评价矩阵做匹配，从而优化新类模型S；第二阶段，从训练图像数据集中随机抽取多个样本小批，并使用模型T计算这些样本小批的新类分类置信度；使用模型S计算这些样本小批的新类分类置信度；将模型T计算得到的新类分类置信度与模型S计算得到的新类分类置信度做匹配，同时最小化模型S在这些样本小批上的交叉熵损失，从而进一步优化模型S；第二阶段结束后，返回训练好的新类模型S。

2.根据权利要求1所述的跨类别图像识别模型重用方法，其特征在于，用户输入一张图像图片，模型S输出该图像的类别。

3.根据权利要求1所述的跨类别图像识别模型重用方法，其特征在于，所述基于关系评价矩阵的模型匹配阶段具体为：

步骤100，获取图像旧类上预训练好的模型T和图像新类上的训练图像数据集；

步骤101，初始化图像新类上的模型S；

步骤102，从图像新类上的训练图像数据集中随机抽取一个包含k+2个图像的样本元组(x_0,x_p,x_n1,x_n2,…,x_nk)；其中，x_0与x_p来自同一个类别，而x_0与x_n1,x_n2,…,x_nk的类别不同；

步骤103，使用模型T获取样本元组中所有样本的特征表示，记作(u_0,u_p,u_n1,u_n2,…,u_nk)；

步骤104，分别计算u_0和u_p,u_n1,u_n2,…,u_nk之间的欧式距离，记作d_p,d_n1,d_n2,…,d_nk；

步骤105，依据步骤104中计算得到的距欧式离计算关系评价向量A＝softmax(d_p,d_n1,d_n2,…,d_nk)，其中softmax函数是归一化工具；

步骤106，使用模型S获取样本元组中所有样本的特征表示，记作(v_0,v_p,v_n1,v_n2,…,v_nk)；

步骤107，分别计算v_0和v_p,v_n1,v_n2,…,v_nk之间的欧式距离，记作e_p,e_n1,e_n2,…,e_nk；

步骤108，依据步骤107中计算得到的欧式距离计算关系评价向量B＝softmax(e_p,e_n1,e_n2,…,e_nk)；

步骤109，计算KL散度损失函数KL(A||B)，并使用优化技术更新模型S；

步骤110，检查迭代是否收敛，如果收敛则进入步骤111，否则回到步骤102；

步骤111，输出优化后的模型S，结束。

4.根据权利要求3所述的跨类别图像识别模型重用方法，其特征在于，如果当前计算得到的KL散度损失与上一轮得到的KL散度损失之间的误差不超过给定常数C，就认为迭代已经收敛。

5.根据权利要求1所述的跨类别图像识别模型重用方法，其特征在于，基于新类分类置信度的模型匹配阶段具体为：

步骤200，获取图像旧类上预训练好的模型T和图像新类上的训练图像数据集；

步骤201，使用模型T计算训练图像数据集上所有样本的表示，并将这些表示按照样本的类别分组；设训练图像数据集中共包含M类样本，则此步骤将获得M组表示；

步骤203，获取上一阶段优化后的模型S；

步骤204，从图像新类上的训练图像数据集中随机抽取一个包含j个样本的样本元组(x_1,x_2,…,x_j)；

步骤205，使用模型T获取样本元组中所有样本的特征表示，记作(u_1,u_2,…,u_j)；

步骤204，分别计算这j个样本到M个类中心的欧式距离，一共得到j*M个距离；

步骤205，基于上述这j*M个距离，使用NCM分类器获得这j个样本的新类分类置信度；

步骤207，将步骤205得到的分类置信度和步骤206得到的分类置信度做匹配，计算它们之间的KL散度损失，使用优化技术更新模型S；

步骤208，计算模型S在该样本元组上的交叉熵损失，使用优化技术更新模型S；

步骤209，检查迭代是否收敛，如果收敛则进入步骤210，否则回到步骤204；

步骤210，输出进一步优化后的模型S，结束。

6.一种跨类别图像识别模型重用系统，其特征在于，包含基于关系评价矩阵的模型匹配模块，基于新类分类置信度的模型匹配模块，模型仓库，以及数据库；

所述模型仓库用于存储图像旧类上预训练好的模型T；

所述数据库存储图像新类上的训练图像数据集；

所述基于关系评价矩阵的模型匹配模块从模型仓库中获取图像旧类上预训练好的模型T，从数据库中的图像新类上的训练图像数据集中随机抽取多个样本元组，并使用模型T计算这些样本元组的关系评价矩阵；使用模型S计算这些样本元组的关系评价矩阵；将模型T计算得到的关系评价矩阵与模型S计算得到的关系评价矩阵做匹配，从而优化新类模型S，并经优化后的新类模型S传递给所述基于新类分类置信度的模型匹配模块；

所述基于新类分类置信度的模型匹配模块从模型仓库中获取图像旧类上预训练好的模型T，从训练图像数据集中随机抽取多个样本小批，并使用模型T计算这些样本小批的新类分类置信度；使用基于关系评价矩阵的模型匹配模块提供的模型S计算这些样本小批的新类分类置信度；将模型T计算得到的新类分类置信度与模型S计算得到的新类分类置信度做匹配，同时最小化模型S在这些样本小批上的交叉熵损失，从而进一步优化模型S；返回训练好的新类模型S。

7.一种计算机设备，其特征在于：该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如权利要求1-5中任一项所述的跨类别图像识别模型重用方法。

8.一种计算机可读存储介质，其特征在于：该计算机可读存储介质存储有执行如权利要求1-5中任一项所述的跨类别图像识别模型重用方法的计算机程序。