CN113515656B

CN113515656B - 一种基于增量学习的多视角目标识别与检索方法、及装置

Info

Publication number: CN113515656B
Application number: CN202110761047.XA
Authority: CN
Inventors: 刘安安; 鲁昊纯; 宋丹; 周河宇; 张勇东
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2022-10-11
Anticipated expiration: 2041-07-06
Also published as: CN113515656A

Abstract

本发明公开了一种基于增量学习的多视角目标识别与检索方法、及装置，所述方法包括：将三维模型的视图序列以单个类别或几个类别为单位划分成多个任务序列，将任务序列以数据流的方式，输入到神经网络中；在神经网络上添加一基于特征蒸馏的稳定性模块，用于约束旧类别目标特征的演变；在分类器上添加一基于知识蒸馏的可塑性模块，用于提升对新类别目标的适应能力；使用神经网络提取视图序列中的每个视图特征并生成视图特征序列，将视图特征序列融合成一特征描述符，利用特征描述符进行多视目标的识别与检索。所述装置包括：处理器和存储器。本发明利用稳定性模块和可塑性模块，提高了增量的多视目标识别与检索的精度。

Description

一种基于增量学习的多视角目标识别与检索方法、及装置

技术领域

本发明涉及视图序列、多视角目标识别与检索，以及增量学习领域，尤其涉及一种基于增量学习的多视角目标识别与检索方法、及装置。

背景技术

三维模型分类与检索是计算机视觉和多媒体领域的基础技术之一，它可直接应用于自动驾驶、工业制造和数字娱乐等领域^[1]。近年来，三维物体的数量迅速增长，使得多视目标识别与检索方法受到了极大的关注。同时，大量的工作致力于构造有区别的描述符^[2]。现有的方法^[3]通常通过在三维物体周围放置虚拟摄像机获得多个视图，然后通过神经网络提取每个视图的特征，最后将这些视图特征融合到一个紧凑的特征描述符中。在此基础上也衍生出一些知名数据库如ShapeNetCore^[4]，有很多研究者在这上面进行相关的研究。

尽管现有的方法已经取得了丰硕的成果，但仍存在一个严重的问题，阻碍着这些成果在现实世界中的应用。即现有的大部分多视目标识别与检索方法都依赖于离线模型，这个离线模型在所有类别数据上训练得到。但是现实世界中多视目标通常是以数据流的形式出现的，传统的离线模型在这种情况下就会失效，出现灾难性遗忘，不能够在线地适应新类别数据。

受到人类可以不断学习新知识的能力启发，增量学习^[5]旨在可以持续的学习识别新类别目标，同时保持对所有旧类别目标的识别与检索能力。这种能力正是传统多视目标识别和检索系统所缺失的。因此，有强烈的动机将增量学习和多视目标表征学习这两个领域结合起来。

增量地进行多视目标识别与检索面临的最大挑战是灾难性遗忘问题^[6]，因为由旧类别数据训练好的网络参数在训练新类别数据时会被更改。为了克服灾难性遗忘，很多方法已经被提出来，例如：基于数据重现的方法保存有限的旧类别样本来达到缓解遗忘的效果；基于蒸馏的方法利用知识蒸馏或特征蒸馏来约束网络参数的更新。但是，克服增量多视目标识别与检索技术中的灾难性遗忘仍然存在。

目前面临的挑战主要有以下两个方面：

1、如何保持旧类别的特征相对稳定；

2、如何在约束网络参数不变的同时，不影响对新类别目标的适应。

发明内容

本发明提供了一种基于增量学习的多视角目标识别与检索方法、及装置，本发明受到attention-based蒸馏在二维图像分类领域成功应用的启发，在主干网络的中间卷积层添加一个基于空间池化特征蒸馏的稳定性模块，在分类器的输出上添加一个知识蒸馏可塑性模块，成功解决了现有方法在处理多视角目标数据流时，无法在线适应新的目标类别或结构简单粗糙等缺陷，并在此基础上增加了对于增量学习网络“稳定性-可塑性”平衡的关注，利用稳定性模块和可塑性模块，提高了增量的多视目标识别与检索的精度，详见下文描述：

第一方面，一种基于增量学习的多视角目标识别与检索方法，所述方法包括：

将三维模型的视图序列以单个类别或几个类别为单位划分成多个任务序列，将任务序列以数据流的方式，输入到神经网络中；

在神经网络上添加一基于特征蒸馏的稳定性模块，用于约束旧类别目标特征的演变；

在分类器上添加一基于知识蒸馏的可塑性模块，用于提升对新类别目标的适应能力；

使用神经网络提取视图序列中的每个视图特征并生成视图特征序列，将视图特征序列融合成一特征描述符，利用特征描述符进行多视目标的识别与检索。

在一种实施方式中，所述稳定性模块包括：旧网络和新网络，以及联系两者的一个空间池化蒸馏函数，

所述模块用于使新网络卷积层的输出去逼近旧网络卷积层的输出。

在一种实施方式中，所述可塑性模块包括：临时网络和新网络，以及联系两者的一个知识蒸馏损失函数，

所述模块用于使新网络分类器的输出去逼近临时网络分类器的输出。

在一种实施方式中，所述稳定性模块位于神经网络的中间卷积层，所述可塑性模块作用于分类器的输出上。

在一种实施方式中，所述稳定性模块将神经网络的每一残差块输出特征图进行空间池化操作，利用欧式距离进行特征层面的蒸馏。

其中，复制新网络得到一临时网络，并仅在新任务目标类别上使用标准的交叉熵损失训练临时网络。

第二方面，一种基于增量学习的多视角目标识别与检索装置，其所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。

第三方面，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行第一方面中的任一项所述的方法步骤。

本发明提供的技术方案的有益效果是：

1、本发明将类增量学习和多视目标识别与检索这两个领域创新性地结合起来，现有多视目标识别与检索技术需要一次性在所有类别上训练，耗时长，计算量大，难以在线适应新的目标类别，因此导致实用性非常有限；本发明基于增量学习，使得多视目标识别与检索系统可以增量地学习识别新类别目标，同时保持对旧类别目标的识别与检索能力，弥补了之前研究的盲点，提高了传统方法在现实世界中的部署能力；

2、本发明添加了稳定性模块，对ResNet网络的每一个残差块输出特征图进行空间池化操作，利用欧式距离进行特征层面的蒸馏，可以约束旧类别目标特征的演变，进而约束了网络参数的更新，尽力减轻灾难性遗忘；在进行多个增量训练阶段后，最终的网络依然能对所有训练过的类别目标保持较高的识别和检索准确率；

3、本发明添加了可塑性模块，为了减少稳定性模块对学习新类别数据的干扰，计算了每次学习新类别目标时的准确率上限，利用另一个知识蒸馏损失辅助适应新目标类别；本发明关注了增量学习方法中的稳定性-可塑性问题，弥补了之前研究的盲点，可以有效的提升多视目标识别与检索的精度。

附图说明

图1为一种基于增量学习的多视角目标识别与检索方法的流程图；

图2为利用虚拟相机生成三维模型视图序列的示意图；

图3为一种基于增量学习的多视角目标识别与检索的网络结构图；

图4为一种基于增量学习的多视角目标识别与检索装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

一种基于增量学习的多视角目标识别与检索方法，参见图1，该方法包括以下步骤：

101：利用虚拟相机对三维模型数据库中的三维模型进行虚拟拍照，生成三维模型的视图序列；

102：将三维模型的视图序列以单个类别或几个类别为单位划分成多个任务序列，将任务序列以数据流的方式，输入到神经网络中，并将已经训练过的任务包含的类别作为旧类别，未经训练的任务包含的类别作为新类别；

103：进行增量训练^[5]，在神经网络上添加一个基于特征蒸馏的稳定性模块，用于约束旧类别目标特征的演变，减少遗忘；

其中，该稳定性模块包括：旧网络Ω^t-1和新网络Ω^t，以及联系两者的一个空间池化蒸馏函数，该模块用于使新网络Ω^t卷积层的输出去逼近旧网络Ω^t-1卷积层的输出。

现有多视目标识别与检索技术需要一次性在所有类别上训练，耗时长，计算量大，难以在线适应新的目标类别，因此实用性非常有限，于是本方法借鉴增量学习的知识，弥补了之前研究的不足。

104：在分类器上添加一个基于知识蒸馏的可塑性模块，用于提升对新类别目标的适应能力；

其中，该可塑性模块包括：临时网络Ωⁿ和新网络Ω^t，以及联系两者的一个知识蒸馏损失函数，该模块用于使新网络Ω^t分类器的输出去逼近临时网络Ωⁿ分类器的输出。

本发明实施例关注了增量学习方法中的稳定性-可塑性问题，基于双向的蒸馏操作(即基于特征蒸馏的稳定性模块和基于知识蒸馏的可塑性模块)设计新的增量学习过程，解决现有技术中方法过于简单，对旧类别目标记忆力有限和对新类别目标适应力不足的问题。

105：使用神经网络提取视图序列中的每个视图特征并生成视图特征序列；

106：最终，通过全局平均池化将视图特征序列融合成一个紧致的特征描述符，利用特征描述符进行多视目标的识别与检索。

综上所述，本发明实施例针对多视目标识别与检索，基于类增量学习提出了全新方法，并设计了稳定性模块和可塑性模块，缓解了灾难性遗忘，提高了多视目标识别与检索的精度。

实施例2

下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍，详见下文描述：

201：首先利用虚拟相机对三维模型数据库中模型进行虚拟拍照，生成视图序列；

其中，上述步骤201主要包括：

预定义一组视点，视点即为观测目标物体的视点，在本发明实施例中，设置12个视点，即围绕在三维模型的质心每隔30度放置一个虚拟相机，视点完全均匀的分布在目标物体周围。通过选取不同的间隔角度，顺时针获取三维模型的不同角度视图，生成视图序列。

202：将三维模型的视图序列以单个类别或几个类别为单位划分成多个任务序列，将任务序列以数据流的方式，输入到神经网络中，并将已经训练过的任务包含的类别作为旧类别，未经训练的任务包含的类别作为新类别；

其中，划分任务序列的具体操作以ShapeNetCore数据集为例，其中55个类别可以任意划分为多个任务，例如：一个任务包含5个类别，每个增量训练阶段只训练一个任务，共分11个阶段全部训练完成。

203：进行增量训练，在神经网络上添加一个包含特征蒸馏的稳定性模块，约束旧类别目标特征的演变，减少遗忘；

其中，在每次训练新任务时，利用上一个训练阶段已经训练好的旧网络Ω^t-1参数初始化新网络Ω^t，并根据新类别个数在最后一层的全连接层添加与之个数相同的节点个数，冻结旧网络的参数，并将训练数据同时输入新旧网络中。将新网络和旧网络对应位置上各个卷积层输出特征图

和

都进行空间池化，并拉近它们之间的欧式距离L_Euclidean，约束特征的演变。定义特征蒸馏损失函数为：

其中，P^t代表新网络的输出特征图，P^t-1代表旧网络的输出特征图，P_j,c,h和P_j,c,w分别代表进行宽度池化和高度池化后的特征图。

其中，旧网络Ω^t-1指的是：上一个训练阶段已经训练好的网络；新网络Ω^t指的是：根据新类别个数n，在旧网络Ω^t-1的最后一层全连接层添加n个节点。初始时刻新网络和旧网络唯一区别是：新网络的最后一层全连接层节点个数增多。

尽管上述稳定性模块对于维持一个稳定的表征，抵抗灾难性遗忘有非常不错的效果，但也是把双刃剑。过强的约束会阻碍网络参数的更新，对快速适应新类别目标数据产生负面影响。因此，本发明实施例为了消除这种负面影响，添加了一个可塑性模块。

204：在分类器上添加一个包含知识蒸馏的可塑性模块，提升对新类别目标的适应能力；

其中，在每次训练新任务时，复制新网络Ω^t得到一个临时网络Ωⁿ，并仅在新任务目标类别上使用标准的交叉熵损失训练临时网络Ωⁿ。这样临时网络Ωⁿ就可以提供一个识别新类别目标的准确率上限，假设对于每个多视目标数据x，对应的输出概率上限为

利用知识蒸馏激励新网络的输出去逼近这个上限定义知识蒸馏损失函数为：

其中，x代表输入的多视目标，

代表临时网络提供的最优预测概率，o(x)代表新网络输出的预测概率，N表示旧类别的类别个数，T为蒸馏的温度值(设定T＝2)。

现有的类增量学习技术，或是只考虑添加正则化项来约束网络参数的变化，或是只考虑单纯地提高对新类别数据的学习能力，而本发明实施例同时考虑了两者，兼顾网络在增量训练中的稳定性和可塑性，提升了识别与检索性能。

205：使用神经网络提取视图序列中的每个视图特征，生成视图特征序列；

其中，为了与其他方法进行公平对比，所有的实验数据均是在采取的ResNet32网络结构前提下获得的。

206：最终通过全局平均池化将视图特征序列融合成一个紧致的特征描述符，利用特征描述符进行目标的识别与检索。

本发明实施例通过全局平均池化，可以抑制输入视图的局部区域噪声，满足实际应用中的需要。同时，本发明实施例首次将增量学习与多视目标识别与检索相结合，通过对比实验验证了本发明的有效性。

实施例3

下面结合具体的试验对实施例1和2中的方案进行可行性验证，详见下文描述：

由于缺少含有丰富类别的多视目标数据集，本发明实施例在ShapeNetCore^[4]和SHREC2014^[7]的基础上，制作了两个新的多视目标数据集INOR1和INOR2。其中，INOR1包含50个类别、41063个三维模型，每个三维模型由12个视图组成；INOR2包含100个类别、8559个三维模型，每个三维模型由12个视图组成。

为了保证公平，其他增量学习对比方法也做了相同的修改(多视图特征融合^[8])以适应新的多视目标数据集，本发明实施例在两个数据集INOR1和INOR2上都进行了试验。其中，多视角目标识别评测指标选择平均增量分类精度^[5]，检索评测指标选择First Tier(FT)和Second Tier(ST)。

下表为在INOR1数据集上的对比实验，实验设定为将50个类别划分为10个任务，进行10个增量训练阶段，在所有阶段后统计平均增量分类精度^[5]、FT和ST。

下表为在INOR2数据集上的对比实验，实验设定为将100个类别划分为10个任务，进行10个增量训练阶段，在所有阶段后统计平均增量分类精度^[5]、FT和ST。

通过上述实验数据可以看出，本发明实施例提出的基于增量学习的多视角目标识别与检索方法具有超过当前主流增量学习方法的良好性能，能够很好的处理增量的多视角目标识别与检索中所面临的挑战。

基于同一发明构思，本发明实施例还提供了一种基于增量学习的多视角目标识别与检索装置，参见图4，该装置包括：处理器1和存储器2，存储器2中存储有程序指令，处理器1调用存储器2中存储的程序指令以使装置执行实施例中的以下方法步骤：

其中，稳定性模块包括：旧网络和新网络，以及联系两者的一个空间池化蒸馏函数，模块用于使新网络卷积层的输出去逼近旧网络卷积层的输出。

在一种实施方式中，可塑性模块包括：临时网络和新网络，以及联系两者的一个知识蒸馏损失函数，模块用于使新网络分类器的输出去逼近临时网络分类器的输出。

在一种实施方式中，稳定性模块位于神经网络的中间卷积层，可塑性模块作用于分类器的输出上。

优选地，稳定性模块将神经网络的每一残差块输出特征图进行空间池化操作，利用欧式距离进行特征层面的蒸馏。

其中，空间池化蒸馏函数为：

这里需要指出的是，以上实施例中的装置描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

上述的处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件，具体实现时，本发明实施例对执行主体不做限制，根据实际应用中的需要进行选择。

存储器2和处理器1之间通过总线3传输数据信号，本发明实施例对此不做赘述。

基于同一发明构思，本发明实施例还提供了一种计算机可读存储介质，存储介质包括存储的程序，在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。

该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。

这里需要指出的是，以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。

计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。

参考文献：

[1]S Jeannin，S Jeannin.MPEG7 Visual part of experimentation ModelVersion 7[J].ISO/IEC JTC1/SC29/WG11 N，2001,3914.

[2]QiC R,Su H,Mo K,et al.PointNet:Deep Learning on Point Sets for 3DClassification and Segmentation[J].2016.

[3]张飞.三维模型特征提取和相关反馈算法研究与实现[D].西北大学,2010

[4]A.X.Chang,T.A.Funkhouser,L.J.Guibas,P.Hanrahan,Q.Huang,Z.Li,S.Savarese,M.Savva,S.Song,H.Su,J.Xiao,L.Yi,and F.Yu.Shapenet:An information-rich 3d model repository.CoRR,vol.abs/1512.03012,2015.

[5]S.Rebuffi,A.Kolesnikov,G.Sperl,and C.H.Lampert.icarl:Incrementalclassifier and representation learning(CVPR),2017.

[6]Li Z,Hoiem D.Learning without forgetting[J].IEEE transactions onpattern analysis and machine intelligence,2017,40(12):2935-2947.

[7]Li B,Lu Y,Li C,et al.SHREC’14track:Extended large scale sketch-based 3D shape retrieval[C].Eurographics workshop on 3D objectretrieval.2014.

[8]H.Su,S.Maji,E.Kalogerakis,et al.Multi-view convolutional neuralnetworks for 3d shape recognition.Proceedings of the IEEE internationalconference on computer vision.2015.

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。