CN113515656A - 一种基于增量学习的多视角目标识别与检索方法、及装置 - Google Patents

一种基于增量学习的多视角目标识别与检索方法、及装置 Download PDF

Info

Publication number
CN113515656A
CN113515656A CN202110761047.XA CN202110761047A CN113515656A CN 113515656 A CN113515656 A CN 113515656A CN 202110761047 A CN202110761047 A CN 202110761047A CN 113515656 A CN113515656 A CN 113515656A
Authority
CN
China
Prior art keywords
view
network
feature
new
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110761047.XA
Other languages
English (en)
Other versions
CN113515656B (zh
Inventor
刘安安
鲁昊纯
宋丹
周河宇
张勇东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202110761047.XA priority Critical patent/CN113515656B/zh
Publication of CN113515656A publication Critical patent/CN113515656A/zh
Application granted granted Critical
Publication of CN113515656B publication Critical patent/CN113515656B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于增量学习的多视角目标识别与检索方法、及装置,所述方法包括:将三维模型的视图序列以单个类别或几个类别为单位划分成多个任务序列,将任务序列以数据流的方式,输入到神经网络中;在神经网络上添加一基于特征蒸馏的稳定性模块,用于约束旧类别目标特征的演变;在分类器上添加一基于知识蒸馏的可塑性模块,用于提升对新类别目标的适应能力;使用神经网络提取视图序列中的每个视图特征并生成视图特征序列,将视图特征序列融合成一特征描述符,利用特征描述符进行多视目标的识别与检索。所述装置包括:处理器和存储器。本发明利用稳定性模块和可塑性模块,提高了增量的多视目标识别与检索的精度。

Description

一种基于增量学习的多视角目标识别与检索方法、及装置
技术领域
本发明涉及视图序列、多视角目标识别与检索,以及增量学习领域,尤其涉及一种基于增量学习的多视角目标识别与检索方法、及装置。
背景技术
三维模型分类与检索是计算机视觉和多媒体领域的基础技术之一,它可直接应用于自动驾驶、工业制造和数字娱乐等领域[1]。近年来,三维物体的数量迅速增长,使得多视目标识别与检索方法受到了极大的关注。同时,大量的工作致力于构造有区别的描述符[2]。现有的方法[3]通常通过在三维物体周围放置虚拟摄像机获得多个视图,然后通过神经网络提取每个视图的特征,最后将这些视图特征融合到一个紧凑的特征描述符中。在此基础上也衍生出一些知名数据库如ShapeNetCore[4],有很多研究者在这上面进行相关的研究。
尽管现有的方法已经取得了丰硕的成果,但仍存在一个严重的问题,阻碍着这些成果在现实世界中的应用。即现有的大部分多视目标识别与检索方法都依赖于离线模型,这个离线模型在所有类别数据上训练得到。但是现实世界中多视目标通常是以数据流的形式出现的,传统的离线模型在这种情况下就会失效,出现灾难性遗忘,不能够在线地适应新类别数据。
受到人类可以不断学习新知识的能力启发,增量学习[5]旨在可以持续的学习识别新类别目标,同时保持对所有旧类别目标的识别与检索能力。这种能力正是传统多视目标识别和检索系统所缺失的。因此,有强烈的动机将增量学习和多视目标表征学习这两个领域结合起来。
增量地进行多视目标识别与检索面临的最大挑战是灾难性遗忘问题[6],因为由旧类别数据训练好的网络参数在训练新类别数据时会被更改。为了克服灾难性遗忘,很多方法已经被提出来,例如:基于数据重现的方法保存有限的旧类别样本来达到缓解遗忘的效果;基于蒸馏的方法利用知识蒸馏或特征蒸馏来约束网络参数的更新。但是,克服增量多视目标识别与检索技术中的灾难性遗忘仍然存在。
目前面临的挑战主要有以下两个方面:
1、如何保持旧类别的特征相对稳定;
2、如何在约束网络参数不变的同时,不影响对新类别目标的适应。
发明内容
本发明提供了一种基于增量学习的多视角目标识别与检索方法、及装置,本发明受到attention-based蒸馏在二维图像分类领域成功应用的启发,在主干网络的中间卷积层添加一个基于空间池化特征蒸馏的稳定性模块,在分类器的输出上添加一个知识蒸馏可塑性模块,成功解决了现有方法在处理多视角目标数据流时,无法在线适应新的目标类别或结构简单粗糙等缺陷,并在此基础上增加了对于增量学习网络“稳定性-可塑性”平衡的关注,利用稳定性模块和可塑性模块,提高了增量的多视目标识别与检索的精度,详见下文描述:
第一方面,一种基于增量学习的多视角目标识别与检索方法,所述方法包括:
将三维模型的视图序列以单个类别或几个类别为单位划分成多个任务序列,将任务序列以数据流的方式,输入到神经网络中;
在神经网络上添加一基于特征蒸馏的稳定性模块,用于约束旧类别目标特征的演变;
在分类器上添加一基于知识蒸馏的可塑性模块,用于提升对新类别目标的适应能力;
使用神经网络提取视图序列中的每个视图特征并生成视图特征序列,将视图特征序列融合成一特征描述符,利用特征描述符进行多视目标的识别与检索。
在一种实施方式中,所述稳定性模块包括:旧网络和新网络,以及联系两者的一个空间池化蒸馏函数,
所述模块用于使新网络卷积层的输出去逼近旧网络卷积层的输出。
在一种实施方式中,所述可塑性模块包括:临时网络和新网络,以及联系两者的一个知识蒸馏损失函数,
所述模块用于使新网络分类器的输出去逼近临时网络分类器的输出。
在一种实施方式中,所述稳定性模块位于神经网络的中间卷积层,所述可塑性模块作用于分类器的输出上。
在一种实施方式中,所述稳定性模块将神经网络的每一残差块输出特征图进行空间池化操作,利用欧式距离进行特征层面的蒸馏。
其中,复制新网络得到一临时网络,并仅在新任务目标类别上使用标准的交叉熵损失训练临时网络。
第二方面,一种基于增量学习的多视角目标识别与检索装置,其所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。
第三方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行第一方面中的任一项所述的方法步骤。
本发明提供的技术方案的有益效果是:
1、本发明将类增量学习和多视目标识别与检索这两个领域创新性地结合起来,现有多视目标识别与检索技术需要一次性在所有类别上训练,耗时长,计算量大,难以在线适应新的目标类别,因此导致实用性非常有限;本发明基于增量学习,使得多视目标识别与检索系统可以增量地学习识别新类别目标,同时保持对旧类别目标的识别与检索能力,弥补了之前研究的盲点,提高了传统方法在现实世界中的部署能力;
2、本发明添加了稳定性模块,对ResNet网络的每一个残差块输出特征图进行空间池化操作,利用欧式距离进行特征层面的蒸馏,可以约束旧类别目标特征的演变,进而约束了网络参数的更新,尽力减轻灾难性遗忘;在进行多个增量训练阶段后,最终的网络依然能对所有训练过的类别目标保持较高的识别和检索准确率;
3、本发明添加了可塑性模块,为了减少稳定性模块对学习新类别数据的干扰,计算了每次学习新类别目标时的准确率上限,利用另一个知识蒸馏损失辅助适应新目标类别;本发明关注了增量学习方法中的稳定性-可塑性问题,弥补了之前研究的盲点,可以有效的提升多视目标识别与检索的精度。
附图说明
图1为一种基于增量学习的多视角目标识别与检索方法的流程图;
图2为利用虚拟相机生成三维模型视图序列的示意图;
图3为一种基于增量学习的多视角目标识别与检索的网络结构图;
图4为一种基于增量学习的多视角目标识别与检索装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
一种基于增量学习的多视角目标识别与检索方法,参见图1,该方法包括以下步骤:
101:利用虚拟相机对三维模型数据库中的三维模型进行虚拟拍照,生成三维模型的视图序列;
102:将三维模型的视图序列以单个类别或几个类别为单位划分成多个任务序列,将任务序列以数据流的方式,输入到神经网络中,并将已经训练过的任务包含的类别作为旧类别,未经训练的任务包含的类别作为新类别;
103:进行增量训练[5],在神经网络上添加一个基于特征蒸馏的稳定性模块,用于约束旧类别目标特征的演变,减少遗忘;
其中,该稳定性模块包括:旧网络Ωt-1和新网络Ωt,以及联系两者的一个空间池化蒸馏函数,该模块用于使新网络Ωt卷积层的输出去逼近旧网络Ωt-1卷积层的输出。
现有多视目标识别与检索技术需要一次性在所有类别上训练,耗时长,计算量大,难以在线适应新的目标类别,因此实用性非常有限,于是本方法借鉴增量学习的知识,弥补了之前研究的不足。
104:在分类器上添加一个基于知识蒸馏的可塑性模块,用于提升对新类别目标的适应能力;
其中,该可塑性模块包括:临时网络Ωn和新网络Ωt,以及联系两者的一个知识蒸馏损失函数,该模块用于使新网络Ωt分类器的输出去逼近临时网络Ωn分类器的输出。
本发明实施例关注了增量学习方法中的稳定性-可塑性问题,基于双向的蒸馏操作(即基于特征蒸馏的稳定性模块和基于知识蒸馏的可塑性模块)设计新的增量学习过程,解决现有技术中方法过于简单,对旧类别目标记忆力有限和对新类别目标适应力不足的问题。
105:使用神经网络提取视图序列中的每个视图特征并生成视图特征序列;
106:最终,通过全局平均池化将视图特征序列融合成一个紧致的特征描述符,利用特征描述符进行多视目标的识别与检索。
综上所述,本发明实施例针对多视目标识别与检索,基于类增量学习提出了全新方法,并设计了稳定性模块和可塑性模块,缓解了灾难性遗忘,提高了多视目标识别与检索的精度。
实施例2
下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍,详见下文描述:
201:首先利用虚拟相机对三维模型数据库中模型进行虚拟拍照,生成视图序列;
其中,上述步骤201主要包括:
预定义一组视点,视点即为观测目标物体的视点,在本发明实施例中,设置12个视点,即围绕在三维模型的质心每隔30度放置一个虚拟相机,视点完全均匀的分布在目标物体周围。通过选取不同的间隔角度,顺时针获取三维模型的不同角度视图,生成视图序列。
202:将三维模型的视图序列以单个类别或几个类别为单位划分成多个任务序列,将任务序列以数据流的方式,输入到神经网络中,并将已经训练过的任务包含的类别作为旧类别,未经训练的任务包含的类别作为新类别;
其中,划分任务序列的具体操作以ShapeNetCore数据集为例,其中55个类别可以任意划分为多个任务,例如:一个任务包含5个类别,每个增量训练阶段只训练一个任务,共分11个阶段全部训练完成。
203:进行增量训练,在神经网络上添加一个包含特征蒸馏的稳定性模块,约束旧类别目标特征的演变,减少遗忘;
其中,在每次训练新任务时,利用上一个训练阶段已经训练好的旧网络Ωt-1参数初始化新网络Ωt,并根据新类别个数在最后一层的全连接层添加与之个数相同的节点个数,冻结旧网络的参数,并将训练数据同时输入新旧网络中。将新网络和旧网络对应位置上各个卷积层输出特征图
Figure BDA0003149100950000051
Figure BDA0003149100950000052
都进行空间池化,并拉近它们之间的欧式距离LEuclidean,约束特征的演变。定义特征蒸馏损失函数为:
Figure BDA0003149100950000053
其中,Pt代表新网络的输出特征图,Pt-1代表旧网络的输出特征图,Pj,c,h和Pj,c,w分别代表进行宽度池化和高度池化后的特征图。
其中,旧网络Ωt-1指的是:上一个训练阶段已经训练好的网络;新网络Ωt指的是:根据新类别个数n,在旧网络Ωt-1的最后一层全连接层添加n个节点。初始时刻新网络和旧网络唯一区别是:新网络的最后一层全连接层节点个数增多。
尽管上述稳定性模块对于维持一个稳定的表征,抵抗灾难性遗忘有非常不错的效果,但也是把双刃剑。过强的约束会阻碍网络参数的更新,对快速适应新类别目标数据产生负面影响。因此,本发明实施例为了消除这种负面影响,添加了一个可塑性模块。
204:在分类器上添加一个包含知识蒸馏的可塑性模块,提升对新类别目标的适应能力;
其中,在每次训练新任务时,复制新网络Ωt得到一个临时网络Ωn,并仅在新任务目标类别上使用标准的交叉熵损失训练临时网络Ωn。这样临时网络Ωn就可以提供一个识别新类别目标的准确率上限,假设对于每个多视目标数据x,对应的输出概率上限为
Figure BDA0003149100950000061
利用知识蒸馏激励新网络的输出去逼近这个上限定义知识蒸馏损失函数为:
Figure BDA0003149100950000062
Figure BDA0003149100950000063
Figure BDA0003149100950000064
其中,x代表输入的多视目标,
Figure BDA0003149100950000065
代表临时网络提供的最优预测概率,o(x)代表新网络输出的预测概率,N表示旧类别的类别个数,T为蒸馏的温度值(设定T=2)。
现有的类增量学习技术,或是只考虑添加正则化项来约束网络参数的变化,或是只考虑单纯地提高对新类别数据的学习能力,而本发明实施例同时考虑了两者,兼顾网络在增量训练中的稳定性和可塑性,提升了识别与检索性能。
205:使用神经网络提取视图序列中的每个视图特征,生成视图特征序列;
其中,为了与其他方法进行公平对比,所有的实验数据均是在采取的ResNet32网络结构前提下获得的。
206:最终通过全局平均池化将视图特征序列融合成一个紧致的特征描述符,利用特征描述符进行目标的识别与检索。
本发明实施例通过全局平均池化,可以抑制输入视图的局部区域噪声,满足实际应用中的需要。同时,本发明实施例首次将增量学习与多视目标识别与检索相结合,通过对比实验验证了本发明的有效性。
实施例3
下面结合具体的试验对实施例1和2中的方案进行可行性验证,详见下文描述:
由于缺少含有丰富类别的多视目标数据集,本发明实施例在ShapeNetCore[4]和SHREC2014[7]的基础上,制作了两个新的多视目标数据集INOR1和INOR2。其中,INOR1包含50个类别、41063个三维模型,每个三维模型由12个视图组成;INOR2包含100个类别、8559个三维模型,每个三维模型由12个视图组成。
为了保证公平,其他增量学习对比方法也做了相同的修改(多视图特征融合[8])以适应新的多视目标数据集,本发明实施例在两个数据集INOR1和INOR2上都进行了试验。其中,多视角目标识别评测指标选择平均增量分类精度[5],检索评测指标选择First Tier(FT)和Second Tier(ST)。
下表为在INOR1数据集上的对比实验,实验设定为将50个类别划分为10个任务,进行10个增量训练阶段,在所有阶段后统计平均增量分类精度[5]、FT和ST。
Figure BDA0003149100950000071
下表为在INOR2数据集上的对比实验,实验设定为将100个类别划分为10个任务,进行10个增量训练阶段,在所有阶段后统计平均增量分类精度[5]、FT和ST。
Figure BDA0003149100950000072
通过上述实验数据可以看出,本发明实施例提出的基于增量学习的多视角目标识别与检索方法具有超过当前主流增量学习方法的良好性能,能够很好的处理增量的多视角目标识别与检索中所面临的挑战。
基于同一发明构思,本发明实施例还提供了一种基于增量学习的多视角目标识别与检索装置,参见图4,该装置包括:处理器1和存储器2,存储器2中存储有程序指令,处理器1调用存储器2中存储的程序指令以使装置执行实施例中的以下方法步骤:
将三维模型的视图序列以单个类别或几个类别为单位划分成多个任务序列,将任务序列以数据流的方式,输入到神经网络中;
在神经网络上添加一基于特征蒸馏的稳定性模块,用于约束旧类别目标特征的演变;
在分类器上添加一基于知识蒸馏的可塑性模块,用于提升对新类别目标的适应能力;
使用神经网络提取视图序列中的每个视图特征并生成视图特征序列,将视图特征序列融合成一特征描述符,利用特征描述符进行多视目标的识别与检索。
其中,稳定性模块包括:旧网络和新网络,以及联系两者的一个空间池化蒸馏函数,模块用于使新网络卷积层的输出去逼近旧网络卷积层的输出。
在一种实施方式中,可塑性模块包括:临时网络和新网络,以及联系两者的一个知识蒸馏损失函数,模块用于使新网络分类器的输出去逼近临时网络分类器的输出。
在一种实施方式中,稳定性模块位于神经网络的中间卷积层,可塑性模块作用于分类器的输出上。
优选地,稳定性模块将神经网络的每一残差块输出特征图进行空间池化操作,利用欧式距离进行特征层面的蒸馏。
其中,空间池化蒸馏函数为:
Figure BDA0003149100950000081
其中,Pt代表新网络的输出特征图,Pt-1代表旧网络的输出特征图,Pj,c,h和Pj,c,w分别代表进行宽度池化和高度池化后的特征图。
其中,复制新网络得到一临时网络,并仅在新任务目标类别上使用标准的交叉熵损失训练临时网络。
这里需要指出的是,以上实施例中的装置描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
上述的处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件,具体实现时,本发明实施例对执行主体不做限制,根据实际应用中的需要进行选择。
存储器2和处理器1之间通过总线3传输数据信号,本发明实施例对此不做赘述。
基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,存储介质包括存储的程序,在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。
该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。
这里需要指出的是,以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。
计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。
参考文献:
[1]S Jeannin,S Jeannin.MPEG7 Visual part of experimentation ModelVersion 7[J].ISO/IEC JTC1/SC29/WG11 N,2001,3914.
[2]QiC R,Su H,Mo K,et al.PointNet:Deep Learning on Point Sets for 3DClassification and Segmentation[J].2016.
[3]张飞.三维模型特征提取和相关反馈算法研究与实现[D].西北大学,2010
[4]A.X.Chang,T.A.Funkhouser,L.J.Guibas,P.Hanrahan,Q.Huang,Z.Li,S.Savarese,M.Savva,S.Song,H.Su,J.Xiao,L.Yi,and F.Yu.Shapenet:An information-rich 3d model repository.CoRR,vol.abs/1512.03012,2015.
[5]S.Rebuffi,A.Kolesnikov,G.Sperl,and C.H.Lampert.icarl:Incrementalclassifier and representation learning(CVPR),2017.
[6]Li Z,Hoiem D.Learning without forgetting[J].IEEE transactions onpattern analysis and machine intelligence,2017,40(12):2935-2947.
[7]Li B,Lu Y,Li C,et al.SHREC’14track:Extended large scale sketch-based 3D shape retrieval[C].Eurographics workshop on 3D objectretrieval.2014.
[8]H.Su,S.Maji,E.Kalogerakis,et al.Multi-view convolutional neuralnetworks for 3d shape recognition.Proceedings of the IEEE internationalconference on computer vision.2015.
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于增量学习的多视角目标识别与检索方法,其特征在于,所述方法包括:
将三维模型的视图序列以单个类别或几个类别为单位划分成多个任务序列,将任务序列以数据流的方式,输入到神经网络中;
在神经网络上添加一基于特征蒸馏的稳定性模块,用于约束旧类别目标特征的演变;
在分类器上添加一基于知识蒸馏的可塑性模块,用于提升对新类别目标的适应能力;
使用神经网络提取视图序列中的每个视图特征并生成视图特征序列,将视图特征序列融合成一特征描述符,利用特征描述符进行多视目标的识别与检索。
2.根据权利要求1所述的一种基于增量学习的多视角目标识别与检索方法,其特征在于,所述稳定性模块包括:旧网络和新网络,以及联系两者的一个空间池化蒸馏函数,
所述模块用于使新网络卷积层的输出去逼近旧网络卷积层的输出。
3.根据权利要求1所述的一种基于增量学习的多视角目标识别与检索方法,其特征在于,所述可塑性模块包括:临时网络和新网络,以及联系两者的一个知识蒸馏损失函数,
所述模块用于使新网络分类器的输出去逼近临时网络分类器的输出。
4.根据权利要求1所述的一种基于增量学习的多视角目标识别与检索方法,其特征在于,所述稳定性模块位于神经网络的中间卷积层,所述可塑性模块作用于分类器的输出上。
5.根据权利要求4所述的一种基于增量学习的多视角目标识别与检索方法,其特征在于,所述稳定性模块将神经网络的每一残差块输出特征图进行空间池化操作,利用欧式距离进行特征层面的蒸馏。
6.根据权利要求4所述的一种基于增量学习的多视角目标识别与检索方法,其特征在于,所述空间池化蒸馏函数为:
Figure FDA0003149100940000011
其中,Pt代表新网络的输出特征图,Pt-1代表旧网络的输出特征图,Pj,c,h和Pj,c,w分别代表进行宽度池化和高度池化后的特征图。
7.根据权利要求3所述的一种基于增量学习的多视角目标识别与检索方法,其特征在于,
复制新网络得到一临时网络,并仅在新任务目标类别上使用标准的交叉熵损失训练临时网络。
8.一种基于增量学习的多视角目标识别与检索装置,其特征在于,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-8中的任一项所述的方法步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行权利要求1-7中的任一项所述的方法步骤。
CN202110761047.XA 2021-07-06 2021-07-06 一种基于增量学习的多视角目标识别与检索方法、及装置 Active CN113515656B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110761047.XA CN113515656B (zh) 2021-07-06 2021-07-06 一种基于增量学习的多视角目标识别与检索方法、及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110761047.XA CN113515656B (zh) 2021-07-06 2021-07-06 一种基于增量学习的多视角目标识别与检索方法、及装置

Publications (2)

Publication Number Publication Date
CN113515656A true CN113515656A (zh) 2021-10-19
CN113515656B CN113515656B (zh) 2022-10-11

Family

ID=78066619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110761047.XA Active CN113515656B (zh) 2021-07-06 2021-07-06 一种基于增量学习的多视角目标识别与检索方法、及装置

Country Status (1)

Country Link
CN (1) CN113515656B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822373A (zh) * 2021-10-27 2021-12-21 南京大学 一种基于集成与知识蒸馏的图像分类模型训练方法
CN114663714A (zh) * 2022-05-23 2022-06-24 阿里巴巴(中国)有限公司 图像分类、地物分类方法和装置
CN114692788A (zh) * 2022-06-01 2022-07-01 天津大学 基于增量学习的厄尔尼诺极端天气预警方法及装置
CN115392359A (zh) * 2022-08-11 2022-11-25 广州里工实业有限公司 一种缺陷检测方法、系统、装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190347826A1 (en) * 2018-05-11 2019-11-14 Samsung Electronics Co., Ltd. Method and apparatus for pose processing
CN111368874A (zh) * 2020-01-23 2020-07-03 天津大学 一种基于单分类技术的图像类别增量学习方法
CN111626330A (zh) * 2020-04-23 2020-09-04 南京邮电大学 基于多尺度特征图重构和知识蒸馏的目标检测方法与系统
CN111709497A (zh) * 2020-08-20 2020-09-25 腾讯科技(深圳)有限公司 一种信息处理方法、装置及计算机可读存储介质
CN111914697A (zh) * 2020-07-16 2020-11-10 天津大学 基于视图语义信息和序列上下文信息的多视目标识别方法
CN111967534A (zh) * 2020-09-03 2020-11-20 福州大学 基于生成对抗网络知识蒸馏的增量学习方法
CN112164054A (zh) * 2020-09-30 2021-01-01 交叉信息核心技术研究院(西安)有限公司 基于知识蒸馏的图像目标检测方法和检测器及其训练方法
CN112560631A (zh) * 2020-12-09 2021-03-26 昆明理工大学 一种基于知识蒸馏的行人重识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190347826A1 (en) * 2018-05-11 2019-11-14 Samsung Electronics Co., Ltd. Method and apparatus for pose processing
CN111368874A (zh) * 2020-01-23 2020-07-03 天津大学 一种基于单分类技术的图像类别增量学习方法
CN111626330A (zh) * 2020-04-23 2020-09-04 南京邮电大学 基于多尺度特征图重构和知识蒸馏的目标检测方法与系统
CN111914697A (zh) * 2020-07-16 2020-11-10 天津大学 基于视图语义信息和序列上下文信息的多视目标识别方法
CN111709497A (zh) * 2020-08-20 2020-09-25 腾讯科技(深圳)有限公司 一种信息处理方法、装置及计算机可读存储介质
CN111967534A (zh) * 2020-09-03 2020-11-20 福州大学 基于生成对抗网络知识蒸馏的增量学习方法
CN112164054A (zh) * 2020-09-30 2021-01-01 交叉信息核心技术研究院(西安)有限公司 基于知识蒸馏的图像目标检测方法和检测器及其训练方法
CN112560631A (zh) * 2020-12-09 2021-03-26 昆明理工大学 一种基于知识蒸馏的行人重识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PENG YUN等: "《In Defense of Knowledge Distillation for Task Incremental Learning and Its Application in 3D Object Detection》", 《IEEE ROBOTICS AND AUTOMATION LETTERS》 *
缪永彪: "《基于深度学习的图像增量学习研究》", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822373A (zh) * 2021-10-27 2021-12-21 南京大学 一种基于集成与知识蒸馏的图像分类模型训练方法
CN113822373B (zh) * 2021-10-27 2023-09-15 南京大学 一种基于集成与知识蒸馏的图像分类模型训练方法
CN114663714A (zh) * 2022-05-23 2022-06-24 阿里巴巴(中国)有限公司 图像分类、地物分类方法和装置
CN114663714B (zh) * 2022-05-23 2022-11-04 阿里巴巴(中国)有限公司 图像分类、地物分类方法和装置
CN114692788A (zh) * 2022-06-01 2022-07-01 天津大学 基于增量学习的厄尔尼诺极端天气预警方法及装置
CN114692788B (zh) * 2022-06-01 2022-08-19 天津大学 基于增量学习的厄尔尼诺极端天气预警方法及装置
CN115392359A (zh) * 2022-08-11 2022-11-25 广州里工实业有限公司 一种缺陷检测方法、系统、装置及存储介质

Also Published As

Publication number Publication date
CN113515656B (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
CN113515656B (zh) 一种基于增量学习的多视角目标识别与检索方法、及装置
CN108920720B (zh) 基于深度哈希和gpu加速的大规模图像检索方法
CN107577990B (zh) 一种基于gpu加速检索的大规模人脸识别方法
Chen et al. Saliency detection via the improved hierarchical principal component analysis method
Jégou et al. On the burstiness of visual elements
CN103336795B (zh) 基于多特征的视频索引方法
Ren et al. 3d-a-nets: 3d deep dense descriptor for volumetric shapes with adversarial networks
Pedronette et al. Multimedia retrieval through unsupervised hypergraph-based manifold ranking
CN109886334B (zh) 一种隐私保护的共享近邻密度峰聚类方法
CN106780639B (zh) 基于显著性特征稀疏嵌入和极限学习机的哈希编码方法
CN113240012B (zh) 一种基于二维图像的无监督多视角三维目标检索方法及装置
CN111310821B (zh) 多视图特征融合方法、系统、计算机设备及存储介质
CN110427517B (zh) 一种基于场景词典树的图搜视频方法,装置及计算机可读存储介质
RU2674326C2 (ru) Способ формирования архитектуры нейросети для классификации объекта, заданного в виде облака точек, способ ее применения для обучения нейросети и поиска семантически схожих облаков точек
CN111126197B (zh) 基于深度学习的视频处理方法及装置
CN115147599A (zh) 一种面向遮挡和截断场景的多几何特征学习的物体六自由度位姿估计方法
CN112241789A (zh) 用于轻量化神经网络的结构化剪枝方法、装置、介质及设备
CN108564116A (zh) 一种摄像头场景图像的成分智能分析方法
CN111797269A (zh) 基于多级视图关联卷积网络的多视图三维模型检索方法
Valem et al. Unsupervised similarity learning through rank correlation and knn sets
Gao et al. Efficient view-based 3-D object retrieval via hypergraph learning
Mukhaimar et al. Pl-net3d: Robust 3d object class recognition using geometric models
CN114708449B (zh) 相似视频的确定方法、实例表征模型的训练方法及设备
Dhoot et al. Efficient Dimensionality Reduction for Big Data Using Clustering Technique
Liang et al. Multimodal information fusion based on LSTM for 3D model retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant