CN114241260A - 一种基于深度神经网络的开集目标检测与识别方法 - Google Patents
一种基于深度神经网络的开集目标检测与识别方法 Download PDFInfo
- Publication number
- CN114241260A CN114241260A CN202111527240.3A CN202111527240A CN114241260A CN 114241260 A CN114241260 A CN 114241260A CN 202111527240 A CN202111527240 A CN 202111527240A CN 114241260 A CN114241260 A CN 114241260A
- Authority
- CN
- China
- Prior art keywords
- class
- unknown
- classes
- loss
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度神经网络的开集目标检测与识别方法,首先构造常见已知类别的图像作为训练集,然后设计一种UOD,利用改进的RPN保留对未知类别的检测能力,对未知类别赋予unknown标签;再增加对比聚类损失减少类内距离增大不同类别间的距离,引入韦布尔分布对不同类别的概率密度函数进行建模,区分已知和未知类别对象;并利用特征聚类的方式对未知类别对象进行初步分类和生成伪标签,最后提出改进的zero‑shot方案,对未知类别进行超类划分,利用CLIP方法先识别出未知类别的粗糙标签,再在粗糙标签对应的精细标签中识别出对应未知对象的类别。本发明能够用于对开放世界未经训练的对象进行检测,并实现了对未知类别的zero‑shot预测,减少了人工标注和网络更新的成本。
Description
技术领域
本发明涉及目标检测识别和智能监控技术领域,具体为一种基于深度神经网络的开集目标检测与识别方法。
背景技术
训练集和测试集中的对象都属于已知具体类别的检测任务属于闭集检测任务。相反地,当训练集中的对象属于已知类别,测试集中的对象属于未知类别的检测任务属于开集检测任务。传统的检测任务大多属于闭集检测任务,只能对已知类别进行检出,但现实世界中包含的对象很多不属于训练数据集中的类别,即需要对未知类别进行检测。开放世界的目标对象是典型的开集类别,即开放世界的目标检测与识别也是典型的开集目标检测和识别任务。一方面开放世界未知类别种类繁多,且随着场景的不同会出现新的未知类别;另一方面,存在不确定的和其他(混合)目标不包含标签,常规分类器无法对其进行分类识别(未能正确区分已知类别和未知类别)。
与开放世界的目标种类相比,目前公开的标准大规模目标检测与识别的数据集,如Pascal VOC和MS-COCO等标注的类别的数量仍然相对较少,对未知类别的检测和识别需要模型具有很强泛化能力,或者使模型具有自学习能力能够自动更新对新引入类别的检测和识别。先前的研究者通过利用支持向量机(SVM)和深度学习模型尝试解决这一挑战性的问题。也有研究者通过引入一个新的模型层称作OpenMax,提出了一种使深度网络适应开放集识别的方法。OpenMax层估计输入来自未知类的概率,估计未知概率的一个关键要素是使元识别概念适应网络倒数第二层的激活模式。OpenMax允许拒绝呈现给系统的“欺骗”和不相关的开放集图像,OpenMax大大减少了深度网络产生的明显错误的数量。但这类方法只是对已知类别和未知类别进行分类,不太适应开放识别对象的检测。因此如何像在封闭世界检测已知类别那样检测和识别开放世界的未知类别,依然是一个值得研究的问题。
针对上述问题,开放世界目标检测的需求可归纳为以下几点:(1)正确检测出并识别常见的乱堆物料子类,防止乱堆物料类别检测结果的误报,即确保乱堆物料检测识别的准确率,在没有明确监督的情况下将尚未引入的乱堆物料子类识别为“unknown”,而不是将其归纳为现有的子类;(2)保留未标注乱堆物料的检测能力(不能将未知对象检测作为背景),即虽然有些乱堆物料前期未对其进行标注分类,但需要保留对其的检出能力;(3)如果在逐渐接收到相应乱堆物料的标签时,模型可以逐步学习这些已识别的未知类别,而不会遗忘先前学习的类别,即能够自适应的学习标注的未知类别。
发明内容
针对上述问题,本发明的目的在于提供一种基于深度神经网络的开集目标检测与识别方法,能够用于对开放世界未经训练的对象进行检测,并实现了对未知类别的zero-shot预测,减少人工标注和网络更新的成本,解决真实识别场景下的检测和识别问题。技术方案如下:
步骤1:构造常见已知类别的图像作为训练集,对于未知类别统一设置标签为“unknown”,并利用Faster R-CNN作为基准网络训练模型;
步骤2:设计一种未知目标检测器,所述未知目标检测器利用改进的RPN同时保留检测图像的前景和背景,将改进的RPN检测到的高于预设对象分数但不属于已知类别的提议边界框标记为未知类别,从而保留对未知类别的检测能力;
步骤3:增加对比聚类损失以减少类内距离,并增大不同类别间的距离;引入韦布尔分布以对不同类别的概率密度函数进行建模,用以区分已知类别和未知类别对象;
步骤4:利用特征聚类的方式对未知类别对象进行分类和生成伪标签,用以区分未知类别对象中的相同类和不同类;
步骤5:提出改进的zero-shot识别方案,首先对未知类别进行超类划分,每个图像都带有一个精细标签和一个粗糙标签,再利用对比语言-图像预训练方法分别识别对象的精细标签和粗糙标签,以提高未知对象的识别准确度。
进一步的,所述步骤1中,训练任务采用Pascal VOC2007标准数据集作为检测基准,每张图片均有标注;所有的标注图片都有检测需要的Label,但只有部分数据有分割需要的Label,将其余检测到的类别全部命名为“unknown”;在Pascal VOC2007数据集上训练原始任务Task,模型的基准网络采用Faster R-CNN,在模型训练阶段,设置目标检测的置信度SCORE设置为0.35、非极大值抑制NMS设置为0.35、当前已知类别的数量CUR_INTRODUCED_CLS设置为20和预检测图像的数量DETECTIONS_PER_IMAGE设置为50。
更进一步的,所述步骤2具体为:给定待检测的图像,未知目标检测器利用改进的RPN为前景和背景实例生成一组边界框预测,以及相应的对象类别回归分数;其中,训练的已知类别被识别为前景,未知类别被识别为背景,选择前k个背景区域提议,按其对象性分数排序,作为未知对象;k的取值根据背景显示的置信度SCORE来确定,最终得到已知类别和标记为“unknown”的未知类别。
更进一步的,所述步骤3增加对比聚类损失以减少类内距离,并增大不同类别间的距离;引入韦布尔分布以对不同类别的概率密度函数进行建模,用以区分已知类别和未知类别对象。具体步骤如下:
步骤3.1:设计对比损失:
设置已知类别集合C,已知类别数为c,已知类别i∈C,pi为已知类别i的中间层生成的特征向量,fj为任意对象j在检测器中间层生成的特征向量;则对比损失Lcon表示为:
其中,[z]+=max(0,z),d(pi,fj)2表示特征向量pi和fj的欧式距离,w为距离阈值,当y=1时,表示对象j的类别为已知类别i;y=0时,表示对象j的类别不为已知类别i;
步骤3.2:引入聚类更新特征学习的过程,再对更优的特征表示进行聚类,通过反复迭代提高最终的特征表示能力:
和步骤3.1中的参数定义相同,每个已知类别i维持一个由检测器中间层生成的特征向量pi,则特征向量表征集合为P=p0,p1,...,pc,p0代表未知类的特征向量;
建立一个存储器Fstore=q0,q1,...,qc用来存储训练过程中的临时特征向量,每个类的特征向量存在其对应位置;
在常规损失函数上叠加一个对比聚类损失来强制降低类内样本距离,增大类间样本距离;
用不叠加对比聚类损失的轮数Ib来初始化已知类别的特征向量,在迭代轮数大于Ib后,每轮都计算对比聚类的损失,并每Ip轮执行一次特征向量的更新,从而同步更新对比损失Lcon;
步骤3.3:设计联合损失用于模型训练,本发明基于Faster R-CNN模型设计组合分类损失、回归损失和对比损失的联合损失,其中,分类损失Lcls用于给RPN生成的提议区域分配类别,回归损失Lreg用于给提议区域预测的类别计算相关度。目标检测的分类损失Lcls可以表示为:
其中,Anchor[m]为RPN生成的第m提议区域,pm为Anchor[m]预测分类概率,当Anchor[m]为正样本时,当Anchor[m]为负样本时,Anchor与GT框(GroundTruth Box)的IOU的重叠率大于0.7时为正样本,Anchor与GT框的IOU的重叠率小于0.3时为负样本。
目标检测的回归损失Lreg可以表示为:
其中,tm为Anchor[m]最终预测的边界框参数化坐标,为Anchor[m]的GT框的边界框参数化坐标。R(x)为Smooth L1损失的表达式,它有效避免了L1损失和L2的缺陷,不会出现因为预测值的梯度变大导致的训练不稳定的问题。
最后,本发明联合分类损失Lcls、对比损失Lcon和回归损失Lreg共同约束模型的训练,则联合损失L的表达式为:
L=Lcls+λ1Lcon+λ2Lreg
其中,λ1和λ2为超参数,在本发明中设置λ1=0.5,λ2=10。
步骤3.4:将标准Faster R-CNN的分类头转换为权重函数的标准方法,并引入韦布尔分布;具体地:通过将低权重分配给分布内的已知类别数据,使用权重度量来表征样本是否来自未知类别。
更进一步的,所述步骤4具体为:利用同一类别的对象在特征空间上距离小于不同类别对象在特征空间上的距离这一特性,首先对已知类别的对象进行k-means聚类,并对距离进行排序,得到对应类别的聚类簇中心;然后,计算一个新的未知类别与现有的已知类别的簇中心的距离,得到距离簇中心最小距离的类别,并将其归纳为此类;若新的未知类别距离所有已知类别的簇中心的距离超过一定的阈值,则将其归纳为一个新的未知类别,并对新的未知类别簇赋予伪标签,从而实现对未知类别的初步分类。
更进一步的,所述步骤5具体为:所述对比语言-图像预训练方法包括对比预训练、从标签文本创建数据集分类器和zero-shot预测三个部分;对比语言-图像预训练在互联网上搜集未清洗的文本-图像对数据用于对比学习训练模型,首先通过预训练一个图像编码器和一个文本编码器,以预测数据集中图像与文本的配对;然后在测试时学习文本编码器学习数据集类别名称或者文本描述来合成zero-shot线性分类器;最后将数据集的所有类别转换为标题,并预测标题的类别与给定图像的最佳匹配;
所述改进的zero-shot识别方案为:对未知类别进行超类划分,每个图像都带有一个精细标签和一个粗糙标签;在测试阶段,利用对比语言-图像预训练先对待识别图像识别出其所属的超类,然后再考虑其更精细化的子类标签的识别,以提高未知对象的识别准确度。
本发明的有益效果是:
1)本发明设计一种未知对象检测器(Unknown Objective Detector,UOD),利用改进的RPN保留对未知类别的检测能力,即将RPN检测到的具有较高对象分数但不属于已知类别的提议边界框标记为未知类别;此外,本发明引入对比聚类损失减少类内距离,增大类间的距离。采用韦布尔分布可以对不同类别的概率密度函数进行建模,用以区分已知类别和未知类别对象。本发明能够保留对开放世界未经训练的类别对象的检出能力,并能够正确区分出已知类别和未知类别,对未知类别赋予统一的“unknown”标签。
2)本发明提出基于特征聚类的方法对未知类别进行初步分类和生成为标签。利用同一类别的对象在特征空间上距离小于不同类别对象在特征空间上的距离这一特性,将新的未知对象归为原有的已知类别或赋予新的伪标签,辅助对未知对象的进行识别,从而提高最终的识别准确度。
3)本发明提出改进的zero-shot未知类别识别方案。基于对比语言-图像预训练(Contrastive Language-Image Pre-training,CLIP)方法,对未知类别进行超类划分,每个图像都带有一个“精细”标签和一个“粗糙”标签,首先利用CLIP识别出未知类别的“粗糙”,再在“粗糙”对应的“精细”标签中识别出对应未知对象的类别。这种方法能够显著提高对未知类别的识别准确度,并且具有一定真实场景的泛化能力。
4)本发明能够用于对开放世界未经训练的对象进行检测,并实现了对未知类别的zero-shot预测,减少了人工标注和网络更新的成本,解决了真实识别场景下的检测和识别问题,更加贴合真实场景下的应用。
附图说明
图1为本发明实施例的基于深度神经网络的开集目标检测与识别方法的流程图。
图2为本发明实施例的未知对象检测器(UOD)模型示意图。
图3为本发明实施例中聚类方式辅助对未知对象的进行分类识别示意图。
图4为本发明实施例引入的zero-shot识别方案的对未知对象的识别流程示意图。
图5为本发明实施例对未知类别划分“超类”后的“精细化”识别流程图。
图6为本发明实施例的开放世界未知对象检测结果示意图。
图7为本发明实施例的开放世界未知对象识别结果示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细说明。
本发明设计了一种基于深度神经网络的开集目标检测与识别方法。首先,通过设计一种未知目标检测器,利用改进的区域提议网络(Region Proposal Network,RPN)保留对未知类别的检测能力;其次,增加对比聚类损失和韦布尔分布区分已知类别,对比聚类损失就是为了减少类内距离,而增大不同类别间的距离,韦布尔分布可以对不同类别的概率密度函数进行建模,用以区分已知类别和未知类别对象;然后,基于特征聚类的方式对未知类别对象进行分类和生成伪标签,用以区分未知类别对象中的相同类和不同类;最后,提出改进的zero-shot未知类别识别方案。对未知类别进行超类划分,每个图像都带有一个“精细”标签和一个“粗糙”标签,利用对比语言-图像预训练方法识别出未知类别的“粗糙”,再在“粗糙”对应的“精细”标签中识别出对应未知对象的类别,以提高未知对象的识别准确度。
一种基于深度神经网络的开集目标检测与识别方法,包括训练集构造、构建未知类别检测器、设计对比聚类损失函数与韦布尔分布、采用基于特征聚类的方式对未知类别对象进行初步分类和生成伪标签和提出改进的zero-shot未知类别识别方案。
参考图1,为本发明一种基于深度神经网络的开集检测与识别方法的具体实施流程图,具体实施步骤如下:
步骤1:构造常见已知类别的图像作为训练集,对于未知类别统一设置标签为“unknown”,利用Faster R-CNN作为基准网络训练模型。
对训练集进行预处理的具体实施如下:
本发明在开集目标检测方案的训练任务采用的是Pascal VOC2007标准数据集作为检测基准,包含20类的物体,每张图片都有标注,标注的物体包括人、动物(如猫、狗、鸟等)、交通工具(如车、船、飞机等)、家具(如椅子、桌子、沙发等),其中训练集(5011幅),测试集(4952幅),共计9963幅图。每个图像平均有2.4个目标。所有的标注图片都有检测需要的label,但只有部分数据有分割需要的label,符合乱堆物料检测存在大量的人和车的场景,将其余检测到的类别全部命名为“unknown”。Pascal VOC2007标准数据集的详细类别包括:"airplane","bicycle","bird","boat","bottle","bus","car","cat","chair","cow","dining table","dog","horse","motorcycle","person","potted plant","sheep","couch","train","TV-monitor"。本发明在Pascal VOC2007数据集上训练原始任务Task,模型的基准网络采用Faster R-CNN,在模型训练阶段,设置目标检测的置信度SCORE设置为0.35、非极大值抑制NMS设置为0.35、当前已知类别的数量CUR_INTRODUCED_CLS设置为20和预检测图像的数量DETECTIONS_PER_IMAGE设置为50。本发明标记常见的类别例如人、车、自行车、摩托车等,符合现实场景中存在大量的人和车的场景,本发明将除上述20类外的其余检测到的类别全部识别为“unknown”类别,最终保存模型训练的权重WEIGHT。
步骤2:设计一种未知目标检测器(Unknown Objective Detector,UOD),UOD利用改进的RPN同时保留检测图像的前景和背景,将改进的RPN检测到的高于预设对象分数但不属于已知类别的提议边界框标记为未知类别,从而保留对未知类别的检测能力,参考图2为本发明实施例的未知对象检测器(UOD)模型示意图。
构建未知目标检测器(UOD)具体实施如下:
由于区域提议网络(RPN)生成的检测框与对象的类别无关,所以可以使用改进的RPN自动将图像中的一些对象标记为潜在的未知类别的对象。给定输入图像,RPN为前景和背景实例生成一组边界框预测,以及相应的对象类别分数。检测未知类别的思想为:将RPN检测到的具有较高对象分数但不属于已知类别的提议边界框标记为未知类别。简单的讲:训练的已知类别被识别为前景,未知类别识别为背景,选择前k个背景区域提议,按其对象回归分数排序,作为未知对象。k的取值根据背景显示的置信度SCORE来确定,在本发明中设置SCORE的值大于0.5的k个背景作为未知类别显示,从而得到已知类别和标记为“unknown”的未知类别。
步骤3:增加对比聚类损失和韦布尔分布区分已知类别,对比聚类损失就是为了减少类内距离,而增大不同类别间的距离,韦布尔分布可以对不同类别的概率密度函数进行建模,用以区分已知类别和未知类别对象。
深度网络中间层学习到的隐藏特征如果善加利用,可以帮助学习清晰的“已知类别”和“未知类别”特征表示的区别,从而避免像大多数的检测器会强行将当前“未知类别”实例归类到某一“已知类别”实例中。对比聚类损失和韦布尔分布的方法具体实施如下:
1)设置已知类别集合C,已知类别数为c,已知类别i∈C,pi为已知类别i的中间层生成的特征向量,fj为任意对象j在检测器中间层生成的特征向量;则对比损失Lcon表示为:
其中,[z]+=max(0,z),d(pi,fj)2表示pi和fj的欧式距离,w为距离阈值,当y=1时,表示对象j的类别为i,反之y=0时,表示对象j的类别不为已知类别i。
2)引入聚类更新特征学习的过程,再对更优的特征表示进行聚类,通过反复迭代提高最终的特征表示能力。和步骤1)中的参数定义相同,每个已知类别i维持一个由检测器中间层生成的特征向量pi,则特征向量表征集合为P=p0,p1,...,pc,其中,已知类别集合C,已知类别数为c,已知类别i∈C,p0代表未知类的特征向量。然后再建立一个存储器Fstore=q0,q1,...,qc用来存储训练过程中的临时特征向量,每个类的特征向量存在其对应位置。最后在常规损失函数上再叠加一个对比聚类损失来达到强制降低类内样本距离,增大类间样本距离的效果。其中,Ib是不叠加对比聚类损失的轮数,用以初始化已知类别的特征向量,在迭代轮数大于Ib后,每轮都计算对比聚类的损失,并每Ip轮执行一次特征向量的更新,从而同步更新对比损失Lcon。对比聚类损失就是为了减少类内距离,而增大不同类别间的距离,这样的特征分布有助于区分已知类比和未知类别。
3):设计联合损失用于模型训练,本发明基于Faster R-CNN模型设计组合分类损失、回归损失和对比损失的联合损失,其中,分类损失Lcls用于给RPN生成的提议区域分配类别,回归损失Lreg用于给提议区域预测的类别计算相关度。目标检测的分类损失Lcls可以表示为:
其中,Anchor[m]为RPN生成的第m提议区域,pm为Anchor[m]预测分类概率,当Anchor[m]为正样本时,当Anchor[m]为负样本时,Anchor与GT框(GroundTruth Box)的IOU的重叠率大于0.7时为正样本,Anchor与GT框的IOU的重叠率小于0.3时为负样本。
目标检测的回归损失Lreg可以表示为:
其中,tm为Anchor[m]最终预测的边界框参数化坐标,为Anchor[m]的GT框的边界框参数化坐标。R(x)为Smooth L1损失的表达式,它有效避免了L1损失和L2的缺陷,不会出现因为预测值的梯度变大导致的训练不稳定的问题。
最后,本发明联合分类损失Lcls、对比损失Lcon和回归损失Lreg共同约束模型的训练,则联合损失L的表达式为:
L=Lcls+λ1Lcon+λ2Lreg
其中,λ1和λ2为超参数,在本发明中设置λ1=0.5,λ2=10。
4)韦布尔分布可以对不同类别的概率密度函数进行建模,用以区分已知类别和未知类别对象。本发明将标准Faster R-CNN的分类头转换为权重函数的标准方法,并引入韦布尔分布用于区分已知类别和未知类别。通过将低权重分配给分布内的已知类别数据,可以使用权重度量来表征样本是否来自未知类别。由于使用对比聚类将不同类别的特征表征尽量的拉开,对不同类别的概率密度函数进行建模,已知类别样本点和未知类别样本点的分布分离明显,通过韦布尔分布区分已知类别和未知类别。
步骤4:利用特征聚类的方式对未知类别对象进行分类和生成伪标签,用以区分未知类别对象中的相同类和不同类,参考图3为本发明实施例的引入聚类方式辅助对未知对象的进行分类识别示意图。
特征聚类的方法具体实施如下:
针对未知类别对象的识别问题,现有的zero-shot开集识别方案CLIP(Contrastive Language-Image Pre-Training)依赖高度匹配的文本描述,但在现实乱堆物料场景下,很难对其进行准确的文本描述,使得一种乱堆物料可能有多种相似的预测识别结果。为此本发明提出特征聚类方式辅助对未知对象的进行预分类。利用同一类别的对象在特征空间上距离小于不同类别对象在特征空间上的距离这一特性,首先对已知类别的对象进行k-means聚类,并对距离进行排序,得到对应类别的聚类簇中心。然后,计算一个新的未知类别与现有的已知类别的簇中心的距离,得到距离簇中心最小距离的类别,并将其归纳为此类。若新的未知类别距离所有已知类别的簇中心的距离超过一定的阈值,则可将其归纳为一个新的未知类别,并对新的未知类别簇赋予伪标签,从而实现对未知类别的初步分类。
步骤5:提出改进的zero-shot识别方案。对未知类别进行超类划分,每个图像都带有一个“精细”标签和一个“粗糙”标签,利用对比语言-图像预训练(ContrastiveLanguage-Image Pre-training,CLIP)方法对未知类别进行识别,参考图4为本发明实施例引入的zero-shot识别方案对未知对象的识别流程示。
改进的zero-shot识别方案具体实施如下:
CLIP方法包括对比预训练、从标签文本创建数据集分类器和zero-shot预测三个部分。标准的图像分类器通过联合训练图像特征提取器和线性分类器来预测某个标签,但CLIP通过预训练一个图像编码器和一个文本编码器,以预测哪些图像与数据集中的哪些文本配对。CLIP首先通过预训练一个图像编码器和一个文本编码器,以预测数据集中图像与文本的配对;然后,在测试时学习文本编码器学习数据集类别名称或者文本描述来合成zero-shot线性分类器;最后,将数据集的所有类别转换为标题,并预测标题的类别与给定图像的最佳匹配。
其在互联网上搜集4亿未清洗的图像-文本对数据用于对比学习训练模型,主要有以下特点:(i)CLIP的图像-文本训练数据都是从互联网上搜索得到,用纯文本作为label,减少了标注成本;(ii)标准的视觉模型仅仅针对一个任务的训练和测试,当出现类似图像时不能够得到正确的预测结果,而CLIP在常见图像上就不受限制,具有zero-shot预测图像类别的能力,适用于对未知类别的乱堆物料进行识别;(iii)通常基准和真实场景之间存在域差,在基准上表现好不意味着真实情景也表现好。而CLIP从互联网上学习图像-文本之前的特征信息,具有一定真实场景的泛化能力,模型几乎能够涵盖所有的现有乱堆类别。
实践证明,对于特征明显的常见类别,CLIP能够得到较高的识别准确率,但对于一些存在重叠分类或者类别描述不清晰的情况,识别的准确率较低。为此本发明提出改进的zero-shot识别方案。对未知类别进行超类划分,每个图像都带有一个“精细”标签和一个“粗糙”标签。在测试阶段,先对待识别图像识别出其所属的超类,然后再考虑其更“精细”化的子类标签的识别,这样可以减少其他未知类别的干扰,能够很大程度提高CLIP对未知类别的识别准确度,参考图5为本发明实施例“未知类别”划分超类后的“精细化”识别流程图。
参考图6为本发明实施例的开放世界未知对象识别的检测示意图,检测图像为任意现实世界的图像,从图中可以看到,除了人、自行车、摩托车、狗等常见的已知类别外,未知目标检测器(UOD)能够检测其他未经训练的未知类别。
参考图7为本发明实施例的开放世界未知对象识别的结果示意图,改进的zero-shot识别方案对未知类别的识别结果,可以发现对部分未知类别对象的识别准确率较高。从zero-shot识别结果来看,未知类别的特性存在区分度不够或者存在类别重叠的情况,例如参考图7椅子做成梯子的形状,导致模型很难区分。在采用特征聚类和为每个未知对象设置一个“精细”标签和一个“粗糙”标签后,能够提高未知类别的zero-shot识别的准确度。综上所述,本发明能够用于对开放世界未经训练的对象进行检测,并实现了对未知类别的zero-shot预测,减少了人工标注和网络更新的成本,解决了真实识别场景下的检测和识别问题,更加贴合真实场景下的应用。
Claims (6)
1.一种基于深度神经网络的开集目标检测与识别方法,其特征在于,包括如下步骤:
步骤1:构造常见已知类别的图像作为训练集,对于未知类别统一设置标签为“unknown”,并利用Faster R-CNN作为基准网络训练模型;
步骤2:设计一种未知目标检测器,所述未知目标检测器利用改进的RPN同时保留检测图像的前景和背景,将改进的RPN检测到的高于预设对象分数但不属于已知类别的提议边界框标记为未知类别,从而保留对未知类别的检测能力;
步骤3:增加对比聚类损失以减少类内距离,并增大不同类别间的距离;引入韦布尔分布以对不同类别的概率密度函数进行建模,用以区分已知类别和未知类别对象;
步骤4:利用特征聚类的方式对未知类别对象进行分类和生成伪标签,用以区分未知类别对象中的相同类和不同类;
步骤5:提出改进的zero-shot识别方案,首先对未知类别进行超类划分,每个图像都带有一个精细标签和一个粗糙标签,再利用对比语言-图像预训练方法分别识别对象的精细标签和粗糙标签,以提高未知对象的识别准确度。
2.根据权利要求1所述的基于深度神经网络的开集目标检测与识别方法,其特征在于,所述步骤1中,训练任务采用PascalVOC2007标准数据集作为检测基准,每张图片均有标注;所有的标注图片都有检测需要的Label,但只有部分数据有分割需要的Label,将其余检测到的类别全部命名为“unknown”;在Pascal VOC2007数据集上训练原始任务Task,模型的基准网络采用Faster R-CNN,在模型训练阶段,设置目标检测的置信度SCORE设置为0.35、非极大值抑制NMS设置为0.35、当前已知类别的数量CUR_INTRODUCED_CLS设置为20和预检测图像的数量DETECTIONS_PER_IMAGE设置为50。
3.根据权利要求1所述的基于深度神经网络的开集目标检测与识别方法,其特征在于,所述步骤2具体为:给定待检测的图像,未知目标检测器利用改进的RPN为前景和背景实例生成一组边界框预测,以及相应的对象类别回归分数;其中训练的已知类别被识别为前景,未知类别被识别为背景,选择前k个背景区域提议,按其对象性分数排序,作为未知对象;k的取值根据背景显示的置信度SCORE来确定,最终得到已知类别和标记为“unknown”的未知类别。
4.根据权利要求1所述的基于深度神经网络的开集目标检测与识别方法,其特征在于,所述步骤3具体步骤如下:
步骤3.1:设计对比损失:
设置已知类别集合C,已知类别数为c,已知类别i∈C,pi为已知类别i的中间层生成的特征向量,fj为任意对象j在检测器中间层生成的特征向量;则对比损失Lcon表示为:
其中,[z]+=max(0,z),d(pi,fj)2表示特征向量pi和fj的欧式距离,w为距离阈值,当y=1时,表示对象j的类别为已知类别i;y=0时,表示对象j的类别不为已知类别i;
步骤3.2:引入聚类更新特征学习的过程,再对更优的特征表示进行聚类,通过反复迭代提高最终的特征表示能力:
和步骤3.1参数定义相同,每个已知类别i维持一个由检测器中间层生成的特征向量pi,则特征向量表征集合为P=p0,p1,...,pc,p0代表未知类的特征向量;
建立一个存储器Fstore=q0,q1,...,qc用来存储训练过程中的临时特征向量,每个类的特征向量存在其对应位置;
在常规损失函数上叠加一个对比聚类损失来强制降低类内样本距离,增大类间样本距离;
用不叠加对比聚类损失的轮数Ib来初始化已知类别的特征向量,在迭代轮数大于Ib后,每轮都计算对比聚类的损失,并每Ip轮执行一次特征向量的更新,从而同步更新对比损失Lcon;
步骤3.3:设计联合损失用于模型训练,基于Faster R-CNN模型设计组合分类损失、回归损失和对比损失的联合损失;其中分类损失Lcls用于给RPN生成的提议区域分配类别,回归损失Lreg用于给提议区域预测的类别计算相关度;目标检测的分类损失Lcls表示为:
其中,定义Anchor[m]为RPN生成的第m提议区域,则pm为Anchor[m]预测分类概率,当Anchor[m]为正样本时,当Anchor[m]为负样本时,Anchor与GT框的IOU的重叠率大于0.7时为正样本,Anchor与GT框的IOU的重叠率小于0.3时为负样本;
目标检测的回归损失Lreg表示为:
最后,联合分类损失Lcls、对比损失Lcon和回归损失Lreg共同约束模型的训练,则联合损失L的表达式为:
L=Lcls+λ1Lcon+λ2Lreg
其中,λ1和λ2为超参数;
步骤3.4:将标准Faster R-CNN的分类头转换为权重函数的标准方法,并引入韦布尔分布;
具体地:通过将低权重分配给分布内的已知类别数据,使用权重度量来表征样本是否来自未知类别。
5.根据权利要求1所述的基于深度神经网络的开集目标检测与识别方法,其特征在于,所述步骤4具体为:利用同一类别的对象在特征空间上距离小于不同类别对象在特征空间上的距离这一特性,首先对已知类别的对象进行k-means聚类,并对距离进行排序,得到对应类别的聚类簇中心;然后,计算一个新的未知类别与现有的已知类别的簇中心的距离,得到距离簇中心最小距离的类别,并将其归纳为此类;若新的未知类别距离所有已知类别的簇中心的距离超过一定的阈值,则将其归纳为一个新的未知类别,并对新的未知类别簇赋予伪标签,从而实现对未知类别的初步分类。
6.根据权利要求1所述的基于深度神经网络的开集目标检测与识别方法,其特征在于,所述步骤5具体为:所述对比语言-图像预训练方法包括对比预训练、从标签文本创建数据集分类器和zero-shot预测三个部分;对比语言-图像预训练在互联网上搜集未清洗的文本-图像对数据用于对比学习训练模型,首先通过预训练一个图像编码器和一个文本编码器,以预测数据集中图像与文本的配对;然后在测试时学习文本编码器学习数据集类别名称或者文本描述来合成zero-shot线性分类器;最后将数据集的所有类别转换为标题,并预测标题的类别与给定图像的最佳匹配;
所述改进的zero-shot识别方案为:对未知类别进行超类划分,每个图像都带有一个精细标签和一个粗糙标签;在测试阶段,利用对比语言-图像预训练先对待识别图像识别出其所属的超类,然后再考虑其更精细化的子类标签的识别,以提高未知对象的识别准确度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111527240.3A CN114241260B (zh) | 2021-12-14 | 2021-12-14 | 一种基于深度神经网络的开集目标检测与识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111527240.3A CN114241260B (zh) | 2021-12-14 | 2021-12-14 | 一种基于深度神经网络的开集目标检测与识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114241260A true CN114241260A (zh) | 2022-03-25 |
CN114241260B CN114241260B (zh) | 2023-04-07 |
Family
ID=80755767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111527240.3A Active CN114241260B (zh) | 2021-12-14 | 2021-12-14 | 一种基于深度神经网络的开集目标检测与识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114241260B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114861670A (zh) * | 2022-07-07 | 2022-08-05 | 浙江一山智慧医疗研究有限公司 | 基于已知标签学习未知标签的实体识别方法、装置及应用 |
CN115035463A (zh) * | 2022-08-09 | 2022-09-09 | 阿里巴巴(中国)有限公司 | 行为识别方法、装置、设备和存储介质 |
CN116152576A (zh) * | 2023-04-19 | 2023-05-23 | 北京邮电大学 | 图像处理方法、装置、设备及存储介质 |
CN116452897A (zh) * | 2023-06-16 | 2023-07-18 | 中国科学技术大学 | 跨域小样本分类方法、系统、设备及存储介质 |
CN116665018A (zh) * | 2023-07-28 | 2023-08-29 | 华南理工大学 | 一种开放世界未知类识别的目标检测方法 |
CN116863250A (zh) * | 2023-09-01 | 2023-10-10 | 华南理工大学 | 一种涉及多模态未知类识别的开放场景目标检测方法 |
CN117292352A (zh) * | 2023-09-11 | 2023-12-26 | 东南大学 | 面向开放世界目标检测的障碍识别与避障方法及小车系统 |
CN117292352B (zh) * | 2023-09-11 | 2024-05-31 | 东南大学 | 面向开放世界目标检测的障碍识别与避障方法及小车系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096506A (zh) * | 2016-05-28 | 2016-11-09 | 重庆大学 | 基于子类类间判别双字典的sar目标识别方法 |
CN109816092A (zh) * | 2018-12-13 | 2019-05-28 | 北京三快在线科技有限公司 | 深度神经网络训练方法、装置、电子设备及存储介质 |
CN110516718A (zh) * | 2019-08-12 | 2019-11-29 | 西北工业大学 | 基于深度嵌入空间的零样本学习方法 |
CN110555390A (zh) * | 2019-08-09 | 2019-12-10 | 厦门市美亚柏科信息股份有限公司 | 基于半监督训练方式的行人重识别方法、装置及介质 |
US20200301013A1 (en) * | 2018-02-09 | 2020-09-24 | Bayerische Motoren Werke Aktiengesellschaft | Methods and Apparatuses for Object Detection in a Scene Based on Lidar Data and Radar Data of the Scene |
CN112200121A (zh) * | 2020-10-24 | 2021-01-08 | 中国人民解放军国防科技大学 | 基于evm和深度学习的高光谱未知目标检测方法 |
CN112634329A (zh) * | 2020-12-26 | 2021-04-09 | 西安电子科技大学 | 一种基于时空与或图的场景目标活动预测方法及装置 |
-
2021
- 2021-12-14 CN CN202111527240.3A patent/CN114241260B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096506A (zh) * | 2016-05-28 | 2016-11-09 | 重庆大学 | 基于子类类间判别双字典的sar目标识别方法 |
US20200301013A1 (en) * | 2018-02-09 | 2020-09-24 | Bayerische Motoren Werke Aktiengesellschaft | Methods and Apparatuses for Object Detection in a Scene Based on Lidar Data and Radar Data of the Scene |
CN109816092A (zh) * | 2018-12-13 | 2019-05-28 | 北京三快在线科技有限公司 | 深度神经网络训练方法、装置、电子设备及存储介质 |
CN110555390A (zh) * | 2019-08-09 | 2019-12-10 | 厦门市美亚柏科信息股份有限公司 | 基于半监督训练方式的行人重识别方法、装置及介质 |
CN110516718A (zh) * | 2019-08-12 | 2019-11-29 | 西北工业大学 | 基于深度嵌入空间的零样本学习方法 |
CN112200121A (zh) * | 2020-10-24 | 2021-01-08 | 中国人民解放军国防科技大学 | 基于evm和深度学习的高光谱未知目标检测方法 |
CN112634329A (zh) * | 2020-12-26 | 2021-04-09 | 西安电子科技大学 | 一种基于时空与或图的场景目标活动预测方法及装置 |
Non-Patent Citations (2)
Title |
---|
SHAFIN RAHMAN等: "sero-shot object detection:joint recognition and localization of novel concepts" * |
魏子洋;赵志宏;赵敬娇;: "改进Faster R-CNN算法及其在车辆检测中的应用" * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114861670A (zh) * | 2022-07-07 | 2022-08-05 | 浙江一山智慧医疗研究有限公司 | 基于已知标签学习未知标签的实体识别方法、装置及应用 |
CN115035463A (zh) * | 2022-08-09 | 2022-09-09 | 阿里巴巴(中国)有限公司 | 行为识别方法、装置、设备和存储介质 |
CN115035463B (zh) * | 2022-08-09 | 2023-01-17 | 阿里巴巴(中国)有限公司 | 行为识别方法、装置、设备和存储介质 |
CN116152576A (zh) * | 2023-04-19 | 2023-05-23 | 北京邮电大学 | 图像处理方法、装置、设备及存储介质 |
CN116452897A (zh) * | 2023-06-16 | 2023-07-18 | 中国科学技术大学 | 跨域小样本分类方法、系统、设备及存储介质 |
CN116452897B (zh) * | 2023-06-16 | 2023-10-20 | 中国科学技术大学 | 跨域小样本分类方法、系统、设备及存储介质 |
CN116665018A (zh) * | 2023-07-28 | 2023-08-29 | 华南理工大学 | 一种开放世界未知类识别的目标检测方法 |
CN116863250A (zh) * | 2023-09-01 | 2023-10-10 | 华南理工大学 | 一种涉及多模态未知类识别的开放场景目标检测方法 |
CN116863250B (zh) * | 2023-09-01 | 2024-05-03 | 华南理工大学 | 一种涉及多模态未知类识别的开放场景目标检测方法 |
CN117292352A (zh) * | 2023-09-11 | 2023-12-26 | 东南大学 | 面向开放世界目标检测的障碍识别与避障方法及小车系统 |
CN117292352B (zh) * | 2023-09-11 | 2024-05-31 | 东南大学 | 面向开放世界目标检测的障碍识别与避障方法及小车系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114241260B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114241260B (zh) | 一种基于深度神经网络的开集目标检测与识别方法 | |
CN110619369B (zh) | 基于特征金字塔与全局平均池化的细粒度图像分类方法 | |
Endres et al. | Category-independent object proposals with diverse ranking | |
CN107609601B (zh) | 一种基于多层卷积神经网络的舰船目标识别方法 | |
CN109919031B (zh) | 一种基于深度神经网络的人体行为识别方法 | |
CN106250812B (zh) | 一种基于快速r-cnn深度神经网络的车型识别方法 | |
CN108960073B (zh) | 面向生物医学文献的跨模态图像模式识别方法 | |
CN107609525B (zh) | 基于剪枝策略构建卷积神经网络的遥感图像目标检测方法 | |
Endres et al. | Category independent object proposals | |
Ladický et al. | What, where and how many? combining object detectors and crfs | |
CN105844295B (zh) | 一种基于颜色模型与运动特征的视频烟雾精细分类方法 | |
US6018728A (en) | Method and apparatus for training a neural network to learn hierarchical representations of objects and to detect and classify objects with uncertain training data | |
CN110633632A (zh) | 一种基于循环指导的弱监督联合目标检测和语义分割方法 | |
CN112489092B (zh) | 细粒度工业运动模态分类方法、存储介质、设备和装置 | |
CN112036276B (zh) | 一种人工智能视频问答方法 | |
Strat et al. | Natural object recognition | |
CN112734775A (zh) | 图像标注、图像语义分割、模型训练方法及装置 | |
CN110807434A (zh) | 一种基于人体解析粗细粒度结合的行人重识别系统及方法 | |
US11335086B2 (en) | Methods and electronic devices for automated waste management | |
KR20190059225A (ko) | 점진적 딥러닝 학습을 이용한 적응적 영상 인식 기반 감성 추정 방법 및 장치 | |
CN105930792A (zh) | 一种基于视频局部特征字典的人体动作分类方法 | |
CN114049493A (zh) | 基于智能体图谱的图像识别方法、系统和可读存储介质 | |
CN114548256A (zh) | 一种基于对比学习的小样本珍稀鸟类识别方法 | |
KR20210151773A (ko) | 대상 재인식 방법 및 장치, 단말 및 저장 매체 | |
CN112613428A (zh) | 基于平衡损失的Resnet-3D卷积牛视频目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |