CN116109907A - 目标检测方法、装置、电子设备及存储介质 - Google Patents
目标检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116109907A CN116109907A CN202310402773.1A CN202310402773A CN116109907A CN 116109907 A CN116109907 A CN 116109907A CN 202310402773 A CN202310402773 A CN 202310402773A CN 116109907 A CN116109907 A CN 116109907A
- Authority
- CN
- China
- Prior art keywords
- features
- category
- basic
- feature
- target detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及计算机技术领域,提供了目标检测方法、装置、电子设备及存储介质,该方法包括:将多个类别的训练图像和标注数据输入第一学习分支,得到每个类别分别对应的基础特征;将待训练图像输入第二学习分支,得到查询特征;基于基础特征和查询特征,确定候选框;基于候选框和查询特征,确定加权特征;将加权特征和每个类别分别对应的基础特征输入带有最近邻聚类算法的检测器,以确定待训练图像对应的目标检测结果。在本公开提供的技术方案中,为每一种类别构造一个基础特征,通过该种方式可以自动解决因标注导致的误检问题,并且引入最近邻聚类算法可以准确地挖掘出加权特征的最近的邻居,从而保证获取到准确的目标检测结果。
Description
技术领域
本公开涉及计算机视觉领域,尤其涉及目标检测方法、装置、电子设备及存储介质。
背景技术
目标检测是计算机视觉领域中一项具有挑战的任务,要求在图像中准确地识别出物体,并给出物体的准确位置。目前,大多数的目标检测模型是利用标注数据进行获取的,标注数据对目标检测模型具有较大的影响,在存在误标注数据的情况下,目标检测模型基于误标注数据进行训练,严重影响目标检测模型的模型性能,致使目标检测模型的准确率较低。
发明内容
有鉴于此,本公开实施例提供了目标检测方法、装置、电子设备及存储介质,以解决现有技术中在存在误标注数据时,目标检测模型的准确率较低的技术问题。
本公开实施例的第一方面,提供了一种目标检测方法,包括:
将多个类别的训练图像和训练图像对应的标注数据输入第一学习分支,得到每个类别分别对应的基础特征;
将待训练图像输入第二学习分支,得到查询特征;
基于每个类别分别对应的基础特征和查询特征,确定候选框;
基于候选框和查询特征,确定加权特征;
将加权特征和每个类别分别对应的基础特征输入带有最近邻聚类算法的检测器,以确定待训练图像对应的目标检测结果。
本公开实施例的第二方面,提供了一种目标检测装置,包括:
第一特征提取模块,被配置为将多个类别的训练图像和训练图像对应的标注数据输入第一学习分支,得到每个类别分别对应的基础特征;
第二特征提取模块,被配置为将待训练图像输入第二学习分支,得到查询特征;
第一特征处理模块,被配置为基于每个类别分别对应的基础特征和查询特征,确定候选框;
第二特征处理模块,被配置为基于候选框和查询特征,确定加权特征;
检测结果确定模块,被配置为将加权特征和每个类别分别对应的基础特征输入带有最近邻聚类算法的检测器,以确定待训练图像对应的目标检测结果。
本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本公开实施例与现有技术相比存在的有益效果是:将多个类别的训练图像和训练图像对应的标注数据输入第一学习分支,得到每个类别分别对应的基础特征。将待训练图像输入第二学习分支,得到查询特征。进而根据每个类别分别对应的基础特征和查询特征,确定出候选框,在确定候选框时引入每个类别分别对应的基础特征作为指导,可以使得确定出的候选框更具有准确性。在获取到候选框后,对查询特征向量进行特征重新加权,得到加权特征。进一步将加权特征和每个类别分别对应的基础特征输入到带有最近邻聚类算法的检测器,确定出待训练图像对应的目标检测结果。在本公开提供的技术方案中,为每一种类别构造一个基础特征,通过该种方式可以自动解决因标注导致的误检问题,并且引入最近邻聚类算法可以准确地挖掘出加权特征的最近的邻居,从而保证获取到准确的目标检测结果。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本公开实施例提供的一种目标检测方法的流程示意图;
图2是本公开实施例提供的一种目标检测方法的网络结构示意图;
图3是本公开实施例提供的又一种目标检测方法的流程示意图;
图4是本公开实施例提供的一种目标检测装置的结构示意图;
图5是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
图1是本公开实施例提供的一种目标检测方法的流程示意图。图1的图像目标检测方法可以由服务器或有能力的终端执行,进一步地,该方法包括:
S101,将多个类别的训练图像和训练图像对应的标注数据输入第一学习分支,得到每个类别分别对应的基础特征。
S102,将待训练图像输入第二学习分支,得到查询特征。
S103,基于每个类别分别对应的基础特征和查询特征,确定候选框。
S104,基于候选框和查询特征,确定加权特征。
S105,将加权特征和每个类别分别对应的基础特征输入带有最近邻聚类算法的检测器,以确定待训练图像对应的目标检测结果。
具体地,获取训练图像,该训练图像分属于不同类别,示例性地,不同的类别可以为猫、狗、人、车等。训练图像对应的标注数据用于指示训练图像中的目标检测框对应的类别;在训练图像中对象单一的情况下,训练图像的标注数据用于指示训练图像对应的类别。将多个类别的训练图像和训练图像对应的标注数据输入第一学习分支,以使得第一学习分支进行特征提取,得到每个类别分别对应的基础特征,即不同的类别对应不同的基础特征,每个基础特征用于反应所属类别。
获取待训练图像,待训练图像不存在对应的标注数据,即该待训练图像的类别未知,将待训练图像输入第二学习分支,得到查询特征,查询特征是对待训练图像进行特征提取的结果,用于反应待训练图像。
进一步地,在获取到每个类别分别对应的基础特征和查询特征后,在待训练图像中确定出候选框,该候选框为可能包含目标对象(即检测对象)的检测框。在确定候选框时,引入每个类别分别对应的基础特征,以保证确定出的候选框的准确性。
进一步地,在获取到候选框后,利用候选框,对查询特征进行特征重新加权,得到加权特征,该加权特征对查询特征中的重要特征进一步加强,有利于更准确地表示待训练图像。
进一步地,将加权特征和每个类别分别对应的基础特征输入带有最近邻聚类算法的检测器,该检测器通过挖掘加权特征的最近的邻居,并根据挖掘出的最近的邻居,得到准确的目标检测结果。
根据本公开实施例提供的技术方案,将多个类别的训练图像和训练图像对应的标注数据输入第一学习分支,得到每个类别分别对应的基础特征。将待训练图像输入第二学习分支,得到查询特征。进而根据每个类别分别对应的基础特征和查询特征,确定出候选框,在确定候选框时引入每个类别分别对应的基础特征作为指导,可以使得确定出的候选框更具有准确性。在获取到候选框后,对查询特征向量进行特征重新加权,得到加权特征。进一步将加权特征和每个类别分别对应的基础特征输入到带有最近邻聚类算法的检测器,确定出待训练图像对应的目标检测结果。在本公开提供的技术方案中,为每一种类别构造一个基础特征,通过该种方式可以自动解决因标注导致的误检问题,也就是说即使存在误标注,也会因为该类别对应的基础特征对其进行校正,从而不会出现误标注而导致的误检,进而也避免了因误检后不断迭代对模型性能带来的不利影响。并且引入最近邻聚类算法可以准确地挖掘出加权特征的最近的邻居,从而保证获取到准确的目标检测结果。
在一些实施例中,S103基于每个类别分别对应的基础特征和查询特征,确定候选框,包括:
S1031,基于每个类别分别对应的基础特征与查询特征,确定每个类别分别对应的注意力特征图。
S1032,将每个类别分别对应的注意力特征图输入区域选取网络,得到区域选取网络输出的候选框。
在本实施例中,使用注意力区域选取网络即注意力RPN(Attention RPN),得到候选框。具体地,针对每个类别分别对应的基础特征,确定该基础特征与查询特征的相似度,将确定出的相似度图作为该基础特征的类别对应的注意力特征图。在获取到每个类别分别对应的注意力特征图后,将每个类别分别对应的注意力特征图输入区域选取网络即RPN,得到输出的候选框。
根据本公开实施例提供的技术方案,使用注意力RPN,通过注意力机制引入每个类别对应的基础特征,使用基础特征来过滤掉大多数背景框和不匹配类别的框,从而可以得到更小、更精确的候选框,且有更大可能性包含目标对象。
在一些实施例中,基于每个类别分别对应的基础特征与查询特征,确定每个类别分别对应的注意力特征图,包括:针对每个基础特征:将基础特征与查询特征进行点乘操作,得到注意力特征图,注意力特征图与基础特征的类别相对应。
其中,以每一个基础特征和查询特征为点乘操作的对象,以得到不同类别的基础特征分别对应的注意力特征图。
在一种可能的实现方式中,注意力特征图即为相似性图,因此可以通过DepthwiseCross Correlation(深度互相关)的方法计算基础特征与查询特征之间的相似性,通过相似性构建候选框。
具体地,将每个类别的基础特征均被平均合并到向量,然后计算与查询特征的深度互相关,其输出用作关注特征,并输入以生成候选框。通过注意力机制向引入各类别的基础信息,指导生成相关候选框,同时抑制其他类别候选框。
示例性地,将每个类别的基础特征表示为类,将待训练图像的查询特征表示为,每个类别的相似性定义为:
其中,表征类别的注意力特征图,类,S、H、W、C表征维度参数,j,k为当前选取的维度。基础特征被用作在查询特征图上滑动的内核,然后在基础特征和查询特征之间进行深度卷积。具体地,内核是通过对基础特征进行平均来计算的,注意图通过卷积处理,设内核大小为。
根据本公开实施例提供的技术方案,通过在基础特征和查询特征间进行点乘操作,以准确地确定出注意力特征图。
在一些实施例中,S105将加权特征和每个类别分别对应的基础特征输入带有最近邻聚类算法的检测器,以确定待训练图像对应的目标检测结果,包括:
S1051,将加权特征和每个类别分别对应的基础特征输入带有最近邻聚类算法的检测器,在每个类别分别对应的基础特征中确定出加权特征对应的相邻特征;
S1052,将相邻特征对应的相邻语义,确定为待训练图像对应的目标检测结果。
具体地,将加权特征和每个类别对应的基础特征输入带有最近邻聚类算法的检测器中,以在每个类别分别对应的基础特征中挖掘出加权特征对应的相邻特征,该相邻特征即为加权特征的最近邻特征。通常情况下,相邻的特征间语义相同,因此将相邻特征对应的相邻语义,确定为待训练图像对应的目标检测结果,该目标检测结果的准确性较高。
根据本公开实施例提供的技术方案,对加权特征进行最近邻挖掘,挖掘出的相邻特征常常与加权特征属于相同类别,因此可以根据相邻特征的相邻语义,准确地确定出目标检测结果。
在一些实施例中,在每个类别分别对应的基础特征中确定出加权特征对应的相邻特征,包括:获取前置任务构建嵌入函数;基于嵌入函数,在每个类别分别对应的基础特征中确定出加权特征对应的相邻特征。
具体地,预先设置前置任务,利用前置任务学习嵌入函数,该嵌入函数用于最小化训练图像与训练图像的增强图像之间的距离,以进行表征学习,其中训练图像的增强图像是对训练图像进行图像增强得到的结果。在获取到嵌入函数后,在嵌入函数所在的嵌入空间进行最近邻挖掘,有利于获取到准确的相邻特征。
在一些实施例中,本方法还包括:构建第一学习分支,即构建一个基础类别学习的网络,对应图2中的1基础类别学习分支,该分支的输入数据为训练图像和训练图像的类别标注数据,对应图2中的标注图片(ground true图片),以及类别1、类别2和类别N,该分支用于学习每一种类别的特征信息,从而获得真实类别的支持特征集即基础特征,对应图2中的类别权重向量。
构建第二学习分支,即构建检测特征学习分支,对应图2中2检测特征学习分支,该分支的输入数据为待训练图像,对应图2中的查询图像(query图片),该分支用于学习待训练图像的特征信息,对待训练图像进行特征提取,获取待训练图像的查询特征。其中构建的第一学习分支和第二学习分支采用残差网络主干(ResNet backbone)网络框架,且构建的第一学习分支和第二学习分支权重共享,有效减少参数数量,并且可以通过该第一学习分支和第二学习分支训练支持和查询功能之间的匹配关系,使得网络学习相同类别之间的常识。
构建注意力RPN网络,将第一学习分支输出的每个类别的基础特征和第二学习分支输出的查询特征先进行深度互相关操作,对应图2中的深度互相关模块,将深度互相关模块的输出内容输入注意力区域选取网络,得到候选框。
将得到的候选框和查询特征输入感兴趣区域池化层(ROI pooling),得到加权特征。
构建带有最近邻聚类算法的检测器。在该检测器从聚类任务中挖掘最近的邻居,并将其用作语义聚类的先验。同时,还引入了额外的约束来选择适当的任务,能够产生语义上有意义的特征表示。其次,将获得的先验整合到一个新的损失函数中,以将每个图像及其最近的邻居分类在一起。此外,通过自标记方法缓解最近邻选择中固有的噪声问题。
得到包括第一学习分支、第二学习分支、注意力RPN、带有最近邻聚类算法的检测器的目标检测模型。
其中,针对第一学习分支,在训练过程中,对于每个已知的类,维护一个原型向量,每个类对应的基础特征的平均值用于创建类原型集:。设是检测器的中间层给类对象生成的特征向量,则损失定义为:
;
;
表征任意距离函数,表征对象的相似程度。随着整个网络端到端训练,类原型也逐渐演变,由于组成特征逐渐变化(随机梯度下降在每次迭代中以一小步更新权重)。为每个类维护一个固定长度的队列,用于存储相应的特征。特征存储将特定于类的特征存储在相应的队列中,用于跟踪特征向量如何随着训练而演变,存储的特征向量的数量受的限制,其中是队列的最大值。
在计算聚类损失时,只有在完成一定数量的老化迭代后才开始计算损失。这使得初始特征嵌入成熟以编码类信息,然后使用计算聚类损失。在每次迭代之后,计算一组新的类原型。然后通过使用动量参数对和进行加权来更新现有原型。允许类原型逐渐演变,以跟踪先前的上下文。计算出的聚类损失被添加到损失函数中并反向传播以端到端学习网络。
针对将得到的候选框和查询特征输入感兴趣区域池化层,也就是基于基础类别学习分支以及检测特征学习分支两个分支的特征结果,对物体的检测特征重新加权。表示输入的待训练图像,待训练图像对应的查询特征由检测特征学习分支生成:。将注意力RPN得到的各类别的相似性叠加到待训练图像的查询特征中,通过以下方式得到重新加权后的特征,即新类别的类别特定特征:
;
表示通道乘法,通过深度卷积实现。
针对最近邻聚类算法的检测器,设置前置任务,以获取嵌入函数,该嵌入函数的任务目标是最小化图像与其增强之间的距离,可以表示为:。因此,可以使用满足上式的任何算法任务,相似的特征被分配给语义相似的图像。
进一步地,对于每个样本,在嵌入空间(编码空间)中挖掘其个最近邻,将集合定义为样本的相邻样本。将集合作为先验,目标是学习一个聚类函数,来将样本与其邻居分类到一起,其中表示神经网络参数化的权重。聚类函数的输出为()=,也就是说样本被分配到簇c的概率为,其中簇。通过最小化以下目标来学习的权重:
;
;
表示点积运算符。第一项保证样本与其邻居样本的分类一致性,第二项构建信息熵避免将所有样本分配到同一个集群中。选择等于实际对象的聚类数量来进行评估。
进一步地,每个样本都与K≥1个邻居合并,其中一些不可避免地不属于同一语义集群,即存在假阳性。假阳性的存在导致网络进行不确定性的预测。因此使用自标记微调的方法,以利用已经很好分类的示例,纠正由于附近邻居噪声而导致的错误。
具体来说,在训练过程中,在获取待训练图像对应的目标检测结果后,确定目标检测结果的置信度;在置信度大于设定阈值的情况下,将目标检测结果作为待训练图像的伪标签,并确定伪标签的权重,待训练图像、伪标签和伪标签的权重用于作为后续的训练图像和训练图像的标注数据。也就是说通过对输出处的概率进行阈值选择,即,其中表示阈值,来选择置信样本。对于每个置信样本,通过将样本分配给其预测聚类来获得伪标记。交叉熵损失用于更新获得的伪标记的权重。为避免过度拟合,对可信样本增强再计算交叉熵损失。随着网络逐渐变得更加确定,自标记步骤允许网络进行自我校正,从而向混合中添加更多样本。
进一步地,通过迭代聚类的方式,获得物体的检测结果。
如图3所示,将各类别图像和实际检测框和标注类别,输入构建的第一学习分支的ResNet主干网络;第一学习分支对各个基础类别进行特征提取,得到每个类别分别对应的基础特征;并根据特征构建每个类别的权重向量,在训练过程中,为每个类维护一个固定长度的特征队列,根据每类特征的损失L(fc),每一步迭代后,计算一组新的原型向量P(new)。
将待训练图像和待训练图像上的检测框输入构建的第二学习分支的ResNet主干网络,第二学习分支对待训练图像进行特征提取,得到待训练图像对应的查询特征。
采用Depthwise CrossCorrelation计算来自两个分支的特征相似性,同时采用注意力RPN,构建最终的提案框即候选框。并用候选框和物体的原始特征即查询特征进行特征重新加权,得到加权特征。
为待训练图像确定最近邻的相邻特征,通过学习待训练图像和其最近的邻居进行迭代聚类,同时对输出的特征的概率进行判断以去除异样样本,进而通过迭代聚类,得到物体的检查结果。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图4是本公开实施例提供的一种目标检测装置的示意图。如图4所示,该目标检测装置包括:
第一特征提取模块401,被配置为将多个类别的训练图像和训练图像对应的标注数据输入第一学习分支,得到每个类别分别对应的基础特征;
第二特征提取模块402,被配置为将待训练图像输入第二学习分支,得到查询特征;
第一特征处理模块403,被配置为基于每个类别分别对应的基础特征和查询特征,确定候选框;
第二特征处理模块404,被配置为基于候选框和查询特征,确定加权特征;
检测结果确定模块405,被配置为将加权特征和每个类别分别对应的基础特征输入带有最近邻聚类算法的检测器,以确定待训练图像对应的目标检测结果。
根据本公开实施例提供的技术方案,将多个类别的训练图像和训练图像对应的标注数据输入第一学习分支,得到每个类别分别对应的基础特征。将待训练图像输入第二学习分支,得到查询特征。进而根据每个类别分别对应的基础特征和查询特征,确定出候选框,在确定候选框时引入每个类别分别对应的基础特征作为指导,可以使得确定出的候选框更具有准确性。在获取到候选框后,对查询特征向量进行特征重新加权,得到加权特征。进一步将加权特征和每个类别分别对应的基础特征输入到带有最近邻聚类算法的检测器,确定出待训练图像对应的目标检测结果。在本公开提供的技术方案中,为每一种类别构造一个基础特征,通过该种方式可以自动解决因标注导致的误检问题,并且引入最近邻聚类算法可以准确地挖掘出加权特征的最近的邻居,从而保证获取到准确的目标检测结果。
在一些实施例中,第一特征处理模块包括:
注意力处理单元,被配置为基于每个类别分别对应的基础特征与查询特征,确定每个类别分别对应的注意力特征图;
候选框处理单元,被配置为将每个类别分别对应的注意力特征图输入区域选取网络,得到区域选取网络输出的候选框。
在一些实施例中,注意力处理单元,进一步被配置为针对每个基础特征:将基础特征与查询特征进行点乘操作,得到注意力特征图,注意力特征图与基础特征的类别相对应。
在一些实施例中,检测结果确定模块,包括:
相邻特征挖掘单元,被配置为将加权特征和每个类别分别对应的基础特征输入带有最近邻聚类算法的检测器,在每个类别分别对应的基础特征中确定出加权特征对应的相邻特征;
检测结果确定单元,被配置为将相邻特征对应的相邻语义,确定为待训练图像对应的目标检测结果。
在一些实施例中,相邻特征挖掘单元,进一步被配置为获取前置任务构建嵌入函数;基于嵌入函数,在每个类别分别对应的基础特征中确定出加权特征对应的相邻特征。
在一些实施例中,装置还包括:数据筛选模块,被配置为确定目标检测结果的置信度;在置信度大于设定阈值的情况下,将目标检测结果作为待训练图像的伪标签,并确定伪标签的权重,待训练图像、伪标签和伪标签的权重用于作为后续的训练图像和训练图像的标注数据。
在一些实施例中,所述第一学习分支与所述第二学习分支权重共享。
图5是本公开实施例提供的电子设备5的示意图。如图5所示,该实施例的电子设备5包括:处理器501、存储器502以及存储在该存储器502中并且可在处理器501上运行的计算机程序503。处理器501执行计算机程序503时实现上述各个方法实施例中的步骤。或者,处理器501执行计算机程序503时实现上述各装置实施例中各模块/单元的功能。
电子设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备5可以包括但不仅限于处理器501和存储器502。本领域技术人员可以理解,图5仅仅是电子设备5的示例,并不构成对电子设备5的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器501可以是中央处理单元(CentralProcessing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-ProgrammableGate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器502可以是电子设备5的内部存储单元,例如,电子设备5的硬盘或内存。存储器502也可以是电子设备5的外部存储设备,例如,电子设备5上配备的插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器502还可以既包括电子设备5的内部存储单元也包括外部存储设备。存储器502用于存储计算机程序以及电子设备所需的其它程序和数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本公开实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围,均应包含在本公开的保护范围之内。
Claims (10)
1.一种目标检测方法,其特征在于,包括:
将多个类别的训练图像和所述训练图像对应的标注数据输入第一学习分支,得到每个类别分别对应的基础特征;
将待训练图像输入第二学习分支,得到查询特征;
基于所述每个类别分别对应的基础特征和所述查询特征,确定候选框;
基于所述候选框和所述查询特征,确定加权特征;
将所述加权特征和所述每个类别分别对应的基础特征输入带有最近邻聚类算法的检测器,以确定所述待训练图像对应的目标检测结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述每个类别分别对应的基础特征和所述查询特征,确定候选框,包括:
基于所述每个类别分别对应的基础特征与所述查询特征,确定每个类别分别对应的注意力特征图;
将每个类别分别对应的所述注意力特征图输入区域选取网络,得到所述区域选取网络输出的候选框。
3.根据权利要求2所述的方法,其特征在于,基于所述每个类别分别对应的基础特征与所述查询特征,确定每个类别分别对应的注意力特征图,包括:
针对每个基础特征:将所述基础特征与所述查询特征进行点乘操作,得到注意力特征图,所述注意力特征图与所述基础特征的类别相对应。
4.根据权利要求1所述的方法,其特征在于,所述将所述加权特征和所述每个类别分别对应的基础特征输入带有最近邻聚类算法的检测器,以确定所述待训练图像对应的目标检测结果,包括:
将所述加权特征和所述每个类别分别对应的基础特征输入带有最近邻聚类算法的检测器,在所述每个类别分别对应的基础特征中确定出所述加权特征对应的相邻特征;
将所述相邻特征对应的相邻语义,确定为所述待训练图像对应的目标检测结果。
5.根据权利要求4所述的方法,其特征在于,所述在所述每个类别分别对应的基础特征中确定出所述加权特征对应的相邻特征,包括:
获取前置任务构建嵌入函数;
基于所述嵌入函数,在所述每个类别分别对应的基础特征中确定出所述加权特征对应的相邻特征。
6.根据权利要求1所述的方法,其特征在于,在所述将所述加权特征和所述每个类别分别对应的基础特征输入带有最近邻聚类算法的检测器,以确定所述待训练图像对应的目标检测结果的步骤后,所述方法还包括:
确定所述目标检测结果的置信度;
在所述置信度大于设定阈值的情况下,将所述目标检测结果作为所述待训练图像的伪标签,并确定所述伪标签的权重,所述待训练图像、所述伪标签和所述伪标签的权重用于作为后续的训练图像和训练图像的标注数据。
7.根据权利要求1所述的方法,其特征在于,所述第一学习分支与所述第二学习分支权重共享。
8.一种目标检测装置,其特征在于,包括:
第一特征提取模块,被配置为将多个类别的训练图像和所述训练图像对应的标注数据输入第一学习分支,得到每个类别分别对应的基础特征;
第二特征提取模块,被配置为将待训练图像输入第二学习分支,得到查询特征;
第一特征处理模块,被配置为基于所述每个类别分别对应的基础特征和所述查询特征,确定候选框;
第二特征处理模块,被配置为基于所述候选框和所述查询特征,确定加权特征;
检测结果确定模块,被配置为将所述加权特征和所述每个类别分别对应的基础特征输入带有最近邻聚类算法的检测器,以确定所述待训练图像对应的目标检测结果。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310402773.1A CN116109907B (zh) | 2023-04-17 | 2023-04-17 | 目标检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310402773.1A CN116109907B (zh) | 2023-04-17 | 2023-04-17 | 目标检测方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116109907A true CN116109907A (zh) | 2023-05-12 |
CN116109907B CN116109907B (zh) | 2023-08-18 |
Family
ID=86264170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310402773.1A Active CN116109907B (zh) | 2023-04-17 | 2023-04-17 | 目标检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116109907B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116993996A (zh) * | 2023-09-08 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 对图像中的对象进行检测的方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200257975A1 (en) * | 2017-11-16 | 2020-08-13 | Samsung Electronics Co., Ltd. | Apparatus related to metric-learning-based data classification and method thereof |
CN114463289A (zh) * | 2022-01-19 | 2022-05-10 | 北京铁科英迈技术有限公司 | 一种钢轨损伤检测方法及装置 |
CN115019103A (zh) * | 2022-06-20 | 2022-09-06 | 杭州电子科技大学 | 基于坐标注意力群组优化的小样本目标检测方法 |
CN115203449A (zh) * | 2022-07-15 | 2022-10-18 | 中国人民解放军国防科技大学 | 一种数据处理方法及装置 |
CN115511853A (zh) * | 2022-10-08 | 2022-12-23 | 中国舰船研究设计中心 | 基于方向可变特征的遥感船舶检测与识别方法 |
-
2023
- 2023-04-17 CN CN202310402773.1A patent/CN116109907B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200257975A1 (en) * | 2017-11-16 | 2020-08-13 | Samsung Electronics Co., Ltd. | Apparatus related to metric-learning-based data classification and method thereof |
CN114463289A (zh) * | 2022-01-19 | 2022-05-10 | 北京铁科英迈技术有限公司 | 一种钢轨损伤检测方法及装置 |
CN115019103A (zh) * | 2022-06-20 | 2022-09-06 | 杭州电子科技大学 | 基于坐标注意力群组优化的小样本目标检测方法 |
CN115203449A (zh) * | 2022-07-15 | 2022-10-18 | 中国人民解放军国防科技大学 | 一种数据处理方法及装置 |
CN115511853A (zh) * | 2022-10-08 | 2022-12-23 | 中国舰船研究设计中心 | 基于方向可变特征的遥感船舶检测与识别方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116993996A (zh) * | 2023-09-08 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 对图像中的对象进行检测的方法及装置 |
CN116993996B (zh) * | 2023-09-08 | 2024-01-12 | 腾讯科技(深圳)有限公司 | 对图像中的对象进行检测的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116109907B (zh) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108280477B (zh) | 用于聚类图像的方法和装置 | |
CN110020592B (zh) | 物体检测模型训练方法、装置、计算机设备及存储介质 | |
CN110532417B (zh) | 基于深度哈希的图像检索方法、装置及终端设备 | |
CN108229419B (zh) | 用于聚类图像的方法和装置 | |
US10163034B2 (en) | Tripoint arbitration for entity classification | |
CN108197652B (zh) | 用于生成信息的方法和装置 | |
US20150347846A1 (en) | Tracking using sensor data | |
US8954365B2 (en) | Density estimation and/or manifold learning | |
CN109918513B (zh) | 图像处理方法、装置、服务器及存储介质 | |
CN115953665B (zh) | 一种目标检测方法、装置、设备及存储介质 | |
CN111723815B (zh) | 模型训练方法、图像处理方法、装置、计算机系统和介质 | |
CN109886311B (zh) | 增量聚类方法、装置、电子设备和计算机可读介质 | |
CN111223128A (zh) | 目标跟踪方法、装置、设备及存储介质 | |
CN116109907B (zh) | 目标检测方法、装置、电子设备及存储介质 | |
CN111611390B (zh) | 一种数据处理方法及装置 | |
CN111291715B (zh) | 基于多尺度卷积神经网络的车型识别方法、电子设备及存储介质 | |
CN112749737A (zh) | 图像分类方法及装置、电子设备、存储介质 | |
CN111950647A (zh) | 分类模型训练方法和设备 | |
CN115034315A (zh) | 基于人工智能的业务处理方法、装置、计算机设备及介质 | |
CN112329810B (zh) | 一种基于显著性检测的图像识别模型训练方法及装置 | |
CN110059743B (zh) | 确定预测的可靠性度量的方法、设备和存储介质 | |
CN117635998A (zh) | 用于多标签半监督分类的基于百分位数的伪标签选择 | |
CN110852261B (zh) | 目标检测方法、装置、电子设备和可读存储介质 | |
CN113011532A (zh) | 分类模型训练方法、装置、计算设备及存储介质 | |
CN111161238A (zh) | 图像质量评价方法及装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230721 Address after: No. 1007, 10th Floor, Building 1-1, No. 108, East Fifth Section, First Ring Road, Jinjiang District, Chengdu, Sichuan 610011 Applicant after: Chengdu Xumi Yuntu Architectural Design Co.,Ltd. Address before: 518054 cable information transmission building 25f2504, no.3369 Binhai Avenue, Haizhu community, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province Applicant before: Shenzhen Xumi yuntu Space Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |