CN115019342B - 一种基于类关系推理的濒危动物目标检测方法 - Google Patents
一种基于类关系推理的濒危动物目标检测方法 Download PDFInfo
- Publication number
- CN115019342B CN115019342B CN202210620546.1A CN202210620546A CN115019342B CN 115019342 B CN115019342 B CN 115019342B CN 202210620546 A CN202210620546 A CN 202210620546A CN 115019342 B CN115019342 B CN 115019342B
- Authority
- CN
- China
- Prior art keywords
- class
- meta
- feature
- aggregation
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 39
- 241001465754 Metazoa Species 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 56
- 230000002776 aggregation Effects 0.000 claims abstract description 32
- 238000004220 aggregation Methods 0.000 claims abstract description 32
- 239000013598 vector Substances 0.000 claims abstract description 16
- 238000011176 pooling Methods 0.000 claims abstract description 12
- 238000012937 correction Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 13
- 238000005096 rolling process Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims 1
- 239000012805 animal sample Substances 0.000 abstract description 4
- 239000000523 sample Substances 0.000 description 18
- 238000002474 experimental method Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000001976 improved effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/70—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in livestock or poultry
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及目标检测技术领域,尤其涉及一种基于类关系推理的濒危动物目标检测方法。该方法建立了元学习器和基础检测器;元学习器以支撑图像为输入,经过主干网络和池化层后,经过类关系推理模块得到类别原型;将查询图像提取特征,得到特征图;通过区域提案网络RPN预测特征图中可能存在目标对象的候选区域,并利用ROIAlign对候选区域特征向量进行采样,将候选区域特征和类别原型输入特征聚合模块进行特征调整聚合,经过预测模块进行区域类别的预测和边界框的修正回归。本发明通过引入类关系推理,在类别判断和边界框回归之前通过聚合模块来对类别原型和候选区域特征进行聚合,可有效在濒危动物样本稀缺场景下的进行目标检测。
Description
技术领域
本发明涉及目标检测技术领域,尤其涉及一种基于类关系推理的濒危动物目标检测方法。
背景技术
给定一组类的集合,目标检测的主要任务是对待检测图像中属于给定类集合中的实例对象进行框选标记。目标检测作为计算机视觉领域的三项基本任务其中之一,已经受到社会各界的广泛关注,并被应用到众多的现实应用中,如智能监控、增强现实、自动驾驶等。随着人工智能技术的飞速进步,深度学习算法在目标检测领域取得的成功要归功于大规模数据集,当数据较为缺乏时,卷积网络会因为严重过拟合问题而削弱泛化能力,导致检测器的能力达到瓶颈。与此相反,人类智能的一个令人印象深刻的特点就是能够从一个或几个样例中快速构建对新事物的理解能力。在现实生活中,人类可以通过很少的图像学习识别未见过的目标物体,甚至儿童可以通过一次偶见就可以记住一个新单词。
从实际应用层面看,少样本条件下的目标检测方法主要有三个方面的重要意义。其一,少样本下的目标检测方法不依赖于大规模的训练样本,从而避免了在早期研究准备阶段获取数据所付出的高昂代价。其二,少样本下的算法研究可以缩短人类智能和人工智能在学习能力上的较大差距,是人工智能算法未来往更高智能方向发展的必经之路。其三,少样本下的目标检测算法研究可以实现一个新领域任务低成本和快速的模型实现,而这个任务可以只有几个可用的样本数据,这对任务早期潜在规律的探究也有一定的帮助。因此在濒危动物目标检测领域使用少样本目标检测方法非常适合,因为这个领域一方面很难获得大规模具有精确标签的数据,另一方面对这类数据进行标注工作也是十分耗费资源的。
当前在濒危动物场景下的目标检测研究工作通过在提供的每个类别的少量数据上提取高度概括每个类的类特征原型,利用类原型来为分类和回归子任务提供更多可用信息。如何充分挖掘能够高度概括类特征的原型,以及如何高效利用提取的类原型特征一直是当前研究工作未解决的问题,基于此问题,本发明提出基于类关系推理的濒危动物目标检测方法,该方法在两阶段目标检测框架的基础上,充分挖掘探索类之间的关系,提供类间信息用于分类和回归子任务。
虽然有部分工作已经对类似濒危动物场景的这种稀缺样本情况展开研究,但是数据的稀缺性仍然是影响检测器从稀缺样本中泛化的瓶颈。当数据变得稀缺时,目标对象的检测性能下降严重,主流方法在训练样本数量为1时的性能不到5或10时的性能的一半。如何提高模型在少样本场景下的检测性能,缓解检测性随样本减少而急剧下降的问题已经成为少样本研究领域的一大难题。
综上所述,从濒危动物这类数据稀缺的场景下,学习检测濒危动物目标正是该领域未来发展所需要的。同时,目前濒危动物场景下的目标检测算法在检测精确度上仍然有很大的提升空间,濒危动物领域的目标检测是具有重要意义的。
发明内容
本发明的目的是提供一种基于类关系推理的濒危动物目标检测方法,用于提高模型在少样本场景下的检测性能,解决濒危动物目标检测的检测性随样本减少而急剧下降的问题。
为了实现上述目的,本发明采用了如下技术方案:
本发明提供一种基于类关系推理的濒危动物目标检测方法,包括以下步骤:
该方法建立元学习器和基础检测器,且所述元学习器和基础检测器共享同一个主干网络;
元学习器以支撑图像为输入,经过主干网络的特征提取和池化层的池化后,经过类关系推理模块得到类别原型;
将查询图像输入到主干网络提取特征,得到特征图;通过区域提案网络RPN预测特征图中可能存在目标对象的候选区域,并利用ROI Align对候选区域特征向量进行采样,将候选区域特征和类别原型输入特征聚合模块进行特征调整聚合,经过基础检测器的预测模块对聚合的结果分别进行区域类别的预测和边界框的修正回归。
进一步地,所述基础检测器采用FasterR-CNN检测器架构,元学习器采用元学习架构。
进一步地,所述类关系推理过程如下:
在支撑图像的分支上构建原型图G={V,E,A},V和E是一系列节点和边的集合,A为表示节点之间关系的邻接矩阵;V由支撑图像经过卷积网络得到的支撑特征构成;
使用动态的图卷积来学习变化节点之间的动态相关性;
从预先训练的文本模型中计算每个类别名称对应词向量之间的余弦相似度,如果两个词向量嵌入相近,那么它们就表现出较高的余弦相似度;如果wi和wj分别表示类别i和j的词向量嵌入表示,两个词类别之间的语义相关性计算如下:
其中,A为NxN的矩阵,sij是i和j的的语义相关性,该相关性的值作为邻接矩阵i行j列的对应元素,T为矩阵的转置;
通过构造原型图G,利用图卷积网络将所有节点特征聚合到每个邻域节点上;
使用如下方法来定义图卷积过程:
H(l+1)=σ(AH(l)W(l))
其中,l=1,2,3,...为图卷积中层数的索引,H(l)表示第l层的输出,W(l)为第l层的可学习矩阵,对于第一层,H(0)=f,σ(·)为非线性激活函数;A表示为节点之间的邻接矩阵。
使用图卷积的类残差结构。
进一步地,所述特征聚合为从三个不同的维度上进行特征的聚合调整,聚合方式表示如下:
其中[·,·,·]表示通道级联,fqry表示查询图像的特征输出;fcls表示类关系推理模块。
进一步地,元学习器以支撑图像为输入,经过主干网络的特征提取和池化层的池化后,经过类关系推理模块得到类别原型,这一训练过程中,包括元训练和元微调两个阶段;
在元训练阶段,通过特征提取器提取特征、类关系推理、特征聚合,使用来自基类的大量注释数据;
在元微调阶段,在基类和需要检测的珍稀动物类别上训练模型;
在元微调的训练过程中,为每个基类和待检测的类别均采样K个样本。
进一步地,在元训练和元微调阶段,采用相同的损失函数,定义如下:
L=Lrpn+Lcls+Lbox+Lmeta
其中,Lrpn是用于训练区域提案网络以生成更高质量的候选区域,Lcls是分类损失函数,Lbox是框回归损失函数,Lmeta是元损失函数;
使用元损失来进行约束,避免候选区域与类原型聚合后的模糊预测,定义如下:
其中,分别表示从图卷积之前的类特征图卷积之后的类原型fcls得到的预测值以及真实标签值;xi表示支撑集图像的预测结果。
本发明至少具备以下有益效果:
本发明针对当前濒危动物样本稀缺场景下的目标检测问题,引入类关系推理,以图卷积来传递类间的关系信息,引导从基类中挖掘知识,帮助学习新的类别的原型,通过这种方式预测原型有助于检测出图像中与原型表示一致的目标对象,此外,在类别判断和边界框回归之前通过聚合模块来对类别原型和候选区域特征进行聚合,利用聚合特征来帮助分类和回归子任务的学习。本发明在濒危动物样本稀缺场景下的目标检测经过实验证明是十分有效的。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法整体示意图;
图2为基于图卷积的类关系推理模块示意图;
图3为图卷积的三种不同的类残差结构示意图;
图4为特征聚合模块示意图;
图5为学习策略示意图;
图6为可视化结果与比较示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明针对现有的稀缺样本目标检测方法每个类别独立预测类别原型,缺少类间信息交互的问题,将类别相关性整合到一个深度神经网络中,以引导利用其它类别信息来学习新的类别概念。
本发明提出基于类关系推理的濒危动物目标检测方法,其在两阶段目标检测框架的基础上,嵌入到支撑分支上,充分挖掘探索类之间的关系,提供更多的判别信息。该方法与主流方法在不同的数据、不同的类别划分、不同样本数量的情况下进行全面的对比,验证了该算法在濒危动物这种样本稀缺场景下检测的有效性。本发明提出来的方法在多个实验设置下进行充分的实验,验证所提出的网络结构能达到预期的效果,同时与最先进的方法进行对比,证明所提出方法能够有效地对濒危动物进行检测。
1整体网络结构
参阅图1,本发明提出的算法网络架构将一个元学习器连接到FasterRCNN,元学习器与FasterRCNN共享一个主干网络,这样的做法可以有效的提取支撑类原型,捕获类间关系,网络结构如图1所示。
本发明采用FasterR-CNN作为基础检测器,它由特征提取器、区域提案网络RPN和预测模块组成。总体上分为两个阶段对图像中的每个目标对象进行分类和定位,第一阶段中,区域提案网络预测经过主干网络得到的特征图中可能存在目标对象的候选区域,并利用ROIAlign对候选区域特征向量进行采样,区域提案网络可以捕获图像中类别无关的目标区域特征;在第二个阶段,对得到的候选区域分别进行区域类别的预测和边界框的修正回归。
整体方法步骤为:
建立元学习器和基础检测器,且所述元学习器和基础检测器共享一个主干网络;
元学习器以支撑图像为输入,经过主干网络的特征提取和池化层的池化后,经过类关系推理模块得到类别原型;
将查询图像输入到主干网络提取特征,得到特征图;通过区域提案网络RPN预测特征图中可能存在目标对象的候选区域,并利用ROI Align对候选区域特征向量进行采样,将候选区域特征和类别原型输入特征聚合模块进行特征调整聚合,经过基础检测器的预测模块对聚合的结果分别进行区域类别的预测和边界框的修正回归。
2类关系推理模块设计
将在充足样本上预训练的基础检测器迁移到样有限的情况下时,其性能往往会有大幅度的下降,究其原因是由于样本的缺乏,使得模型难以学习理想的特征表示。
为了进一步探讨类原型特征之间的关系,本发明提出了一种基于图卷积的类关系推理模块,使得不同的类别之间可以建立相关性联系,具体的,通过设计图卷积网络来预测类原型,隐式指导特征表示的学习过程,每个嵌入到图卷积中的节点都会根据与之连接的节点进行更新。
元学习器f(·;θ)以支撑图像为输入并预测原型来表示每个类,后续利用类原型与候选区域进行特征聚合,其中θ和C表示元学习器的参数和类别数量。
引入类关系推理模块旨在通过图卷积网络考虑各濒危动物类别的相关性来预测类原型,推理过程如图2所示,所提出方法中类别原型并非独立预测。为了在图结构中传递原型信息,首先在支撑分支上构建原型图G={V,E,A},V和E是一系列节点和边的集合,A为表示节点之间关系的邻接矩阵。初始的节点是由元学习器的主干网络经过全局平均池化输出特征以及每个类别标签所定义的,其中每个节点表示一个不同的类别特征,D表示每个节点的初始特征的维度。
支撑图像(有限有标签的)对应的类之间的语义关联矩阵S作为图G中的邻接矩阵,为了构建类别间的语义相关性,从预先训练的文本模型中计算每个类别名称对应词向量之间的余弦相似度,如果两个词向量嵌入相近,那么它们就表现出较高的余弦相似度。更具体地说,如果wi和wj分别表示类别i和j的词嵌入表示,通过公式(1)计算两个类别之间的语义相关性,sij为相关性矩阵S中的元素,以S作为图卷积过程中的临界矩阵A。值得注意的是,在传统的图卷积网络中,图是在训练阶段之前确定的,这种图结构在整个训练过程中都不会改变。然而,支撑图像在每次训练迭代时都会发生变化。换句话说,图中的节点在训练过程中不断变化。因此,类关系推理之前不需要预先构建静态图,而是使用动态的图卷积来学习变化节点之间的动态相关性。
通过构造原型图,利用图卷积网络将所有节点特征聚合到每个邻域节点上。为了让图卷积过程更加平滑,使用公式(2)所示的方式来定义图卷积过程,其中l=1,2,3,...为图卷积中层数的索引,H(l)表示第l层的输出,W(l)为第l层的可学习矩阵,对于第一层,H(0)=f,σ(·)为非线性激活函数,本发明方法中采用Tanh。
H(l+1)=σ(AH(l)W(l)) (2)
在图卷积过程中,某些类别可能存在噪声信息,影响消息的传播;另一方面,为了考虑图卷积过程中的过平滑问题,提出了图卷积的类残差结构,如图3所示,后续将通过实验来比较三种不同结构的效果。在图3的(c)结构中不直接使用第l层的输出作为下一层的输入,而是通过与第l层的输入结合得到,如公式(3)所示。
这种图形式的消息传播提供了额外的信息来预测新类别的原型,并对每个类进行高度概括。另一方面,某些类别可能存在噪声信息,以获得信息的传播,通过类残差结构消除噪声信息的影响。此外,为了防止在聚合过程中类独立特征的丧失,使用损失函数来对类原型进行约束。
3特征聚合模块设计
在现有的有限样本下的目标检测方法中,如FSRW和MetaRCNN方法,它们根据类关系推理模块的输出fcls,通过重加权查询特征fqry来实现特征的聚合,如公式(4)所示,利用聚合特征得到最终预测结果,其中表示通道级乘法,fqry与fcls有相同的通道数量。通过使用这个重加权模块联合训练查询编码器Fqry和类关系推理模块,可以学习生成更有意义的重加权向量fcls
与之前方法不同,在本发明的方法中特征聚合模块选择依赖一个稍微复杂一点的聚合方案,从三个不同的维度上进行特征的聚合调整,如图4所示。事实上,特征减法是一种不同但也有效的度量图像特征之间相似性的方法。图像的特征表示fqry本身,在没有任何权重调整的情况下也包含相关信息。因此,聚合连接查询特征的三种形式,三种形式可以相互补充,利用多维度的联合形式让预测器产生更高的性能,聚合方式如公式(5)所示,其中[·,·,·]表示通道级联,聚合特征的最后一部分独立于类原型。
4学习策略
在训练过程中,采用如图5所示的学习策略,包括元训练和元微调两个阶段。在元训练阶段,提供了来自基类的大量注释数据,联合训练特征提取器、类关系推理、特征聚合模块等检测模型的基本组件。元微调阶段,在基类和新类(需要检测的珍稀动物类别)上训练模型。由于只有K个具有边框注释标签的样本可用于新类,为了平衡基类和新类的样本,为每个基类采样同样的K个样本,训练过程与元训练阶段相同,但模型收敛的迭代次数较少。
在两个不同的训练阶段采用相同的损失函数,定义如公式(6)的形式,其中,Lrpn是在FasterRCNN中提出,用于训练区域提案网络以生成更高质量的候选区域。
L=Lrpn+Lcls+Lbox+Lmeta (6)
为了避免候选区域与类原型聚合后的模糊预测,提出使用元损失来进行约束,元损失采用一个相对简单的形式。元损失定义为交叉熵的形式,具体如公式(7)所示,其中,分别表示从图卷积之前的类特征图卷积之后的类原型fcls得到的预测值以及真实标签值。元学习器在预测具有类别原型的同时预测支撑图像xi所对应的标签信息,元损失鼓励每个原型保留每个类别独有的判别性信息。
5实验结果与分析
5.1数据集与实验设置
参考先前研究工作的实验设置,在涵盖20个目标类别的数据集上利用三种新类类别划分设置进行评估。此外,为了获得更稳定的检测结果,实验时对不同样本数的场景均进行10次随机采样,因此,实验中的所有结果都是随机运行10次的平均值。在元训练阶段,使用的基类数据是包含了大量的有标注数据,在微调阶段,使用的新类数据是包含了极少标注的濒危动物数据。
由于本发明方法采用了FasterRCNN作为基础检测器,所以选择Meta RCNN作为基线方法。实现过程中,查询图像的较短边被调整为800像素,较长边小于等于1333像素,同时保持固定的长宽比。支撑图像被调整为固定的256×256大小,采用ResNet-101作为特征提取器,采用ROIAlign作为候选区域特征提取器,在ImageNet上对主干网络的权值进行预训练。
在基类训练之后,只有最后一个用于分类的全连接层被移除,并由一个随机初始化的新层替换。值得注意的是,在第二个微调阶段,模型的各个部分都参与了学习过程,没有进行任何冻结操作。使用单个GPU的4个小批量来训练所提出的模型,所有模型都使用SGD优化器进行训练,初始学习率为10-3。在第一训练阶段,训练20个epoch,每训练5个epoch后,将学习速率除以10,在第二阶段,以10-3的学习速率训练5个epoch,另外4个epoch,采用的学习速率为10-4。
5.2实验结果比较与分析
为了验证所提出方法的有效性,在数据集上进行验证实验,本发明提出的方法与基线方法相比(表1),所有的类别划分和不同样本数量情况下都取得了效果的提升,这能够证明了本发明提出的基于类关系推理的濒危动物方法能够有效地传递类间信息,聚合模块可以对不同的特征进行整合,从而建模类间关系。
表格1与基线方法在数据集上的比较结果
5.3可视化结果比较与分析
为了更直观地展示所提出方法的优越性,将数据集上类别划分情况下的检测结果可视化,如图6所示。在第一张图片中,动物的目标较小和背景十分相似,因此基线方法误将其归类为背景。所提出的方法使用支撑特征作为参考来调整样本特征,使得候选区域的背景与目标特征之间的距离更大,从而得到更好的结果。可以看到基线方法常常出现的类别判断错误,目标框的数量缺少以及背景被错误地分类为前景目标的问题,相比之下,本发明所提出的方法可以有效地缓解这一系列问题。
在基线方法中常常出现的问题就是对于两个比较相似的类别,在样本稀缺的情况下,模型会出现类别判断不确定的情况,用两个不同类别的目标框同时包围一个物体,并且这种情况无法通过NMS等后处理操作消除,如图6中的(a)所示。通过可视化结果比较,所提出方法可以缓解这一问题的出现,因为生成的类别原型充分的考虑了不同类别之间的关系,不同的类别之前产生了信息的传递。
6结论
针对当前濒危动物样本稀缺场景下的目标检测问题,本发明提出了一种少样本场景下基于类关系推理的濒危动物目标检测方法,该方法引入类关系推理,以图卷积来传递类间的关系信息,引导从基类中挖掘知识,帮助学习新的类别的原型。通过这种方式预测原型有助于检测出图像中与原型表示一致的目标对象。此外,在类别判断和边界框回归之前通过聚合模块来对类别原型和候选区域特征进行聚合,利用聚合特征来帮助分类和回归子任务的学习。在数据集上进行了大量实验证明所提出方法是十分有效的。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。
Claims (4)
1.一种基于类关系推理的濒危动物目标检测方法,其特征在于,包括以下步骤:
该方法建立了元学习器和基础检测器,且所述元学习器和基础检测器共享同一个主干网络;
元学习器以支撑图像为输入,经过主干网络的特征提取和池化层的池化后,经过类关系推理模块得到类别原型;
将查询图像输入到主干网络提取特征,得到特征图;通过区域提案网络RPN预测特征图中可能存在目标对象的候选区域,并利用ROI Align对候选区域特征向量进行采样,将候选区域特征和类别原型输入特征聚合模块进行特征调整聚合,经过基础检测器的预测模块对聚合的结果分别进行区域类别的预测和边界框的修正回归;
所述类关系推理过程如下:
在支撑图像的分支上构建原型图G={V,E,A},V和E是一系列节点和边的集合,A为表示节点之间关系的邻接矩阵;V由支撑图像经过卷积网络得到的支撑特征构成;
使用动态的图卷积来学习变化节点之间的动态相关性;
从预先训练的文本模型中计算每个类别名称对应词向量之间的余弦相似度,如果两个词向量嵌入相近,那么它们就表现出较高的余弦相似度;如果wi和wj分别表示类别i和j的词向量嵌入表示,两个词类别之间的语义相关性计算如下:
其中,A为NxN的矩阵,sij是i和j的的语义相关性,该相关性的值作为邻接矩阵i行j列的对应元素,T为矩阵的转置;
通过构造原型图G,利用图卷积网络将所有节点特征聚合到每个邻域节点上;
使用如下方法来定义图卷积过程:
H(l+1)=σ(AH(l)W(l))
其中,l=1,2,3,...为图卷积中层数的索引,H(l)表示第l层的输出,W(l)为第l层的可学习矩阵,对于第一层,H(0)=f,σ(·)为非线性激活函数;A表示为节点之间的邻接矩阵;
使用图卷积的类残差结构;
所述特征聚合为从三个不同的维度上进行特征的聚合调整,聚合方式表示如下:
其中[·,·,·]表示通道级联,fqry表示查询图像的特征输出;fcls表示类关系推理模块。
2.根据权利要求1所述的一种基于类关系推理的濒危动物目标检测方法,其特征在于,所述基础检测器采用FasterR-CNN检测器的结构;所述元学习器采用元学习的架构。
3.根据权利要求1所述的一种基于类关系推理的濒危动物目标检测方法,其特征在于,元学习器以支撑图像为输入,经过主干网络的特征提取和池化层的池化后,经过类关系推理模块得到类别原型,这一训练过程中,包括元训练和元微调两个阶段;
在元训练阶段,通过特征提取器提取特征、类关系推理、特征聚合,使用来自基类的大量注释数据;
在元微调阶段,在基类和需要检测的珍稀动物类别上训练模型;
在元微调的训练过程中,为每个基类和待检测的类别均采样K个样本。
4.根据权利要求3所述的一种基于类关系推理的濒危动物目标检测方法,其特征在于,在元训练和元微调阶段,采用相同的损失函数,定义如下:
L=Lrpn+Lcls+Lbox+Lmeta
其中,Lrpn是用于训练区域提案网络以生成更高质量的候选区域,Lcls是分类损失函数,Lbox是框回归损失函数,Lmeta是元损失函数;
使用元损失来进行约束,避免候选区域与类原型聚合后的模糊预测,定义如下:
其中,yi,分别表示从图卷积之前的类特征图卷积之后的类原型fcls得到的预测值以及真实标签值;xi表示支撑集图像的预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210620546.1A CN115019342B (zh) | 2022-06-02 | 2022-06-02 | 一种基于类关系推理的濒危动物目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210620546.1A CN115019342B (zh) | 2022-06-02 | 2022-06-02 | 一种基于类关系推理的濒危动物目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115019342A CN115019342A (zh) | 2022-09-06 |
CN115019342B true CN115019342B (zh) | 2024-09-13 |
Family
ID=83072435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210620546.1A Active CN115019342B (zh) | 2022-06-02 | 2022-06-02 | 一种基于类关系推理的濒危动物目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115019342B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115630745B (zh) * | 2022-11-03 | 2023-04-18 | 重庆理工大学 | 一种面向城市分级协同供水的多区域需水量预测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113674252A (zh) * | 2021-08-25 | 2021-11-19 | 上海鹏冠生物医药科技有限公司 | 一种基于图神经网络的组织细胞病理图像诊断系统 |
CN114283355A (zh) * | 2021-12-06 | 2022-04-05 | 重庆邮电大学 | 一种基于小样本学习的多目标濒危动物跟踪方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019028725A1 (en) * | 2017-08-10 | 2019-02-14 | Intel Corporation | CONVOLUTIVE NEURAL NETWORK STRUCTURE USING INVERTED CONNECTIONS AND OBJECTIVITY ANTERIORITIES TO DETECT AN OBJECT |
CN112926372B (zh) * | 2020-08-22 | 2023-03-10 | 清华大学 | 基于序列变形的场景文字检测方法及系统 |
-
2022
- 2022-06-02 CN CN202210620546.1A patent/CN115019342B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113674252A (zh) * | 2021-08-25 | 2021-11-19 | 上海鹏冠生物医药科技有限公司 | 一种基于图神经网络的组织细胞病理图像诊断系统 |
CN114283355A (zh) * | 2021-12-06 | 2022-04-05 | 重庆邮电大学 | 一种基于小样本学习的多目标濒危动物跟踪方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115019342A (zh) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298404B (zh) | 一种基于三重孪生哈希网络学习的目标跟踪方法 | |
CN109858390B (zh) | 基于端到端时空图学习神经网络的人体骨架行为识别方法 | |
CN111291809B (zh) | 一种处理装置、方法及存储介质 | |
CN110210551A (zh) | 一种基于自适应主体敏感的视觉目标跟踪方法 | |
CN113657560B (zh) | 基于节点分类的弱监督图像语义分割方法及系统 | |
CN104268594A (zh) | 一种视频异常事件检测方法及装置 | |
Qiu et al. | Deep learning-based algorithm for vehicle detection in intelligent transportation systems | |
CN109740588A (zh) | 基于弱监督和深度响应重分配的x光图片违禁品定位方法 | |
CN114049381A (zh) | 一种融合多层语义信息的孪生交叉目标跟踪方法 | |
CN105809672A (zh) | 一种基于超像素和结构化约束的图像多目标协同分割方法 | |
Li et al. | Robust deep neural networks for road extraction from remote sensing images | |
CN115019342B (zh) | 一种基于类关系推理的濒危动物目标检测方法 | |
CN118279320A (zh) | 基于自动提示学习的目标实例分割模型建立方法及其应用 | |
Lu et al. | Siamese graph attention networks for robust visual object tracking | |
Firouznia et al. | Adaptive chaotic sampling particle filter to handle occlusion and fast motion in visual object tracking | |
MeshuWelde et al. | Counting-based visual question answering with serial cascaded attention deep learning | |
Nguyen et al. | Smart solution to detect images in limited visibility conditions based convolutional neural networks | |
CN116740108A (zh) | 一种基于深度学习的单阶段实例分割方法 | |
CN116824140A (zh) | 面向测试场景无掩码监督的小样本分割方法 | |
CN115205554A (zh) | 一种基于语义概念抽取的检索方法 | |
CN115424012A (zh) | 一种基于上下文信息的轻量图像语义分割方法 | |
Saad et al. | An instance segmentation framework for in-situ plankton taxa assessment | |
Agarwal et al. | Convolutional Neural Network for Traffic Sign Classification | |
CN113449193A (zh) | 基于多分类图像的信息推荐方法及装置 | |
Lukac et al. | An algorithm selection based platform for image understanding using high-level symbolic feedback and machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |