CN115203449A - 一种数据处理方法及装置 - Google Patents
一种数据处理方法及装置 Download PDFInfo
- Publication number
- CN115203449A CN115203449A CN202210831318.9A CN202210831318A CN115203449A CN 115203449 A CN115203449 A CN 115203449A CN 202210831318 A CN202210831318 A CN 202210831318A CN 115203449 A CN115203449 A CN 115203449A
- Authority
- CN
- China
- Prior art keywords
- image
- images
- candidate region
- support
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/535—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Library & Information Science (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种数据处理方法及装置,该方法包括:获得第一图像集和第二图像集,所述第一图像集中的图像带有特征注释,所述第一图像集中至少部分图像的内容与所述第二图像集中的图像内容相关;将所述第一图像集输入至编码器中,以结合所述特征注释生成支持特征集,所述支持特征集与目标对象相关,所述目标对象存在于所述第二图像集中的目标图像中;将所述第二图像集及支持特征集输入至解码器中,使所述第二图像集与所述支持特征集中的支持特征相结合;将结合有所述支持特征的第二图像集输入至候选区域生成网络中,使所述候选区域生成网络基于所述第二图像集对应生成与所述目标对象相关联的候选区域集;至少基于所述候选区域集确定出所述目标图像。
Description
技术领域
本发明实施例涉及计算机技术领域,特别涉及一种数据处理方法及装置。
背景技术
目标检测是计算机视觉中一个基本但具有挑战性的研究课题。过去几年,基于深度学习的目标检测取得了显着进展。然而,深度学习检测依赖于大量标注数据。对于物体检测,标记大量数据通常是耗时且费力的。此外,在许多实际应用中,由于隐私或立法的原因,通常不可能收集足够的数据进行注释。这引起了人们对开发可以基于少量注释数据而适应新的检测任务的高效检测器的极大关注。
现代基于CNN的检测器大致可以分为两类,包括两级检测器和单级检测器。这两个系列都使用密集的先验锚框集来确定图像区域是否包含对象。它们之间的区别在于何时运行候选区域提取过程。两阶段检测器首先使用区域生成网络(RPN)生成候选区域,然后将它们提供给分类器以确定该区域是否包含对象。两阶段检测器包括R-CNN及其变体,例如FastR-CNN、Faster R-CNN、Mask R-CNN和FPN。单级检测器同时对每个锚框执行分类和回归。代表性的单级检测器是YOLO、SSD、CornerNet和ExtremeNet的变体。单级检测器的推理速度通常比两级检测器快,但检测精度相对较低。然而,这些检测器仍然严重依赖于大量带注释的数据集,因此在使用少量带注释的样本时性能下降很大。
另外,与小样本图像分类任务不同,小样本物体检测更具挑战性和复杂性。对于稀疏标注的实例,它不仅需要识别不同的对象,还需要给出精确的坐标并拒绝大量的背景区域。最近关于小样本目标检测的工作可以分为两种范式:基于迁移学习的方法和基于元学习的方法。基于迁移学习的方法通过微调学习新的概念,而基于元学习的方法通过从学习各种辅助任务中提取元级知识来适应新的类别。根据不同的评估协议,小样本物体检测还可以分为小样本检测和广义小样本检测(或增量小样本物体检测)。前一种协议被大多数以前的方法广泛采用,并且侧重于新类的性能。后者观察了新类和基类的整体性能,但对于添加一些以前从未见过的类来说并不灵活。
而且,在处理小样本物体检测问题上,与小样本学习类似,在小样本对象检测中,类空间被分为基础(已见)类和新(未见)类。在训练期间,仅使用基类,而网络的推理是在与基类不同的新类上进行的。大多数最近的方法都可以形成一个元学习框架,其中小样本检测器跨任务进行学习,然后通过一些带注释的实例适应新任务。这些方法首先对支持特征进行加权或简单平均以获得全局表示。然后将全局表示嵌入到查询特征中,而查询特征用于获取类感知特征映射以生成特定类别候选区域。尽管取得了巨大的成功,但此类检测器仍然存在一些重要的弱点:1)支持集中的每个特征映射都是孤立的。2)支持和查询特征之间传播的信息是一个全局信息传播过程。从支持特征传输到查询特征的信息受到限制和过度压缩。3)现有方法中,存在分类分支与回归分支不匹配的问题。分类和回归分支是两阶段检测器中的两个重要支柱,通常是独立优化的。元学习增加了检测过程中不匹配的可能性。具体来说,分类置信度最高的位置对应的框对于检测感兴趣物体并不是最准确的。
发明内容
本发明提供了一种能够高效准确地进行小样本目标检测的数据处理方法及装置。
为了解决上述技术问题,本发明实施例提供了一种数据处理方法,应用于小样本目标检测模型中,所述方法包括:
获得第一图像集和第二图像集,所述第一图像集中的图像带有特征注释,所述第一图像集中至少部分图像的内容与所述第二图像集中的图像内容相关;
将所述第一图像集输入至编码器中,以结合所述特征注释生成支持特征集,所述支持特征集与目标对象相关,所述目标对象存在于所述第二图像集中的目标图像中;
将所述第二图像集及支持特征集输入至解码器中,使所述第二图像集与所述支持特征集中的支持特征相结合;
将结合有所述支持特征的第二图像集输入至候选区域生成网络中,使所述候选区域生成网络基于所述第二图像集对应生成与所述目标对象相关联的候选区域集;
至少基于所述候选区域集确定出所述目标图像。
作为一可选实施例,所述第二图像集中至少部分图像具有查询特征,所述查询特征用于描述图像中的待查询对象,所述待查询对象包括所述目标对象;
所述将所述第二图像集及支持特征集输入至解码器中,使所述第二图像集与所述支持特征集中的支持特征相结合,包括:
将所述第二图像集及支持特征集输入至解码器中,使所述支持特征嵌入至所述第二图像集的查询特征中。
作为一可选实施例,所述将结合有所述支持特征的第二图像集输入至候选区域生成网络中,使所述候选区域生成网络基于所述第二图像集对应生成与所述目标对象相关联的候选区域集,包括:
所述候选区域生成网络基于所述第二图像集对应生成与所述目标对象相关联的候选区域集,并基于标准非极大值抑制与所述目标对象非关联的候选区域生成。
作为一可选实施例,所述编码器与解码器中的自注意力块权重共享。
作为一可选实施例,所述至少基于所述候选区域集确定出所述目标图像,包括:
将所述候选区域集及支持特征集馈送至关系检测器中,以对所述候选区域集中的各个候选区域与支持特征集间的关系进行衡量,进而基于衡量结果过滤所述候选区域集;
至少基于过滤后的所述候选区域集确定出所述目标图像。
作为一可选实施例,所述至少基于所述候选区域集确定出所述目标图像,包括:
将所述候选区域集、查询特征、支持特征集馈送至关系回归器中,使所述关系回归器融合所述查询特征、支持特征集后进行多次卷积、平均池化操作,以确定所述查询特征与支持特征间的区域关系;
基于所述区域关系过滤所述候选区域集;
基于过滤后的所述候选区域集确定出所述目标图像。
本发明另一实施例同时公开一种数据处理装置,应用于小样本目标检测模型中,所述装置包括:
获得模块,用于获得第一图像集和第二图像集,所述第一图像集中的图像带有特征注释,所述第一图像集中至少部分图像的内容与所述第二图像集中的图像内容相关;
第一输入模块,用于将所述第一图像集输入至编码器中,以结合所述特征注释生成支持特征集,所述支持特征集与目标对象相关,所述目标对象存在于所述第二图像集中的目标图像中;
第二输入模块,用于将所述第二图像集及支持特征集输入至解码器中,使所述第二图像集与所述支持特征集中的支持特征相结合;
第三输入模块,用于将结合有所述支持特征的第二图像集输入至候选区域生成网络中,使所述候选区域生成网络基于所述第二图像集对应生成与所述目标对象相关联的候选区域集;
确定模块,用于至少基于所述候选区域集确定出所述目标图像。
作为一可选实施例,所述第二图像集中至少部分图像具有查询特征,所述查询特征用于描述图像中的待查询对象,所述待查询对象包括所述目标对象;
所述将所述第二图像集及支持特征集输入至解码器中,使所述第二图像集与所述支持特征集中的支持特征相结合,包括:
将所述第二图像集及支持特征集输入至解码器中,使所述支持特征嵌入至所述第二图像集的查询特征中。
作为一可选实施例,所述将结合有所述支持特征的第二图像集输入至候选区域生成网络中,使所述候选区域生成网络基于所述第二图像集对应生成与所述目标对象相关联的候选区域集,包括:
所述候选区域生成网络基于所述第二图像集对应生成与所述目标对象相关联的候选区域集,并基于标准非极大值抑制与所述目标对象非关联的候选区域生成。
作为一可选实施例,所述编码器与解码器中的自注意力块权重共享。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中的数据处理方法的流程图。
图2为本发明实施例中的数据处理方法的部分应用流程图。
图3为本发明实施例中的数据处理方法的部分应用流程图。
图4为本发明实施例中的数据处理方法的部分应用流程图。
图5为本发明实施例中的数据处理方法的部分应用流程图。
具体实施方式
下面,结合附图对本发明的具体实施例进行详细的描述,但不作为本发明的限定。
应理解的是,可以对此处公开的实施例做出各种修改。因此,下述说明书不应该视为限制,而仅是作为实施例的范例。本领域的技术人员将想到在本公开的范围和精神内的其他修改。
包含在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且与上面给出的对本公开的大致描述以及下面给出的对实施例的详细描述一起用于解释本公开的原理。
通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述,本发明的这些和其它特性将会变得显而易见。
还应当理解,尽管已经参照一些具体实例对本发明进行了描述,但本领域技术人员能够确定地实现本发明的很多其它等效形式,它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。
当结合附图时,鉴于以下详细说明,本公开的上述和其他方面、特征和优势将变得更为显而易见。
此后参照附图描述本公开的具体实施例;然而,应当理解,所公开的实施例仅仅是本公开的实例,其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本公开模糊不清。因此,本文所公开的具体的结构性和功能性细节并非意在限定,而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本公开。
本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”,其均可指代根据本公开的相同或不同实施例中的一个或多个。
下面,结合附图详细的说明本发明实施例。
如图1所示,本发明实施例提供一种数据处理方法,应用于小样本目标检测模型中,所述方法包括:
获得第一图像集和第二图像集,第一图像集中的图像带有特征注释,第一图像集中至少部分图像的内容与第二图像集中的图像内容相关;
将第一图像集输入至编码器中,以结合特征注释生成支持特征集,支持特征集与目标对象相关,目标对象存在于第二图像集中的目标图像中;
将第二图像集及支持特征集输入至解码器中,使第二图像集与支持特征集中的支持特征相结合;
将结合有支持特征的第二图像集输入至候选区域生成网络中,使候选区域生成网络基于第二图像集对应生成与目标对象相关联的候选区域集;
至少基于候选区域集确定出目标图像。
在本实施例中,小样本目标检测模型中采用了翻译机(transformer)机制,以用于引导候选区域生成网络RPN(Region Proposal Network)生成更多与支持集相关的候选区域。由于同一类别的不同支持特征(本文中的支持特征均指带有bounding box框定的特征映射)之间存在潜在联系,很自然地认为这些联系和信息可以用于增强支持特征表示,并有助于从查询集图像中检测目标对象、目标图像。该所述的查询集图像即为本实施例的第二图像集。而为了实现支持特征与第二图像集的融合,本实施例中利用transformer结构,Transformer首先应用于机器翻译任务。Transformer结构的核心是自注意力机制,减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。由于并行计算和独特的内存机制,transformer比RNN更擅长处理长序列数据。它在许多自然语言处理(NLP)任务中变得越来越流行。最近,transformer架构已广泛应用于计算机视觉任务,例如图像检索、视觉跟踪和语义分割。在物体检测中,一些基于transformer的检测器将物体检测任务视为直接预测问题,并取得了显着的成功。然而,上述方法仅在图像级任务中利用了transformer的翻译能力,而本实施例中设置的transformer架构特别包括独立设置编码器、解码器两个独立的分支,而且利用了该两个分支来桥接孤立的支持特征并在它们之间传达丰富的上下文线索,其中注意机制可以在特征映射之间建立像素级对应并自由传达各种信号。具体应用时,如本实施例上文所述,在支持分支中,一组带有注释的支持图像被馈送到编码器以生成高质量的编码特征。在查询分支中,第二图像集和上一分支生成的支持集内容被馈送到Transformer的解码器,其中查询特征从支持特征中检索和聚合信息目标线索以加强自身的表征能力。解码器在支持特征之间传递有价值的上下文信息,并将特征从支持集传播到查询特征,以提供潜在对象的结构和上下文信息,同时转换空间注意力以突出潜在对象的位置,也就是更加快速高效,也更加准确地实现目标检测,尤其是小样本情况下的目标检测。
进一步地,本实施例中的第二图像集中至少部分图像具有查询特征,查询特征用于描述图像中的待查询对象,待查询对象包括目标对象。
将第二图像集及支持特征集输入至解码器中,使第二图像集与支持特征集中的支持特征相结合,包括:
将第二图像集及支持特征集输入至解码器中,使支持特征嵌入至第二图像集的查询特征中。
也就是,将支持特征集及第二图像集一同输入解码器中,以通过解码器实现将支持特征嵌入查询特征中,进而使得RPN能够基于结合后的特征生成更多特定类别的候选区域,也即与目标对象相关的候选区域,如包含与目标对象是同一物质类别的内容的候选区域,例如具体可以是目标对象为飞机,那么候选区域中的图像内容可以是各种不同的飞机等。
本实施例中在应用时是基于Faster-RCNN的构造上提出的方法,首先通过RPN模块获得多个候选区域,然后从候选的每个区域提取特征以预测它们的分类标签。为了适应小样本检测任务,本实施例中的RPN首先过滤掉不属于支持类别的背景和负面对象。然而,在没有支持信息的情况下,RPN会漫无目的地生成许多不相关的对象候选区域,这给后续的分类任务带来了负担。为了解决该问题,本实施例是将支持信息嵌入到查询特征中,以指导RPN生成更多相关的候选区域,同时抑制其他类别的候选区域生成。在第二阶段,RPN生成一组特定类别的候选区域(提议),并且应用了标准非极大值抑制(NMS)。候选区域集被馈送到模型的ROI头部以进行重新评分和框回归。
进一步地,本实施例中的编码器与解码器中的自注意力块权重共享。
本实施例中提出的transformer结构与现有的经典transformer不同,本实施例中采用的是权重共享的多头注意力机制,具体为编码器和解码器中的自注意力块是权重共享的。同时本实施例中的transformer结构是实例归一化机制,包括在实例级别联合对特征进行归一化,以保留有价值的图像幅度信息。而且,本实施例中的结构是精简设计,减少了冗余结构,降低了计算复杂度,提升了性能。本实施例中具体是通过省略前馈神经网络(FFN)层来轻量化transformer的结构的。
进一步地,本实施例中的transformer编码器接收一组支持特征fi s∈R(C×Hs×Ws),其空间尺度为Hs×Ws,维度为C,并且通过拼接操作进一步组成支持特征集合fs=Concat(f1 s,f2 s,…,fn s)∈R(n×C×Hs×Ws)。为方便注意力的计算,将S整型至S∈R(NT×C),其中NT=n×Hs×Ws。如图2所示,transformer的编码器中的主要操作是多头注意力,旨在相互加强来自多个注释实例的特征。为此,可以首先计算自注意力图,如通过具有权重共享多头注意力的编码器转换支持特征。由于多头注意力,多个不同的支持特征相互聚合以生成高质量的hs,进一步馈送到解码器块以加强查询特征。
继续结合图2和图3所示,本实施例中transformer解码器将查询特征fq∈R(C ×Hq×Wq)和hs∈R(n×C×Hs×Ws)作为其输入。和编码器中的操作类似,首先将特征整型为fq∈R(Ns ×C),其中Ns=Hq×Wq。后续将fq输入到权重共享的多头注意力模块中。基于编码器处理后的支持特征hs,使用交叉注意块建立支持特征和查询图像之间的像素到像素的对应关系,以便于上下文信息的传播。在交叉注意力模块中,V和K来自hs,Q是查询特征fq,输出的增强查询特征将被馈送到RPN。
进一步地,本实施例中在处理将结合有支持特征的第二图像集输入至候选区域生成网络中,使候选区域生成网络基于第二图像集对应生成与目标对象相关联的候选区域集时,包括:
候选区域生成网络基于第二图像集对应生成与目标对象相关联的候选区域集,并基于标准非极大值抑制与目标对象非关联的候选区域生成。
也即,通过在将上述融合后的特征输入至RPN后,RPN可以基于该特征而匹配生成相关联的候选区域,同时抑制非相关联的候选区域生成,以此大大削减后续分类的计算负荷。
另外,本实施例中的检测器是基于Faster R-CNN的标准两级检测器。它的检测损失包括RPN的损失和ROI头的损失。RPN输出的损失写为:
ROI头输出的损失值表示为:
最终的损失L是RPN的损失Lrpn和ROI头的损失Lroi的总和:
L=Lrpn+Lroi
进一步地,本实施例中至少基于候选区域集确定出目标图像,包括:
将候选区域集及支持特征集馈送至关系检测器中,以对候选区域集中的各个候选区域与支持特征集间的关系进行衡量,进而基于衡量结果过滤候选区域集;
至少基于过滤后的候选区域集确定出目标图像。
例如候选区域集被馈送到模型的ROI头部以进行重新评分和框回归。具体可以包括在ROI池化之后,使用属于同一类别的所有支持特征的平均特征作为其支持特征,并将其馈送到关系检测器和关系回归器中。本实施例中采用了一个由三个非线性比较器、一个全局检测器、一个局部检测器和一个区域检测器组成的关系检测器(relation detector,RD)。本实施例中通过使用上述检测器形成的关系检测器来衡量支持特征和候选区域之间的关系。
进一步地,本实施例中至少基于候选区域集确定出目标图像时,还包括:
将候选区域集、查询特征、支持特征集馈送至关系回归器中,使关系回归器融合查询特征、支持特征集后进行多次卷积、平均池化操作,以确定查询特征与支持特征间的区域关系;
基于区域关系过滤候选区域集;
基于过滤后的候选区域集确定出目标图像。
例如,在以往的目标检测中,分类任务和回归任务通常是独立优化的。这会导致它们之间的不匹配问题。具体来说,分类置信度最高的位置对应的框不是最准确的,甚至不是与目标对象相关的框。在元学习框架下问题更加严重,因为检测器只检测每个任务中的特定类别对象。在以往通常是基于元学习的小样本检测器在ROI分类器中引入了支持信息来过滤不相关的候选区域或背景干扰项,但会忽略候选区域回归量。如此就导致分类器和回归器使用的信息是不一样的,不同于一般的物体检测,使得失配问题更加严重。因此本实施例为解决上述问题,提出一种关系回归器,如图4所示,可以将支持信息有效地集成到候选区域回归器中。具体来说,首先将支持ROI特征和查询ROI特征连接起来作为融合特征。接下来,对融合特征进行多次卷积和平均池化操作,可以通过支持特征和查询特征之间的区域关系来抑制误报位置(假阳性区域)。候选区域的坐标由在卷积和平均池化操作后的两层MLP生成。由此可使得本实施例中的关系回归器可以结合查询特征和支持特征来缓解不匹配问题。
通过与之前工作相同的数据拆分来评估本实施例的方法以进行公平比较。对于PASCAL VOC,设置3个随机分组,每个组涵盖20个类别,随机分为15个基类和5个新类。每个新类别都有K=1,2,3,5,10个对象,这些对象是从VOC07和VOC12训练/验证集的组合中采样得到的,用于小样本检测训练,并使用VOC07测试集进行评估。对于MS COCO,与VOC不相交的60个类别表示为基类,而包含K=1,5,10,30个样本的其余20个类别作为的新类。之后利用验证集中的5千幅图像进行评估,其余图像用于训练。对于评估设置,本实施例考虑了小样本对象检测评估协议来评估本实施例方法的有效性。该协议被大多数以前的方法广泛采用,并且只关注新类的性能。
本实施例中通过在Faster RCNN上构建了所提出的小样本检测器,使用在ImageNet上预训练的ResNet-101作为主干网络。本实施例中提出的模型在4个NVIDIA A100GPU上使用随机梯度下降策略(SGD)进行端到端训练,批处理大小为16,动量为0.9,权重衰减为0.0001。在编码器和解码器之前,使用一个卷积层(1×1×Conv+BN)将主干特征通道数从1024减少到512。前100000次迭代的学习率为0.002,后面20000次迭代的学习率为0.0002。图像的短边被调整为600像素,而长边被裁剪为1000。采用双向对比训练策略来训练本实施例提出的模型。实验实现建立在Detectron2框架之上。
基于检测结果的数据可知,对于Pascal VOC数据集中新类别的小样本检测性能,Trans-RCNN在Novel Set 2和Novel Set 3设置下始终优于现有方法。通过在随机采样的支持数据集上多次运行以减少随机性,本实施例的方法在所有设置中实现了最佳平均性能,mAP指标有+2.7%的大幅提升,强大的性能证明了本实施例提出的方法的优越性和鲁棒性。
另外,本实施例还分析了不同transformer结构对检测性能的影响。只有解码器的情况下,本实施例的模型不能使用支持特征之间的交互来增强自身的表征能力。经测试可知,具有完整Transformer结构的模型比仅具有解码器的模型取得了更好的结果。使用完整的Transformer可以使本实施例的方法在AP、AP50和AP75中分别获得了0.7%、0.4%和0.5%的性能提升。说明利用支撑特征与自身的关系有利于检测精度的提高。接下来,分析权重共享多注意模块对检测性能的影响。经测试可知,带有权重共享模块的模型比没有权重共享模块的模型表现出更好的性能。带有权重共享模块的模型在AP、AP50和AP75指标上分别获得了0.3%、0.5%和0.6%的性能提升。这足以证明,通过权重共享模块将支持特征和查询特征映射到相同的嵌入空间有助于它们建立像素到像素的连接。在transformer结构中,使用多头注意力机制学习不同的表示来提高模型的性能。通过分析了不同头数量对性能的影响,并经测试可知,模型的性能随着头数量的增加而提高。当头数为8时,模型获得最佳性能。同时本实施例还将所提出的结构与经典的transformer结构进行了比较,经测试可知,本实施例提出的结构实现了更好的性能。在经典的Transformer中,堆叠编码器和解码器层不会提高模型的性能。在本实施例的transformer中,完全连接的前馈层会影响性能。与层归一化(LN)相比,实例归一化(Ins.)可以稍微提高性能。这些实验结果证明了我们transformer结构的有效性。
另外,通过测试,不同C值,即降低维度的结果也体现了不同性能,本实施例中通过将C值降低到128将显著降低AP、AP50和AP75指标,降幅分别为1.5%、1.9%和1.4%。C=1024的结果显示性能下降。C=256和C=512的结果彼此接近,但C=512获得更高的AP和AP75。因此,本实施例中优选将C设置为512,即维度设置为512。
同时,本实施例还进行了消融实验,与没有关系回归器的模型相比,有关系回归器的模型可以获得更好的性能。带有关系回归器的模型在AP、AP50和AP75指标中分别获得了0.7%、1.2%和0.5%的性能提升。这表明本实施例的方法可以有效地缓解两分支的不匹配问题。
如图5所示,本发明另一实施例还提供一种数据处理装置,应用于小样本目标检测模型中,所述装置包括:
获得模块,用于获得第一图像集和第二图像集,所述第一图像集中的图像带有特征注释,所述第一图像集中至少部分图像的内容与所述第二图像集中的图像内容相关;
第一输入模块,用于将所述第一图像集输入至编码器中,以结合所述特征注释生成支持特征集,所述支持特征集与目标对象相关,所述目标对象存在于所述第二图像集中的目标图像中;
第二输入模块,用于将所述第二图像集及支持特征集输入至解码器中,使所述第二图像集与所述支持特征集中的支持特征相结合;
第三输入模块,用于将结合有所述支持特征的第二图像集输入至候选区域生成网络中,使所述候选区域生成网络基于所述第二图像集对应生成与所述目标对象相关联的候选区域集;
确定模块,用于至少基于所述候选区域集确定出所述目标图像。
作为一可选实施例,第二图像集中至少部分图像具有查询特征,所述查询特征用于描述图像中的待查询对象,所述待查询对象包括所述目标对象;
所述将所述第二图像集及支持特征集输入至解码器中,使所述第二图像集与所述支持特征集中的支持特征相结合,包括:
将所述第二图像集及支持特征集输入至解码器中,使所述支持特征嵌入至所述第二图像集的查询特征中。
作为一可选实施例,将结合有所述支持特征的第二图像集输入至候选区域生成网络中,使所述候选区域生成网络基于所述第二图像集对应生成与所述目标对象相关联的候选区域集,包括:
所述候选区域生成网络基于所述第二图像集对应生成与所述目标对象相关联的候选区域集,并基于标准非极大值抑制与所述目标对象非关联的候选区域生成。
作为一可选实施例,编码器与解码器中的自注意力块权重共享。
作为一可选实施例,所述至少基于所述候选区域集确定出所述目标图像,包括:
将所述候选区域集及支持特征集馈送至关系检测器中,以对所述候选区域集中的各个候选区域与支持特征集间的关系进行衡量,进而基于衡量结果过滤所述候选区域集;
至少基于过滤后的所述候选区域集确定出所述目标图像。
作为一可选实施例,所述至少基于所述候选区域集确定出所述目标图像,包括:
将所述候选区域集、查询特征、支持特征集馈送至关系回归器中,使所述关系回归器融合所述查询特征、支持特征集后进行多次卷积、平均池化操作,以确定所述查询特征与支持特征间的区域关系;
基于所述区域关系过滤所述候选区域集;
基于过滤后的所述候选区域集确定出所述目标图像。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。
Claims (10)
1.一种数据处理方法,应用于小样本目标检测模型中,其特征在于,所述方法包括:
获得第一图像集和第二图像集,所述第一图像集中的图像带有特征注释,所述第一图像集中至少部分图像的内容与所述第二图像集中的图像内容相关;
将所述第一图像集输入至编码器中,以结合所述特征注释生成支持特征集,所述支持特征集与目标对象相关,所述目标对象存在于所述第二图像集中的目标图像中;
将所述第二图像集及支持特征集输入至解码器中,使所述第二图像集与所述支持特征集中的支持特征相结合;
将结合有所述支持特征的第二图像集输入至候选区域生成网络中,使所述候选区域生成网络基于所述第二图像集对应生成与所述目标对象相关联的候选区域集;
至少基于所述候选区域集确定出所述目标图像。
2.根据权利要求1所述的方法,其特征在于,所述第二图像集中至少部分图像具有查询特征,所述查询特征用于描述图像中的待查询对象,所述待查询对象包括所述目标对象;
所述将所述第二图像集及支持特征集输入至解码器中,使所述第二图像集与所述支持特征集中的支持特征相结合,包括:
将所述第二图像集及支持特征集输入至解码器中,使所述支持特征嵌入至所述第二图像集的查询特征中。
3.根据权利要求1所述的方法,其特征在于,所述将结合有所述支持特征的第二图像集输入至候选区域生成网络中,使所述候选区域生成网络基于所述第二图像集对应生成与所述目标对象相关联的候选区域集,包括:
所述候选区域生成网络基于所述第二图像集对应生成与所述目标对象相关联的候选区域集,并基于标准非极大值抑制与所述目标对象非关联的候选区域生成。
4.根据权利要求1所述的方法,其特征在于,所述编码器与解码器中的自注意力块权重共享。
5.根据权利要求1所述的方法,其特征在于,所述至少基于所述候选区域集确定出所述目标图像,包括:
将所述候选区域集及支持特征集馈送至关系检测器中,以对所述候选区域集中的各个候选区域与支持特征集间的关系进行衡量,进而基于衡量结果过滤所述候选区域集;
至少基于过滤后的所述候选区域集确定出所述目标图像。
6.根据权利要求2所述的方法,其特征在于,所述至少基于所述候选区域集确定出所述目标图像,包括:
将所述候选区域集、查询特征、支持特征集馈送至关系回归器中,使所述关系回归器融合所述查询特征、支持特征集后进行多次卷积、平均池化操作,以确定所述查询特征与支持特征间的区域关系;
基于所述区域关系过滤所述候选区域集;
基于过滤后的所述候选区域集确定出所述目标图像。
7.一种数据处理装置,应用于小样本目标检测模型中,其特征在于,所述装置包括:
获得模块,用于获得第一图像集和第二图像集,所述第一图像集中的图像带有特征注释,所述第一图像集中至少部分图像的内容与所述第二图像集中的图像内容相关;
第一输入模块,用于将所述第一图像集输入至编码器中,以结合所述特征注释生成支持特征集,所述支持特征集与目标对象相关,所述目标对象存在于所述第二图像集中的目标图像中;
第二输入模块,用于将所述第二图像集及支持特征集输入至解码器中,使所述第二图像集与所述支持特征集中的支持特征相结合;
第三输入模块,用于将结合有所述支持特征的第二图像集输入至候选区域生成网络中,使所述候选区域生成网络基于所述第二图像集对应生成与所述目标对象相关联的候选区域集;
确定模块,用于至少基于所述候选区域集确定出所述目标图像。
8.根据权利要求7所述的数据处理装置,其特征在于,所述第二图像集中至少部分图像具有查询特征,所述查询特征用于描述图像中的待查询对象,所述待查询对象包括所述目标对象;
所述将所述第二图像集及支持特征集输入至解码器中,使所述第二图像集与所述支持特征集中的支持特征相结合,包括:
将所述第二图像集及支持特征集输入至解码器中,使所述支持特征嵌入至所述第二图像集的查询特征中。
9.根据权利要求7所述的数据处理装置,其特征在于,所述将结合有所述支持特征的第二图像集输入至候选区域生成网络中,使所述候选区域生成网络基于所述第二图像集对应生成与所述目标对象相关联的候选区域集,包括:
所述候选区域生成网络基于所述第二图像集对应生成与所述目标对象相关联的候选区域集,并基于标准非极大值抑制与所述目标对象非关联的候选区域生成。
10.根据权利要求7所述的数据处理装置,其特征在于,所述编码器与解码器中的自注意力块权重共享。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210831318.9A CN115203449A (zh) | 2022-07-15 | 2022-07-15 | 一种数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210831318.9A CN115203449A (zh) | 2022-07-15 | 2022-07-15 | 一种数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115203449A true CN115203449A (zh) | 2022-10-18 |
Family
ID=83581345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210831318.9A Pending CN115203449A (zh) | 2022-07-15 | 2022-07-15 | 一种数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115203449A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116071609A (zh) * | 2023-03-29 | 2023-05-05 | 中国科学技术大学 | 基于目标特征动态自适应提取的小样本图像分类方法 |
CN116109907A (zh) * | 2023-04-17 | 2023-05-12 | 深圳须弥云图空间科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
-
2022
- 2022-07-15 CN CN202210831318.9A patent/CN115203449A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116071609A (zh) * | 2023-03-29 | 2023-05-05 | 中国科学技术大学 | 基于目标特征动态自适应提取的小样本图像分类方法 |
CN116109907A (zh) * | 2023-04-17 | 2023-05-12 | 深圳须弥云图空间科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN116109907B (zh) * | 2023-04-17 | 2023-08-18 | 成都须弥云图建筑设计有限公司 | 目标检测方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115203449A (zh) | 一种数据处理方法及装置 | |
JP2020095713A (ja) | 対話型インタフェース及びデータベースクエリを用いた文書画像からの情報抽出の方法及びシステム | |
CN109993040A (zh) | 文本识别方法及装置 | |
CN111861978A (zh) | 基于Faster R-CNN的桥梁裂缝实例分割方法 | |
CN112347244A (zh) | 基于混合特征分析的涉黄、涉赌网站检测方法 | |
Hu et al. | Defect identification method for poplar veneer based on progressive growing generated adversarial network and MASK R-CNN model | |
CN111291759A (zh) | 文字检测方法、装置、电子设备及存储介质 | |
CN113657115B (zh) | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 | |
CN110717324A (zh) | 裁判文书答案信息提取方法、装置、提取器、介质和设备 | |
CN114329034B (zh) | 基于细粒度语义特征差异的图像文本匹配判别方法及系统 | |
CN116263785A (zh) | 跨领域文本分类模型的训练方法、分类方法和装置 | |
CN114723833A (zh) | 一种基于改进yolov5的深度学习晶圆焊点检测方法 | |
CN116304042A (zh) | 一种基于多模态特征自适应融合的虚假新闻检测方法 | |
CN117333669A (zh) | 基于有用信息引导的遥感影像语义分割方法、系统及设备 | |
CN117173494B (zh) | 基于类别平衡样本选择的含噪声标签图像识别方法及系统 | |
Zhang et al. | FDNet: Lightweight train image fault detection network in edge computing environments | |
CN104899551B (zh) | 一种表单图像分类方法 | |
EP4187504A1 (en) | Method for training text classification model, apparatus, storage medium and computer program product | |
CN116311026A (zh) | 基于多层级信息融合Transformer的教室场景身份识别方法 | |
Nag et al. | CNN based approach for post disaster damage assessment | |
CN113673631B (zh) | 异常图像检测方法及装置 | |
Sarungbam et al. | Script identification and language detection of 12 Indian languages using DWT and template matching of frequently occurring character (s) | |
CN117077680A (zh) | 问答意图识别方法及装置 | |
Nguyen et al. | MC-OCR challenge 2021: Simple approach for receipt information extraction and quality evaluation | |
CN114283317A (zh) | 目标检测方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |