CN112801146B - 一种目标检测方法及系统 - Google Patents
一种目标检测方法及系统 Download PDFInfo
- Publication number
- CN112801146B CN112801146B CN202110039522.2A CN202110039522A CN112801146B CN 112801146 B CN112801146 B CN 112801146B CN 202110039522 A CN202110039522 A CN 202110039522A CN 112801146 B CN112801146 B CN 112801146B
- Authority
- CN
- China
- Prior art keywords
- feature
- image
- feature map
- attention
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 73
- 238000000605 extraction Methods 0.000 claims abstract description 29
- 230000004927 fusion Effects 0.000 claims description 43
- 230000009466 transformation Effects 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 19
- 238000000034 method Methods 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 abstract description 12
- 230000006870 function Effects 0.000 description 6
- 238000002372 labelling Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008485 antagonism Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 208000020442 loss of weight Diseases 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种目标检测方法和系统,针对目标检测任务需要自注意力关注特定类别目标对应原始图像所在区域的特点,将注意力机制运用于目标检测中,所设计的网络结构不同于通用的元学习网络框架,采用分类分支层所得的类别概率监督与特征提取层连接的类别注意力层,从而引导回归分支层进行目标位置的计算,实现基于类别区分的自监督注意力机制,提升目标检测模型的检测精度。进一步地,结合小样本目标检测任务由于小样本数量较少,网络难以学习到小样本特征的特点,将大样本图像和小样本图像进行拼接,作为样本图像对目标检测模型进行训练,使得网络兼顾学习大样本图像和小样本图像,从提升目标检测模型的对小样本的检测能力。
Description
技术领域
本发明属于计算机视觉和深度学习领域,更具体地,涉及一种目标检测方法及系统。
背景技术
目标检测任务是计算机视觉的基础任务之一,主要任务是对图像中的目标进行分类和定位。现有的目标检测任务基于大量的标注的图像进行训练,限制了某些场景下的应用和推广。因此利用极少的标注数据学习具有一定泛化能力的模型显得尤为重要。基于此,应用较少标注数据的半监督方法和如何利用极少的标注数据学习具有一定泛化能力的模型是更加迫切需要研究的问题。
将注意力机制应用在计算机视觉任务上,可以有效捕捉图像中有用的区域,从而提升整体网络性能。因而,利用注意力机制也可以使网络有选择的进行特征抽取和识别,并有效缓解网络对小样本进行特征抽取的表征困难问题。然而,现有技术通常采用隐式自注意力机制,即注意力所关注信息不具有明确实际意义,导致注意力机制的可解释性较差。同时由于注意力信息没有明确的指向性,导致其存在注意力不集中,注意力混乱和错误等问题。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种目标检测方法及系统,采用基于类别自监督的显式注意力机制,使网络有选择的进行待识别图像的特征抽取和识别,进而有效缓解网络利用小样本学习的表征困难的问题。
为实现上述目的,按照本发明的一个方面,提供了一种目标检测方法,包括:
将待识别图像输入目标检测模型;
其中,所述目标检测模型是基于样本图像以及对应的类别标签和位置标签进行监督训练后得到;
所述目标检测模型对所述待识别图像进行特征提取,获得特征图;
基于所述特征图生成所述待识别图像的类别概率,并基于所述类别概率输出所述待识别图像的类别;
对所述特征图进行复制,得到与所述类别标签的数量相同的多张特征图;提取所述各特征图通道的注意力权重;将所述类别概率分别与所述各特征图通道的注意力权重进行点乘,得到各特征图通道的类别自监督注意力权重;基于非线性缩放层的非线性加权参数,调整所述各特征图通道的类别自监督注意力权重;将所述各特征图通道的类别自监督注意力权重的最大值,作为所述特征图通道的融合类别自注意力权重;将所述特征图通道的融合类别自注意力权重与所述特征图通道进行点乘,得到融合类别自监督注意力特征图;
基于所述融合类别自监督注意力特征图,输出所述待识别图像的位置。
优选地,所述样本图像由小样本图像和大样本图像拼接而成。
优选地,所述提取所述各特征图通道的注意力权重,具体为:
对所述多张特征图依次进行线性变换和非线性变换,得到所述各特征图通道的注意力权重。
优选地,所述对所述多张特征图依次进行线性变换和非线性变换,得到各特征图通道的注意力权重,具体为:
将所述多张特征图进行全局池化,压缩所述多张特征图的尺寸,得到多张压缩后的特征图;将所述多张压缩后的特征图输入以级联形式组合的分组全连接层与非线性激活层,以对所述多张特征图依次进行线性变换和非线性变换,得到各特征图通道的注意力权重。
优选地,所述将所述类别概率分别与所述各特征图通道的注意力权重进行点乘,得到各特征图通道的类别自监督注意力权重,具体为:
将所述类别概率进行归一化,得到归一化类别概率;
将所述归一化类别概率分别与所述各特征图通道的注意力权重进行点乘,得到各特征图通道的类别自监督注意力权重。
优选地,所述提取所述各特征图通道的注意力权重,具体为:
对所述多张特征图依次进行线性变换和非线性变换,得到所述各特征图通道的注意力权重。
优选地,所述基于所述特征图生成所述待识别图像的类别概率,具体为:
将所述特征图输入以级联方式连接的卷积层与全连接层,生成所述待识别图像的类别概率;其中,所述卷积层与全连接层之间采用带阻滞的短路连接。
优选地,所述基于所述融合类别自监督注意力特征图,输出所述待识别图像的位置,具体为:
将所述融合类别自监督注意力特征图输入瓶颈层和多分辨率融合层,输出所述待识别图像的位置。
优选地,所述方法还包括:基于损失函数计算所述分类分支层和回归分支层的联合损失,所述损失函数为:
Loss=ω1·Losscls+ω2·Lossreg
其中,Losscls为分类损失,Lossreg为回归损失,ω1,ω2为可学习权重参数。
按照本发明的另一方面,提供了一种目标检测系统,包括:
输入模块,用于将待识别图像输入目标检测模型;
输出模块,用于输出所述待识别图像的类别和位置;
其中,所述目标检测模型是基于样本图像以及对应的类别标签和位置标签进行监督训练后得到;所述目标检测模型包括特征提取层及分别与所述特征提取层连接的类别注意力层、分类分支层和回归分支层;
所述特征提取层对所述待识别图像进行特征提取,获得特征图;
所述分类分支层基于所述特征图生成所述待识别图像的类别概率,并基于所述类别概率输出所述待识别图像的类别;
所述类别注意力层对所述特征图进行复制,得到与所述类别标签的数量相同的多张特征图;提取各特征图通道的注意力权重;将所述类别概率分别与所述各特征图通道的注意力权重进行点乘,得到各特征图通道的类别自监督注意力权重;基于非线性缩放层的非线性加权参数,调整所述各特征图通道的类别自监督注意力权重;将所述各特征图通道的类别自监督注意力权重的最大值,作为所述特征图通道的融合类别自注意力权重;将所述特征图通道的融合类别自注意力权重与所述特征图通道进行点乘,得到融合类别自监督注意力特征图;
所述回归分支层基于所述融合类别自监督注意力特征图,输出所述待识别图像的位置。
优选地,所述样本图像由小样本图像和大样本图像拼接而成。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,针对目标检测任务需要自注意力关注特定类别目标对应原始图像所在区域的特点,将注意力机制运用于目标检测中,所设计的网络结构不同于通用的元学习网络框架,采用分类分支层所得的类别概率监督与特征提取层连接的类别注意力层,从而引导回归分支层进行目标位置的计算,实现基于类别区分的自监督注意力机制,提升目标检测模型的检测精度。
进一步地,结合小样本目标检测任务由于小样本数量较少,网络难以学习到小样本特征的特点,将大样本图像和小样本图像进行拼接,作为样本图像对目标检测模型进行训练,使得网络兼顾学习大样本图像和小样本图像,从而提升神经网络的训练的稳定性,同时更有效的增强神经网络的泛化性能,有效缓解网络在训练小样本时收敛困难的问题;有效解决大样本与小样本对网络造成的拮抗干扰,提升目标检测模型的对小样本的检测能力。
进一步地,分类分支层采用以级联方式连接的卷积层与全连接层,能够提升网络高级抽象表征能力,从而提升分类准确率。回归分支层由瓶颈层和多分辨率层组成,能够融合不同分辨率的语义信息,有效提升网络对不同尺度图像的分类回归的准确率。
附图说明
图1是本发明提供的目标检测模型的网络结构示意图;
图2是本发明提供的瓶颈层的网络结构示意图;
图3是本发明提供的多分辨率融合层的网络结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明实施例提供一种目标检测方法,包括:
将待识别图像输入目标检测模型;
其中,所述目标检测模型是基于样本图像以及对应的类别标签和位置标签进行监督训练后得到;
所述目标检测模型对所述待识别图像进行特征提取,获得特征图;
基于所述特征图生成所述待识别图像的类别概率,并基于所述类别概率输出所述待识别图像的类别;
对所述特征图进行复制,得到与所述类别标签的数量相同的多张特征图;提取所述各特征图通道的注意力权重;将所述类别概率分别与所述各特征图通道的注意力权重进行点乘,得到各特征图通道的类别自监督注意力权重;基于非线性缩放层的非线性加权参数,调整所述各特征图通道的类别自监督注意力权重;将所述各特征图通道的类别自监督注意力权重的最大值,作为所述特征图通道的融合类别自注意力权重;将所述特征图通道的融合类别自注意力权重与所述特征图通道进行点乘,得到融合类别自监督注意力特征图;
基于所述融合类别自监督注意力特征图,输出所述待识别图像的位置。
具体地,如图1所示,所述目标检测模型包括特征提取层、类别注意力层、分类分支层和回归分支层。
所述特征提取层对所述待识别图像进行特征提取,获得特征图。
可选地,所述特征提取层包括卷积层和短路连接层,用于提取待识别图像的特征图。
具体地,所述卷积层为1×1卷积,采用1×1卷积将特征的通道数降低,有效减少网络参数量。在不同的网络层之间设置短路连接层,并且在短路分支设置3×3卷积以实现带阻滞的短路连接。
所述分类分支层基于所述特征图生成所述待识别图像的类别概率,并基于所述类别概率输出所述待识别图像的类别。
进一步地,所述类别注意力层包括通道复制单元、注意力生成单元、类别自监督单元和注意力加权单元。
通道复制单元对所述特征图进行复制,得到与所述类别标签的数量相同的多张特征图,输出至注意力生成单元。
注意力生成单元对所述多张特征图依次进行线性变换和非线性变换,得到各特征图通道的注意力权重,输出至类别自监督单元。
可以理解的是,所述特征图通道即特征通道,表示图像不同层次的语义特征。
类别自监督单元将所述类别概率分别与所述各特征图通道的注意力权重进行点乘,得到各特征图通道的类别自监督注意力权重,输出值注意力加权单元。
注意力加权单元将所述各特征图通道的类别自监督注意力权重输入非线性缩放层,基于所述非线性缩放层的非线性加权参数,调整所述各特征图通道的类别自监督注意力权重,以提升其对分类分支层所生成的预测类别概率噪声的自适应能力;然后,将所述各特征图通道的类别自监督注意力权重的最大值,作为所述特征图通道的融合类别自注意力权重,以大幅提升召回率;将所述特征图通道的融合类别自注意力权重与所述特征图通道进行点乘,得到融合类别自监督注意力特征图。
例如:在15个类别的特征图中,若通道1的类别自监督注意力权重分别为0.1、0.8(最大值)、……、0.3,则取通道1分别在15个类别的特征图中的权重的最大值0.8,作为待识别图像的特征图中,通道1的融合类别自注意力权重。
所述融合类别自监督注意力特征图为多层金字塔特征图,每层特征图均由该层融合类别自监督注意力权重与该层特征提取层提取的特征图的通道点乘得到。
所述回归分支层基于所述融合类别自监督注意力特征图,输出所述待识别图像的位置。
本发明实施例提供的方法,针对目标检测任务需要自注意力关注特定类别目标对应原始图像所在区域的特点,将注意力机制运用于目标检测中,所设计的网络结构不同于通用的元学习网络框架,采用分类分支层所得的类别概率监督与特征提取层连接的类别注意力层,从而引导回归分支层进行目标位置的计算,实现基于类别区分的自监督注意力机制,提升目标检测模型的检测精度。
基于上述实施例,可选地,所述样本图像由小样本图像和大样本图像拼接而成。
具体地,本发明实施例中,小样本图像指数量(例如:个位数)较少的样本图像,大样本图像指数量(例如:十位数、百位数或千位数等)较多的样本图像。
将PASCAL VOC数据按照一定比例划分,将样本图像数据集划分为N类小样本新颖类别和M类大样本类别,并将所述样本图像数据集对应的标注数据进行划分作为标签数据。对所述样本图像数据集进行小样本新颖类别的数据抽取,选取小样本新颖类别中的少部分样本作为训练集,其余部分标记为测试集。大样本类别按照一定比例划分训练集与测试集。
可选地,将VOC数据集按照1:3的比例划分,将样本图像数据集划分为5类小样本新颖类别和15类大样本类别,并将所述样本图像数据对应的标注数据进行划分作为标签数据。对所述数据进行小样本新颖类的数据抽取,选取小样本新颖类中的少部分样本,分别为1、5、10个,其余部分标记为测试集;大样本类别按照2:1划分训练集与测试集。
可选地,采用验证集对所述目标检测模型进行准确率和召回率验证。
所述样本图像由小样本图像和大样本图像拼接而成;其中,小样本图像的数量N和大样本图像的数量M可根据需要进行设置,本发明实施例对此不作具体限定;将小样本图像和大样本图像进行拼接所采用的方法可根据需要进行选择,例如:马赛克方式,本发明实施例对此不作具体限定。
可选地,从小样本图像中选取1张图像,再从大样本图像中选取3张图像,进行图像缩放变换使得其尺寸保持一致。图像拼接具体包括:设置图像蒙版,大小为初始尺寸长和宽的两倍,进行图像拼接,将拼接之后的图像缩放为图像蒙版尺寸的1/2。随机在图像蒙版上选取一中心点,依次以所述中心点为贴图中心进行图像拼接。贴图对象分别为1张小样本图像和3张大样本图像,贴图中心分别与左上方图像的右下角坐标,右上方图像的左下角坐标,左下方图像的右下角坐标,右下方图像的左上角坐标重合。
可选地,在采用样本图像数据训练目标检测模型之前,还包括:
对所述样本图像数据进行预处理,获得预处理后的样本图像数据;其中,所述预处理包括:旋转、翻转、缩放、随机裁剪和HSV(Hue Saturation Value)变换。
在采用样本图像数据训练目标检测模型之前,通过对所述样本图像数据进行预处理,实现数据增强,从而提高目标检测模型的精度。
可选地,在采用样本图像数据训练目标检测模型之前,还包括:
基于大量公开样本图像数据集对所述目标检测模型的特征提取层进行分类任务的预训练,以提高模型的收敛速度,进一步地,在预训练完成之后将特征提取层分别与类别注意力层、分类分支层和回归分支层相连接。
本发明实施例提供的方法,结合小样本目标检测任务由于小样本数量较少,网络难以学习到小样本特征的特点,将大样本图像和小样本图像进行拼接,作为样本图像对目标检测模型进行训练,使得网络兼顾学习大样本图像和小样本图像,从而提升神经网络的训练的稳定性,同时更有效的增强神经网络的泛化性能,有效缓解网络在训练小样本时收敛困难的问题;有效解决大样本与小样本对网络造成的拮抗干扰,提升目标检测模型的对小样本的检测能力。
基于上述任一实施例,可选地,所述提取所述各特征图通道的注意力权重,具体为:
对所述多张特征图依次进行线性变换和非线性变换,得到所述各特征图通道的注意力权重。
基于上述任一实施例,可选地,所述对所述多张特征图依次进行线性变换和非线性变换,得到各特征图通道的注意力权重,具体为:
将所述多张特征图进行全局池化,压缩所述多张特征图的尺寸,得到多张压缩后的特征图;将所述多张压缩后的特征图输入以级联形式组合的分组全连接层与非线性激活层,以对所述多张特征图依次进行线性变换和非线性变换,得到各特征图通道的注意力权重。
具体地,注意力生成单元将所述多张特征图进行全局池化,压缩所述多张特征图的尺寸,得到多张压缩后的特征图;将所述多张压缩后的特征图输入以级联形式组合的分组全连接层与非线性激活层,以对通道复制单元生成的所述多张特征图依次进行线性变换和非线性变换,得到各特征图通道的注意力权重,输出至类别自监督单元。
例如:假设类别标签的数量为15,则将特征提取层提取的待识别图像的特征图进行复制,得到15张尺寸为W×H的特征图;将15张特征图进行全局池化,压缩所述多张特征图的尺寸,将所述多张特征图的尺寸从W×H变为1×1,得到15张压缩后的特征图,通道数不变;将所述15张压缩后的特征图输入以级联形式组合的分组全连接层与非线性激活层,依次行线性变换和非线性变换,得到15张特征图中各个通道的注意力权重。
可选地,将所述多张压缩后的特征图输入以级联形式组合的2个分组全连接层与1个非线性激活层,以对所述多张特征图依次进行2次线性变换和1次非线性变换,得到各特征图通道的注意力权重。
可选地,所述将所述多张特征图进行全局池化,具体为:
将所述多张特征图进行全局平均池化;
或,将所述多张特征图进行全局最大池化。
可选地,所述将所述多张特征图进行全局池化,压缩所述多张特征图的尺寸,得到多张压缩后的特征图之前,还包括:
对所述多张特征图进行卷积操作。
基于上述任一实施例,可选地,所述将所述类别概率分别与所述各特征图通道的注意力权重进行点乘,得到各特征图通道的类别自监督注意力权重,具体为:
将所述类别概率进行归一化,得到归一化类别概率;
将所述归一化类别概率分别与所述各特征图通道的注意力权重进行点乘,得到各特征图通道的类别自监督注意力权重。
具体地,类别自监督单元将分类分支层输出的类别概率通过归一化指数函数进行归一化以增强类别之间的差异,得到归一化类别概率;将所述归一化类别概率分别与所述各特征图通道的注意力权重进行点乘,得到各特征图通道的类别自监督注意力权重,输出至注意力加权单元。
基于上述任一实施例,可选地,所述基于所述特征图生成所述待识别图像的类别概率,具体为:
将所述特征图输入以级联方式连接的卷积层与全连接层,生成所述待识别图像的类别概率;其中,所述卷积层与全连接层之间采用带阻滞的短路连接。
具体地,分类分支层包括以级联方式连接的卷积层与全连接层,用于生成所述待识别图像的类别概率;其中,全连接层用以提升网络高级抽象表征能力;所述卷积层与全连接层之间采用带阻滞的短路连接,以进一步提高类别概率的预测精度。
基于上述任一实施例,可选地,所述基于所述融合类别自监督注意力特征图,输出所述待识别图像的位置,具体为:
将所述融合类别自监督注意力特征图输入瓶颈层和多分辨率融合层,输出所述待识别图像的位置。
具体地,回归分支层包括瓶颈层和多分辨率融合层,如图2所示,所述瓶颈层由1×1卷积、3×3卷积和1×1卷积组合而成,1×1卷积用于进行特征抽取,3×3卷积实现通道压缩,压缩通道为原本通道数的1/K,K为通道缩放倍数,用以减少参数量并缓解过拟合。
如图3所示,所述多分辨率融合层采用7×7、5×5、3×3卷积并联,可融合多尺度语义信息,进而融合不同分辨率的语义信息,有效提升网络对不同尺度图像的分类回归准确率。
本发明实施例提供的方法,目标检测模型的架构采用瓶颈层、带阻滞的短路连接和随机屏蔽的全连接层。上述结构具有良好的表征能力与防止过拟合的能力,有效缓解了小样本目标检测中训练易过拟合的问题。
基于上述任一实施例,可选地,所述方法还包括:基于损失函数计算所述分类分支层和回归分支层的联合损失,所述损失函数为:
Loss=ω1·Losscls+ω2·Lossreg
其中,Losscls为分类损失,Lossreg为回归损失,ω1,ω2为可学习权重参数。
具体地,为了缓解分类和回归由于注意力机制所带来的损失不平衡问题,采用权重自学习的分类回归联合损失。
下面对本发明提供的目标检测系统进行描述,下文描述的目标检测系统与上文描述的目标检测系统方法可相互对应参照。
基于上述任一实施例,本发明实施例提供一种目标检测系统,包括:
输入模块,用于将待识别图像输入目标检测模型;
输出模块,用于输出所述待识别图像的类别和位置;
其中,所述目标检测模型是基于样本图像以及对应的类别标签和位置标签进行监督训练后得到;所述目标检测模型包括特征提取层及分别与所述特征提取层连接的类别注意力层、分类分支层和回归分支层;
所述特征提取层对所述待识别图像进行特征提取,获得特征图;
所述分类分支层基于所述特征图生成所述待识别图像的类别概率,并基于所述类别概率输出所述待识别图像的类别;
所述类别注意力层对所述特征图进行复制,得到与所述类别标签的数量相同的多张特征图;提取各特征图通道的注意力权重;将所述类别概率分别与所述各特征图通道的注意力权重进行点乘,得到各特征图通道的类别自监督注意力权重;将所述各特征图中通道的类别自监督注意力权重的最大值,作为所述特征图通道的融合类别自注意力权重;将所述特征图通道的融合类别自注意力权重与所述特征图通道进行点乘,得到融合类别自监督注意力特征图;
所述回归分支层基于所述融合类别自监督注意力特征图,输出所述待识别图像的位置。
基于上述任一实施例,可选地,所述样本图像由小样本图像和大样本图像拼接而成。
本发明提供的目标检测系统,可用于执行上述各目标检测方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种目标检测方法,其特征在于,包括:
将待识别图像输入目标检测模型;
其中,所述目标检测模型是基于样本图像以及对应的类别标签和位置标签进行监督训练后得到;
所述目标检测模型对所述待识别图像进行特征提取,获得特征图;
基于所述特征图生成所述待识别图像的类别概率,并基于所述类别概率输出所述待识别图像的类别;
对所述特征图进行复制,得到与所述类别标签的数量相同的多张特征图;提取所述各特征图通道的注意力权重;将所述类别概率分别与所述各特征图通道的注意力权重进行点乘,得到各特征图通道的类别自监督注意力权重;基于非线性缩放层的非线性加权参数,调整所述各特征图通道的类别自监督注意力权重;将所述各特征图通道的类别自监督注意力权重的最大值,作为所述特征图通道的融合类别自注意力权重;将所述特征图通道的融合类别自注意力权重与所述特征图通道进行点乘,得到融合类别自监督注意力特征图;
基于所述融合类别自监督注意力特征图,输出所述待识别图像的位置;
所述提取所述各特征图通道的注意力权重,具体为:
对所述多张特征图依次进行线性变换和非线性变换,得到所述各特征图通道的注意力权重;
所述对所述多张特征图依次进行线性变换和非线性变换,得到各特征图通道的注意力权重,具体为:
将所述多张特征图进行全局池化,压缩所述多张特征图的尺寸,得到多张压缩后的特征图;将所述多张压缩后的特征图输入以级联形式组合的分组全连接层与非线性激活层,以对所述多张特征图依次进行线性变换和非线性变换,得到各特征图通道的注意力权重。
2.如权利要求1所述的目标检测方法,其特征在于,所述样本图像由小样本图像和大样本图像拼接而成。
3.如权利要求1所述的目标检测方法,其特征在于,所述将所述类别概率分别与所述各特征图通道的注意力权重进行点乘,得到各特征图通道的类别自监督注意力权重,具体为:
将所述类别概率进行归一化,得到归一化类别概率;
将所述归一化类别概率分别与所述各特征图通道的注意力权重进行点乘,得到各特征图通道的类别自监督注意力权重。
4.如权利要求1所述的目标检测方法,其特征在于,所述基于所述特征图生成所述待识别图像的类别概率,具体为:
将所述特征图输入以级联方式连接的卷积层与全连接层,生成所述待识别图像的类别概率;其中,所述卷积层与全连接层之间采用带阻滞的短路连接。
5.如权利要求1所述的目标检测方法,其特征在于,所述基于所述融合类别自监督注意力特征图,输出所述待识别图像的位置,具体为:
将所述融合类别自监督注意力特征图输入瓶颈层和多分辨率融合层,输出所述待识别图像的位置。
6.如权利要求1所述的目标检测方法,其特征在于,所述方法还包括:基于损失函数计算所述分类分支层和回归分支层的联合损失,所述损失函数为:
Loss=ω1·Losscls+ω2·Lossreg
其中,Losscls为分类损失,Lossreg为回归损失,ω1,ω2为可学习权重参数。
7.一种目标检测系统,其特征在于,包括:
输入模块,用于将待识别图像输入目标检测模型;
输出模块,用于输出所述待识别图像的类别和位置;
其中,所述目标检测模型是基于样本图像以及对应的类别标签和位置标签进行监督训练后得到;所述目标检测模型包括特征提取层及分别与所述特征提取层连接的类别注意力层、分类分支层和回归分支层;
所述特征提取层对所述待识别图像进行特征提取,获得特征图;
所述分类分支层基于所述特征图生成所述待识别图像的类别概率,并基于所述类别概率输出所述待识别图像的类别;
所述类别注意力层对所述特征图进行复制,得到与所述类别标签的数量相同的多张特征图;提取各特征图通道的注意力权重;将所述类别概率分别与所述各特征图通道的注意力权重进行点乘,得到各特征图通道的类别自监督注意力权重;基于非线性缩放层的非线性加权参数,调整所述各特征图通道的类别自监督注意力权重;将所述各特征图通道的类别自监督注意力权重的最大值,作为所述特征图通道的融合类别自注意力权重;将所述特征图通道的融合类别自注意力权重与所述特征图通道进行点乘,得到融合类别自监督注意力特征图;
所述回归分支层基于所述融合类别自监督注意力特征图,输出所述待识别图像的位置;
所述提取所述各特征图通道的注意力权重,具体为:
对所述多张特征图依次进行线性变换和非线性变换,得到所述各特征图通道的注意力权重;
所述对所述多张特征图依次进行线性变换和非线性变换,得到各特征图通道的注意力权重,具体为:
将所述多张特征图进行全局池化,压缩所述多张特征图的尺寸,得到多张压缩后的特征图;将所述多张压缩后的特征图输入以级联形式组合的分组全连接层与非线性激活层,以对所述多张特征图依次进行线性变换和非线性变换,得到各特征图通道的注意力权重。
8.如权利要求7所述的目标检测系统,其特征在于,所述样本图像由小样本图像和大样本图像拼接而成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110039522.2A CN112801146B (zh) | 2021-01-13 | 2021-01-13 | 一种目标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110039522.2A CN112801146B (zh) | 2021-01-13 | 2021-01-13 | 一种目标检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112801146A CN112801146A (zh) | 2021-05-14 |
CN112801146B true CN112801146B (zh) | 2024-03-19 |
Family
ID=75810256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110039522.2A Active CN112801146B (zh) | 2021-01-13 | 2021-01-13 | 一种目标检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112801146B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569960B (zh) * | 2021-07-29 | 2023-12-26 | 北京邮电大学 | 基于域适应的小样本图像分类方法及系统 |
CN113657225B (zh) * | 2021-08-05 | 2023-09-26 | 武汉工程大学 | 一种目标检测方法 |
CN113673420B (zh) * | 2021-08-19 | 2022-02-15 | 清华大学 | 一种基于全局特征感知的目标检测方法及系统 |
CN113887670A (zh) * | 2021-11-02 | 2022-01-04 | 北京百度网讯科技有限公司 | 目标预测方法、模型训练方法、装置、设备、介质 |
CN114065868B (zh) * | 2021-11-24 | 2022-09-02 | 马上消费金融股份有限公司 | 文本检测模型的训练方法、文本检测方法及装置 |
CN114140732A (zh) * | 2021-12-09 | 2022-03-04 | 安徽大学 | 面向小样本条件下的消防火源检测方法、装置及存储介质 |
CN114973222B (zh) * | 2021-12-20 | 2024-05-10 | 西北工业大学宁波研究院 | 基于显式监督注意力机制的场景文本识别方法 |
CN114663683A (zh) * | 2022-03-28 | 2022-06-24 | 南京邮电大学 | 一种基于空间特征自监督的水下目标检测方法 |
CN114998840B (zh) * | 2022-07-18 | 2022-11-29 | 成都东方天呈智能科技有限公司 | 一种基于深度级联有监督学习的老鼠目标检测方法 |
CN115908298B (zh) * | 2022-11-10 | 2023-10-10 | 苏州慧维智能医疗科技有限公司 | 内窥镜图像中息肉的目标预测方法、模型及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829893A (zh) * | 2019-01-03 | 2019-05-31 | 武汉精测电子集团股份有限公司 | 一种基于注意力机制的缺陷目标检测方法 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110533045A (zh) * | 2019-07-31 | 2019-12-03 | 中国民航大学 | 一种结合注意力机制的行李x光违禁品图像语义分割方法 |
CN111275688A (zh) * | 2020-01-19 | 2020-06-12 | 合肥工业大学 | 基于注意力机制的上下文特征融合筛选的小目标检测方法 |
-
2021
- 2021-01-13 CN CN202110039522.2A patent/CN112801146B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN109829893A (zh) * | 2019-01-03 | 2019-05-31 | 武汉精测电子集团股份有限公司 | 一种基于注意力机制的缺陷目标检测方法 |
CN110533045A (zh) * | 2019-07-31 | 2019-12-03 | 中国民航大学 | 一种结合注意力机制的行李x光违禁品图像语义分割方法 |
CN111275688A (zh) * | 2020-01-19 | 2020-06-12 | 合肥工业大学 | 基于注意力机制的上下文特征融合筛选的小目标检测方法 |
Non-Patent Citations (1)
Title |
---|
基于双注意力机制的遥感图像目标检测;周幸;陈立福;;计算机与现代化;20200815(08);第5-11页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112801146A (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112801146B (zh) | 一种目标检测方法及系统 | |
US11416710B2 (en) | Feature representation device, feature representation method, and program | |
Li et al. | Localizing and quantifying damage in social media images | |
CN114202672A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN112270347A (zh) | 一种基于改进ssd的医疗废弃物分类检测方法 | |
CN110782420A (zh) | 一种基于深度学习的小目标特征表示增强方法 | |
CN105574550A (zh) | 一种车辆识别方法及装置 | |
WO2021238548A1 (zh) | 区域识别方法、装置、设备及可读存储介质 | |
CN107169485A (zh) | 一种数学公式识别方法和装置 | |
Yadav et al. | An improved deep learning-based optimal object detection system from images | |
CN111784665B (zh) | 基于傅里叶变换的oct图像质量评估方法、系统及装置 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
Geng et al. | An improved helmet detection method for YOLOv3 on an unbalanced dataset | |
CN114220178A (zh) | 基于通道注意力机制的签名鉴别系统及方法 | |
CN111582057B (zh) | 一种基于局部感受野的人脸验证方法 | |
CN117884379A (zh) | 一种矿石分选方法及系统 | |
CN117437555A (zh) | 一种基于深度学习的遥感影像目标提取处理方法及装置 | |
CN112733686A (zh) | 用于云联邦的图像中的目标物识别方法及装置 | |
CN116883980A (zh) | 一种紫外光绝缘子目标检测方法及系统 | |
Pang et al. | PTRSegNet: A Patch-to-Region Bottom-Up Pyramid Framework for the Semantic Segmentation of Large-Format Remote Sensing Images | |
Castillo et al. | Object detection in digital documents based on machine learning algorithms | |
CN112818832B (zh) | 一种基于部件感知的弱监督物体定位装置及方法 | |
CN118608792B (zh) | 一种基于Mamba的超轻量图像分割方法及计算机装置 | |
CN118247681B (zh) | 一种基于场景级语义引导及块级边界解混的云检测方法 | |
CN115115871B (zh) | 图像识别模型的训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |