CN112052876B - 一种基于改进ra-cnn的细粒度图像检测方法与系统 - Google Patents

一种基于改进ra-cnn的细粒度图像检测方法与系统 Download PDF

Info

Publication number
CN112052876B
CN112052876B CN202010773637.XA CN202010773637A CN112052876B CN 112052876 B CN112052876 B CN 112052876B CN 202010773637 A CN202010773637 A CN 202010773637A CN 112052876 B CN112052876 B CN 112052876B
Authority
CN
China
Prior art keywords
image
scale
training
vector
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010773637.XA
Other languages
English (en)
Other versions
CN112052876A (zh
Inventor
廖玉婷
邹素雯
陈林祥
石志凯
张涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Changjiang Computing Technology Co ltd
Fiberhome Telecommunication Technologies Co Ltd
Original Assignee
Fiberhome Telecommunication Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fiberhome Telecommunication Technologies Co Ltd filed Critical Fiberhome Telecommunication Technologies Co Ltd
Priority to CN202010773637.XA priority Critical patent/CN112052876B/zh
Publication of CN112052876A publication Critical patent/CN112052876A/zh
Application granted granted Critical
Publication of CN112052876B publication Critical patent/CN112052876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于改进RA‑CNN的细粒度图像检测方法:S1、对训练图像进行预处理得到其图像向量编码和类别向量编码;S2、根据训练图像的图像向量编码和类别向量编码,使用改进的RA‑CNN模型进行弱监督训练,得到预测的边界框信息;S3、使用标注有边界框的训练图片作为输入,用步骤S2中预测的边界框与标注的边界框进行对比,计算损失函数进行强监督训练,得到经训练的图像检测模型;S4、对待检测图像进行灰度处理和向量归一化处理,得到待检测图像的图像向量编码,将待检测图像的图像向量编码输入上述经训练的图像检测模型,得到待检测图像中的物体类别和边界框信息。本发明还提供了相应的基于改进RA‑CNN的细粒度图像检测系统。

Description

一种基于改进RA-CNN的细粒度图像检测方法与系统
技术领域
本发明属于目标检测技术领域,更具体地,涉及一种基于改进RA-CNN 的细粒度图像检测方法与系统。
背景技术
自从卷积神经网络在计算机视觉上暂露头角,关于深度学习的研究便越来越火热,算法层出不穷。关于细粒度图像目标分类和定位,在卷积神经网络出现之前大部分需要依靠大量的人工标注,标出物体在图像中的位置以及精确的局部信息,然后对区分性较强的区域进行特征建模再用分类器分类。代表为Berg等人提出的一种基于局部区域的特征编码方式,能够自动发现最具区分度的信息。卷积神经网络出现后,基于强监督学习的研究大规模上升,R-CNN(Region-CNN,区域卷积神经网络)采用选择性搜索来避免暴力枚举候选区域,但由于每个框都要经过一遍分类,因此有很多重复计算特征图的过程。为了解决这个问题,Fast R-CNN(Fast Region-CNN,快速区域卷积神经网络)直接在卷积网络的特征图上进行候选区域的提取。为了使训练速度更快,YOLO(You Only Look Once,YOLO)算法将输入图像分为固定维数的网络,直接预测整个图像物体包含框的位置及包含物体的类别。由于人工成本逐渐上升,基于弱监督学习的研究也蓬勃发展。 Xiao等人在2015年提出了TwoLevel Attention Model基于注意力机制的网络模型,该模型通过谱聚类的方式获取局部特征区域特征,不需要使用人工对局部区域的标注信息。2017年Kong等人提出了LRBP(Low-rank Bilinear pooling,低秩双线性汇合模型),利用协方差矩阵,使用低秩双线性分类器来处理维数较高的特征计算。上面的两个算法都是将局部定位与分类任务当成两个任务进行,Fu等人利用两个任务之间的联系,相互增益彼此的精度,在多尺度上递归的学习特征表达,提出了RA-CNN模型 (Recurrent Attention Convolutional Neural Network,循环注意力卷积神经网络)。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于改进RA- CNN的细粒度图像检测方法与系统,基于改进的RA-CNN模型和强监督微调,在对细粒度目标分类进行改进的同时让其输出预测的边界框信息,并经过强监督学习,调整窗口位置,提高目标定位的准确性。
为实现上述目的,按照本发明的一个方面,提供了一种基于改进RA- CNN的细粒度图像检测方法,包括:
S1、对训练图像进行预处理得到其图像向量编码和类别向量编码;
S2、根据训练图像的图像向量编码和类别向量编码,使用改进的RA- CNN模型进行弱监督训练,得到预测的边界框信息;
S3、使用标注有边界框的训练图片作为输入,用步骤S2中预测的边界框与标注的边界框进行对比,计算损失函数进行强监督训练,得到经训练的图像检测模型;
S4、对待检测图像进行灰度处理和向量归一化处理,得到待检测图像的图像向量编码,将待检测图像的图像向量编码输入上述经训练的图像检测模型,得到待检测图像中的物体类别和边界框信息。
本发明的一个实施例中,所述步骤S2中的改进的RA-CNN模型具体为:
改进的RA-CNN模型分为三个尺度,每个尺度都是由一个分类网络和一个定位网络构成;其中,
分类网络的输入是训练图像的图像向量编码,通过提取训练图像的特征并进行分类,输出图片中包含的物体类别;
定位网络负责定位注意力集中的特征区域,然后将该特征区域进行放大操作,送入下一尺度。
本发明的一个实施例中,第一尺度中的定位网络为多注意力建议网络 MAPN,以生成多个空间注意力区域,将这多个空间注意力区域作为预测的边界框信息,第二尺度和第三尺度中的定位网络为注意力建议网络APN。
本发明的一个实施例中,所述三个尺度的训练过程为:
将经过步骤S1处理后的训练图片的图像向量编码送入第一尺度分类网络提取特征,将第一尺度分类网络得到的池化层的特征输出送入第一尺度定位网络得到预测位置信息,再重新输入到第一尺度分类网络,第一尺度分类网络依据预测位置信息经过全连接层后得到第一尺度的预测标签Y1;
将第一尺度输出的多个注意力区域经过放大操作后送入第二尺度的分类网络提取特征,并同样将其得到的池化层的特征输出送入第二尺度定位网络,融合M个图像的预测概率,得到第二尺度的预测标签Y2;
将第二尺度输出的M个注意力区域再经过放大操作后送入第三尺度,具体操作与第二尺度保持一致,得到第三尺度的预测标签Y3;
按照Yi=max{Y1i,Y2i,Y3i}加权三个尺度的预测标签值,得到最终预测,i表示物体类别。
本发明的一个实施例中,所述步骤S2中通过对损失函数求偏导来训练弱监督学习,使用梯度下降法来逐层更新参数,所述损失函数Loss由两部分组成。分别是预测类别损失L1和尺度变换损失L2
本发明的一个实施例中,所述预测类别损失L1具体为
Figure BDA0002617565250000031
其中
Figure BDA0002617565250000032
其中n是类别数,即训练数据中有n个类别的待检测物体,Yi (s)表示第s尺度预测原图第i类别出现的概率,
Figure BDA0002617565250000041
表示第s尺度经过放大后形成的M张图片的第j张图片预测为i类别的概率,取最大值作为该类别的预测值,Yi *表示图像是否真实含有第i类物体,含有则为1不含则为0,Yi *的值由步骤S1中的类别向量编码确定。
本发明的一个实施例中,所述尺度变换损失L2具体为
Figure BDA0002617565250000042
其中,
Figure BDA0002617565250000043
Figure BDA0002617565250000044
代表第s尺度的第m个注意力区域预测正确的准确度P值,加入margin防止损失停滞不更新。
本发明的一个实施例中,所述步骤S3具体为:
目标函数表示为
Figure BDA0002617565250000045
其中Φ(P)是输入建议边界框的特征向量,w*是要学习的参数,*表示x、y、w、h,d*(P)是得到的预测值,以步骤S2中求得的边界框作为初始值,损失函数为
Figure BDA0002617565250000046
要让预测值跟边界框真实值T*=(Tx,Ty,Tw,Th)差距最小,利用梯度下降法对模型进行微调,其中Tx,Ty,分别为真实边界框的中心点的x、y坐标,Tw,Th分别为真实边界框的长和宽。
本发明的一个实施例中,所述步骤S1具体为:
对训练图像进行灰度处理和向量归一化处理,得到训练图像的图像向量编码;
对训练图像的标签信息,按照所检测类别的one-hot编码进行标注,得到训练图像的类别向量编码;若图片含有该类别,则向量中该类别标注为1,否则为0。
按照本发明的另一方面,还提供了一种基于改进RA-CNN的细粒度图像检测系统,包括图像预处理模块、弱监督训练模块、强监督训练模块和图像检测模块,其中:
所述图像预处理模块,用于对训练图像进行预处理得到其图像向量编码和类别向量编码;
所述弱监督训练模块,用于根据训练图像的图像向量编码和类别向量编码,使用改进的RA-CNN模型进行弱监督训练,得到预测的边界框信息;
所述强监督训练模块,用于使用标注有边界框的训练图片作为输入,用所述弱监督训练模块预测的边界框与标注的边界框进行对比,计算损失函数进行强监督训练,得到经训练的图像检测模型;
所述图像检测模块,用于对待检测图像进行灰度处理和向量归一化处理,得到待检测图像的图像向量编码,将待检测图像的图像向量编码输入上述经训练的图像检测模型,得到待检测图像中的物理类别。
本发明的一个实施例中,所述弱监督训练模块中改进的RA-CNN模型具体为:
改进的RA-CNN模型分为三个尺度,每个尺度都是由一个分类网络和一个定位网络构成;其中,
分类网络的输入是训练图像的图像向量编码,通过提取训练图像的特征并进行分类,输出图片中包含的物体类别;
定位网络负责定位注意力集中的特征区域,然后将该特征区域进行放大操作,送入下一尺度。
本发明的一个实施例中,第一尺度中的定位网络为多注意力建议网络 MAPN,以生成多个空间注意力区域,将这多个空间注意力区域作为预测的边界框信息,第二尺度和第三尺度中的定位网络为注意力建议网络APN。
本发明的一个实施例中,所述三个尺度的训练过程为:
将经过图像预处理模块处理后的训练图片的图像向量编码送入第一尺度分类网络提取特征,将第一尺度分类网络得到的池化层的特征输出送入第一尺度定位网络得到预测位置信息,再重新输入到第一尺度分类网络,第一尺度分类网络依据预测位置信息经过全连接层后得到第一尺度的预测标签Y1;
将第一尺度输出的多个注意力区域经过放大操作后送入第二尺度的分类网络提取特征,并同样将其得到的池化层的特征输出送入第二尺度定位网络,融合M个图像的预测概率,得到第二尺度的预测标签Y2;
将第二尺度输出的M个注意力区域再经过放大操作后送入第三尺度,具体操作与第二尺度保持一致,得到第三尺度的预测标签Y3;
按照Yi=max{Y1i,Y2i,Y3i}加权三个尺度的预测标签值,得到最终预测,i表示物体类别。
本发明的一个实施例中,所述弱监督训练模块通过对损失函数求偏导来训练弱监督学习,使用梯度下降法来逐层更新参数,所述损失函数Loss 由两部分组成。分别是预测类别损失L1和尺度变换损失L2
本发明的一个实施例中,所述预测类别损失L1具体为
Figure BDA0002617565250000061
其中
Figure BDA0002617565250000062
其中n是类别数,即训练数据中有n个类别的待检测物体,Yi (s)表示第s尺度预测原图第i类别出现的概率,
Figure BDA0002617565250000063
表示第s尺度经过放大后形成的M张图片的第j张图片预测为i类别的概率,取最大值作为该类别的预测值,Yi *表示图像是否真实含有第i类物体,含有则为1不含则为0,Yi *的值由步骤S1中的类别向量编码确定。
本发明的一个实施例中,所述尺度变换损失L2具体为
Figure BDA0002617565250000064
其中,
Figure BDA0002617565250000065
Figure BDA0002617565250000066
代表第s尺度的第m个注意力区域预测正确的准确度P值,加入margin防止损失停滞不更新。
本发明的一个实施例中,所述强监督训练模块的训练过程具体为:
目标函数表示为
Figure BDA0002617565250000071
其中Φ(P)是输入建议边界框的特征向量,w*是要学习的参数,*表示x、y、w、h,d*(P)是得到的预测值,以所述弱监督训练模块求得的边界框作为初始值,损失函数为
Figure BDA0002617565250000072
要让预测值跟边界框真实值T*= (Tx,Ty,Tw,Th)差距最小,利用梯度下降法对模型进行微调,其中Tx,Ty,分别为真实边界框的中心点的x、y坐标,Tw,Th分别为真实边界框的长和宽。
本发明的一个实施例中,所述图像预处理模块包括图像向量编码单元和类别向量编码单元,其中:
所述图像向量编码单元,用于对训练图像进行灰度处理和向量归一化处理,得到训练图像的图像向量编码;
所述类别向量编码单元,用于对训练图像的标签信息,按照所检测类别的one-hot编码进行标注,得到训练图像的类别向量编码;若图片含有该类别,则向量中该类别标注为1,否则为0。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:
(1)本发明只需要大量标签数据和少量边界框标注数据就可以训练模型,减轻了现有算法对人工标注边界框的依赖;
(2)本发明可实现多目标检测,通过将第一尺度的定位网络改为 MAPN(MultiAttention network),生成多个空间注意力区域,从而改进了原始RA-CNN只适用于单目标检测的问题。并且由于加入attention机制,机器可以学习到更加细微不同,实现细粒图像分类,使得模型更适合工业应用场景;
(3)原始的RA-CNN模型仅用于分类,本发明通过让第一尺度定位网络输出位置信息,从而对目标进行粗略定位。但是这种粗定位其实有很大的误差,因为仅有类别的弱标注不能够得到充分的信息,无法输出精确的预测位置。于是在改进后的RA-CNN模型后再加入强监督学习对预测的边界框进行微调,从而调整窗口的位置,提高目标定位准确性;
(4)本发明中为了使图片放大具有意义,修改了APN的损失函数,增大了放大图像前后正确预测准确度的差异,并且能够更快收敛。
附图说明
图1为本发明实施例中基于改进RA-CNN的细粒度图像检测方法的流程示意图;
图2为本发明改进后的RA-CNN网络结构示意图;
图3为本发明实施例中基于改进RA-CNN的细粒度图像检测系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
目前工业生产如自动光学检测场景和APP超市场景等实际运用,检测目标往往是同一大类的不同子类,例如需要检测不同品牌的可乐时,都同属检测瓶子这个大类,但是需要进一步检测瓶子的外观包装。因此需要运用细粒度识别方法。传统的细粒度图像分类只能输出主体类别,不能解决一个图片包含多个主体信息的场景,且无目标定位能力。针对现有技术的以上缺陷和改进需求,本发明提供了一种基于改进RA-CNN的细粒度图像检测方法,将弱标签定义为关于类别的one-hot编码,代表一个图片所包含的类别信息。基于改进的RA-CNN模型和强监督微调,在对细粒度目标分类进行改进的同时让其输出预测的边界框信息,并经过强监督学习,调整窗口位置,提高目标定位的准确性。
如图1所示,本发明提供了一种基于改进RA-CNN的细粒度图像检测方法,包括:
S1、对训练图像进行预处理得到其图像向量编码和类别向量编码;
对训练图像进行灰度处理和向量归一化处理,得到训练图像的图像向量编码。
对训练图像的标签信息,按照所检测类别的one-hot编码进行标注,得到训练图像的类别向量编码。若图片含有该类别,则向量中该类别标注为1,否则为0。例如,对于自动光学检测,检测锡多、锡少、锡洞、短路、空焊 5个质量检测问题,可以选用一个5*1的零向量,如果图片包含某个类别,就将向量中该位置变换为1。如果在这幅图片中,出现了锡少和短路的问题,那么类别向量编码表示为[0,1,0,1,0]。
S2、根据训练图像的图像向量编码和类别向量编码,使用改进的RA- CNN模型进行弱监督训练,得到预测的边界框信息;具体流程如图2所示,下面进行具体说明:
改进的RA-CNN模型分为三个尺度,每个尺度都是由一个分类网络和一个定位网络构成。
分类网络的输入是训练图像的图像向量编码,通过提取训练图像的特征并进行分类,输出图片中包含的物体类别,类别同样也使用one-hot编码。具体地,分类网络可以使用经典CNN网络,例如VGG16、VGG19、AlexNet、 ResNet等。
定位网络负责定位注意力集中的特征区域,然后将该特征区域进行放大操作,送入下一尺度。本发明实施例中,将特征区域放大,三个尺度间共享相同的网络结构,但每个尺度的网络有各自的参数,从而适应不同分辨率的图像。
直到3个尺度全部完成,融合每个尺度分类网络的判断作为最终判断,并以第一尺度的定位网络输出的边界框作为目标的定位信息。
对于第一尺度,在本发明中,将原本的定位网络APN(Attention ProposalNetwork,注意力建议网络),修改为MAPN(Multi Attention Proposal Network,多注意力建议网络),这样可以生成多个空间注意力区域。本发明将这多个空间注意力区域作为预测的边界框信息。
在原有的定位网络APN中,由于细粒度检测的现有技术都是检测1个物体,因此对于定位也只关心1个注意力空间,本发明将它扩展为多个注意力空间。
训练时,先将经过步骤S1处理后的训练图片的图像向量编码送入分类网络提取特征,将第一尺度分类网络得到的池化层的特征输出送入定位网络(即MAPN)得到预测位置信息,再重新输入到第一尺度分类网络,第一尺度分类网络依据预测位置信息经过全连接层后得到第一尺度的预测标签 Y1。
将第一尺度输出的M个注意力区域经过放大操作后(即对第一尺度输出的区域每一个进行放大。M个输入特征区域,得到M个放大后的特征区域)送入第二尺度的分类网络。第二尺度的定位网络为原本的APN,不再继续得到多个注意力区域。其他操作与上文保持类似,融合M个放大后的特征区域的预测概率,得到第二尺度的预测标签Y2。
将第二尺度输出的M个注意力区域再经过放大操作后送入第三尺度。具体操作与第二尺度保持一致,得到第三尺度的预测标签Y3。
按照Yi=max{Y1i,Y2i,Y3i}加权三个尺度的预测标签值,得到最终预测的类别信息,i表示物体类别。
本发明实施例中,通过对损失函数求偏导来训练弱监督学习,使用梯度下降法来逐层更新参数。
损失函数Loss由两部分组成。分别是预测类别损失L1(intra-scaleclassification loss)和尺度变换损失L2(inter-scale ranking loss).
Loss=L1+L2 (1)
训练网络时采取损失函数交替训练的策略,先固定定位网络参数,训练分类网络直至L1收敛,再固定分类网络的参数,训练定位网络直至L2收敛。
对于L1,由于改进了原始模型使其生成了M个注意力区域,由单目标检测扩展为多目标检测,因此相应的损失函数也要发生变化。具体更改为:
Figure BDA0002617565250000111
其中,
Figure BDA0002617565250000112
Figure BDA0002617565250000113
定义n是类别数,即训练数据中有n个类别的待检测物体。公式(3) 中Yi (s)表示第s尺度预测原图第i类别出现的概率,公式(4)中
Figure BDA0002617565250000114
表示第s 尺度经过放大后形成的M张图片的第j张图片预测为i类别的概率。取最大值作为该类别的预测值。公式(3)中的Yi *表示图像是否真实含有第i类物体,含有则为1,不含则为0,Yi *的值由步骤S1中的类别向量编码确定。很明显Lcls是交叉熵函数。
对于L2损失函数并不考虑标注框与真实值的差距,因为在这一模块,没有真实标注框信息。因此该部分损失函数重点在于检测放大操作是否具有意义。本发明希望放大后的准确度相较于原本有很大提高,这样APN才具有价值。本发明将该部分损失函数进行了修改,为了进一步放大这种差异,并且有助于损失函数收敛。具体公式如下:
Figure BDA0002617565250000115
其中,
Figure BDA0002617565250000116
Figure BDA0002617565250000117
代表第s尺度的第m个注意力区域预测正确的准确度P值,加入 margin防止损失停滞不更新,margin一般建议取0.05左右。
S3、使用标注有边界框的训练图片作为输入,用步骤S2中预测的边界框与标注的边界框进行对比,计算损失函数进行强监督训练,得到经训练的图像检测模型;
S2求得的边界框为t*=(tx,ty,tl),其中(tx,ty)表示边界框的中心点坐标,tl表示边界框长度的一半。S3中目标函数表示为
Figure BDA0002617565250000121
其中Φ(P)是输入建议边界框的特征向量,w*是要学习的参数,*表示x、y、w、h,d*(P) 是得到的预测值。用S2求得的值作为初始值,损失函数为
Figure BDA0002617565250000122
要让预测值跟边界框真实值T*= (Tx,Ty,Tw,Th)差距最小,利用梯度下降法对模型进行微调,其中Tx,Ty,分别为真实边界框的中心点的x、y坐标,Tw,Th分别为真实边界框的长和宽。
S4、对待检测图像进行灰度处理和向量归一化处理,得到待检测图像的图像向量编码,将待检测图像的图像向量编码输入上述经训练的图像检测模型,得到待检测图像中的物体类别和边界框信息。
进一步地,如图3所示,本发明还提供了一种基于改进RA-CNN的细粒度图像检测系统,包括图像预处理模块、弱监督训练模块、强监督训练模块和图像检测模块,其中:
所述图像预处理模块,用于对训练图像进行预处理得到其图像向量编码和类别向量编码;
所述弱监督训练模块,用于根据训练图像的图像向量编码和类别向量编码,使用改进的RA-CNN模型进行弱监督训练,得到预测的边界框信息;
所述强监督训练模块,用于使用标注有边界框的训练图片作为输入,用所述弱监督训练模块预测的边界框与标注的边界框进行对比,计算损失函数进行强监督训练,得到经训练的图像检测模型;
所述图像检测模块,用于对待检测图像进行灰度处理和向量归一化处理,得到待检测图像的图像向量编码,将待检测图像的图像向量编码输入上述经训练的图像检测模型,得到待检测图像中的物理类别。
进一步地,所述弱监督训练模块中改进的RA-CNN模型具体为:
改进的RA-CNN模型分为三个尺度,每个尺度都是由一个分类网络和一个定位网络构成;其中,
分类网络的输入是训练图像的图像向量编码,通过提取训练图像的特征并进行分类,输出图片中包含的物体类别;
定位网络负责定位注意力集中的特征区域,然后将该特征区域进行放大操作,送入下一尺度。
进一步地,第一尺度中的定位网络为多注意力建议网络MAPN,以生成多个空间注意力区域,将这多个空间注意力区域作为预测的边界框信息,第二尺度和第三尺度中的定位网络为注意力建议网络APN。
进一步地,所述三个尺度的训练过程为:
将经过图像预处理模块处理后的训练图片的图像向量编码送入第一尺度分类网络提取特征,将第一尺度分类网络得到的池化层的特征输出送入第一尺度定位网络得到预测位置信息,再重新输入到第一尺度分类网络,第一尺度分类网络依据预测位置信息经过全连接层后得到第一尺度的预测标签Y1;
将第一尺度输出的多个注意力区域经过放大操作后送入第二尺度的分类网络提取特征,并同样将其得到的池化层的特征输出送入第二尺度定位网络,融合M个图像的预测概率,得到第二尺度的预测标签Y2;
将第二尺度输出的M个注意力区域再经过放大操作后送入第三尺度,具体操作与第二尺度保持一致,得到第三尺度的预测标签Y3;
按照Yi=max{Y1i,Y2i,Y3i}加权三个尺度的预测标签值,得到最终预测,i表示物体类别。
进一步地,所述弱监督训练模块通过对损失函数求偏导来训练弱监督学习,使用梯度下降法来逐层更新参数,所述损失函数Loss由两部分组成。分别是预测类别损失L1和尺度变换损失L2
进一步地,所述预测类别损失L1具体为
Figure BDA0002617565250000141
其中
Figure BDA0002617565250000142
其中n是类别数,即训练数据中有n个类别的待检测物体,Yi (s)表示第s尺度预测原图第i类别出现的概率,
Figure BDA0002617565250000143
表示第s尺度经过放大后形成的M张图片的第j张图片预测为i类别的概率,取最大值作为该类别的预测值,Yi *表示图像是否真实含有第i类物体,含有则为1不含则为0,Yi *的值由步骤S1中的类别向量编码确定。
进一步地,所述尺度变换损失L2具体为
Figure BDA0002617565250000144
其中,
Figure BDA0002617565250000145
Figure BDA0002617565250000146
代表第s尺度的第 m个注意力区域预测正确的准确度P值,加入margin防止损失停滞不更新。
进一步地,所述强监督训练模块的训练过程具体为:
目标函数表示为
Figure BDA0002617565250000147
其中Φ(P)是输入建议边界框的特征向量,w*是要学习的参数,*表示x、y、w、h,d*(P)是得到的预测值,以所述弱监督训练模块求得的边界框作为初始值,损失函数为
Figure BDA0002617565250000148
要让预测值跟边界框真实值T*= (Tx,Ty,Tw,Th)差距最小,利用梯度下降法对模型进行微调,其中Tx,Ty,分别为真实边界框的中心点的x、y坐标,Tw,Th分别为真实边界框的长和宽。
进一步地,所述图像预处理模块包括图像向量编码单元和类别向量编码单元,其中:
所述图像向量编码单元,用于对训练图像进行灰度处理和向量归一化处理,得到训练图像的图像向量编码;
所述类别向量编码单元,用于对训练图像的标签信息,按照所检测类别的one-hot编码进行标注,得到训练图像的类别向量编码;若图片含有该类别,则向量中该类别标注为1,否则为0。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种基于改进RA-CNN的细粒度图像检测方法,其特征在于,包括步骤:
S1、对训练图像进行预处理得到其图像向量编码和类别向量编码;
S2、根据训练图像的图像向量编码和类别向量编码,使用改进的RA-CNN模型进行弱监督训练,得到预测的边界框信息;其中改进的RA-CNN模型具体为:改进的RA-CNN模型分为三个尺度,每个尺度都是由一个分类网络和一个定位网络构成;其中,分类网络的输入是训练图像的图像向量编码,通过提取训练图像的特征并进行分类,输出图片中包含的物体类别;定位网络负责定位注意力集中的特征区域,然后将该特征区域进行放大操作,送入下一尺度;第一尺度中的定位网络为多注意力建议网络MAPN,以生成多个空间注意力区域,将这多个空间注意力区域作为预测的边界框信息,第二尺度和第三尺度中的定位网络为注意力建议网络APN;所述三个尺度的训练过程为:将经过步骤S1处理后的训练图片的图像向量编码送入第一尺度分类网络提取特征,将第一尺度分类网络得到的池化层的特征输出送入第一尺度定位网络得到预测位置信息,再重新输入到第一尺度分类网络,第一尺度分类网络依据预测位置信息经过全连接层后得到第一尺度的预测标签Y1;将第一尺度输出的多个注意力区域经过放大操作后送入第二尺度的分类网络提取特征,并同样将其得到的池化层的特征输出送入第二尺度定位网络,融合M个图像的预测概率,得到第二尺度的预测标签Y2;将第二尺度输出的M个注意力区域再经过放大操作后送入第三尺度,具体操作与第二尺度保持一致,得到第三尺度的预测标签Y3;按照Yi=max{Y1i,Y2i,Y3i}加权三个尺度的预测标签值,得到最终预测,i表示物体类别;
S3、使用标注有边界框的训练图片作为输入,用步骤S2中预测的边界框与标注的边界框进行对比,计算损失函数进行强监督训练,得到经训练的图像检测模型;
S4、对待检测图像进行灰度处理和向量归一化处理,得到待检测图像的图像向量编码,将待检测图像的图像向量编码输入上述经训练的图像检测模型,得到待检测图像中的物体类别和边界框信息。
2.如权利要求1所述的基于改进RA-CNN的细粒度图像检测方法,其特征在于,所述步骤S2中通过对损失函数求偏导来训练弱监督学习,使用梯度下降法来逐层更新参数,所述损失函数Loss由两部分组成,分别是预测类别损失L1和尺度变换损失L2
3.如权利要求2所述的基于改进RA-CNN的细粒度图像检测方法,其特征在于,所述预测类别损失L1具体为
Figure FDA0003559752410000021
其中
Figure FDA0003559752410000022
其中n是类别数,即训练数据中有n个类别的待检测物体,Yi (s)表示第s尺度预测原图第i类别出现的概率,
Figure FDA0003559752410000023
表示第s尺度经过放大后形成的M张图片的第j张图片预测为i类别的概率,取最大值作为该类别的预测值,Yi *表示图像是否真实含有第i类物体,含有则为1不含则为0,Yi *的值由步骤S1中的类别向量编码确定。
4.如权利要求2所述的基于改进RA-CNN的细粒度图像检测方法,其特征在于,所述尺度变换损失L2具体为
Figure FDA0003559752410000024
其中,
Figure FDA0003559752410000025
Figure FDA0003559752410000026
代表第s尺度的第m个注意力区域预测正确的准确度P值,加入margin防止损失停滞不更新。
5.如权利要求1所述的基于改进RA-CNN的细粒度图像检测方法,其特征在于,所述步骤S3具体为:
目标函数表示为
Figure FDA0003559752410000031
其中Φ(P)是输入建议边界框的特征向量,w*是要学习的参数,*表示x、y、w、h,d*(P)是得到的预测值,以步骤S2中求得的边界框作为初始值,损失函数为
Figure FDA0003559752410000032
要让预测值跟边界框真实值T*=(Tx,Ty,Tw,Th )差距最小,利用梯度下降法对模型进行微调,其中Tx,Ty,分别为真实边界框的中心点的x、y坐标,Tw,Th 分别为真实边界框的长和宽。
6.如权利要求1所述的基于改进RA-CNN的细粒度图像检测方法,其特征在于,所述步骤S1具体为:
对训练图像进行灰度处理和向量归一化处理,得到训练图像的图像向量编码;
对训练图像的标签信息,按照所检测类别的one-hot编码进行标注,得到训练图像的类别向量编码;若图片含有该类别,则向量中该类别标注为1,否则为0。
7.一种基于改进RA-CNN的细粒度图像检测系统,其特征在于,包括图像预处理模块、弱监督训练模块、强监督训练模块和图像检测模块,其中:
所述图像预处理模块,用于对训练图像进行预处理得到其图像向量编码和类别向量编码;
所述弱监督训练模块,用于根据训练图像的图像向量编码和类别向量编码,使用改进的RA-CNN模型进行弱监督训练,得到预测的边界框信息;所述弱监督训练模块中改进的RA-CNN模型具体为:改进的RA-CNN模型分为三个尺度,每个尺度都是由一个分类网络和一个定位网络构成;其中,分类网络的输入是训练图像的图像向量编码,通过提取训练图像的特征并进行分类,输出图片中包含的物体类别;定位网络负责定位注意力集中的特征区域,然后将该特征区域进行放大操作,送入下一尺度;第一尺度中的定位网络为多注意力建议网络MAPN,以生成多个空间注意力区域,将这多个空间注意力区域作为预测的边界框信息,第二尺度和第三尺度中的定位网络为注意力建议网络APN;所述三个尺度的训练过程为:将经过图像预处理模块处理后的训练图片的图像向量编码送入第一尺度分类网络提取特征,将第一尺度分类网络得到的池化层的特征输出送入第一尺度定位网络得到预测位置信息,再重新输入到第一尺度分类网络,第一尺度分类网络依据预测位置信息经过全连接层后得到第一尺度的预测标签Y1;将第一尺度输出的多个注意力区域经过放大操作后送入第二尺度的分类网络提取特征,并同样将其得到的池化层的特征输出送入第二尺度定位网络,融合M个图像的预测概率,得到第二尺度的预测标签Y2;将第二尺度输出的M个注意力区域再经过放大操作后送入第三尺度,具体操作与第二尺度保持一致,得到第三尺度的预测标签Y3;按照Yi=max{Y1i,Y2i,Y3i}加权三个尺度的预测标签值,得到最终预测,i表示物体类别;
所述强监督训练模块,用于使用标注有边界框的训练图片作为输入,用所述弱监督训练模块预测的边界框与标注的边界框进行对比,计算损失函数进行强监督训练,得到经训练的图像检测模型;
所述图像检测模块,用于对待检测图像进行灰度处理和向量归一化处理,得到待检测图像的图像向量编码,将待检测图像的图像向量编码输入上述经训练的图像检测模型,得到待检测图像中的物体类别。
8.如权利要求7所述的基于改进RA-CNN的细粒度图像检测系统,其特征在于,所述弱监督训练模块通过对损失函数求偏导来训练弱监督学习,使用梯度下降法来逐层更新参数,所述损失函数Loss由两部分组成,分别是预测类别损失L1和尺度变换损失L2
9.如权利要求8所述的基于改进RA-CNN的细粒度图像检测系统,其特征在于,所述预测类别损失L1具体为
Figure FDA0003559752410000051
其中
Figure FDA0003559752410000052
其中n是类别数,即训练数据中有n个类别的待检测物体,Yi (s)表示第s尺度预测原图第i类别出现的概率,
Figure FDA0003559752410000053
表示第s尺度经过放大后形成的M张图片的第j张图片预测为i类别的概率,取最大值作为该类别的预测值,Yi *表示图像是否真实含有第i类物体,含有则为1不含则为0,Yi *的值由步骤S1中的类别向量编码确定。
10.如权利要求8所述的基于改进RA-CNN的细粒度图像检测系统,其特征在于,所述尺度变换损失L2具体为
Figure FDA0003559752410000054
其中,
Figure FDA0003559752410000055
Figure FDA0003559752410000056
代表第s尺度的第m个注意力区域预测正确的准确度P值,加入margin防止损失停滞不更新。
11.如权利要求7所述的基于改进RA-CNN的细粒度图像检测系统,其特征在于,所述强监督训练模块的训练过程具体为:
目标函数表示为
Figure FDA0003559752410000057
其中Φ(P)是输入建议边界框的特征向量,w*是要学习的参数,*表示x、y、w、h,d*(P)是得到的预测值,以所述弱监督训练模块求得的边界框作为初始值,损失函数为
Figure FDA0003559752410000058
要让预测值跟边界框真实值T*=(Tx,Ty,Tw,Th )差距最小,利用梯度下降法对模型进行微调,其中Tx,Ty,分别为真实边界框的中心点的x、y坐标,Tw,Th分别为真实边界框的长和宽。
12.如权利要求7所述的基于改进RA-CNN的细粒度图像检测系统,其特征在于,所述图像预处理模块包括图像向量编码单元和类别向量编码单元,其中:
所述图像向量编码单元,用于对训练图像进行灰度处理和向量归一化处理,得到训练图像的图像向量编码;
所述类别向量编码单元,用于对训练图像的标签信息,按照所检测类别的one-hot编码进行标注,得到训练图像的类别向量编码;若图片含有该类别,则向量中该类别标注为1,否则为0。
CN202010773637.XA 2020-08-04 2020-08-04 一种基于改进ra-cnn的细粒度图像检测方法与系统 Active CN112052876B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010773637.XA CN112052876B (zh) 2020-08-04 2020-08-04 一种基于改进ra-cnn的细粒度图像检测方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010773637.XA CN112052876B (zh) 2020-08-04 2020-08-04 一种基于改进ra-cnn的细粒度图像检测方法与系统

Publications (2)

Publication Number Publication Date
CN112052876A CN112052876A (zh) 2020-12-08
CN112052876B true CN112052876B (zh) 2022-05-06

Family

ID=73602125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010773637.XA Active CN112052876B (zh) 2020-08-04 2020-08-04 一种基于改进ra-cnn的细粒度图像检测方法与系统

Country Status (1)

Country Link
CN (1) CN112052876B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507903B (zh) * 2020-12-15 2024-05-10 平安科技(深圳)有限公司 假脸检测方法、装置、电子设备及计算机可读存储介质
CN113009447B (zh) * 2021-03-05 2023-07-25 长安大学 基于深度学习和探地雷达的道路地下空洞检测预警方法
CN113191201A (zh) * 2021-04-06 2021-07-30 上海夏数网络科技有限公司 基于视觉的鸡雏公母智能鉴别方法及系统
CN114419395A (zh) * 2022-01-20 2022-04-29 江苏大学 基于中间位置编码的在线目标检测模型训练方法
CN114492634B (zh) * 2022-01-25 2024-01-19 中国人民解放军国防科技大学 一种细粒度装备图片分类识别方法及系统
CN114755625B (zh) * 2022-04-29 2023-05-09 怀化建南机器厂有限公司 基于智能制造的智能电表数字化制造平台
CN115115939B (zh) * 2022-07-28 2023-04-07 北京卫星信息工程研究所 基于特征注意力机制的遥感图像目标细粒度识别方法
CN117809024B (zh) * 2024-02-29 2024-07-30 南昌航空大学 一种基于自监督特征学习的暗光场景目标检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11188794B2 (en) * 2017-08-10 2021-11-30 Intel Corporation Convolutional neural network framework using reverse connections and objectness priors for object detection
US10902051B2 (en) * 2018-04-16 2021-01-26 Microsoft Technology Licensing, Llc Product identification in image with multiple products
CN109117831B (zh) * 2018-09-30 2021-10-12 北京字节跳动网络技术有限公司 物体检测网络的训练方法和装置
CN109636846B (zh) * 2018-12-06 2022-10-11 重庆邮电大学 基于循环注意力卷积神经网络的目标定位方法
CN111131304B (zh) * 2019-12-31 2022-01-11 嘉兴学院 面向云平台大规模虚拟机细粒度异常行为检测方法和系统

Also Published As

Publication number Publication date
CN112052876A (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
CN112052876B (zh) 一种基于改进ra-cnn的细粒度图像检测方法与系统
CN110097568B (zh) 一种基于时空双分支网络的视频对象检测与分割方法
Zhang et al. Deep hierarchical guidance and regularization learning for end-to-end depth estimation
CN110414344B (zh) 一种基于视频的人物分类方法、智能终端及存储介质
CN110287826B (zh) 一种基于注意力机制的视频目标检测方法
CN111382686B (zh) 一种基于半监督生成对抗网络的车道线检测方法
Guo et al. Small object sensitive segmentation of urban street scene with spatial adjacency between object classes
CN110633632A (zh) 一种基于循环指导的弱监督联合目标检测和语义分割方法
CN111027493A (zh) 一种基于深度学习多网络软融合的行人检测方法
CN112784736B (zh) 一种多模态特征融合的人物交互行为识别方法
CN114648665B (zh) 一种弱监督目标检测方法及系统
CN114419151B (zh) 一种基于对比学习的多目标跟踪方法
CN112036447A (zh) 零样本目标检测系统及可学习语义和固定语义融合方法
CN107273458A (zh) 深度模型训练方法及装置、图像检索方法及装置
CN112861917B (zh) 基于图像属性学习的弱监督目标检测方法
CN110942471A (zh) 一种基于时空约束的长时目标跟踪方法
CN112149533A (zh) 一种基于改进ssd模型的目标检测方法
CN113362341B (zh) 基于超像素结构约束的空地红外目标跟踪数据集标注方法
CN114187653A (zh) 一种基于多流融合图卷积网络的行为识别方法
CN115147418B (zh) 缺陷检测模型的压缩训练方法和装置
CN116681961A (zh) 基于半监督方法和噪声处理的弱监督目标检测方法
CN111179272B (zh) 一种面向道路场景的快速语义分割方法
CN115359407A (zh) 一种视频中的多车辆跟踪方法
CN117197622A (zh) 一种基于图文多模态的目标检测标签优化方法
CN110503090B (zh) 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240703

Address after: 430000 No. 6, High-tech Fourth Road, Donghu High-tech Development Zone, Wuhan City, Hubei Province

Patentee after: FIBERHOME TELECOMMUNICATION TECHNOLOGIES Co.,Ltd.

Country or region after: China

Patentee after: Wuhan Changjiang Computing Technology Co.,Ltd.

Address before: 430000 No. 6, High-tech Fourth Road, Donghu High-tech Development Zone, Wuhan City, Hubei Province

Patentee before: FIBERHOME TELECOMMUNICATION TECHNOLOGIES Co.,Ltd.

Country or region before: China