CN112052876A

CN112052876A - 一种基于改进ra-cnn的细粒度图像检测方法与系统

Info

Publication number: CN112052876A
Application number: CN202010773637.XA
Authority: CN
Inventors: 廖玉婷; 邹素雯; 陈林祥; 石志凯; 张涛
Original assignee: Fiberhome Telecommunication Technologies Co Ltd
Current assignee: Fiberhome Telecommunication Technologies Co Ltd
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2020-12-08
Anticipated expiration: 2040-08-04
Also published as: CN112052876B

Abstract

本发明公开了一种基于改进RA‑CNN的细粒度图像检测方法：S1、对训练图像进行预处理得到其图像向量编码和类别向量编码；S2、根据训练图像的图像向量编码和类别向量编码，使用改进的RA‑CNN模型进行弱监督训练，得到预测的边界框信息；S3、使用标注有边界框的训练图片作为输入，用步骤S2中预测的边界框与标注的边界框进行对比，计算损失函数进行强监督训练，得到经训练的图像检测模型；S4、对待检测图像进行灰度处理和向量归一化处理，得到待检测图像的图像向量编码，将待检测图像的图像向量编码输入上述经训练的图像检测模型，得到待检测图像中的物体类别和边界框信息。本发明还提供了相应的基于改进RA‑CNN的细粒度图像检测系统。

Description

一种基于改进RA-CNN的细粒度图像检测方法与系统

技术领域

本发明属于目标检测技术领域，更具体地，涉及一种基于改进RA-CNN的细粒度图像检测方法与系统。

背景技术

自从卷积神经网络在计算机视觉上暂露头角，关于深度学习的研究便越来越火热，算法层出不穷。关于细粒度图像目标分类和定位，在卷积神经网络出现之前大部分需要依靠大量的人工标注，标出物体在图像中的位置以及精确的局部信息，然后对区分性较强的区域进行特征建模再用分类器分类。代表为Berg等人提出的一种基于局部区域的特征编码方式，能够自动发现最具区分度的信息。卷积神经网络出现后，基于强监督学习的研究大规模上升，R-CNN(Region-CNN，区域卷积神经网络)采用选择性搜索来避免暴力枚举候选区域，但由于每个框都要经过一遍分类，因此有很多重复计算特征图的过程。为了解决这个问题，Fast R-CNN(Fast Region-CNN，快速区域卷积神经网络)直接在卷积网络的特征图上进行候选区域的提取。为了使训练速度更快，YOLO(You Only Look Once，YOLO)算法将输入图像分为固定维数的网络，直接预测整个图像物体包含框的位置及包含物体的类别。由于人工成本逐渐上升，基于弱监督学习的研究也蓬勃发展。Xiao等人在2015年提出了Two LevelAttention Model基于注意力机制的网络模型，该模型通过谱聚类的方式获取局部特征区域特征，不需要使用人工对局部区域的标注信息。2017年Kong等人提出了LRBP(Low-rankBilinear pooling，低秩双线性汇合模型)，利用协方差矩阵，使用低秩双线性分类器来处理维数较高的特征计算。上面的两个算法都是将局部定位与分类任务当成两个任务进行，Fu等人利用两个任务之间的联系，相互增益彼此的精度，在多尺度上递归的学习特征表达，提出了RA-CNN模型(Recurrent Attention Convolutional Neural Network，循环注意力卷积神经网络)。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于改进RA-CNN的细粒度图像检测方法与系统，基于改进的RA-CNN模型和强监督微调，在对细粒度目标分类进行改进的同时让其输出预测的边界框信息，并经过强监督学习，调整窗口位置，提高目标定位的准确性。。

为实现上述目的，按照本发明的一个方面，提供了一种基于改进RA-CNN的细粒度图像检测方法，包括：

S1、对训练图像进行预处理得到其图像向量编码和类别向量编码；

S2、根据训练图像的图像向量编码和类别向量编码，使用改进的RA-CNN模型进行弱监督训练，得到预测的边界框信息；

S3、使用标注有边界框的训练图片作为输入，用步骤S2中预测的边界框与标注的边界框进行对比，计算损失函数进行强监督训练，得到经训练的图像检测模型；

S4、对待检测图像进行灰度处理和向量归一化处理，得到待检测图像的图像向量编码，将待检测图像的图像向量编码输入上述经训练的图像检测模型，得到待检测图像中的物体类别和边界框信息。

本发明的一个实施例中，所述步骤S2中的改进的RA-CNN模型具体为：

改进的RA-CNN模型分为三个尺度，每个尺度都是由一个分类网络和一个定位网络构成；其中，

分类网络的输入是训练图像的图像向量编码，通过提取训练图像的特征并进行分类，输出图片中包含的物体类别；

定位网络负责定位注意力集中的特征区域，然后将该特征区域进行放大操作，送入下一尺度。

本发明的一个实施例中，第一尺度中的定位网络为多注意力建议网络MAPN，以生成多个空间注意力区域，将这多个空间注意力区域作为预测的边界框信息，第二尺度和第三尺度中的定位网络为注意力建议网络APN。

本发明的一个实施例中，所述三个尺度的训练过程为：

将经过步骤S1处理后的训练图片的图像向量编码送入第一尺度分类网络提取特征，将第一尺度分类网络得到的池化层的特征输出送入第一尺度定位网络得到预测位置信息，再重新输入到第一尺度分类网络，第一尺度分类网络依据预测位置信息经过全连接层后得到第一尺度的预测标签Y1；

将第一尺度输出的多个注意力区域经过放大操作后送入第二尺度的分类网络提取特征，并同样将其得到的池化层的特征输出送入第二尺度定位网络，融合M个图像的预测概率，得到第二尺度的预测标签Y2；

将第二尺度输出的M个注意力区域再经过放大操作后送入第三尺度，具体操作与第二尺度保持一致，得到第三尺度的预测标签Y3；

按照Y_i＝max{Y1_i,Y2_i,Y3_i}加权三个尺度的预测标签值，得到最终预测，i表示物体类别。

本发明的一个实施例中，所述步骤S2中通过对损失函数求偏导来训练弱监督学习，使用梯度下降法来逐层更新参数，所述损失函数Loss由两部分组成。分别是预测类别损失L₁和尺度变换损失L₂。

本发明的一个实施例中，所述预测类别损失L₁具体为

其中

其中n是类别数，即训练数据中有n个类别的待检测物体，Y_i ^(s)表示第s尺度预测原图第i类别出现的概率，

表示第s尺度经过放大后形成的M张图片的第j张图片预测为i类别的概率，取最大值作为该类别的预测值，Y_i ^*表示图像是否真实含有第i类物体，含有则为1不含则为0，Y_i ^*的值由步骤S1中的类别向量编码确定。

本发明的一个实施例中，所述尺度变换损失L₂具体为

其中，

代表第s尺度的第m个注意力区域预测正确的准确度P值，加入margin防止损失停滞不更新。

本发明的一个实施例中，所述步骤S3具体为：

目标函数表示为

其中Φ(P)是输入建议边界框的特征向量，w_*是要学习的参数，*表示x、y、w、h，d_*(P)是得到的预测值，以步骤S2中求得的边界框作为初始值，损失函数为

要让预测值跟边界框真实值T_*＝(T_x,T_y,T_w,T_h)差距最小，利用梯度下降法对模型进行微调，其中T_x,T_y,分别为真实边界框的中心点的x、y坐标，T_w,T_h分别为真实边界框的长和宽。

本发明的一个实施例中，所述步骤S1具体为：

对训练图像进行灰度处理和向量归一化处理，得到训练图像的图像向量编码；

对训练图像的标签信息，按照所检测类别的one-hot编码进行标注，得到训练图像的类别向量编码；若图片含有该类别，则向量中该类别标注为1，否则为0。

按照本发明的另一方面，还提供了一种基于改进RA-CNN的细粒度图像检测系统，包括图像预处理模块、弱监督训练模块、强监督训练模块和图像检测模块，其中：

所述图像预处理模块，用于对训练图像进行预处理得到其图像向量编码和类别向量编码；

所述弱监督训练模块，用于根据训练图像的图像向量编码和类别向量编码，使用改进的RA-CNN模型进行弱监督训练，得到预测的边界框信息；

所述强监督训练模块，用于使用标注有边界框的训练图片作为输入，用所述弱监督训练模块预测的边界框与标注的边界框进行对比，计算损失函数进行强监督训练，得到经训练的图像检测模型；

所述图像检测模块，用于对待检测图像进行灰度处理和向量归一化处理，得到待检测图像的图像向量编码，将待检测图像的图像向量编码输入上述经训练的图像检测模型，得到待检测图像中的物理类别。

本发明的一个实施例中，所述弱监督训练模块中改进的RA-CNN模型具体为：

本发明的一个实施例中，所述三个尺度的训练过程为：

将经过图像预处理模块处理后的训练图片的图像向量编码送入第一尺度分类网络提取特征，将第一尺度分类网络得到的池化层的特征输出送入第一尺度定位网络得到预测位置信息，再重新输入到第一尺度分类网络，第一尺度分类网络依据预测位置信息经过全连接层后得到第一尺度的预测标签Y1；

本发明的一个实施例中，所述弱监督训练模块通过对损失函数求偏导来训练弱监督学习，使用梯度下降法来逐层更新参数，所述损失函数Loss由两部分组成。分别是预测类别损失L₁和尺度变换损失L₂。

本发明的一个实施例中，所述预测类别损失L₁具体为

其中

本发明的一个实施例中，所述尺度变换损失L₂具体为

其中，

本发明的一个实施例中，所述强监督训练模块的训练过程具体为：

目标函数表示为

其中Φ(P)是输入建议边界框的特征向量，w_*是要学习的参数，*表示x、y、w、h，d_*(P)是得到的预测值，以所述弱监督训练模块求得的边界框作为初始值，损失函数为

本发明的一个实施例中，所述图像预处理模块包括图像向量编码单元和类别向量编码单元，其中：

所述图像向量编码单元，用于对训练图像进行灰度处理和向量归一化处理，得到训练图像的图像向量编码；

所述类别向量编码单元，用于对训练图像的标签信息，按照所检测类别的one-hot编码进行标注，得到训练图像的类别向量编码；若图片含有该类别，则向量中该类别标注为1，否则为0。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有如下有益效果：

(1)本发明只需要大量标签数据和少量边界框标注数据就可以训练模型，减轻了现有算法对人工标注边界框的依赖；

(2)本发明可实现多目标检测，通过将第一尺度的定位网络改为MAPN(MultiAttention network)，生成多个空间注意力区域，从而改进了原始RA-CNN只适用于单目标检测的问题。并且由于加入attention机制，机器可以学习到更加细微不同，实现细粒图像分类，使得模型更适合工业应用场景；

(3)原始的RA-CNN模型仅用于分类，本发明通过让第一尺度定位网络输出位置信息，从而对目标进行粗略定位。但是这种粗定位其实有很大的误差，因为仅有类别的弱标注不能够得到充分的信息，无法输出精确的预测位置。于是在改进后的RA-CNN模型后再加入强监督学习对预测的边界框进行微调，从而调整窗口的位置，提高目标定位准确性；

(4)本发明中为了使图片放大具有意义，修改了APN的损失函数，增大了放大图像前后正确预测准确度的差异，并且能够更快收敛。

附图说明

图1为本发明实施例中基于改进RA-CNN的细粒度图像检测方法的流程示意图；

图2为本发明改进后的RA-CNN网络结构示意图；

图3为本发明实施例中基于改进RA-CNN的细粒度图像检测系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

目前工业生产如自动光学检测场景和APP超市场景等实际运用，检测目标往往是同一大类的不同子类，例如需要检测不同品牌的可乐时，都同属检测瓶子这个大类，但是需要进一步检测瓶子的外观包装。因此需要运用细粒度识别方法。传统的细粒度图像分类只能输出主体类别，不能解决一个图片包含多个主体信息的场景，且无目标定位能力。针对现有技术的以上缺陷和改进需求，本发明提供了一种基于改进RA-CNN的细粒度图像检测方法，将弱标签定义为关于类别的one-hot编码，代表一个图片所包含的类别信息。基于改进的RA-CNN模型和强监督微调，在对细粒度目标分类进行改进的同时让其输出预测的边界框信息，并经过强监督学习，调整窗口位置，提高目标定位的准确性。

如图1所示，本发明提供了一种基于改进RA-CNN的细粒度图像检测方法，包括：

对训练图像进行灰度处理和向量归一化处理，得到训练图像的图像向量编码。

对训练图像的标签信息，按照所检测类别的one-hot编码进行标注，得到训练图像的类别向量编码。若图片含有该类别，则向量中该类别标注为1，否则为0。例如，对于自动光学检测，检测锡多、锡少、锡洞、短路、空焊5个质量检测问题，可以选用一个5*1的零向量，如果图片包含某个类别，就将向量中该位置变换为1。如果在这幅图片中，出现了锡少和短路的问题，那么类别向量编码表示为[0，1，0，1，0]。

S2、根据训练图像的图像向量编码和类别向量编码，使用改进的RA-CNN模型进行弱监督训练，得到预测的边界框信息；具体流程如图2所示，下面进行具体说明：

改进的RA-CNN模型分为三个尺度，每个尺度都是由一个分类网络和一个定位网络构成。

分类网络的输入是训练图像的图像向量编码，通过提取训练图像的特征并进行分类，输出图片中包含的物体类别，类别同样也使用one-hot编码。具体地，分类网络可以使用经典CNN网络，例如VGG16、VGG19、AlexNet、ResNet等。

定位网络负责定位注意力集中的特征区域，然后将该特征区域进行放大操作，送入下一尺度。本发明实施例中，将特征区域放大，三个尺度间共享相同的网络结构，但每个尺度的网络有各自的参数，从而适应不同分辨率的图像。

直到3个尺度全部完成，融合每个尺度分类网络的判断作为最终判断，并以第一尺度的定位网络输出的边界框作为目标的定位信息。

对于第一尺度，在本发明中，将原本的定位网络APN(Attention ProposalNetwork，注意力建议网络)，修改为MAPN(Multi Attention Proposal Network，多注意力建议网络)，这样可以生成多个空间注意力区域。本发明将这多个空间注意力区域作为预测的边界框信息。

在原有的定位网络APN中，由于细粒度检测的现有技术都是检测1个物体，因此对于定位也只关心1个注意力空间，本发明将它扩展为多个注意力空间。

训练时，先将经过步骤S1处理后的训练图片的图像向量编码送入分类网络提取特征，将第一尺度分类网络得到的池化层的特征输出送入定位网络(即MAPN)得到预测位置信息，再重新输入到第一尺度分类网络，第一尺度分类网络依据预测位置信息经过全连接层后得到第一尺度的预测标签Y1。

将第一尺度输出的M个注意力区域经过放大操作后(即对第一尺度输出的区域每一个进行放大。M个输入特征区域，得到M个放大后的特征区域)送入第二尺度的分类网络。第二尺度的定位网络为原本的APN，不再继续得到多个注意力区域。其他操作与上文保持类似，融合M个放大后的特征区域的预测概率，得到第二尺度的预测标签Y2。

将第二尺度输出的M个注意力区域再经过放大操作后送入第三尺度。具体操作与第二尺度保持一致，得到第三尺度的预测标签Y3。

按照Y_i＝max{Y1_i,Y2_i,Y3_i}加权三个尺度的预测标签值，得到最终预测的类别信息，i表示物体类别。

本发明实施例中，通过对损失函数求偏导来训练弱监督学习，使用梯度下降法来逐层更新参数。

损失函数Loss由两部分组成。分别是预测类别损失L₁(intra-scaleclassification loss)和尺度变换损失L₂(inter-scale ranking loss).

Loss＝L₁+L₂ (1)

训练网络时采取损失函数交替训练的策略，先固定定位网络参数，训练分类网络直至L₁收敛，再固定分类网络的参数，训练定位网络直至L₂收敛。

对于L₁，由于改进了原始模型使其生成了M个注意力区域，由单目标检测扩展为多目标检测，因此相应的损失函数也要发生变化。具体更改为：

其中，

定义n是类别数，即训练数据中有n个类别的待检测物体。公式(3)中Y_i ^(s)表示第s尺度预测原图第i类别出现的概率，公式(4)中

表示第s尺度经过放大后形成的M张图片的第j张图片预测为i类别的概率。取最大值作为该类别的预测值。公式(3)中的Y_i ^*表示图像是否真实含有第i类物体，含有则为1，不含则为0，Y_i ^*的值由步骤S1中的类别向量编码确定。很明显L_cls是交叉熵函数。

对于L₂损失函数并不考虑标注框与真实值的差距，因为在这一模块，没有真实标注框信息。因此该部分损失函数重点在于检测放大操作是否具有意义。本发明希望放大后的准确度相较于原本有很大提高，这样APN才具有价值。本发明将该部分损失函数进行了修改，为了进一步放大这种差异，并且有助于损失函数收敛。具体公式如下：

其中，

代表第s尺度的第m个注意力区域预测正确的准确度P值，加入margin防止损失停滞不更新，margin一般建议取0.05左右。

S2求得的边界框为t_*＝(t_x,t_y,t_l)，其中(t_x,t_y)表示边界框的中心点坐标，t_l表示边界框长度的一半。S3中目标函数表示为

其中Φ(P)是输入建议边界框的特征向量，w_*是要学习的参数，*表示x、y、w、h，d_*(P)是得到的预测值。用S2求得的值作为初始值，损失函数为

进一步地，如图3所示，本发明还提供了一种基于改进RA-CNN的细粒度图像检测系统，包括图像预处理模块、弱监督训练模块、强监督训练模块和图像检测模块，其中：

进一步地，所述弱监督训练模块中改进的RA-CNN模型具体为：

进一步地，第一尺度中的定位网络为多注意力建议网络MAPN，以生成多个空间注意力区域，将这多个空间注意力区域作为预测的边界框信息，第二尺度和第三尺度中的定位网络为注意力建议网络APN。

进一步地，所述三个尺度的训练过程为：

进一步地，所述弱监督训练模块通过对损失函数求偏导来训练弱监督学习，使用梯度下降法来逐层更新参数，所述损失函数Loss由两部分组成。分别是预测类别损失L₁和尺度变换损失L₂。

进一步地，所述预测类别损失L₁具体为

其中

进一步地，所述尺度变换损失L₂具体为

其中，

进一步地，所述强监督训练模块的训练过程具体为：

目标函数表示为

进一步地，所述图像预处理模块包括图像向量编码单元和类别向量编码单元，其中：

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于改进RA-CNN的细粒度图像检测方法，其特征在于，包括：

2.如权利要求1所述的基于改进RA-CNN的细粒度图像检测方法，其特征在于，所述步骤S2中的改进的RA-CNN模型具体为：

3.如权利要求2所述的基于改进RA-CNN的细粒度图像检测方法，其特征在于，第一尺度中的定位网络为多注意力建议网络MAPN，以生成多个空间注意力区域，将这多个空间注意力区域作为预测的边界框信息，第二尺度和第三尺度中的定位网络为注意力建议网络APN。

4.如权利要求3所述的基于改进RA-CNN的细粒度图像检测方法，其特征在于，所述三个尺度的训练过程为：

5.如权利要求1或2所述的基于改进RA-CNN的细粒度图像检测方法，其特征在于，所述步骤S2中通过对损失函数求偏导来训练弱监督学习，使用梯度下降法来逐层更新参数，所述损失函数Loss由两部分组成。分别是预测类别损失L₁和尺度变换损失L₂。

6.如权利要求5所述的基于改进RA-CNN的细粒度图像检测方法，其特征在于，所述预测类别损失L₁具体为

其中

7.如权利要求5所述的基于改进RA-CNN的细粒度图像检测方法，其特征在于，所述尺度变换损失L₂具体为

其中，

8.如权利要求1或2所述的基于改进RA-CNN的细粒度图像检测方法，其特征在于，所述步骤S3具体为：

目标函数表示为

9.如权利要求1或2所述的基于改进RA-CNN的细粒度图像检测方法，其特征在于，所述步骤S1具体为：

10.一种基于改进RA-CNN的细粒度图像检测系统，其特征在于，包括图像预处理模块、弱监督训练模块、强监督训练模块和图像检测模块，其中：

11.如权利要求10所述的基于改进RA-CNN的细粒度图像检测系统，其特征在于，所述弱监督训练模块中改进的RA-CNN模型具体为：

12.如权利要求11所述的基于改进RA-CNN的细粒度图像检测系统，其特征在于，第一尺度中的定位网络为多注意力建议网络MAPN，以生成多个空间注意力区域，将这多个空间注意力区域作为预测的边界框信息，第二尺度和第三尺度中的定位网络为注意力建议网络APN。

13.如权利要求12所述的基于改进RA-CNN的细粒度图像检测系统，其特征在于，所述三个尺度的训练过程为：

14.如权利要求10或11所述的基于改进RA-CNN的细粒度图像检测系统，其特征在于，所述弱监督训练模块通过对损失函数求偏导来训练弱监督学习，使用梯度下降法来逐层更新参数，所述损失函数Loss由两部分组成。分别是预测类别损失L₁和尺度变换损失L₂。

15.如权利要求14所述的基于改进RA-CNN的细粒度图像检测系统，其特征在于，所述预测类别损失L₁具体为

其中

16.如权利要求14所述的基于改进RA-CNN的细粒度图像检测系统，其特征在于，所述尺度变换损失L₂具体为

其中，

17.如权利要求10或11所述的基于改进RA-CNN的细粒度图像检测系统，其特征在于，所述强监督训练模块的训练过程具体为：

目标函数表示为

18.如权利要求10或11所述的基于改进RA-CNN的细粒度图像检测系统，其特征在于，所述图像预处理模块包括图像向量编码单元和类别向量编码单元，其中：