CN109902806A

CN109902806A - 基于卷积神经网络的噪声图像目标边界框确定方法

Info

Publication number: CN109902806A
Application number: CN201910143462.1A
Authority: CN
Inventors: 陶晓明; 王隽; 段一平; 陆建华
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-02-26
Filing date: 2019-02-26
Publication date: 2019-06-18
Anticipated expiration: 2039-02-26
Also published as: CN109902806B

Abstract

本发明公开了基于卷积神经网络的噪声图像目标边界框确定方法，本发明将候选边界框划分成等宽的若干行与若干列，每一行或每一列称为一个单元。通过训练卷积神经网络，对候选矩形框的每个横向和竖向单元学习预测in‑out概率确定出目标物体的四个边界。构建一个卷积神经网络，得到整幅图像的特征图，然后将候选边界框和整幅图像的特征图一起输入到显著性模块中，得到每个候选边界框的显著性分数，筛选出分数高的候选边界框并扩大一定倍数后，和整幅图像的特征图一起输入到目标定位模块，该in‑out概率为两组概率值，分别对应每个候选边界框横向和竖向单元存在物体的可能性大小。通过解码in‑out概率，即可确定出每个候选边界框中目标物体的上、下、左、右四个边界。

Description

基于卷积神经网络的噪声图像目标边界框确定方法

技术领域

本发明涉及一种基于卷积神经网络的噪声图像目标边界框确定方法，属于计算机视觉领域中的目标定位技术领域。

背景技术

目标定位是计算机视觉领域中一个重要的课题。它与目标检测任务类似，需要预测图像中感兴趣目标的位置，一般通过判断目标的边界框实现。但它与目标检测任务不同的地方在于，目标定位不关心目标物体的类别，仅对图像中出现的所有物体的位置进行预测，给出目标的边界框。而目标检测任务不仅要预测目标的边界框，还要判断目标物体的类别。近年来，目标定位在智能视频监控、车辆自动驾驶、机器人环境感知等领域都有着广泛的应用。然而，在某些场景下，由于环境因素，所拍摄到的图像并非十分清晰，往往带有噪声，例如在云雾环境中拍摄的天空图像中给飞机定位，在风沙环境中拍摄的路面图像中给汽车定位，在雾霾环境中拍摄的监控图像中给行人定位等等。那么，针对这种含有噪声的图像如何进行目标定位，准确的判断出目标边界框的位置，目前还未出现有效的解决方法。

针对非噪声图像的目标定位已有很多十分出色的方法，对此，展开了广泛调研。传统的目标定位方法可分为三大类：第一类是基于统计的定位方法，通过对图像的全局数据进行分析，获得目标区域；第二类是基于边缘分割的定位方法，通过捕获目标物体的边缘，从而获得目标位置；第三类是基于区域的定位方法，通过对区域进行合并与分裂，获得目标位置。

传统方法的典型代表有objectness(B.Alexe,T.Deselaers,V.Ferrari,What isan object.IEEE Conference on Computer Vision and Pattern Recognition,2010.)，BING(M.-M.Cheng,Z.Zhang,W.-Y.Lin,P.Torr,Bing:Binarized normed gradients forobjectness estimation at 300fps.IEEE Conference on Computer Vision andPattern Recognition,2014.)，Edgeboxes(C.L.Zitnick,P.Dollar,Edge boxes:Locatingobject proposals from edges.European Conference on Computer Vision,2014.)。传统目标定位方法的研究重点在于特征提取，为此，研究人员设计了多种形式的特征，代表性的有SIFT、Haar、HOG等。但是，传统目标定位方法存在以下几个缺点：1)设计的特征为底层特征，对目标的表达能力不足；2)设计的特征缺乏普适性，很难选择单一特征应用于多目标定位，例如，Haar特征用于人脸定位、HOG特征用于行人定位、Strip特征用于车辆定位。

为了提取更好的特征，Hinton在2006年提出了深度学习，利用深度神经网络从大量的数据中自动地学习高层特征。相比于人工设计的特征，深度神经网络自动学习的特征更加丰富、表达能力更强。随着深度学习的不断发展，研究者发现利用卷积神经网络进行目标定位，准确度可以获得较大的提升。不仅因为卷积神经网络提取了高层特征，提高了特征的表达能力，还因为卷积神经网络将特征提取和目标定位融合在同一个模型中，通过端到端的训练优化，增强了特征的可分性。所以，基于卷积神经网络的目标定位得到了广泛的关注，成为当前计算机视觉领域的研究热点之一。

卷积神经网络主要包括输入层、卷积层、池化层、全连接层等等。输入层的作用在于接收图像，通常为RGB彩色图像，输入前通常对图像进行尺寸归一化、去均值等预处理操作。卷积层的作用是运用卷积操作提取图像特征。池化层通常在卷积层之后，通过对特征图的局部区域进行池化操作，使特征具有一定的空间不变性。常用的池化操作有均值池化和最大值池化。池化层具有类似于特征选择的功能，根据一定规则从特征图中的局部区域计算出重要的特征值。全连接层一般位于特征提取之后，将前一层的所有神经元与当前层的每个神经元相连接。全连接层会根据输出层的具体任务，有针对性地对高层特征进行映射。除此之外，卷积神经网络还包括RoI层、拼接层以及各种损失层。输入图像通过多个卷积层和池化层进行特征提取，逐步由底层特征进化为高层特征；高层特征再根据特定的任务进行后续的处理，可实现图像的分类、定位、分割。

经过几十年的发展，不同结构的卷积神经网络涌现出来。1998年，LeCun等人提出了LeNet-5，成功应用于识别手写数字图像。作为早期的卷积神经网络，LeNet-5的深度较浅，仅包含2个卷积层、2个池化层和3个全连接层，大约有6×10⁴个训练参数。LeNet-5输入32×32的单通道图像，输出10维的向量。受训练数据和计算能力的限制，LeNet-5并没有推广应用到其他领域上。

基于卷积神经网络的目标定位并不是近几年才提出的，早在1994年卷积神经网络就成功应用于目标定位。当时受限于训练数据和硬件性能等问题，基于卷积神经网络的目标定位在很长一段时间里没有取得进展。与当时的传统目标定位方法相比，无论在定位精度还是定位速度上，基于卷积神经网络的目标定位都没有太大优势，因此，该研究逐渐被忽视。直到2012年，卷积神经网络AlexNet在图像识别上取得了重大的突破，研究者才开始重新审视卷积神经网络，讨论如何将卷积神经网络有效的应用在目标定位中。如今，基于卷积神经网络的目标定位已经超越传统目标定位方法，成为当前定位的主流方法。

由于目标可能位于待定位图像的任何位置，而且目标的大小不确定，通常需要构建待定位图像的图像金字塔，在多个尺度上滑动窗口，以穷举的方式搜索目标的位置，导致候选区域的数量庞大。所以，这类方法的定位速度非常慢，很难应用于实际工程中。为了减少候选区的数量，研究人员发现可以利用特定的算法从待定位图像中提取具有一定语义含义的子图像作为候选区。传统的候选区域提取方法有selective search、objectness、CPMC、ICOP等等。通过提取候选区域的特征，经过卷积神经网络的分类和识别，可极大提高目标定位的精度和效率。Girshick等人提出了R-CNN模型。首先，该模型利用selectivesearch方法从待定位图像中提取若干个候选区；然后将候选区缩放为统一的大小，使用卷积神经网络对其进行特征提取；最后运用多个SVM分类器对特征进行分类，完成多目标定位。R-CNN模型需要将候选区域统一为同样大小后才能进行特征提取和特征分类。另外，候选区域存在大量重叠区域，从而导致在提取每个候选区域的特征时引入大量重复计算，降低了定位效率。为了提高R-CNN模型的定位速度和精度，Girshick在此基础上提出了FastR-CNN模型。首先，该模型仍然利用selective search方法从待定位图像中提取若干个候选区。相比于R-CNN模型对每个候选区分别提取特征，FastR-CNN只对待定位图像提取特征；然后将候选区对应的特征图通过空间金字塔池化映射为固定长度的特征向量；最后，特征经过全连接的神经网络进行分类，并且预测边界框的坐标，对候选区进行修正。尽管FastR-CNN进一步提升了定位效率和精度，但是候选区域的选取使用的是selective search方法，该方法在CPU上运行。而后续的识别阶段则使用卷积神经网络在GPU上运行。两个模块是分离的并且速度不匹配。为了将两个模块整合为一个完整的目标定位框架。Ren等人提出了Faster R-CNN模型，该模型在Fast R-CNN的基础上增加了一个用于提取候选区的卷积神经网络RPN(S.Ren,K.He,R.Girshick,J.Sun,Faster r-cnn:Towards real-time objectdetection with region proposal networks,in:International Conference on NeuralInformation Processing Systems,2015.)。RPN对待定位图像中的每个位置都预测是否存在目标，并给出可能性最大的候选区。FastR-CNN判别所有候选区的类别并预测目标的边界框，对候选区进行修正。由于RPN和Fast R-CNN共享了卷积神经网络特征提取的部分，只需提取一次待定位图像的特征，加快了目标定位的速度。

尽管深度学习模型为目标定位的精度和效率带来了飞跃式的提升，但现有的方法在定位小目标物体时效果并不理想。现有的方法主要采用基于边界框回归(boundingboxregression)的目标定位算法。该方法将目标物体的特征和位置坐标定义为一个线性问题，而实际上两者并非线性相关。尤其是小目标物体，对位置的偏差十分敏感，从而导致校正后的边界框仍然与真实边界框的位置有较大偏差。

发明内容

本发明的目的在于解决噪声图像中目标物体定位不准确的问题，为此，提出了基于卷积神经网络的噪声图像目标边界框确定方法。

本发明采用的技术方案为基于卷积神经网络的噪声图像目标边界框确定方法，将目标定位问题重新定义为一个概率问题，根据目标物体和背景的特征差异，来预测目标物体存在于每个位置的概率。本方法的关键是提出了一种in-out概率。首先，对噪声图像生成一系列候选边界框，然后将每个候选边界框划分成等宽的若干行与若干列，每一行或每一列称为一个单元。所谓in-out概率，即每个单元存在物体的可能性大小。通过训练卷积神经网络，对候选边界框的每个横向和竖向单元学习预测in-out概率，由此确定出目标边界框的上、下、左、右四个边界。

本方法的实现过程分为以下4步：

(1)搭建用于训练和测试的卷积神经网络：网络包含三个模块，即基本模块、显著性预测模块和目标定位模块。基本模块用于得到整幅图像的特征图，显著性预测模块用于预测候选边界框包含物体的可能性的大小，目标定位模块用于预测候选边界框的in-out概率。

(2)准备训练和测试数据：训练和测试数据包括图像以及图像中包含的目标物体的真实边界框。将图像缩放为合适大小，并为每张图像增加随机噪声，用于模拟现实场景；以滑动窗的方式为每张训练图像生成一系列矩形框，通过计算矩形框与真实边界框的重叠率，将矩形框划分为候选边界框和背景矩形框，分别用显著性分数1和0加以区分，用于训练神经网络学习物体和背景矩形框的整体特征差异；以一定的倍数，扩大候选边界框在图像中的区域范围，以防止候选边界框包含不完整的物体；为每个扩大区域后的候选边界框定义in-out概率，用于训练神经网络学习物体和背景矩形框的局部特征差异。

(3)训练网络：开始训练网络之前，首先使用均匀分布的随机变量对网络参数进行初始化。接下来，对以下过程进行反复循环迭代，直到达到训练结束的指标：随机选取一张训练图像，经过预处理后，得到噪声图像、候选边界框和背景矩形框、预设的显著性分数，和候选边界框的in-out概率。将噪声图像输入基本模块中，得到整幅图像的特征图；将候选边界框、背景矩形框、预设的显著性分数和整幅图像的特征图输入到显著性预测模块中，输出损失值，使用梯度下降和反向传播算法，对显著性预测模块的网络参数进行更新；将候选边界框、候选边界框的in-out概率和整幅图像的特征图输入到目标定位模块，输出损失值，用梯度下降和反向传播算法对目标定位模块的网络参数进行更新；将显著性预测模块和目标定位模块各自反向传播到第一层的损失值相加，作为基本模块的损失值，用梯度下降和反向传播算法对基本模块的网络参数进行更新。

(4)测试网络：

每当对所有训练图像训练完成一轮后，将训练网络的相应参数拷贝到测试网络中进行测试。随机选取一张测试图像，经过预处理后，得到噪声图像和一系列矩形框；将噪声图像输入基本模块中，得到整幅图像的特征图；将矩形框和整幅图像的特征图输入到显著性预测模块中，输出预测的显著性分数；根据预先设定的阈值，去除预测的显著性分数低于阈值的矩形框，保留预测的显著性分数高于阈值的矩形框；以一定的倍数，扩大矩形框在图像中的区域范围，作为候选边界框，并与整幅图像的特征图一起输入到目标定位模块中，输出预测的in-out概率；解码预测的in-out概率，得到候选边界框上、下、左、右的四个边界，从而得到测试图像中目标物体的边界框的预测位置，并根据标注文件给出的目标物体真实边界框的位置计算该张测试图像的召回率。对所有测试图像计算一遍召回率，最后计算所有测试图像召回率的平均值，若该平均值达到预设的指标，则结束训练，否则继续对训练图像进行训练。

本发明的训练和测试流程如图4所示。

接下来，将依次对每个步骤进行详细解释：

步骤(1)，搭建用于训练和测试的的卷积神经网络结构：

如图5所示，网络共包含三个模块，即基本模块、显著性预测模块和目标定位模块，分别用于得到整幅图像的特征图、预测输入的矩形框的显著性分数、预测候选边界框的in-out概率；

步骤(1.1)，搭建基本模块：

如图5所示，基本模块由卷积层、ReLU激活层和最大值池化层组成；卷积层用于提取图像特征，激活层用于对特征非线性化，最大值池化层用于降低特征维度；

步骤(1.2)，搭建显著性预测模块：

如图5所示，显著性预测模块由感兴趣区域(Region-of-interest,ROI)池化层、全连接层、softmax损失层(训练用)或1个softmax层(测试用)组成；ROI池化层用于从整幅图像的特征图上提取每个生成的矩形框对应的特征，全连接层用于将每个矩形框的特征映射到分类空间(二分类：物体和背景)，训练时使用softmax损失，用于预测每个矩形框的显著性分数，同时计算预测的显著性分数与预定义的显著性分数的差异，测试时使用softmax层，用于预测每个矩形框的显著性分数。

步骤(1.3)，搭建目标定位模块：

如图5所示，该模块由ROI池化层、卷积层、最大值池化层、全连接层、变形层、拼接层、sigmoid损失层(训练用)或sigmoid层(测试用)组成；ROI池化层用于从整幅图像的特征图上提取每个候选边界框对应的特征，卷积层用于进一步提取每个候选边界框的特征，最大值池化层用于降低特征维度，全连接层用于将特征映射到分类空间(二分类：物体和背景)，变形层用于调整特征维度，拼接层用于将两个维度大小一致的特征拼接在一起，训练时使用sigmoid损失层，用于预测in-out概率，同时计算预测的in-out概率与预定义的in-out概率的差异，测试时使用sigmoid层，用于预测in-out概率。

步骤(2)，准备训练和测试数据：

步骤(2.1)，选取训练和测试图像：选取一个用于目标检测或定位的图像数据集，(一般已划分好训练集和测试集，若没有，则以7：3的比例将图像划分为训练集和测试集)。用于目标检测或定位的图像数据集中的每张图像都包含有一个标注文件，记录了该图像中所有目标物体的位置信息(a₁,z₁,a₂,z₂)，其中(a₁,z₁)和(a₂,z₂)分别表示目标物体外接边界框的左上顶点和右下顶点的坐标(图像中点的坐标定义如图3所示，图像左上顶点坐标设为(0,0)，水平方向为x轴，竖直方向为y轴)；

步骤(2.2)，图像预处理：将每张图像缩放为预设的大小，根据图像的缩放值，对该图像的标注文件中给出的目标物体边界框的坐标位置进行相应的调整，调整后的边界框作为真实边界框，记作GT；对每张图像施加随机高斯噪声Noise，高斯噪声的均值μ和方差σ均在区间[0,1]内随机取值，假设原图像为I，则施加噪声后的图像为I′＝I+Noise；

步骤(2.3)，生成候选边界框和背景矩形框，所谓候选边界框，即可能存在物体的矩形框，背景矩形框，即没有物体存在的矩形框，具体操作如下：

步骤(2.3.1)，定义ε种宽高比、ρ种最短边长度的种子矩形框，一共有ε×ρ种规格的种子矩形框；所谓种子矩形框，即预先设定好大小和形状的矩形框，以滑动步长μ在图像I′上从上到下、从左到右滑动每种规格的种子矩形框，记生成的所有矩形框为GB；

步骤(2.3.2)，计算每张图像中每个生成的矩形框GB和每个真实边界框GT的对应坐标范围内图像的重叠率(Intersection-over-Union,IoU)：

对于每个生成的矩形框，若与至少一个真实边界框的IoU>＝0.5，则选为候选边界框，否则，选为背景矩形框；

步骤(2.4)，定义显著性分数，所谓显著性分数，即矩形框中出现物体的概率，在闭区间[0,1]之间取值；显著性分数越接近于1，则矩形框中越有可能出现物体，反之，越接近于0，则矩形框越有可能是背景区域；因此，将所有候选边界框的显著性分数预设为1，所有背景矩形框的显著性分数预设为0；

步骤(2.5)，扩大候选边界框在图像中的区域范围(以免候选边界框包含不完整物体)：计算每个候选边界框的中心坐标以及宽width＝a₁-a₂和高height＝z₁-z₂，将候选边界框的宽、高分别放大γ倍，则放大后的候选边界框的位置为

步骤(2.6)，定义in-out概率：将每个扩大的候选边界框划分为等宽的Γ列和Γ行，每一列或每一行称为一个单元，为每个单元预设一个in-out概率Q_u，u＝1,...,Γ，表示该单元与真实边界框有重叠的可能性：如果重叠率为0，则将Q_u设为0，否则将Q_u设为1，一个候选边界框的所有单元的in-out概率组成Q，Q是一个2×Γ的矩阵，矩阵的第一行对应Γ个横向单元的in-out概率，第二行对应Γ个竖向单元的in-out概率；

步骤(3)，训练网络：

步骤(3.1)初始化网络中的所有参数；

步骤(3.2)随机选取一张训练图像，经过步骤(2.2)的预处理后，输入到基本模块中，输出整幅图像的特征图；将整幅图像的特征图，以及步骤(2.3)生成的候选边界框和背景矩形框、步骤(2.4)预设的显著性分数，一起输入到显著性预测模块中，输出损失值，采用随机梯度下降算法和反向传播算法，将损失值由显著性预测模块的最后一层反向传播至第一层，计算各层参数的梯度，并进行更新；接下来，将步骤(2.5)扩大区域面积后的候选边界框，以及步骤(2.6)预设的in-out概率，连同整幅图像的特征图一起输入到定位模块中，输出损失值，采用随机梯度下降算法和反向传播算法，将损失值由定位模块的最后一层反向传播至第一层，计算各层参数的梯度，并进行更新；将反向传播至显著性预测模块第一层的损失值和定位模块第一层的损失值相加，作为基本模块的损失值，采用随机梯度下降算法和反向传播算法，将该损失值由基本模块的最后一层反向传播至第一层，计算各层参数的梯度，并进行更新，至此，完成一次完整的迭代过程；

步骤(3.3)，对训练集中的所有图像执行步骤(3.2)；每当对所有训练图像执行完一轮，对所有测试图像进行测试；

步骤(4)，测试网络：

步骤(4.1)将训练网络的相应参数拷贝到测试网络中，在整个测试过程中参数保持固定不变。

步骤(4.2)，随机选取一张测试图像，经过步骤(2.2)的预处理后，输入到基本模块中，输出整幅图像的特征图，将整幅图像的特征图，以及步骤(2.3.1)生成的矩形框，一起输入到显著性预测模块中，输出对每个矩形框预测的显著性分数，去除显著性分数低于预设阈值的矩形框，保留显著性分数超过预设阈值的矩形框，作为候选边界框，根据步骤(2.5)的描述对候选边界框扩大在图像中的区域面积，连同整幅图像的特征图一起输入到定位模块中，输出预测的in-out概率矩阵；

步骤(4.3)，执行表1所述的in-out概率解码算法，得到预测的边界框位置；

表1in-out概率解码算法

步骤(4.4)，计算预测的边界框位置与该图像标注文件给出的所有真实边界框的位置的重叠率(重叠率定义为两个边界框位置的交集与两个边界框位置的并集之比)；对于每个真实边界框，若存在一个预测的边界框与该真实边界框的重叠率大于预设的阈值，则认为该真实边界框被召回；计算该图像的召回率(定义为该图像被召回的真实边界框数量与所有真实边界框数量之比)；

步骤(4.5)，对所有测试图像执行步骤(4.2)—(4.4)，执行结束后计算所有测试图像的召回率的平均值，若该平均值达到预设的指标，则结束训练，否则继续对训练图像进行训练。

附图说明

图1，in-out概率预设示意图：对候选边界框划分成等宽的若干列与若干行，如图(a)、(b)所示，每一行或每一列称为一个单元；训练模型前，对每个单元赋予一个概率值，若该单元与包含物体的区域重叠，将该单元的in-out概率设为1，否则，设为0；

图2，in-out概率实际输出示意图：神经网络的输出in-out概率反映了候选边界框的每个位置存在物体概率的大小；

图3，图像坐标示意图：图像左上顶点坐标设为(0,0)，右下顶点坐标(640,427)分别为该图像的宽和高，水平方向为x轴，竖直方向为y轴，图像中任意一点的横、纵坐标分别定义为该点到y轴、x轴的距离；

图4，基于卷积神经网络的噪声图像目标边界框确定方法训练与测试的流程框图；

图5，卷积神经网络结构图：图中给出了卷积神经网络的三个模块的层结构、输入和输出；

图6，目标边界框确定方法性能比较：测试数据集为PASCALVOC 2007测试集的4952张图像，对比方法包括：Objectness、BING、EdgeBoxes、RPN，分别对应图中用六角星、正方形、三角形、菱形标注的曲线，本发明为用圆形标注的曲线，前3幅子图分别为设定：(1)IoU＝0.5,(2)IoU＝0.6,(3)IoU＝0.7的情况下，选取不同数量的候选边界框对测试图像平均召回率的影响；后3幅子图分别为选取：(4)前50个候选边界框，(5)前300个候选边界框，(6)前1000个候选边界框的情况下，设定不同重叠率(IoU)对测试图像平均召回率的影响；

图7，本发明对6幅示例图像的标注结果，(a)-(f)分别为真实边界框、Objectness、BING、EdgeBoxes、RPN和本发明的标注结果。

图8，本发明的实施流程图。

具体实施方式

基于卷积神经网络的噪声图像目标边界框确定方法，其特征在于，将候选边界框划分成等宽的若干行与若干列，每一行或每一列称为一个单元。对每个单元，利用卷积神经网络学习到一种in-out概率，表示该单元包含物体的可能性大小。通过对候选边界框的每个横向和竖向单元预测in-out概率，可以确定出图像中目标物体的边界框。

将平均召回率的目标精度设定为0.95，为了使本发明提出的方法达到预设的精度，将依次按以下步骤进行操作：

步骤(1)，搭建用于训练和测试的的卷积神经网络结构：

如图5所示，网络共包含三个模块，即基本模块、显著性预测模块和目标定位模块，分分别用于得到整幅图像的特征图、预测输入的矩形框包含物体的可能性的大小、预测候选边界框的in-out概率；

基本模块参照文献K.Simonyan,A.Zisserman,``Very deep convolutionalnetworks for large-scale image recognition,”in International Conference onLearning Representations(ICLR),2015.的网络结构，显著性预测模块和目标定位模块参照文献Gidaris S,Komodakis N,LocNet:Improving localization accuracy for objectdetection,’in IEEE International Conference on Computer Vision and PatternRecognition(CVPR),2016,pp.789-798.的网络结构；

步骤(1.1)，搭建基本模块：

基本模块各层的名称、输入、输出、类型、卷积核尺寸或池化层邻域尺寸、滑动步长以及输出维度如表2所示：

表2基本模块结构

基本模块由卷积层、ReLU激活层和最大值池化层组成；卷积层以conv1_1为例，输入图像I′，维度为1×600×800×3，第一维表示每次输入1幅图像，第二维表示图像的宽为600，第三维表示图像的高为800，第四维表示图像有3个通道，即红、绿、蓝三个颜色通道；CV1_1表示该层的输出，维度为1×600×800×64，因为使用的3×3的卷积核不改变特征图的尺寸，因此前三个维度不变，第四个维度与卷积核的数量64保持一致；CV1_1通过以下公式计算得到：

其中，和分别表示该层的卷积核和偏移量，通过训练得到，x⁰表示该层的输入，即输入图像I′，表示该层的输出CV1_1，符号表示卷积操作；

ReLU激活层以ReLU1_1为例，输入上一个卷积层的输出CV1_1，输出RL1_1，ReLU激活层不改变输入的维度，因此输出的维度与输入的维度保持一致；RL1_1可通过以下公式计算得到：

其中，表示该层的输入CV1_1，表示该层的输出RL1_1；

最大值池化层以pool1为例，输入上一层的输出RL1_2，输出PL1，邻域尺寸为2×2，即RL1_2被划分为2×2大小的、互不重叠的小区域，每个小区域内取一个最大值，因此，pool1输出的第二、三维各变为输入的1/2，即1×300×500×64；

步骤(1.2)，搭建显著性预测模块：

显著性预测模块中各层的名称、输入、输出、类型、卷积核尺寸或池化层邻域尺寸、滑动步长以及输出维度如表3所示：

表3显著性预测模块结构

其中，B为矩形框的个数，非固定值，由输入到显著性预测模块的矩形框的数量决定；

该模块由感兴趣区域(Region-of-interest,ROI)池化层、全连接层、softmax损失层(训练用)或1个softmax层(测试用)组成；

ROI池化层用于从整幅图像I′的特征图上提取其中某个区域的特征，ROI层有2个输入：1)图像I′的特征图，2)待提取特征的图像区域坐标，3)指定输出尺寸；以显著性模块的roi1层为例，输入基本模块最后一层pool5的输出PL5和图像区域box1的坐标，假设box1的坐标为(a₁,z₁,a₂,z₂)，其中，(a₁,z₁)为box1左上顶点的坐标，(a₂,z₂)是box1右下顶点的坐标，设图像I′大小与图像I′的特征图大小的比值为ratio，则该区域的特征图对应图像I′特征图的位置为(a′₁,z′₁,a₂,z′₂)，其中，a′₁＝a₁/ratio,z′₁＝z₁/ratio,a′₂＝a₂/ratio,z′₂＝z₂/ratio,则box1内的特征为：

其中，为输入PL5，为了使输出满足指定的维度要求，要对进行池化处理，但与最大值池化层不同的是，最大值池化层的邻域尺寸是事先指定好的，而这里的邻域是通过计算得到的；假设的尺寸为α×α，roi1层指定的输出尺寸为7×7，则邻域的尺寸为符号表示向下取整；因此，将划分为bin×bin大小的、互不重叠的小区域，每个小区域内取一个最大值，因此，roi1层输出维度为B×7×7×512，其中B为候选边界框的个数，非固定值，由输入到显著性预测模块的候选边界框的数量决定；

全连接层以fc1层为例，输入roi1层的输出ROI1，则该层的特征可通过以下公式计算可得：

其中，和分别表示该层的权重和偏移量，表示输入ROI1，符号·表示点积操作，表示该层的输出；

在卷积神经网络的训练阶段，显著性模块的最后一层为softmax损失层softmax_loss1，输入第5个全连接层的输出FC5和分类标签值Label1，首先计算：

其中，w_(sm)和b_(sm)分别表示该层的权重和偏置，表示第5个全连接层的输出FC5，接下来，计算各个类别的概率值：

其中，k表示第k个类别，q^(k)表示第k个类别的概率值，K表示类别总数，在本方法中，K＝2，即背景和显著物体两个类别，(θ₁,...,θ_K)为模型的参数，通过训练得到，最后，根据下式计算损失值：

L1＝-y_soft·log q

(8)

其中，y_soft＝(y⁽¹⁾,y⁽²⁾,...,y^(K))为输入的标签值Label1，q＝(q⁽¹⁾,q⁽²⁾,...,q^(K))由公式(7)计算而得，L1为softmax损失层softmax_loss1的输出Loss1；

在卷积神经网络的测试阶段，显著性预测模块的最后一层为softmax层saliency，输入第5个全连接层的输出FC5，计算过程见公式(6)(7)，输出K个类别的分数q＝(q⁽¹⁾,q⁽²⁾,...,q^(K))，即背景和显著物体的概率，作为候选边界框的显著性分数Sal；

步骤(1.3)，搭建目标定位模块：

该模块由ROI池化层、卷积层、最大值池化层、全连接层、拼接层、sigmoid损失层(训练用)或sigmoid层(测试用)组成；

目标定位模块中各层的名称、输入、输出、类型、卷积核尺寸或邻域尺寸、滑动步长及输出维度如表4所示，其中，roi2层的两个输入PL5和box2分别是基本模块的输出和候选边界框的坐标，输出feat2是候选边界框的特征图，conv6、conv7分别表示卷积神经网络的第6、7个卷积层，CV6、CV7分别表示其输出，接下来，网络分为两个分支，依次经最大值池化层、全连接层处理后，再由拼接层将两个分支拼接在一起，输出CC，sigmoid_loss2是sigmoid损失层，在卷积神经网络的训练阶段使用，输入CC和标签值Label2，输出损失值Loss2，predict层是sigmoid层，在卷积神经网络的测试阶段使用，输入CC，输出预测值PR；

表4目标定位模块结构

其中，V为候选边界框的个数，非固定值，由输入到目标定位模块的候选边界框的数量决定；

拼接层用于将两个层按指定的维度拼接在一起，输入必须是两个维度完全相同的特征图，以concat层为例，输入FC7_x和FC7_y，维度均为V×1×28，指定拼接维度为第二维(axis＝2)，拼接后，输出CC的维度为V×2×28；

在卷积神经网络的训练阶段，目标定位模块的最一层为sigmoid损失层sigmoid_loss2，输入CC和标签值Label2，首先计算：

其中，x_(concat)为输入CC，参数θ通过训练得到；sigmoid_loss2层的输出Loss2可通过以下公式而得：

L2＝-∑y_sig·log x_(sigmoid)+(1-y_sig)log(1-x_(sigmoid)) (10)

其中，y_sig为标签值Label2，L2为输出Loss2；

在卷积神经网络的测试阶段，目标定位模块的最后一层为sigmoid层predict，输入CC，输出PR通过公式(9)计算而得；

步骤(2)，准备训练和测试数据：

步骤(2.1)，选取训练和测试图像：采用PASCALVOC 2007图像数据集，该图像数据集包含5011张训练图像和4952张测试图像，目标物体包含人、鸟、飞机、自行车、电视等常见的目标物体，每张图像都附带一个标注文件，标注文件中人为标注了该张图像中目标物体边界框的坐标位置(a₁,z₁,a₂,z₂)(图像中点的坐标定义如图2所示，图像左上顶点坐标设为(0,0)，水平方向为x轴，竖直方向为y轴)，其中(a₁,z₁)和(a₂,z₂)分别表示目标物体外接边界框的左上顶点和右下顶点的坐标；

步骤(2.2)：图像预处理：将图像缩放为600×1000大小，根据图像的缩放值，对该图像的标注文件中给出的坐标位置进行相应的调整，调整后的边界框作为真实边界框，记作GT；对每张图像施加随机高斯噪声Noise，高斯噪声的均值μ和方差σ均在区间[0,1]内随机取值，假设原图像为I，则施加噪声后的图像为I′＝I+Noise；

步骤(2.3)，生成候选边界框和背景矩形框，所谓候选边界框，即可能存在物体的边界框，背景矩形框，即不存在物体的矩形框：

步骤(2.3.1)，定义ε种宽高比、ρ种最短边长度的种子矩形框，一共有ε×ρ种规格的种子矩形框；所谓种子矩形框，即预先设定好大小和形状的边界框，以滑动步长μ在图像I′上从上到下、从左到右滑动每种规格的种子矩形框，记生成的所有边界框为GB；其中，ε取3种宽高比，即1：2，1：1，2：1，ρ通常取值10，最短边长度可取：16，25，32，48，64，100，128，256，512，768；基本模块最后一层输出的特征图PL5上的任意一点对应原图像的大小为32×32，若种子矩形框的最短边长度不大于32，则滑动步长μ取最短边长，若最短边长大于32，则滑动步长μ取32；

步骤(2.3.2)，计算每个生成的矩形框(GB)和每个真实边界框(GT)的对应坐标范围内图像的重叠率(Intersection-over-Union,IoU)：

步骤(2.4)，定义显著性分数，所谓显著性分数，即边界框中出现物体的概率，在闭区间[0,1]之间取值；显著性分数越接近于1，则边界框中越有可能出现物体，反之，越接近于0，则边界框越有可能是背景区域；因此，将所有候选边界框的显著性分数预设为1，所有背景矩形框的显著性分数预设为0；

步骤(2.5)，扩大候选边界框在图像中的区域范围(以免候选边界框包含不完整物体)：计算每个候选边界框的中心坐标以及宽width＝a₁-a₂和高height＝z₁-z₂，将候选边界框的宽、高分别放大γ倍(γ一般取值1.8)，则放大后的候选边界框的位置为

步骤(2.6)，定义in-out概率：将每个放大的候选边界框划分为等宽的Γ列和Γ行(Γ取28)，每一列或每一行称为一个单元，为每个单元预设一个in-out概率Q_u(u＝1,...,Γ)，表示该单元与真实边界框有重叠的可能性：如果重叠率为0，则将Q_u设为0，否则将Q_u设为1，一个候选边界框的所有单元的in-out概率组成Q，Q是一个2×Γ的矩阵，矩阵的第一行对应Γ个横向单元的in-out概率，第二行对应Γ个竖向单元的in-out概率；

步骤(3)，训练网络：

步骤(3.1)初始化网络中的所有参数：可以采用[0,1]之间均匀分布的随机变量作为初始化值，例如基本模块的第一个卷积层conv1_1有64个3×3的卷积核，第一个卷积核可以初始化为：

[0.8147 0.9134 0.2785

0.9058 0.6324 0.5469

0.1270 0.0975 0.9575]

其他层的参数可采用相同的方法初始化，包括基本模块的conv1_2、conv2_1、conv2_2、conv3_1、conv3_2、conv3_3、conv4_1、conv4_2、conv4_3、conv5_1、conv5_2、conv5_3，显著性预测模块的fc1、fc2、fc3、fc4、fc5、softmax_loss1和saliency，以及目标定位模块的conv6、conv7、fc6_x、fc6_y、fc7_x、fc7_y、sigmoid_loss2和predict；

步骤(3.2)选取一张训练图像，经过步骤(2.2)的预处理后，作为基本模块的输入I′，由第一层前向传播到最后一层pool5，输出整幅图像的特征图PL5；根据步骤(2.3)的描述为图像I′生成候选边界框和背景矩形框，一起作为box1，根据步骤(2.4)的描述为box1预设显著性分数，作为Label1，连同PL5一起输入到显著性预测模块中，由第一层前向传播到最后一层，输出损失Loss1，采用随机梯度下降算法，将Loss1由显著性预测模块的最后一层反向传播至第一层，计算各层参数的梯度，并进行更新，下面介绍如何采用梯度下降算法进行参数更新：

以conv7层为例，输入CV6，该层的输出CV7可由下式计算得到：

代表输入CV6，代表输出CV7，和分别为该层的权重和偏置，设该层的损失函数为L_(conv7)，将损失函数反向传播后，该层的参数和更新为：

其中，η为学习率，初始值设为10^-3，每迭代10⁵次，学习率减小为原来的符号表示求导；当更新完显著性预测模块的第一层后，将得到的损失记为L_s；接下来，根据步骤(2.5)的描述将候选边界框的区域扩大γ倍，作为box2，根据步骤(2.6)的描述为box2预设in-out概率，作为Label2，连同PL5一起输入到定位模块中，由第一层前向传播到最后一层，输出损失Loss2，采用随机梯度下降算法，将Loss2由定位模块的最后一层反向传播至第一层，计算各层参数的梯度，并进行更新；当更新完显著性预测模块的第一层后，将得到的残差记为L_p，将显著性预测模块第一层的残差L_s和定位模块第一层的残差L_p相加，记为L_base，作为基本模块的损失，采用随机梯度下降算法，将L_base由基本模块的最后一层反向传播至第一层，计算各层参数的梯度，并进行更新，至此，完成一次完整的迭代过程；

步骤(3.3)，对训练集中的5011张图像执行步骤(3.2)；每当对所有训练图像执行完一轮，对测试集的4952张图像进行测试；

步骤(4)，测试网络：

步骤(4.1)，将训练网络的相应参数拷贝到测试网络中，在整个测试过程中固定不变。

步骤(4.2)，随机选取一张测试图像，经过步骤(2.2)，得到预处理图像I′，输入到基本模块中，输出特征图PL5，根据步骤(2.3)的描述为图像I′生成矩形框，记为box1，连同PL5一起输入到显著性预测模块中，输出所有矩形框的显著性分数Sal，去掉显著性分数低于0.5的矩形框，保留显著性分数大于0.5的矩形框作为候选边界框，假设候选边界框共有V个，根据步骤(2.5)的描述对这V个候选边界框的区域面积扩大γ倍，记为box2，连同PL5一起输入到目标定位模块中，输出in-out概率PR.

步骤(4.4)，计算预测的边界框位置与该图像标注文件给出的所有真实边界框的位置的重叠率；对于每个真实边界框，若存在一个预测的边界框与该真实边界框的重叠率大于0.5，则认为该真实边界框被召回；设该图像被召回的真实边界框的数量为Ω₁，设该图像一共有Ω₂个真实边界框，则该图像边界框的召回率为

步骤(4.5)，对测试集中的4952张图像执行步骤(4.1)—(4.4)；最后计算测试集的4952张图像的召回率的平均值Λ，若Λ<0.95，则继续对训练集的5011张图像进行训练，若Λ≥0.95，则结束训练。

为验证本发明所提出的“基于卷积神经网络的噪声图像目标边界框确定方法”的效果，与当前最流行的四种方法进行了比较，结果如图5所示。对比方法包括：Objectness、BING、EdgeBoxes和RPN，分别对应图中用六角星、正方形、三角形、菱形标注的曲线，本发明为用圆形标注的曲线，前3幅子图分别为设定：(1)IoU＝0.5,(2)IoU＝0.6,(3)IoU＝0.7的情况下，选取不同数量的候选边界框对测试图像平均召回率的影响；后3幅子图分别为选取：(4)前50个候选边界框，(5)前300个候选边界框，(6)前1000个候选边界框的情况下，设定不同重叠率(IoU)对测试图像平均召回率的影响；可以看出，在不同的候选边界框数量下，在不同的重叠率(IoU)下，本发明比其他方法的召回率有明显的提高。

为了更直观的展示本发明与另外四种对比方法的效果差异，在PASCAL VOC 2007测试集中随机挑选了6张图像，并为每张图像增加了随机高斯噪声以模拟现实场景图像，不同方法的定位结果如图7所示。(a)-(f)分别表示真实边界框、Objectness、BING、EdgeBoxes、RPN和本发明标注的边界框。可以看出，四种对比方法所确定的边界框中，有的目标范围覆盖不全、有的包含了过多背景区域、有的出现了漏检，而本发明标注的边界框最接近真实边界框，从而说明本发明在5种方法中具有最好的性能。

Claims

1.基于卷积神经网络的噪声图像目标边界框确定方法，其特征在于：将目标定位问题重新定义为一个概率问题，根据目标物体和背景的特征差异，来预测目标物体存在于每个位置的概率；首先，对噪声图像生成一系列候选边界框，然后将每个候选边界框划分成等宽的若干行与若干列，每一行或每一列称为一个单元；所谓in-out概率，即每个单元存在物体的可能性大小；通过训练卷积神经网络，对候选边界框的每个横向和竖向单元学习预测in-out概率，由此确定出目标边界框的上、下、左、右四个边界；

本方法的实现过程分为以下4步：

(1)搭建用于训练和测试的卷积神经网络：网络包含三个模块，即基本模块、显著性预测模块和目标定位模块；基本模块用于得到整幅图像的特征图，显著性预测模块用于预测候选边界框包含物体的可能性的大小，目标定位模块用于预测候选边界框的in-out概率；

(2)准备训练和测试数据：训练和测试数据包括图像以及图像中包含的目标物体的真实边界框；将图像缩放为合适大小，并为每张图像增加随机噪声，用于模拟现实场景；以滑动窗的方式为每张训练图像生成一系列矩形框，通过计算矩形框与真实边界框的重叠率，将矩形框划分为候选边界框和背景矩形框，分别用显著性分数1和0加以区分，用于训练神经网络学习物体和背景矩形框的整体特征差异；以一定的倍数，扩大候选边界框在图像中的区域范围，以防止候选边界框包含不完整的物体；为每个扩大区域后的候选边界框定义in-out概率，用于训练神经网络学习物体和背景矩形框的局部特征差异；

(3)训练网络：开始训练网络之前，首先使用均匀分布的随机变量对网络参数进行初始化；接下来，对以下过程进行反复循环迭代，直到达到训练结束的指标：随机选取一张训练图像，经过预处理后，得到噪声图像、候选边界框和背景矩形框、预设的显著性分数，和候选边界框的in-out概率；将噪声图像输入基本模块中，得到整幅图像的特征图；将候选边界框、背景矩形框、预设的显著性分数和整幅图像的特征图输入到显著性预测模块中，输出损失值，使用梯度下降和反向传播算法，对显著性预测模块的网络参数进行更新；将候选边界框、候选边界框的in-out概率和整幅图像的特征图输入到目标定位模块，输出损失值，用梯度下降和反向传播算法对目标定位模块的网络参数进行更新；将显著性预测模块和目标定位模块各自反向传播到第一层的损失值相加，作为基本模块的损失值，用梯度下降和反向传播算法对基本模块的网络参数进行更新；

(4)测试网络：

每当对所有训练图像训练完成一轮后，将训练网络的相应参数拷贝到测试网络中进行测试；随机选取一张测试图像，经过预处理后，得到噪声图像和一系列矩形框；将噪声图像输入基本模块中，得到整幅图像的特征图；将矩形框和整幅图像的特征图输入到显著性预测模块中，输出预测的显著性分数；根据预先设定的阈值，去除预测的显著性分数低于阈值的矩形框，保留预测的显著性分数高于阈值的矩形框；以一定的倍数，扩大矩形框在图像中的区域范围，作为候选边界框，并与整幅图像的特征图一起输入到目标定位模块中，输出预测的in-out概率；解码预测的in-out概率，得到候选边界框上、下、左、右的四个边界，从而得到测试图像中目标物体的边界框的预测位置，并根据标注文件给出的目标物体真实边界框的位置计算该张测试图像的召回率；对所有测试图像计算一遍召回率，最后计算所有测试图像召回率的平均值，若该平均值达到预设的指标，则结束训练，否则继续对训练图像进行训练。

2.根据权利要求1所述的基于卷积神经网络的噪声图像目标边界框确定方法，其特征在于：

搭建用于训练和测试的的卷积神经网络结构：

网络共包含三个模块，即基本模块、显著性预测模块和目标定位模块，分别用于得到整幅图像的特征图、预测输入的矩形框的显著性分数、预测候选边界框的in-out概率；

步骤(1.1)，搭建基本模块：

基本模块由卷积层、ReLU激活层和最大值池化层组成；卷积层用于提取图像特征，激活层用于对特征非线性化，最大值池化层用于降低特征维度；

步骤(1.2)，搭建显著性预测模块：

显著性预测模块由感兴趣区域ROI池化层、全连接层、softmax损失层即训练用或1个softmax层即测试用组成；ROI池化层用于从整幅图像的特征图上提取每个生成的矩形框对应的特征，全连接层用于将每个矩形框的特征映射到分类空间，二分类：物体和背景，训练时使用softmax损失，用于预测每个矩形框的显著性分数，同时计算预测的显著性分数与预定义的显著性分数的差异，测试时使用softmax层，用于预测每个矩形框的显著性分数；

步骤(1.3)，搭建目标定位模块：

该模块由ROI池化层、卷积层、最大值池化层、全连接层、变形层、拼接层、sigmoid损失层或sigmoid层组成；ROI池化层用于从整幅图像的特征图上提取每个候选边界框对应的特征，卷积层用于进一步提取每个候选边界框的特征，最大值池化层用于降低特征维度，全连接层用于将特征映射到分类空间，变形层用于调整特征维度，拼接层用于将两个维度大小一致的特征拼接在一起，训练时使用sigmoid损失层，用于预测in-out概率，同时计算预测的in-out概率与预定义的in-out概率的差异，测试时使用sigmoid层，用于预测in-out概率。

3.根据权利要求1所述的基于卷积神经网络的噪声图像目标边界框确定方法，其特征在于：

准备训练和测试数据包括如下步骤，

步骤(2.1)，选取训练和测试图像：选取一个用于目标检测或定位的图像数据集，已划分好训练集和测试集，若没有，则以7：3的比例将图像划分为训练集和测试集；用于目标检测或定位的图像数据集中的每张图像都包含有一个标注文件，记录了该图像中所有目标物体的位置信息(a₁,z₁,a₂,z₂)，其中(a₁,z₁)和(a₂,z₂)分别表示目标物体外接边界框的左上顶点和右下顶点的坐标，图像中点的坐标定义，图像左上顶点坐标设为(0,0)，水平方向为x轴，竖直方向为y轴；

步骤(2.3.2)，计算每张图像中每个生成的矩形框GB和每个真实边界框GT的对应坐标范围内图像的重叠率IoU：

步骤(2.5)，扩大候选边界框在图像中的区域范围，以免候选边界框包含不完整物体：计算每个候选边界框的中心坐标以及宽width＝a₁-a₂和高height＝z₁-z₂，将候选边界框的宽、高分别放大γ倍，则放大后的候选边界框的位置为，

步骤(2.6)，定义in-out概率：将每个扩大的候选边界框划分为等宽的Γ列和Γ行，每一列或每一行称为一个单元，为每个单元预设一个in-out概率Q_u，u＝1,...,Γ，表示该单元与真实边界框有重叠的可能性：如果重叠率为0，则将Q_u设为0，否则将Q_u设为1，一个候选边界框的所有单元的in-out概率组成Q，Q是一个2×Γ的矩阵，矩阵的第一行对应Γ个横向单元的in-out概率，第二行对应Γ个竖向单元的in-out概率。

4.根据权利要求2所述的基于卷积神经网络的噪声图像目标边界框确定方法，其特征在于：

训练网络包括如下步骤，

步骤(3.1)初始化网络中的所有参数；

步骤(3.3)，对训练集中的所有图像执行步骤(3.2)；每当对所有训练图像执行完一轮，对所有测试图像进行测试。

5.根据权利要求2所述的基于卷积神经网络的噪声图像目标边界框确定方法，其特征在于：

测试网络包括如下步骤，

步骤(4.1)将训练网络的相应参数拷贝到测试网络中，在整个测试过程中参数保持固定不变；

in-out概率解码算法输入：in-out概率矩阵PR，PR是一个V×2×Γ的矩阵，第一维V表示共有V个边界框，第二维2表示横向和竖向，第三维Γ表示每个边界框的每个横向或竖向有Γ个单元；

1)依次对第v＝1,...,V个边界框执行以下步骤：

(1)依次选取横向、竖向单元的in-out概率，设为p_in-out，执行以下步骤：

将p_in-out归一化到[0,1]区间，计算每个横向单元存在物体的概率p_in，p_in先在1和p_in-out中取最小值，然后在0和最小值之间取最大值，即：

p_in＝min(p_inout,1),p_in＝max(p_in,0),

每个单元不存在物体的概率p_out为：p_out＝1-p_in；

将p_in和p_out转换为似然概率值p_lgin和p_lgout，即：

p_lgin＝-lgp_in,p_lgout＝-lgp_out

对p_lgin和p_lgout累计求和，得到S_in和S_out：

将Γ个单元两两组合，所有组合的集合记为Set，Set＝{(1,2),(1,3),...,(1,Γ),(2,3),(2,4),...,(2,Γ),...,(Γ-1,Γ)}，Set中共有Γ(Γ-1)/2对组合，计算Set中每个组合的目标似然值p_loc；所谓目标似然值，即该组合中两个单元之间包含目标物体的可能性；第θ个组合(u₁,u₂)的目标似然值p_loc(θ)计算如下：

p_loc(θ)＝-[(S_in(u₁)-S_in(u₂))-(S_out(u₁)-S_out(u₂))]，θ＝(1,...,Γ(Γ-1)/2)，

找到目标似然值p_loc最大的组合，假设为第个组合，则中的两个单元即为目标物体的两个边界位置:

横向：或竖向：

(2)分别对横向、竖向单元的in-out概率执行完以上步骤后，得到左边界a₁、右边界a₂、上边界z₁、下边界z₂，从而确定出第v个边界框的位置(a₁,z₁,a₂,z₂)；

2)分别对第v＝1,...,V个边界框执行完以上步骤后，得到V个边界框的位置；输出：V个边界框的位置

步骤(4.4)，计算预测的边界框位置与该图像标注文件给出的所有真实边界框的位置的重叠率；对于每个真实边界框，若存在一个预测的边界框与该真实边界框的重叠率大于预设的阈值，则认为该真实边界框被召回；计算该图像的召回率；

6.根据权利要求4所述的基于卷积神经网络的噪声图像目标边界框确定方法，其特征在于：

重叠率定义为两个边界框位置的交集与两个边界框位置的并集之比；

召回率定义为该图像被召回的真实边界框数量与所有真实边界框数量之比。