CN107451602A

CN107451602A - 一种基于深度学习的果蔬检测方法

Info

Publication number: CN107451602A
Application number: CN201710544590.8A
Authority: CN
Inventors: 胡海根; 周莉莉; 黄玉娇; 肖杰; 管秋; 陈胜勇
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-07-06
Filing date: 2017-07-06
Publication date: 2017-12-08

Abstract

一种基于深度学习的果蔬检测方法，包括：步骤1，首先对数据进行预处理；对原始图片事先进行手工标定，获得分割标签。标定是指原始图片中目标框的左上角点与右下角点的坐标，标签是指判定每个标定框中目标是否为果蔬及确定果蔬的类别；步骤2，其次对数据进行训练；将所述原始图片和图片标签作为深度学习神经网络的训练集，结合区域建议网络RPN及Fast R‑CNN卷积神经网络对数据进行训练，得到最终果蔬检测模型；步骤3，最后对测试数据进行测试；调用最终果蔬检测模型及测试程序，对测试图片进行果蔬的检测，通过观察测试结果，分析最终果蔬检测模型效果的好坏。

Description

一种基于深度学习的果蔬检测方法

技术领域

本发明涉及一种新型的果蔬检测方法，具体通过深度学习中Faster R-CNN网络来实现果蔬的检测。

背景技术

果蔬采摘是农业生产链中最耗时耗力的一个环节，约占整个作业量的40％。采摘作业质量的好坏直接影响到果蔬的储存、加工和销售，从而最终影响市场价格和经济效益。因此，果蔬采摘机器人作为农业机器人的一种形式，将成为我国农业现代化发展到一定阶段的必然产物。视觉系统作为采摘机器人的重要组成部分，从复杂的背景中将果蔬识别出来并进行定位其在空间坐标的位置是果实采摘机器人的首要任务和设计难点，识别和定位的准确性关系到采摘机器人的采摘效率和采摘质量，它能为机械手提供准确的空间位置参数，是成功实现自动化采摘的关键。

传统上，基于视觉系统的果蔬的识别和果蔬位置的确定主要有灰度、阈值和几何形状特征等方法。其中，前两者主要基于果实的光谱反射特征，但在自然光照情况下，由于图像中存在噪声和各种干扰信息，效果并不是很好。采用形状定位方式，要求目标具有完整的边界条件，由于果蔬和叶子往往容易重叠在一起，很难真正区别出果实的具体形状。也有的果实需要通过测量果实的直径和长度，决定是否采摘。然而，由于传统的机器视觉方法无论在从复杂的背景中进行果蔬识别还是果蔬空间位置的确定等方面还有诸多问题尚未得到有效解决，目前所研制的果蔬采摘机器人效果不尽理想，已成为制约果蔬采摘机器人研究与应用的瓶颈问题。

近年来，随着人工智能技术的不断发展，深度学习技术已经在计算机视觉领域的分类、识别、检测、分割、跟踪等任务都取得了突破性的进展。相较于传统的机器视觉方法，深度卷积神经网络在大数据的训练下，从大量数据中学习出有用的特征，具有速度快、精度高、成本低等优势。基于深度学习的检测方法，更多的是采用深度学习技术，通过大量样本的训练，再利用一个分类器去检测目标，其优势在于不会受到目标背景变化的影响。它不仅可以将果蔬从复杂的背景中识别出来，还能够预测目标果蔬所在位置，从而提高采摘机器人的采摘效率和采摘质量，最终解决传统的机器视觉方法在目标识别和目标定位上的难以克服的难题。

发明内容

本发明要克服现有技术的上述缺点，提出一种基于深度学习的果蔬检测方法，提高目标识别和目标定位的精度，实现果蔬检测系统结果的精确性、快速性及可靠性。

一种基于深度学习的果蔬检测方法，通过对图片进行事先人工标注产生具有标签的图片作为网络的训练集，采用Faster R-CNN算法，训练一个负责寻找图片中区域建议框的RPN(Region Proposal Network)卷积神经网络和一个负责目标检测的Fast R-CNN卷积神经网络，其中RPN和Fast R-CNN卷积神经网络通过交替训练阶段实现卷积层共享特征图，实现了一个端到端的目标检测框架。

一种基于深度学习的果蔬检测方法，包括：

Step 1：用训练好的ImageNet预训练模型RPN，使用反向传播(Back Propagation)算法调整RPN卷积神经网络参数，得到RPN卷积神经网络新模型M1，在训练集上调用训练好的RPN卷积神经网络模型M1，产生果蔬的候选区域P1。反向传播算法是指是使Faster R-CNN的多任务损失函数值最小化，损失函数表达式为：

Pi*Lreg就表示只有为正标签的锚anchor才有回归损失函数。

Lcls(pi,pi^*)分类损失函数表达式为：

Lcls(pi,pi^*)＝-log[p_i ^*p_i+(1-p_i ^*)(1-p_i)]

Lreg(ti,ti^*)回归损失函数表达式为：

Lreg(ti,ti^*)＝R(t_i-t_i ^*)

其中R表示平滑smooth的损失函数1，即L1-loss，该损失函数表达式为：

Pi表示第i个anchor是目标的预测概率值，i即表示每个批量训练中第i个anchor；

pi^*表示真值Ground Truth的标签，及图片是目标的概率值：

t_i＝{t_x,t_y,t_w,t_h}表示预测的bounding box包围框的四个参数化坐标，(t_x,t_y)表示边界框左上角坐标，t_w表示边界框长，t_h表示边界框高；

t_i ^*表示每个正标签对应的GT包围框的四个参数化坐标；

Ncls、Nreg分别表示分类层和回归层的归一化；λ表示平衡权重，通常λ＝10，Ncls＝256表示批量操作数的大小，Nreg近似为2400，这样就可以实现分类及回归的等权重化；

Step2：用产生的候选区域P1及训练好的ImageNet模型训练Fast R-CNN，具体为输入训练集及果蔬的候选区域P1，结合样本集的标注及标签进行训练，得到新的Fast R-CNN卷积神经网络模型M2；

Step3：调用M2模型重新训练RPN网络，这次卷积层参数不变，只做前向计算，对RPN卷积神经网络进行微调，训练得新的RPN卷积神经网络模型M3；

Step4：调用M3模型重新产生候选区域P2，用M3和P2训练Fast R-CNN卷积神经网络，微调Fast R-CNN卷积神经网络的全连接层，主要是对bounding box的位置进行精修，最终Faster R-CNN模型M4；

位置精修法：

先做边界框的位置平移(Δx,Δy)，Δx＝p_w dx(p),Δy＝p_h dy(p)；

P表示候选区域Region Proposal；x，y，w，h分别表示该候选区域的左上角坐标、长和高；Δx表示边界框左上角坐标在x轴上的平移量、p_w表示候选区域框的宽、dx(p)表示对候选区域x求导、Δy表示边界框左上角坐标在y轴上的平移量、p_h表示候选区域框的高、dy(p)表示对候选区域y求导。

再经过尺寸缩放(s_w,s_h)，s_w＝p_wd_w(p)，s_h＝p_hd_h(p)；

其中s_w表示边界框宽度的缩放量、p_w表示候选区域框的宽、d_w(p)表示对候选区域w求导、s_h表示边界框高度的缩放量、p_h表示候选区域框的高、d_h(p)表示对候选区域h求导。

进一步，RPN卷积神经网络的前五层卷积层为特征提取层，第六层卷积层将特征图中果蔬的位置编码为一组向量，为特征映射层，第七层卷积层对每个果蔬位置进行输出为一个目标置信度，目标置信度即根据IoU计算bounding box边界框的准确度，IoU即Intersection over Union的值定义：Region Proposal与Ground Truth的窗口的交集比并集的比值；因为得到的候选区域有些高度重合，为了降低冗余性，在分类值cls score基础上对候选区域应用NMS(non-maximum suppression)方法，将IoU阈值设为0.7，即候选区域与任意真实数据GT的IoU重叠超过0.7的框为正标签。最后一层为输出层，采用Softmax分类法，得到每个目标框的cls score。

4.同时，对数据进行训练的Fast R-CNN卷积神经网络，包括五个卷积层，一个池化层ROI，该ROI池化层本质上相当于一个SPP的简化，因为全连接层的输入必须是统一固定大，所以先将每个ROI池化到一个固定大小的特征图，再通过全连接层将特征图映射到一个特征向量，将特征向量分别输入到一个分类全连接层cls-layer，输出k+1位数组p，k+1表示样本类别为k类，加1表示还有一类为背景，共k+1类，用于判定该proposal是前景还是背景，每个ROI的输出离散型概率分布表达式为：p＝(p₀,p₁,…p_k,)其中pi表示第i个ROI是前景的概率；一个回归全连接层reg-layer，用于预测proposal的中心锚点对应的proposal的左上角坐标x、y和宽高w、h，对候选区域的位置进行精修，位移平移或缩放为4*k维数组参数，4*k表示每一个候选区域左上角坐标、长和高4个参数，表达式为：t_t＝{t_x,t_y,t_w,t_h}，其中t_x,t_y,t_w,t_h分别表示候选区域尺度不变的左上角坐标平移和对数空间相对于候选区域的宽和高。Fast R-CNN将特征向量输出为两个输出向量，直接一次性输出分类的结果和回归后的bounding-box。

本发明的有益效果在于：

事先对训练集进行数据的标定得到标签样本集，将样本集输入到RPN卷积神经网络进行训练，RPN卷积神经网络相当于一个能够确定果蔬位置的回归器。RPN的主要功能之一为：利用anchor和边框回归得到多尺度多长宽比的Region Proposal，在特征图上利用滑动小网络与特征图上3*3的窗口全连接，再映射到一个低维向量，最后将该向量送入两个全连接层，实现多尺度目标的框定，适应自然场景，再利用IoU这个定位精度评价指标，得到最佳bounding box。再训练Fast R-CNN卷积神经网络，将RPN卷积神经网络获得的建议区域作为输入，对建议区域进行检测并识别出Proposal中的目标。与现有技术相比，这种方法对果蔬形状大小、变异遮挡不敏感，能够提升果蔬的检测精度，而且只要正确得到最终模型，之后的测试相对简易，同时通过RPN及Fast R-CNN卷积神经网络的共享卷积层参数，使计算量大大降低，若投入到采摘机器人的视觉系统，对于解放劳动力、提高生产效率、降低生产成本、保证新鲜果蔬品质，以及满足作物生长的实时性要求等方面都有着很重要的意义。

附图说明

图1为本发明所述果蔬检测方法的流程图；

图2为RPN网络结构图；

图3为本发明所述Faster R-CNN统一的网络结构示意图；

图4是本发明IoU定义同一候选区域的两个bounding box的重叠度示意图；

图5-10为本发明所述果蔬检测方法的结果效果图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

Faster R-CNN网络由一个RPN卷积神经网络和一个Fast R-CNN卷积神经网络组成，其中RPN卷积神经网络处理的是回归问题，在本发明中主要负责获得图片中各类果蔬的候选区域；Fast R-CNN卷积神经网络处理的是分类问题，在发明中负责对RPN获取的候选区域进行进一步的筛选，判别候选区域属于前景还是背景。

以下将参照附图，对本发明进行详细的描述。

如图1所示，本发明采用的是Faster R-CNN算法，将事先人工做好标注和标签的任意大小的图片作为网络的输入训练集，再训练RPN卷积神经网络来获取处理的训练集图片中各类果蔬的候选区域，然后将各类果蔬候选区域送入训练好的Fast R-CNN卷积神经网络中做分类工作，根据Fast R-CNN卷积神经网络的输出向量判别果蔬的候选区域是否属于最佳果蔬区域，若为最佳候选区域，则得到果蔬最终区域。因为果蔬检测不仅需要定位出目标边界框，还需要识别出边界框里面的物体是否为果蔬，这里采用IoU这个定位精度评价指标来对多个边界框进行回归，得到最佳的候选区域。

在本发明中，RPN卷积神经网络前五层借用ZF网络(具体实现步骤为RPN卷积神经网络具体实现前7个步骤)，后接两个全连接层进行分类和回归的输出Fast R-CNN卷积神经网络由五个卷积层、一个ROI池化层，两个全连接进行分类和回归的输出。

如图2所示，RPN卷积神经网络具体实现步骤：

1、首先，假设输入图片大小是224*224*3(3指RGB三种通道)；

2、然后第一层的卷积核维度是7*7*3*96(所有的卷积核维度为4维)；

3、第一层卷积层conv1得到图片大小是110*110*96(110由公式(224-7+pad)/2+1所得，pad指图片的周围补充像素，为了得到整数像素值，除以2中2为步幅)；

4、然后就是做一次池化，得到pool1，池化核的大小是3*3，所以池化后图片的大小是55*55*96((110-3+pad)/2+1＝55)；

5、接着就是再一次卷积，这次的卷积核的维度是5*5*96*256，得到conv2：图片大小为26*26*256；

6、后面就是类似的过程了，如果有些地方除法除不尽，可以做pad填充；

7、最后取的是第五层卷积之后conv5的输出，也就是13*13*256的特征图送给RPN网络；

8、在得到的特征图上用3*3的滑动窗口，用一个3*3*256*256的一个4维的卷积核，就可以将每一个3*3的滑动窗口卷积成一个256维的向量；

9、然后就是k＝9，即9个不同尺寸的anchor，在256维的向量和分类层(cls layer)之间使用一个1*1*256*18的卷积核，就可以得到分类层的输出，所以分类层就是18(2*9)个输出节点，对每个anchor做一个二分类工作，判定每个anchor属于前景还是背景的概率值；

回归层(reg layer)也是一样了，同上，在256维的向量和回归层之间使用一个1*1*256*36的卷积核，就得到回归层的输出，所以回归层就是36(4*9)个输出节点，得到每个anchor的坐标需要平移/缩放的参数值。

如图3所示，Fast R-CNN卷积神经网络具体实现步骤：

1、对于一张任意给定大小的图片，通过SS(selective search)方法提取2000个候选框；

2、将任意大小的图片输入到Fast R-CNN网络，经过五层卷积池化操作之后，得到一张特征图；

3、将该特征图和提取的候选框输入到ROI池化层，因为输入全连接层的特征图必须是固定统一大小，所以用ROI池化层对特征图统一到相同大小；

4、将ROI池化层输出的每个ROI输入一个全连接层，求对应的映射关系，得到特征向量；

5、将特征向量同时作为两个全连接层的输入，得到两个优化之后的结果。第一个优化结果使用softmax方法进行分类，第二个优化目标是bounding box边界框回归，使用了一个smooth的L1-loss，是为了提高网络对离群点即异常点的鲁棒性。

在生成的最终Faster R-CNN模型中，遵循多任务损失函数来最小化目标函数，具体将分类和回归的Loss函数值进行叠加，模型好坏的指标为Loss函数值的大小，用Loss函数来评价模型的预测值与真实值之间的差异程度。

多任务损失函数表达式：

在发明内容里已详细介绍过多任务损失函数的相关定义，这里不重复介绍。

其中正标签的判定方法为当anchor与任意Ground Truth包围框的IoU值大于设定阈值(如0.7)即判定为正标签；负标签的判定方法为当anchor与所有Ground Truth包围框的IoU值小于设定阈值(如0.3)即判定为负标签。

如图4所示，IoU定义同一候选区域的两个bounding box的重叠度，：

矩形框A、B的一个重合度IoU计算公式为：

IoU＝(A∩B)/(A∪B)

就是矩形框A、B的重叠面积占A、B并集的面积比例：

IoU＝S_i/(S_A+S_B-S_i)

其中S_A表示A边界框的面积、S_B表示B边界框的面积、S_i表示A边界框与B边界框的交集面积。

同时为了降低冗余性，在分类值cls score基础上对候选区域应用NMS(non-maximum suppression)方法，来判别图片中找到n多个可能是物体的矩形框中(一个真实目标对应n个可能是物体的矩形框)，哪些矩形框是无用的。假设一张图中有6个矩形框都判定为有目标的目标框，根据分类器类别分类概率做排序，从小到大分别属于果蔬的概率分别为A、B、C、D、E、F。

1、从最大概率矩形框F开始，分别判断A～E与F的重叠率IoU是否大于某个设定的阈值，假设阈值为0.7；

2、假设A、D与F的重叠率大于设定阈值，那么扔掉A、D，并标记第一个矩形框F，是我们保留下来的；

3、从剩下的B、C、E中选取概率值最大的E，然后判断E与B、C的重叠率，重叠率大于0.7，那么就扔掉；并且标记E为我们保留下来的第二个矩形框；

这样一直重复下去，直到找到最后被保留下来的矩形框。

最后Fast R-CNN的回归输出会对每个bounding box进行位移的调整，回归的目标是寻找一种关系使得输入的原始窗口P(Proposal)经过映射达到一个跟真实标定窗口G(Ground Truth)更接近的回归预测窗口

Faster R-CNN中的bounding box回归调整公式为：

t_w＝log(w/w_a)t_h＝log(h/h_a)

t_x ^*＝(x^*-x_a)/w_a t_y ^*＝(y^*-y_a)/h_a

t_w ^*＝log(w^*/w_a)t_h ^*＝log(h^*/h_a)

t_x,t_y,t_w,t_h表示候选区域尺度不变的左上角坐标平移和对数空间相对于候选区域的宽和高；t_x ^*,t_y ^*,t_w ^*,t_h ^*表示回归预测窗口经过平移缩放之后的左上角坐标、宽和高。

Faster R-CNN模型具体测试过程：

通过上述训练之后得到果蔬检测的最终Faster R-CNN模型，在测试阶段只需要把需要测试的图片放入测试函数调用对应的文件下，修改测试函数中对应的参数值(如类别数目)就可以调用上述训练得到的最终果蔬检测模型进行果蔬的检测，调用训练迭代次数2万次的最终模型，进行测试，得到检测结果mAP值为0.751。图5至图10分别为草莓、橘子与芒果的测试结果效果图。红色边框表示每个果蔬目标的bbox，左上角的标注表示该边界框表示的果蔬种类，其中s表示strawberry草莓、o表示orange橘子、m表示mango芒果，种类后面的数字表示在Faster R-CNN模型下简称该边界框为对应类果蔬的检测精度，可以看出，即使在有障碍物遮挡的情况下，系统也可以正确的识别出目标。

Claims

1.一种基于深度学习的果蔬检测方法，包括：

步骤1，首先对数据进行预处理；对原始图片事先进行手工标定，获得分割标签。标定是指原始图片中目标框的左上角点与右下角点的坐标，标签是指判定每个标定框中目标是否为果蔬及确定果蔬的类别。

步骤2，其次对数据进行训练；将所述原始图片和图片标签作为深度学习神经网络的训练集，结合区域建议网络RPN及Fast R-CNN卷积神经网络对数据进行训练，得到最终果蔬检测模型。

步骤3，最后对测试数据进行测试；调用最终果蔬检测模型及测试程序，对测试图片进行果蔬的检测，通过观察测试结果，分析最终果蔬检测模型效果的好坏。

2.如权利要求1所述的一种基于深度学习的果蔬检测方法，其特征在于：权利要求书1中步骤2对数据进行训练，RPN和Fast R-CNN卷积神经网络通过交替训练阶段实现卷积层共享特征图，训练具体步骤如下：

Step 1：用训练好的ImageNet预训练模型RPN，使用反向传播算法调整RPN卷积神经网络参数，得到RPN卷积神经网络新模型M1，在训练集上调用训练好的RPN卷积神经网络模型M1，产生果蔬的候选区域P1；反向传播算法是指是使Faster R-CNN的多任务损失函数值最小化，损失函数表达式为：

<mrow> <mi>L</mi> <mrow> <mo>(</mo> <mo>{</mo> <mi>p</mi> <mi>i</mi> <mo>}</mo> <mo>,</mo> <mo>{</mo> <mi>t</mi> <mi>i</mi> <mo>}</mo> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>N</mi> <mi>c</mi> <mi>l</mi> <mi>s</mi> </mrow> </mfrac> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <mi>L</mi> <mi>c</mi> <mi>l</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>p</mi> <mi>i</mi> <mo>,</mo> <msup> <mi>pi</mi> <mo>*</mo> </msup> <mo>)</mo> </mrow> <mo>+</mo> <mi>&lambda;</mi> <mfrac> <mn>1</mn> <mrow> <mi>N</mi> <mi>r</mi> <mi>e</mi> <mi>g</mi> </mrow> </mfrac> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <mi>p</mi> <mi>i</mi> <mo>*</mo> <mi>L</mi> <mi>r</mi> <mi>e</mi> <mi>g</mi> <mrow> <mo>(</mo> <mi>t</mi> <mi>i</mi> <mo>,</mo> <msup> <mi>ti</mi> <mo>*</mo> </msup> <mo>)</mo> </mrow> </mrow>

Pi*Lreg就表示只有为正标签的锚anchor才有回归损失函数；

Lcls(pi,pi^*)分类损失函数表达式为：

Lcls(pi,pi^*)＝-log[p_i ^*p_i+(1-p_i ^*)(1-p_i)]

Lreg(ti,ti^*)回归损失函数表达式为：

Lreg(ti,ti^*)＝R(t_i-t_i ^*)

其中R表示平滑smooth的损失函数1即L1-loss，该损失函数表达式为：

<mrow> <msub> <mi>smooth</mi> <msub> <mi>L</mi> <msup> <mn>1</mn> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> </msup> </msub> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>0.5</mn> <msup> <mi>x</mi> <mn>2</mn> </msup> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mrow> <mo>|</mo> <mi>x</mi> <mo>|</mo> </mrow> <mo><</mo> <mn>1</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mrow> <mo>|</mo> <mi>x</mi> <mo>|</mo> </mrow> <mo>-</mo> <mn>0.5</mn> </mrow> </mtd> <mtd> <mrow> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

pi^*表示真值Ground Truth的标签，及图片是目标的概率值：

t_i ^*表示每个正标签对应的GT包围框的四个参数化坐标；

位置精修法：

先做边界框的位置平移(Δx,Δy)，Δx＝p_wdx(p),Δy＝p_hdy(p)；

再经过尺寸缩放(s_w,s_h)，s_w＝p_wd_w(p)，s_h＝p_hd_h(p)；

3.如权利要求1所述的一种基于深度学习的果蔬检测方法，其特征在于：权利要求书1中步骤2对数据进行训练，RPN卷积神经网络的前五层卷积层为特征提取层，第六层卷积层将特征图中果蔬的位置编码为一组向量，为特征映射层，第七层卷积层对每个果蔬位置进行输出为一个目标置信度，目标置信度即根据IoU计算bounding box边界框的准确度，IoU即Intersection over Union的值定义：Region Proposal与Ground Truth的窗口的交集比并集的比值；因为得到的候选区域有些高度重合，为了降低冗余性，在分类值cls score基础上对候选区域应用NMS方法，将IoU阈值设为0.7，即候选区域与任意真实数据GT的IoU重叠超过0.7的框为正标签。最后一层为输出层，采用Softmax分类法，得到每个目标框的clsscore。

4.如权利要求1所述的一种基于深度学习的果蔬检测方法，其特征在于：权利要求书1中步骤2对数据进行训练，Fast R-CNN卷积神经网络，包括五个卷积层，一个池化层ROI，该ROI池化层本质上相当于一个SPP的简化，因为全连接层的输入必须是统一固定大，所以先将每个ROI池化到一个固定大小的特征图，再通过全连接层将特征图映射到一个特征向量，将特征向量分别输入到一个分类全连接层cls-layer，输出k+1位数组p，k+1表示样本类别为k类，加1表示还有一类为背景，共k+1类，用于判定该proposal是前景还是背景，每个ROI的输出离散型概率分布表达式为：p＝(p₀,p₁,…p_k,)其中pi表示第i个ROI是前景的概率；一个回归全连接层reg-layer，用于预测proposal的中心锚点对应的proposal的左上角坐标x、y和宽高w、h，对候选区域的位置进行精修，位移平移或缩放为4*k维数组参数，4*k表示每一个候选区域左上角坐标、长和高4个参数，表达式为：t_t＝{t_x,t_y,t_w,t_h}，其中t_x,t_y,t_w,t_h分别表示候选区域尺度不变的左上角坐标平移和对数空间相对于候选区域的宽和高。FastR-CNN将特征向量输出为两个输出向量，直接一次性输出分类的结果和回归后的bounding-box。