CN113705321A

CN113705321A - 基于Faster-Rcnn的双向多尺度特征融合目标检测方法及装置

Info

Publication number: CN113705321A
Application number: CN202110624963.9A
Authority: CN
Inventors: 王亮; 黄冬虹; 董新利; 李勇; 刘丹; 邢琳琳; 祁丽荣; 黄建安; 李夏喜; 揭慧; 董向民
Original assignee: Beijing Gas Group Co Ltd
Current assignee: Beijing Gas Group Co Ltd
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2021-11-26

Abstract

本发明公开了一种基于Faster‑Rcnn的双向多尺度特征融合目标检测方法及装置，该方法包括：采集目标区域内待检测目标的原始图像；提取待检测目标的特征图像；将得到的待检测目标的特征图像划分成多个预设矩形框，对多个预设矩形框进行多次筛选，得到多个预测矩形框；基于多个预测矩形框，获取待检测目标的特征图像与待检测目标的原始图像的关联关系；基于待检测目标的特征图像与待检测目标的原始图像的关联关系，计算每个预测矩形框的类别，识别出目标。本发明实现对目标区域内目标人员的检测和识别。

Description

基于Faster-Rcnn的双向多尺度特征融合目标检测方法及装置

技术领域

本发明涉及检测技术领域，具体涉及一种基于Faster-Rcnn的双向多尺度特征融合目标检测方法及装置。

背景技术

燃气资源作为我国的一项战略资源，在生产生活中占据着重要地位。燃气设施的安全问题是影响公共安全的关键环节，对燃气设备现场进行人员识别，保护燃气设备，维护燃气的安全运行和平稳供应迫在眉睫。

CN111027542A提出在特征提取骨干网络中加入DenseBlock环节，这一措施可以提高些许网络提取特征的能力，但还是无法有效检测小目标。

CN111178434A中也加入了多尺度特征融合的方法，但是他所使用的特征融合只是一个单向的融合，这样的融合方法已经有了很大的提升，但是还有提升的空间。

因此，如何有效检测现场人员，对现场视频信息进行分析，实现对现场人员识别仍是待解决的技术问题。

发明内容

有鉴于此，本发明提出一种基于Faster-Rcnn的双向多尺度特征融合目标检测方法及装置，能够对现场视频信息进行分析，并实现燃气现场人员的检测与识别。

本发明一方面提供一种基于Faster-Rcnn的双向多尺度特征融合目标检测方法，该方法包括：采集目标区域内待检测目标的原始图像；提取待检测目标的特征图像；将得到的待检测目标的特征图像划分成多个预设矩形框，对多个预设矩形框进行多次筛选，得到多个预测矩形框；基于多个预测矩形框，获取待检测目标的特征图像与待检测目标的原始图像的关联关系；基于待检测目标的特征图像与待检测目标的原始图像的关联关系，计算每个预测矩形框的类别，识别出目标。

进一步的，所述待检测目标的特征图像的提取方法为：将待检测目标的原始图像信息输入到基于SE-Attention和BiFPN的VGG-16特征提取网络中，通过基于SE-Attention和BiFPN的VGG-16网络对待检测目标的原始图像信息进行处理，得到待检测目标的特征图像。

进一步的，所述基于SE-Attention和BiFPN的VGG-16网络对待检测目标的原始图像信息进行处理的方法包括：输入待检测目标的原始图像，初始提取多个通道的待检测目标的特征图像；对不同通道的待检测目标的特征图像进行全局池化处理，得到标准池化后的待检测目标的特征图像；将标准池化后的待检测目标的特征图像进行非线性激活，并将非线性激活后的待检测目标的特征图像进行归一化处理；将归一化处理的待检测目标的特征图像与初始提取的待检测目标的特征图像进行点乘，得到最终提取出的待检测目标的特征图像。

进一步的，所述将得到的待检测目标的特征图像划分成多个预设矩形框，对多个预设矩形框进行筛选，得到多个预测矩形框的步骤包括：输入待检测目标的特征图像，并对待检测目标的特征图像进行卷积操作，得到多个预设矩形框，将多个预设矩形框经过目标筛选和变化后，形成目标矩形框；判断多个预设矩形框的类型，并计算目标矩形框的预测值，利用目标矩形框的预测值对目标矩形框进行回归；输入多个预设矩形框的类型、目标矩形框的回归结果以及特征图像像素点和原图像素点的对应关系，对多个预设矩形框进行多次筛选，并计算筛选后的多个预设矩形框的样本值，根据样本值的大小，按照设定的比例，选取相应数量的预设矩形框作为预测矩形框。

进一步的，所述基于待检测目标的特征图像与待检测目标的原始图像的关联关系，计算每个预测矩形框的类别，识别出目标的方法包括：

基于待检测目标的特征图像与待检测目标的原始图像的关联关系，通过全连接层与交叉熵对多个预测矩形框进行分类，输出预测矩形框的类别以及位置偏移量，根据预测矩形框的类别判断是否为目标。

进一步的，还包括根据预测矩形框的类别以及位置偏移量，进行预测矩形框进行回归。

本发明第二方面提供一种基于Faster-Rcnn的双向多尺度特征融合目标检测装置，该装置包括：图像采集模块，用于采集目标区域内待检测目标的原始图像；特征提取模块，用于提取待检测目标的特征图像；矩形框筛选模块，用于将得到的待检测目标的特征图像划分成多个预设矩形框，对多个预设矩形框进行多次筛选，得到多个预测矩形框；关系获取模块，用于基于多个预测矩形框，获取待检测目标的特征图像与待检测目标的原始图像的关联关系；目标识别模块，用于基于待检测目标的特征图像与待检测目标的原始图像的关联关系，计算每个预测矩形框的类别，识别出目标。

进一步的，所述特征提取模块提取待检测目标的特征图像的方法为：

将待检测目标的原始图像信息输入到基于SE-Attention和BiFPN 的VGG-16特征提取网络中，通过基于SE-Attention和BiFPN的VGG-16 网络对待检测目标的原始图像信息进行处理，得到待检测目标的特征图像。

进一步的，所述矩形框筛选模块将得到的待检测目标的特征图像划分成多个预设矩形框，对多个预设矩形框进行筛选，得到多个预测矩形框的方法为：输入待检测目标的特征图像，并对待检测目标的特征图像进行卷积操作，得到多个预设矩形框，将多个预设矩形框经过目标筛选和变化后，形成目标矩形框；判断多个预设矩形框的类型，并计算目标矩形框的预测值，利用目标矩形框的预测值对目标矩形框进行回归；输入多个预设矩形框的类型、目标矩形框的回归结果以及特征图像像素点和原图像素点的对应关系，对多个预设矩形框进行多次筛选，并计算筛选后的多个预设矩形框的样本值，根据样本值的大小，按照设定的比例，选取相应数量的预设矩形框作为预测矩形框。

针对进入现场的工作人员，通过上述的基于Faster-Rcnn的双向多尺度特征融合人员检测方法，对现场视频信息进行分析，并实现燃气现场人员的检测与识别。

上述的基于Faster-Rcnn的双向多尺度特征融合人员检测方法，使用Faster-Rcnn算法在人员识别精度上，同时在速度上也可以达到 10FPS，同时通过多尺度特征图像融合的方法，来解决燃气现场要求的精度问题。

上述的基于Faster-Rcnn的双向多尺度特征融合人员检测方法，在网络中加入多尺度特征融合之后，网络容易出现一定程度的过拟合，所以在Faster-Rcnn算法中加入空间注意力机制，提高网络的泛化性能；最后因为燃气现场的人员出现呈现出现频率低，出现时人员密集的情况，对于人员密集的情况，往往会出现漏检的情况，所以在网络中加入 soft-nms机制，提高检测结果的召回率。

附图说明

为了说明而非限制的目的，现在将根据本发明的优选实施例、特别是参考附图来描述本发明，其中：

图1是实施例一提供的基于Faster-Rcnn的双向多尺度特征融合目标检测方法的流程图；

图2是BiFPN网络的结构示意图；

图3是加入SE-Attention的BiFPN网络的结构示意图；

图4是实施例二提供的基于Faster-Rcnn的双向多尺度特征融合目标检测装置的结构框图；

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

实施例一

图1是本实施例一提出的基于Faster-Rcnn的双向多尺度特征融合目标检测方法流程图。

目前使用深度学习去解决实际的人员检测的任务时，常常面临两个问题：

(1)如何利用深度的神经网络去做目标的定位；

(2)如何在一个小规模的数据集上训练能力强劲的网络模型；

对于两个待解决的问题，目前实际应用最多的是使用RCNN算法， RCNN算法在目标检测数据集上，能够将目标检测的验证指标提升到 53.3％,这相比于其他机器学习算法最好的结果提升了整整30％。RCNN对每一个提出的proposal都设计了一个专属的特征提取和预测结构，每一个结构参数不共享，需要耗费大量的显存去进行计算。因为有大量的结构，所以导致训练速度也非常慢。但是针对燃气场合，对人员检测的精度要求非常高，RCNN算法无法达到精度要求。

因此，本申请采用Faster-Rcnn网络，在Faster-Rcnn网络中加入了SPP结构，实现了参数共享，减少了参数量，由于参数的减少，训练周期也随之减少，网络速度也有了提高。同时Faster-Rcnn网络在精度上也有了提升。

在本实施例中，所述基于Faster-Rcnn的双向多尺度特征融合目标检测方法可以应用于计算机装置中，对于需要进行目标检测的计算机装置，可以直接在计算机装置上集成本发明的方法所提供的用于目标检测的功能，或者以软件开发工具包(SoftwareDevelopment Kit，SDK)的形式运行在计算机装置上。

如图1所示，所述基于Faster-Rcnn的双向多尺度特征融合目标检测方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。

本实施例中，所述计算机装置可以为个人电脑、服务器、智能电视、便携式电子设备如手机、平板电脑等设备。

本实施例中，以燃气现场作为目标区域，工作人员作为检测目标，本实施例提出的目标检测方法包括以下步骤：

S101，采集燃气现场中待检测人员的原始图像。

本实施例中，通过燃气现场的燃气前端摄像头采集燃气现场待检测人员的原始图像信息，其大小为227*227。

S102，提取待检测人员的特征图像。

现有的cnn特征提取网络，是将一些原始的输入的数据维度减少或者将原始的特征进行重新组合以便于后续的使用。简单来说有两个作用：减少数据维度，整理已有的数据特征。

一个图像往往有几百乘几百的像素点，每一个像素点都有一个对应的特征值，也可以称为特征量，减少数据维度，整理已有的数据特征在图像处理的过程中就是把图像中感兴趣的区域提取整理出来。

而本实施例采用的Faster-Rcnn网络是通过vgg16网络这个骨干网络来提取网络特征，通过特征提取网络后，算法会输出一个相比原图的高宽有16倍缩放的特征图像。

VGG-16网络主要是由3*3卷积、最大池化层及激活层组成，它具有划时代的意义，是深度学习中一个里程碑。但是随着硬件的不断升级，数据的不断增多，单纯的VGG-16网络也渐渐跟不上实际需求。在燃气现场的人员识别中，对小目标的要求比较高，Faster-Rcnn在小目标的识别精度上还达不到需求，而小目标的特征信息提取需要比较深更加负责的网络结构去提取。

因此，本实施例在VGG-16网络中加入BiFPN结构来丰富网络特征， BiFPN的结构如图2所示。

BiFPN结构不止进行从浅层特征到深层特征的融合，还会进行深层特征到浅层特征的融合，通过这样的双向多尺度融合方法，网络可以提取更多的小目标信息来提高预测精度。

除了BiFPN结构，本实施例还在VGG-16网络中加入SE-Attention 结构，因为从BiFPN得到的网络结构因为下采样次数比较多，所以得到的特征通道数量比较多，为了防止网络的过拟合，可以通过设置一个结构来学习不同特征通道对网络结果的一个影响程度。

图3示出了加入SE-Attention的BiFPN结构图。加入SE-Attention 的BiFPN结构，在两个卷积结点之间会建立一个短边结构，对不同通道的特征图像使用全局池化，得到一个1*1*C的特征图像后，随后进行非线性激活，再进行归一化处理，最后将输出结果与一开始的输入结点进行点乘后，得到输出结果，这样的输出相比之前的输出，会减小对网络共享程度小的特征层的程度。

上述的待检测人员的特征图像的提取方法为：

将获取到的待检测人员的原始图像信息输入到基于SE-Attention 和BiFPN的VGG-16特征提取网络中，通过基于SE-Attention和BiFPN 的VGG-16网络对待检测人员的原始图像信息进行处理，得到待检测人员的特征图像。

其中，基于SE-Attention和BiFPN的VGG-16特征提取网络对待检测人员的原始图像信息进行处理的步骤包括：

(1)输入待检测人员的原始图像，初始提取多个通道的待检测人员的特征图像；

(2)对不同通道的待检测人员的特征图像进行全局池化处理，得到一个1*1*C的待检测人员的特征图像；

(3)对得到的1*1*C的待检测人员的特征图像进行非线性激活，并将非线性激活后的待检测人员的特征图像进行归一化处理；

(4)将归一化处理的待检测人员的特征图像与初始提取的待检测人员的特征图像进行点乘，得到最终提取出的待检测人员的特征图像。

S103，将得到的待检测人员的特征图像划分成多个预设矩形框，对多个预设矩形框进行筛选和变化后，得到多个预测矩形框。

本实施例中，通过RPN网络将得到的待检测人员的特征图像划分成多个预设矩形框，对多个预设矩形框进行筛选和变化后，得到多个样本值，其具体实现方法为：

在得到待检测人员的特征图像后，RPN网络首先对输入的 (M/16)x(N/16)(M，N是输入图像的长宽大小)的待检测人员的特征图像做一个3x3卷积操作，得到多个预设矩形框，然后判断预设矩形框的类别，以及计算目标矩形框的预测值。

预设矩形框的获取方法为：

对特征提取网络提取得到的待检测人员的特征图像的每个像素点预先设定3*3个预设矩形框(anchor)，9个预设矩形框按照3种大小，3 种比例，个个都不相同。预设矩形框经过一些筛选和变化之后形成目标矩形框(bbox)和预测矩形框(proposal)。

RPN网络得到预设矩形框的类别以及计算出目标矩形框的预测值后，会分别输出目标矩形框的四个预测值(x,y,w,h)，以及预设矩形框的类别(划分为背景和物体)，得到了目标矩形框的预测值后，可使用预测值对目标矩形框进行回归。

在RPN网络结构的最后部分是Proposal Layer层，该部分的输入有三个：其中两个是预设矩形框分类器结果，目标矩形框回归之后的结果。最后一个是特征图像像素点和原图像素点的对应关系，因为在之前的特征提取网络结构中，原始图像经过16倍的缩放后，最后得到包含原始图像信息的特征图像，它们之间存在空间对应关系，得到特征图像像素点和原图像素点的对应关系，预测矩形框就可以和真实的矩形框，进行比较然后计算损失，优化网络模型。

Proposal Layer层在得到这三个输入结果后，首先对预设矩形框进行第一次筛选(进行筛选的目的是因为预设矩形框太多，全部作为预测矩形框传入后面的网络结构会使网络速度骤减)，接着对预设矩形框进行置信度排序，排序后大概取其前6000个预设矩形框，再对其进行非极大值处理，大概得到2000个预设矩形框后，使用图像中物体的真实矩形框对这些预设矩形框计算样本值，其中样本值大于0.7的预设矩形框作为正样本，样本值小于0.3的预设矩形框作为负样本，正样本和负样本的总数是128个，随后按照一比三的比例放入ROI-Pooling层，进入 ROI-Pooling层的预测矩形框称作预测矩形框。

通过改进后的网络对燃气现场人员的检测能力比较高，而燃气现场的人员往往存在阶段性出现，出现时人员比较密集的情况，目前所使用的网络策略是通过判断两个检测物体的置信度高低后，再判断两个物体之间的矩形框的重叠面积来计算样本值，如果样本值阈值超过设定大小，就会将置信度分数比较低的矩形框进行删除，将得分比较高的设为检测结果。

两个距离很近的燃气人员往往会因为矩形框重叠面积过大而去除掉一个矩形框，所以网络打算加入softnms的矩形框筛选策略，在进行NMS 的时候，不直接进行矩形框的删除，而是通过进行线性加权来降低矩形框的置信度得分，保留矩形框进行下一轮的筛选。

本实施例适用于当前各类目标检测的实际应用中，采用的骨干网络是添加BiFPN和SE-Attention的VGG16网络，可以提高目标检测的精度，对小目标的检测精度有提升。在网络的最后阶段，使用的soft-nms策略可以提高检测结果的召回率。

S104，利用多个预测矩形框，获取提取得到的待检测人员的特征图像与待检测人员的原始图像的关联关系。

本实施例主要是通过ROI-Pooling层获取提取得到的待检测人员的特征图像与待检测人员的原始图像的对应关系。

ROI-Pooling层主要是得到特征图像和原始图像的对应关系，在整个网络中，只会进行一次ROI-Pooling操作，为每个预设矩形框分配对应的真实矩形框，就可以通过预测值和真实矩形框的差别来计算梯度损失，进行反向传播来更新网络。

在之前RPN网络，已经剔除了绝大部分网络预先设定的矩形框，利用RPN网络的预测值更新预设矩形框后，按照正负样本3：1放入 ROI-Pooling层，ROI-Pooling层则根据特征提取网络的步长得到了每一个预设矩形框和原图真实矩形框的关联关系，随后ROI-pooing层将得到的关联关系和RPN网络处得到的预测矩形框一起放入后面的classification层。

S105，基于待检测人员的特征图像与待检测人员的原始图像的关联关系，计算每个预测矩形框的类别，识别出工作人员。

在本实施例中，通过classification层基于待检测人员的特征图像与待检测人员的原始图像的关联关系，并通过全连接层与交叉熵对预测矩形框进行分类，输出预测矩形框所对应的类别是否为工作人员，并输出每个类别的概率以及预测矩形框的位置偏移量，再次进行预测矩形框进行回归，获取更高精度的预测矩形框。

实施例二

图4是本实施例二提出的基于Faster-Rcnn的双向多尺度特征融合目标检测装置20的结构框图。

在本实施例中，所述目标检测装置20可以应用于计算机装置中，所述目标检测装置20可以包括多个由程序代码段所组成的功能模块。所述目标检测装置20中的各个程序段的程序代码可以存储于计算机装置的存储器中，并由所述计算机装置的至少一个处理器所执行，以实现(详见图1描述)事理图谱在线扩展功能。

本实施例中，所述目标检测装置20根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：图像采集模块201、特征提取模块202、矩形框筛选模块203、关系获取模块204及目标识别模块 205。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

所述图像采集模块201，用于采集燃气现场中待检测人员的原始图像。

所述特征提取模块202，用于提取待检测人员的特征图像。

具体地，所述特征提取模块202将获取到的待检测人员的原始图像信息输入到基于SE-Attention和BiFPN的VGG-16特征提取网络中，通过基于SE-Attention和BiFPN的VGG-16网络对待检测人员的原始图像信息进行处理，得到待检测人员的特征图像。

所述矩形框筛选模块203，用于将得到的待检测人员的特征图像划分成多个预设矩形框，对多个预设矩形框进行筛选和变化后，得到多个预测矩形框。

具体地，所述矩形框筛选模块203的具体实现过程包括：

输入待检测目标的特征图像，并对待检测目标的特征图像进行卷积操作，得到多个预设矩形框，将多个预设矩形框经过目标筛选和变化后，形成目标矩形框；

判断多个预设矩形框的类型，并计算目标矩形框的预测值，利用目标矩形框的预测值对目标矩形框进行回归；

输入多个预设矩形框的类型、目标矩形框的回归结果以及特征图像像素点和原图像素点的对应关系，对多个预设矩形框进行多次筛选，并计算筛选后的多个预设矩形框的样本值，根据样本值的大小，按照设定的比例，选取相应数量的预设矩形框作为预测矩形框。

所述关系获取模块204，用于利用多个预测矩形框，获取提取得到的待检测人员的特征图像与待检测人员的原始图像的关联关系。

具体地，所述关系获取模块204，通过ROI-Pooling层获取提取得到的待检测人员的特征图像与待检测人员的原始图像的对应关系。

所述目标识别模块205，用于基于待检测人员的特征图像与待检测人员的原始图像的关联关系，计算每个预测矩形框的类别，识别出工作人员。

具体地，所述目标识别模块205通过classification层基于待检测人员的特征图像与待检测人员的原始图像的关联关系，并通过全连接层与交叉熵对预测矩形框进行分类，输出预测矩形框所对应的类别是否为工作人员，并输出每个类别的概率以及预测矩形框的位置偏移量，再次进行预测矩形框进行回归，获取更高精度的预测矩形框。

通过上述的基于Faster-Rcnn的双向多尺度特征融合人员检测装置，对现场视频信息进行分析，并实现燃气现场人员的检测与识别。上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种基于Faster-Rcnn的双向多尺度特征融合目标检测方法，其特征在于，包括：

采集目标区域内待检测目标的原始图像；

提取待检测目标的特征图像；

将得到的待检测目标的特征图像划分成多个预设矩形框，对多个预设矩形框进行多次筛选，得到多个预测矩形框；

基于多个预测矩形框，获取待检测目标的特征图像与待检测目标的原始图像的关联关系；

基于待检测目标的特征图像与待检测目标的原始图像的关联关系，计算每个预测矩形框的类别，识别出目标。

2.根据权利要求1所述的基于Faster-Rcnn的双向多尺度特征融合目标检测方法，其特征在于，所述待检测目标的特征图像的提取方法为：

将待检测目标的原始图像信息输入到基于SE-Attention和BiFPN的VGG-16特征提取网络中，通过基于SE-Attention和BiFPN的VGG-16网络对待检测目标的原始图像信息进行处理，得到待检测目标的特征图像。

3.根据权利要求2所述的基于Faster-Rcnn的双向多尺度特征融合目标检测方法，其特征在于，所述基于SE-Attention和BiFPN的VGG-16网络对待检测目标的原始图像信息进行处理的方法包括：

输入待检测目标的原始图像，初始提取多个通道的待检测目标的特征图像；

对不同通道的待检测目标的特征图像进行全局池化处理，得到标准池化后的待检测目标的特征图像；

将标准池化后的待检测目标的特征图像进行非线性激活，并将非线性激活后的待检测目标的特征图像进行归一化处理；

将归一化处理的待检测目标的特征图像与初始提取的待检测目标的特征图像进行点乘，得到最终提取出的待检测目标的特征图像。

4.根据权利要求1所述的基于Faster-Rcnn的双向多尺度特征融合目标检测方法，其特征在于，所述将得到的待检测目标的特征图像划分成多个预设矩形框，对多个预设矩形框进行筛选，得到多个预测矩形框的步骤包括：

5.根据权利要求4所述的基于Faster-Rcnn的双向多尺度特征融合目标检测方法，其特征在于，所述对多个预设矩形框进行多次筛选的步骤包括：

对多个预设矩形框进行初次筛选，按照预设矩形框置信度，对初次筛选后的预设矩形框进行排序，二次筛选排序靠前的多个预设矩形框；对二次筛选出的多个预设矩形框进行非极大值处理，三次筛选出多个预设矩形框。

6.根据权利要求1所述的基于Faster-Rcnn的双向多尺度特征融合目标检测方法，其特征在于，所述基于待检测目标的特征图像与待检测目标的原始图像的关联关系，计算每个预测矩形框的类别，识别出目标的方法包括：

7.根据权利要求6所述的基于Faster-Rcnn的双向多尺度特征融合目标检测方法，其特征在于，还包括根据预测矩形框的类别以及位置偏移量，进行预测矩形框进行回归。

8.一种基于Faster-Rcnn的双向多尺度特征融合目标检测装置，其特征在于，包括：

图像采集模块，用于采集目标区域内待检测目标的原始图像；

特征提取模块，用于提取待检测目标的特征图像；

矩形框筛选模块，用于将得到的待检测目标的特征图像划分成多个预设矩形框，对多个预设矩形框进行多次筛选，得到多个预测矩形框；

关系获取模块，用于基于多个预测矩形框，获取待检测目标的特征图像与待检测目标的原始图像的关联关系；

目标识别模块，用于基于待检测目标的特征图像与待检测目标的原始图像的关联关系，计算每个预测矩形框的类别，识别出目标。

9.根据权利要求8所述的基于Faster-Rcnn的双向多尺度特征融合目标检测装置，其特征在于，所述特征提取模块提取待检测目标的特征图像的方法为：

10.根据权利要求8所述的基于Faster-Rcnn的双向多尺度特征融合目标检测装置，所述矩形框筛选模块将得到的待检测目标的特征图像划分成多个预设矩形框，对多个预设矩形框进行筛选，得到多个预测矩形框的方法为：