CN110222787A

CN110222787A - 多尺度目标检测方法、装置、计算机设备及存储介质

Info

Publication number: CN110222787A
Application number: CN201910516139.4A
Authority: CN
Inventors: 方宝富; 方帅; 王浩; 方璐; 单文静
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2019-09-10
Anticipated expiration: 2039-06-14
Also published as: CN110222787B

Abstract

本发明公开了一种多尺度目标检测方法、装置、计算机设备及存储介质，所述方法包括：获取初始图像，将初始图像进行几倍放大，形成图像金字塔，输入到预设的特征金字塔网络，再通过预设的特征金字塔网络对初始图像中的目标进行识别和框选定位处理，得到第一预测结果，同时，对初始图像按照预设方式进行放大处理，得到放大图像，将放大图像输入到预设的小尺度目标检测网络，通过预设的小尺度目标检测网络对放大图像进行特征提取和分类，得到第二预测结果，对第一预测结果和第二预测结果进行汇总分析，得到目标检测结果，这种采用特征金字塔网络和小尺度目标检测网络进行结合的方式，提高了多尺度目标检测和定位的准确度。

Description

多尺度目标检测方法、装置、计算机设备及存储介质

技术领域

本发明涉及图像识别领域，尤其涉及一种多尺度目标检测方法、装置、计算机设备及存储介质。

背景技术

随着人工智能技术的不断发展，人们对计算机也提出了新的要求。除了学习围棋，人们希望计算机能自主检测生活中的物体，这促进了计算机视觉领域的发展和创新。计算机视觉是让机器拥有类似于人类的视觉能力，它是对输入的图像信息进行检测，对图像中的目标和环境进行认知，并给出相应的理解。计算机视觉是利用摄像头来模拟人观察这个世界，可是对世界的理解，还需要技术人员对摄像头收集到的信息进行处理。计算机视觉涉及的研究领域较多，如：目标检测、目标跟踪、场景理解、立体视觉和动作识别等。目标检测是计算机视觉领域中的研究热点。它是计算机根据视频帧或者图片检测出目标的位置和类别并进行标记。目标检测具有较强的实用价值，在安全防卫、交通监控、医疗诊断、国防军事以及日常生活等领域有着广泛的应用前景。

目标检测在不同领域的应用，体现出它的实用性和广泛性。但目标检测还存在一定的不稳定性，这是视频中或者图像中环境变化、视角不同以及光线遮挡等都会造成目标的变化，增加目标检测的难度。

当前，也有一些通过背景建模和机器学习的方式，来进行目标检测，但背景建模只能针对一些限定好各种条件的目标检测，而在实际应用中，这种方式兼容性较差，现有的一些机器学习的方式，通过对将各种目标放入模型进行训练，从而实现对各种目标进行识别，但这种方式，对于一些遮挡或者视角不同，即不同尺度性的目标，检测的准确率较低，且同一图像也可能存在多种目标，多目标的尺度多样性给目标检测的准确性带来挑战。如何提高多尺度目标检测的准确性，是实际应用中要面临的问题，也是目前亟待解决的问题。

发明内容

本发明实施例提供一种多尺度目标检测方法、装置、计算机设备和存储介质，以解决当前资源数据发放的安全性较低的问题。

一种多尺度目标检测方法，包括：

获取初始图像；

将所述初始图像放大得到图像金字塔，输入到预设的特征金字塔网络；

通过所述预设的特征金字塔网络对所述初始图像中的目标进行识别和框选定位处理，得到第一预测结果；

对所述初始图像按照预设方式进行放大处理，得到放大图像；

将所述放大图像输入到预设的小尺度目标检测网络；

通过所述预设的小尺度目标检测网络对所述放大图像进行特征提取和分类，得到第二预测结果；

对所述第一预测结果和所述第二预测结果进行汇总分析，得到目标检测结果。

一种多尺度目标检测装置，包括：

图像获取模块，用于获取初始图像；

第一传输模块，用于将所述初始图像放大形成图像金字塔，输入到预设的特征金字塔网络；

第一预测模块，用于通过所述预设的特征金字塔网络对所述初始图像中的目标进行识别和框选定位处理，得到第一预测结果；

图像处理模块，用于对所述初始图像按照预设方式进行放大处理，得到放大图像；

第二传输模块，用于将所述放大图像输入到预设的小尺度目标检测网络；

第二预测模块，用于通过所述预设的小尺度目标检测网络对所述放大图像进行特征提取和分类，得到第二预测结果；

检测分析模块，用于对所述第一预测结果和所述第二预测结果进行汇总分析，得到目标检测结果。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述多尺度目标检测方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述多尺度目标检测方法的步骤。

本发明实施例提供的多尺度目标检测方法、装置、计算机设备及存储介质，获取初始图像，将初始图像输入到预设的特征金字塔网络，再通过预设的特征金字塔网络对初始图像中的目标进行识别和框选定位处理，得到第一预测结果，同时，对初始图像按照预设方式进行放大处理，得到放大图像，将放大图像输入到预设的小尺度目标检测网络，通过预设的小尺度目标检测网络对放大图像进行特征提取和分类，得到第二预测结果，对第一预测结果和第二预测结果进行汇总分析，得到目标检测结果，这种采用特征金字塔网络和小尺度目标检测网络进行结合的方式，提高了多尺度目标检测和定位的准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的多尺度目标检测方法的实现流程图；

图2是本发明实施例提供的多尺度目标检测方法中步骤S30的实现流程图；

图3是本发明实施例提供的多尺度目标检测方法中步骤S31的实现流程图；

图4是本发明实施例提供的多尺度目标检测方法中步骤S33的实现流程图；

图5是本发明实施例提供的多尺度目标检测方法中步骤S60的实现流程图；

图6是本发明实施例提供的多尺度目标检测方法中步骤S70的实现流程图；

图7是本发明实施例提供的多尺度目标检测装置的示意图；

图8是本发明实施例提供的计算机设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

该多尺度目标检测方法应用在对拍摄设备获取到的图像或视频帧进行目标检测定位的场景中。该目标检测定位的场景包括服务端，服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。

请参阅图1，图1示出本发明实施例提供的一种多尺度目标检测方法，详述如下：

S10：获取初始图像。

具体地，获取初始图像，该初始图像可以是通过拍摄设备拍摄得到，该初始图像包括至少一个待检测目标。

其中，待检测目标是指除去图像背景之外的人或者物，例如汽车、火车和人等。

S20：将初始图像输入到预设的特征金字塔网络。

具体地，将获取到的初始图像输入到预设的特征金字塔网络中进行识别和目标定位。

其中，特征金字塔网络(Feature Pyramid Networks，FPN)是一种深层卷积神经网络，该网络通过将深层的特征图进行上采样后，与浅层融合，得到新的数据特征，再通过新的数据特征进行预测，使得同一图像获取多次度特征，识别准确率较高。

S30：通过预设的特征金字塔网络对初始图像中的目标进行识别和框选定位处理，得到第一预测结果。

具体地，通过预设的特征金字塔网络的每个卷积层，提取初始图像中每个不同卷积层卷积之后的特征图，并根据该特征图进行目标识别和框选定位，得到第一预测结果。

其中，第一预测结果为包含多个预测框的集合。

需要说明的是，本实施例在获取到特征图后，还可以根据区域建议网络，进行进一步精准定位，具体过程可参考步骤S331至步骤S334的描述，为避免重复，此处不再赘述。

S40：对初始图像按照预设方式进行放大处理，得到放大图像。

具体地，按照预设维度，对初始图像进行放大处理，得到放大图像。

S50：将放大图像输入到预设的小尺度目标检测网络。

具体地，将放大图像输入到预设的小尺度目标检测网络中，通过小尺度目标检测网络对放大图像中的目标进行识别和定位。

其中，小尺度目标检测网络为卷积神经网络，具体可以包括但不限于： AlexNet模型、VGG网络、GoogLeNet模型和ResNet模型等，优选地，本实施例采用的小尺度目标检测网络为VGG16网络。

S60：通过预设的小尺度目标检测网络对放大图像进行特征提取和分类，得到第二预测结果。

具体地，预设的小尺度目标检测网络包括卷积层和全连接层，通过卷积层对放大图像进行特征提取，并通过全连接层对特征进行识别和分类，得到第二预测结果。

需要说明的是，步骤S20至步骤S30，与步骤S40至步骤S60之间，没有必然的先后顺序，其具体也可以是并列执行。

S70：对第一预测结果和第二预测结果进行汇总分析，得到目标检测结果。

具体地，对第一预测结果和第二预测结果进行汇总，并根据预设条件进行分析，选取符合预设条件要求的预测结果，并将选取出预测结果进行标准化处理，得到目标检测结果。

其中，预设条件可以根据实际需求进行设置，此处不做限定。

其中，标准化处理，是指对预测结果中的预测框的大小、边缘等进行标准化。

在本实施例中，通过获取初始图像，进而将初始图像输入到预设的特征金字塔网络，再通过预设的特征金字塔网络对初始图像中的目标进行识别和框选定位处理，得到第一预测结果，同时，对初始图像按照预设方式进行放大处理，得到放大图像，将放大图像输入到预设的小尺度目标检测网络，通过预设的小尺度目标检测网络对放大图像进行特征提取和分类，得到第二预测结果，对第一预测结果和第二预测结果进行汇总分析，得到目标检测结果，这种采用特征金字塔网络和小尺度目标检测网络进行结合的方式，提高了多尺度目标检测和定位的准确度。

在图1对应的实施例的基础之上，下面通过一个具体的实施例来对步骤 S30中所提及通过预设的特征金字塔网络对初始图像中的目标进行识别和框选定位处理，得到第一预测结果的具体实现方法进行详细说明。

请参阅图2，图2示出了本发明实施例提供的步骤S30的具体实现流程，详述如下：

S31：通过对初始图像进行候选框特征提取，得到至少一种尺度的初始候选框。

具体地，通过预设的特征金字塔网络的不同卷积层，对初始图像进行不同卷积层特征图的提取，并通过特征图确定候选框特征，得到至少一种尺度的初始候选框。

S32：按照预设的分类器，对初始候选框进行分类，得到分类后的候选框。

具体地，本实施例预设设置有分类器，按照预设的分类器对初始候选框进行分类，得到分类后的候选框。

其中，预设的分类器可根据实际需要进行设置，此处不做限定。

其中，按照预设的分类器对初始候选框进行分类，具体是通过将初始候选框对应的特征数据与预设的每个分类器中的数据特征进行相似度计算，将相似度值最高的分类器作为该初始候选框对应的分类器，进而将该初始候选框归类到该分类器对应的类别。

S33：对分类后的候选框进行校正处理，得到第一预测结果。

具体地，为提高候选框定位的准确性，需要对候选框进行校正处理，在校正处理后，将得到的结果作为第一预测结果。

其中，校正处理可通过计算欧式距离损失来进行校正，具体过程可参考步骤S331至步骤S333的描述，为避免重复，此处不在赘述。

在本实施例中，通过对初始图像进行候选框特征提取，得到至少一种尺度的初始候选框，再按照预设的分类器，对初始候选框进行分类，得到分类后的候选框，进而对分类后的候选框进行校正处理，得到第一预测结果，提高了候选框定位的准确性。

在图2对应的实施例的基础之上，下面通过一个具体的实施例来对步骤 S31中所提及的通过对初始图像进行候选框特征提取，得到至少一种尺度的初始候选框的具体实现方法进行详细说明。

请参阅图3，图3示出了本发明实施例提供的步骤S31的具体实现流程，详述如下：

S311：通过预设的特征金字塔网络的输入层提取初始图像中的多通道数据。

具体地，通过预设的特征金字塔网络的输入层提取初始图像中的多通道数据，并将多通道数据传递给卷积层。

其中，多通道数据是指每个通道的数据，通道个数可根据实际情况进行设置，此处不作具体限制，优选地，本发明实施例通道个数设置为3。

S312：采用卷积层对多通道数据进行特征提取，并对第一预设卷积层提取到的数据特征进行降维处理，得到第一特征，对第二预设卷积层提取到的数据特征进行降维处理，得到第二特征。

具体地，在卷积层通过对多通道数据进行卷积处理，得到多通道数据进行卷积处理后的数据特征，并在第一预设卷积层提取到的数据特征进行降维处理，得到第一特征，对第二预设卷积层提取到的数据特征进行降维处理，得到第二特征。

其中，卷积层(Convolutional layer)由若干卷积单元组成，每个卷积单元的参数都是通过反向传播算法最佳化得到的。卷积处理的目的是得到表示不同特征的卷积数据，即方便后续提取输入的不同特征，第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，越深层级的网路能从低级特征中迭代提取更复杂的特征。

值得说明的是，在本发明实施例中，存在预设层数的卷积层，具体预设的数量可根据实际情况进行确定，作为一种优选方式，本发明实施例的卷积层为5层，第一预设卷积层为第5层，第二预设卷积层为第4层。

其中，降维处理是指降低特征维度，使得原本稀疏的样本变得密集，有利于特征提取。

S313：采用双线性插值的方式，对第一特征进行双线性插值的上采样，得到上采样特征，并将上采样特征与第二特征进行求和，得到更新后的第二特征。

具体地，采用双线性插值的方式，对第一特征进行双线性插值的上采样，得到上采样特征，并将上采样特征与第二特征进行求和，得到更新后的第二特征

其中，双线性插值(Bilinear Interpolation)，又称为双线性内插。是指在两个方向分别进行一次线性插值，以使图像趋近平滑。

其中，上采样(UNSampling)是指采用内插值方法，即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素，从而放大原图像, 使得图像分辨率更高。

S314：使用区域建议网络，根据第一特征和更新后的第二特征，生成初始候选框。

具体地，使用区域建议网络，根据第一特征和更新后的第二特征，生成初始候选框。

其中，区域建议网络(Regional Proposal Net，RPN)，又称区域提议网络，是一个典型的全卷积网络，区域建议网络将一个任意大小的图像或者图像特征作为输入，输出矩形目标建议框的集合，每个框有一个objectness得分，根据objectness得分评估这个矩形目标建议框中存在目标的程度。

在本实施例中，通过预设的特征金字塔网络的输入层提取初始图像中的多通道数据，再采用卷积层对多通道数据进行特征提取，并对第一预设卷积层提取到的数据特征进行降维处理，得到第一特征，对第二预设卷积层提取到的数据特征进行降维处理，得到第二特征，进而采用双线性插值的方式，对第一特征进行双线性插值的上采样，得到上采样特征，并将上采样特征与第二特征进行求和，得到更新后的第二特征，再使用区域建议网络，根据第一特征和更新后的第二特征，生成初始候选框，有利于提高候选框生成的准确度。

在图2对应的实施例的基础之上，下面通过一个具体的实施例来对步骤 S33中所提及的对分类后的候选框进行校正处理，得到第一预测结果的具体实现方法进行详细说明。

请参阅图4，图4示出了本发明实施例提供的步骤S33的具体实现流程，详述如下：

S331：计算分类后的候选框与预设真实框的欧式距离损失。

具体地，本实施例中预先标注有每个预设分类的真实框的位置，先计算分类后的候选框与预设框的欧式距离，进而计算欧式距离损失，根据欧式距离损失确定需要调整的尺度和方向。

S332：根据欧式距离损失，对分类后的候选框的位置进行调整。

具体地，根据欧式距离损失，对分类后的候选框的位置进行调整，具体调整方式可根据实际情况进行设置，此处不做限制。

S333：返回计算分类后的候选框与真实框的欧式距离损失的步骤继续执行，直到欧式距离损失小于预设阈值，将得到的分类后的候选框作为第一预测结果。

具体地，在每次对分类后的候选框的位置进行调整后，按照步骤S331的方式，重新计算欧式距离损失，并与预设阈值进行比较，若此时的欧式损失大于或等于预设阈值，则继续根据步骤S332提供的方式，对分类后的候选框的位置进行调整，并在调整完后返回步骤S331继续执行，直到欧式距离损失小于预设阈值，将此时得到的分类后的候选框作为第一预测结果。

在本实施例中，通过计算分类后的候选框与预设真实框的欧式距离损失，进而根据欧式距离损失，对分类后的候选框的位置进行调整，返回计算分类后的候选框与真实框的欧式距离损失的步骤继续执行，直到欧式距离损失小于预设阈值，将得到的分类后的候选框作为第一预测结果，使得得到的第一预测结果中的候选区更为精确，有利于提高后续检测的准确率。

在图1对应的实施例的基础之上，下面通过一个具体的实施例来对步骤 S60中所提及通过预设的小尺度目标检测网络对放大图像进行特征提取和分类，得到第二预测结果的具体实现方法进行详细说明。

请参阅图5，图5示出了本发明实施例提供的步骤S60的具体实现流程，详述如下：

S61：采用VGG16网络的卷积层对放大图像进行特征提取，并使用VGG16 网络的池化层对提取到的特征进行映射，生成特征图，其中，VGG16网络的池化层为ROIAlign层。

具体地，采用VGG16网络的卷积层对放大图像进行特征提取，并使用 VGG16网络的池化层对提取到的特征进行映射，生成特征图。

其中，VGG16网络(Visual Geometry Group NET)是一种深度神经网络模型，其网络结构包含：5个卷积层、5个池化层和3个全连接层，其中，5 个卷积层分别为第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层。

需要说明的是，本实施例中，VGG16网络的池化层为ROIAlign层，ROIAlign层一种区域特征聚集方式，很好地解决了ROI Pooling在池化处理时两次量化造成的区域不匹配(mis-alignment)的问题，有利于提升检测的准确性。

S62：针对每个特征图，通过softmax分类器计算特征图属于每个预设类别的预测概率，选取最大概率对应的预设类别，作为特征图对应的预测类别。

具体地，针对每个特征图，通过softmax分类器计算特征图属于每个预设类别的预测概率，选取最大概率对应的预设类别，作为特征图对应的预测类别。

其中，预设类别可根据实际需求预先进行设置，此处不做限制。

S63：将得到的每个预测类别作为第二预测结果。

具体地，将得到的每个预测类别均作为一个预测结果并归类于第二预测结果。

在本实施例中，采用VGG16网络的卷积层对放大图像进行特征提取，并使用VGG16网络的池化层对提取到的特征进行映射，生成特征图，进而针对每个特征图，其中，VGG16网络的池化层采用ROIAlign层，使得得到的特征图精确度更高，有利于提高后续预测的准确率，通过softmax分类器计算特征图属于每个预设类别的预测概率，选取最大概率对应的预设类别，作为特征图对应的预测类别，并将得到的每个预测类别作为第二预测结果，提高了第二预测结果的准确程度。

在图1对应的实施例的基础之上，下面通过一个具体的实施例来对步骤 S70中所提及对第一预测结果和第二预测结果进行汇总分析，得到目标检测结果的具体实现方法进行详细说明。

请参阅图6，图6示出了本发明实施例提供的步骤S70的具体实现流程，详述如下：

S71：分别计算第一预测结果中的每个预测结果属于预设分类的概率，获取概率小于第一预设阈值的预测结果，作为第一候选结果。

具体地，本实施例预先设置有至少两个预设分类，针对第一预测结果中的每个预测结果，分别计算每个预测结果属于预设分类的概率，并获取概率小于第一预设阈值的预测结果，作为第一候选结果。

S72：从第二预测结果中，获取预测框面积小于预设大小的预测结果，作为有效预测结果，并分别计算每个有效预测结果属于预设分类的概率，得到第二候选结果。

具体地，本实施例中设置有标准预测框的最大尺寸，从第二预测结果中，获取预测框面积小于该预设大小的预测结果，作为有效预测结果，并分别计算每个有效预测结果属于预设分类的概率，将概率小于第二预设阈值的预测结果，作为第二候选结果。

其中，预设大小可以根据实际需要进行设置，例如，在本实施例中，预设大小为32×16，也即，将预测框面积小于32×16的预测结果作为有效预测结果。

需要说明的是，步骤S71和步骤S72之间没有必然的先后顺序，其具体也可以是并列执行。

S73：对第一候选结果和第二候选结果进行非极大值抑制，得到目标检测结果。

具体地，通过对第一候选结果和第二候选结果进行非极大值抑制，确定候选框的最终边界，得到目标检测结果。

其中，非最大值抑制(Non Maximum Suppression，NMS)是抑制不是极大值的元素，可理解为局部进行最大值搜索，从而帮助保留局部最大梯度而抑制所有其他梯度值，这意味着只保留了梯度变化中最锐利的位置。

例如，在一具体实施方式中，在垂直方向，有4个像素宽度的梯度值构成了一个局部，在盖局部采用非最大值抑制的方式，搜索出这个局部的梯度值中梯度值最大的一个像素点，作为梯度边缘，从而实现了边缘细化。

在本实施例中，分别计算第一预测结果中的每个预测结果属于预设分类的概率，获取概率小于第一预设阈值的预测结果，作为第一候选结果，并从第二预测结果中，获取预测框面积小于预设大小的预测结果，作为有效预测结果，并分别计算每个有效预测结果属于预设分类的概率，得到第二候选结果，再第一候选结果和第二候选结果进行非极大值抑制，得到目标检测结果，采用两种不同方式获取到的预测结果进行综合加权，提高了检测结果的准确度。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

图7示出与上述实施例多尺度目标检测方法一一对应的多尺度目标检测装置的原理框图。如图7所示，该多尺度目标检测装置包括图像获取模块10、第一传输模块20、第一预测模块30、图像处理模块40、第二传输模块50、第二预测模块60和检测分析模块70。各功能模块详细说明如下：

图像获取模块10，用于获取初始图像；

第一传输模块20，用于将初始图像输入到预设的特征金字塔网络；

第一预测模块30，用于通过预设的特征金字塔网络对初始图像中的目标进行识别和框选定位处理，得到第一预测结果；

图像处理模块40，用于对初始图像按照预设方式进行放大处理，得到放大图像；

第二传输模块50，用于将放大图像输入到预设的小尺度目标检测网络；

第二预测模块60，用于通过预设的小尺度目标检测网络对放大图像进行特征提取和分类，得到第二预测结果；

检测分析模块70，用于对第一预测结果和第二预测结果进行汇总分析，得到目标检测结果。

进一步地，第一预测模块30包括：

特征提取单元，用于通过对初始图像进行候选框特征提取，得到至少一种尺度的初始候选框；

候选框分类单元，用于按照预设的分类器，对初始候选框进行分类，得到分类后的候选框；

候选框校正单元，用于对分类后的候选框进行校正处理，得到第一预测结果。

进一步地，特征提取单元包括：

多通道数据提取子单元，用于通过预设的特征金字塔网络的输入层提取初始图像中的多通道数据；

特征确定子单元，用于采用卷积层对多通道数据进行特征提取，并对第一预设卷积层提取到的数据特征进行降维处理，得到第一特征，对第二预设卷积层提取到的数据特征进行降维处理，得到第二特征；

第二特征更新子单元，用于采用双线性插值的方式，对第一特征进行双线性插值的上采样，得到上采样特征，并将上采样特征与第二特征进行求和，得到更新后的第二特征；

候选框确定子单元，用于使用区域建议网络，根据第一特征和更新后的第二特征，生成初始候选框。

进一步地，候选框校正单元包括：

距离计算子单元，用于计算分类后的候选框与预设真实框的欧式距离损失；

位置调整单元，用于根据欧式距离损失，对分类后的候选框的位置进行调整；

循环迭代单元，用于返回计算分类后的候选框与真实框的欧式距离损失的步骤继续执行，直到欧式距离损失小于预设阈值，将得到的分类后的候选框作为第一预测结果。

进一步地，预设的小尺度目标检测网络为VGG16网络，第二预测模块 60包括：

特征图生成单元，用于采用VGG16网络的卷积层对放大图像进行特征提取，并使用VGG16网络的池化层对提取到的特征进行映射，生成特征图，其中，VGG16网络的池化层为ROIAlign层；

概率计算单元，用于针对每个特征图，通过softmax分类器计算特征图属于每个预设类别的预测概率，选取最大概率对应的预设类别，作为特征图对应的预测类别；

结果确定单元，用于将得到的每个预测类别作为第二预测结果。

进一步地，检测分析模块70包括：

第一候选结果确定单元，用于分别计算第一预测结果中的每个预测结果属于预设分类的概率，获取概率小于第一预设阈值的预测结果，作为第一候选结果；

第二候选结果确定单元，用于从第二预测结果中，获取预测框面积小于预设大小的预测结果，作为有效预测结果，并分别计算每个有效预测结果属于预设分类的概率，得到第二候选结果；

目标检测结果确定单元，用于对第一候选结果和第二候选结果进行非极大值抑制，得到目标检测结果。

关于多尺度目标检测装置的具体限定可以参见上文中对于多尺度目标检测方法的限定，在此不再赘述。上述多尺度目标检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图8是本发明一实施例提供的计算机设备的示意图。该计算机设备可以是服务端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设的特征金字塔网络和预设的小尺度目标检测网络。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多尺度目标检测方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例多尺度目标检测方法的步骤，例如图1所示的步骤S10至步骤 S70。或者，处理器执行计算机程序时实现上述实施例多尺度目标检测装置的各模块/单元的功能，例如图7所示的模块10至模块70的功能。为避免重复，这里不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

在一实施例中，提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例多尺度目标检测方法的步骤，或者，该计算机程序被处理器执行时实现上述实施例多尺度目标检测装置中各模块/单元的功能。为避免重复，这里不再赘述。

可以理解地，所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器 (Random Access Memory，RAM)、电载波信号和电信信号等。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种多尺度目标检测方法，其特征在于，所述多尺度目标检测方法包括：

获取初始图像；

将所述初始图像放大形成图像金字塔，输入到预设的特征金字塔网络；

将所述放大图像输入到预设的小尺度目标检测网络；

2.如权利要求1所述的多尺度目标检测方法，其特征在于，所述通过所述预设的特征金字塔网络对所述初始图像中的目标进行识别和框选定位处理，得到第一预测结果包括：

通过对初始图像进行候选框特征提取，得到至少一种尺度的初始候选框；

按照预设的分类器，对所述初始候选框进行分类，得到分类后的候选框；

对所述分类后的候选框进行校正处理，得到所述第一预测结果。

3.如权利要求2所述的多尺度目标检测方法，其特征在于，所述预设的特征金字塔网络包括输入层、卷积层和区域建议网络，所述卷积层包括第一预设卷积层和第二预设卷积层，通过对初始图像进行候选框特征提取，得到至少一种尺度的初始候选框包括：

通过所述预设的特征金字塔网络的输入层提取所述初始图像中的多通道数据；

采用所述卷积层对所述多通道数据进行特征提取，并对所述第一预设卷积层提取到的数据特征进行降维处理，得到第一特征，对所述第二预设卷积层提取到的数据特征进行降维处理，得到第二特征；

采用双线性插值的方式，对所述第一特征进行双线性插值的上采样，得到上采样特征，并将所述上采样特征与所述第二特征进行求和，得到更新后的第二特征；

使用所述区域建议网络，根据所述第一特征和所述更新后的第二特征，生成所述初始候选框。

4.如权利要求2所述的多尺度目标检测方法，其特征在于，所述对所述分类后的候选框进行校正处理，得到所述第一预测结果包括：

计算所述分类后的候选框与预设的真实框的欧式距离损失；

根据所述欧式距离损失，对所述分类后的候选框的位置进行调整；

返回所述计算所述分类后的候选框与真实框的欧式距离损失的步骤继续执行，直到所述欧式距离损失小于预设阈值，将得到的分类后的候选框作为所述第一预测结果。

5.如权利要求1所述的多尺度目标检测方法，其特征在于，所述预设的小尺度目标检测网络为VGG16网络，所述通过所述预设的小尺度目标检测网络对所述放大图像进行特征提取和分类，得到第二预测结果包括：

采用所述VGG16网络的卷积层对所述放大图像进行特征提取，并使用所述VGG16网络的池化层对提取到的特征进行映射，生成特征图，其中，所述VGG16网络的池化层为ROIAlign层；

针对每个所述特征图，通过softmax分类器计算所述特征图属于每个预设类别的预测概率，选取最大概率对应的预设类别，作为所述特征图对应的预测类别；

将得到的每个所述预测类别作为所述第二预测结果。

6.如权利要求1至5任一项所述的多尺度目标检测方法，其特征在于，所述对所述第一预测结果和所述第二预测结果进行汇总分析，得到目标检测结果包括：

分别计算所述第一预测结果中的每个预测结果属于预设分类的概率，获取概率小于第一预设阈值的预测结果，作为第一候选结果；

从所述第二预测结果中，获取预测框面积小于预设大小的预测结果，作为有效预测结果，并分别计算每个所述有效预测结果属于所述预设分类的概率，得到第二候选结果；

对所述第一候选结果和所述第二候选结果进行非极大值抑制，得到所述目标检测结果。

7.一种多尺度目标检测装置，其特征在于，所述多尺度目标检测装置包括：

图像获取模块，用于获取初始图像；

8.如权利要求7所述的多尺度目标检测装置，其特征在于，所述第一预测模块包括：

候选框分类单元，用于按照预设的分类器，对所述初始候选框进行分类，得到分类后的候选框；

候选框校正单元，用于对所述分类后的候选框进行校正处理，得到所述第一预测结果。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的多尺度目标检测方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的多尺度目标检测方法。