CN110222787A - 多尺度目标检测方法、装置、计算机设备及存储介质 - Google Patents

多尺度目标检测方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110222787A
CN110222787A CN201910516139.4A CN201910516139A CN110222787A CN 110222787 A CN110222787 A CN 110222787A CN 201910516139 A CN201910516139 A CN 201910516139A CN 110222787 A CN110222787 A CN 110222787A
Authority
CN
China
Prior art keywords
prediction result
network
feature
preset
target detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910516139.4A
Other languages
English (en)
Other versions
CN110222787B (zh
Inventor
方宝富
方帅
王浩
方璐
单文静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201910516139.4A priority Critical patent/CN110222787B/zh
Publication of CN110222787A publication Critical patent/CN110222787A/zh
Application granted granted Critical
Publication of CN110222787B publication Critical patent/CN110222787B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多尺度目标检测方法、装置、计算机设备及存储介质,所述方法包括:获取初始图像,将初始图像进行几倍放大,形成图像金字塔,输入到预设的特征金字塔网络,再通过预设的特征金字塔网络对初始图像中的目标进行识别和框选定位处理,得到第一预测结果,同时,对初始图像按照预设方式进行放大处理,得到放大图像,将放大图像输入到预设的小尺度目标检测网络,通过预设的小尺度目标检测网络对放大图像进行特征提取和分类,得到第二预测结果,对第一预测结果和第二预测结果进行汇总分析,得到目标检测结果,这种采用特征金字塔网络和小尺度目标检测网络进行结合的方式,提高了多尺度目标检测和定位的准确度。

Description

多尺度目标检测方法、装置、计算机设备及存储介质
技术领域
本发明涉及图像识别领域,尤其涉及一种多尺度目标检测方法、装置、 计算机设备及存储介质。
背景技术
随着人工智能技术的不断发展,人们对计算机也提出了新的要求。除了 学习围棋,人们希望计算机能自主检测生活中的物体,这促进了计算机视觉 领域的发展和创新。计算机视觉是让机器拥有类似于人类的视觉能力,它是 对输入的图像信息进行检测,对图像中的目标和环境进行认知,并给出相应 的理解。计算机视觉是利用摄像头来模拟人观察这个世界,可是对世界的理 解,还需要技术人员对摄像头收集到的信息进行处理。计算机视觉涉及的研 究领域较多,如:目标检测、目标跟踪、场景理解、立体视觉和动作识别等。目标检测是计算机视觉领域中的研究热点。它是计算机根据视频帧或者图片 检测出目标的位置和类别并进行标记。目标检测具有较强的实用价值,在安 全防卫、交通监控、医疗诊断、国防军事以及日常生活等领域有着广泛的应 用前景。
目标检测在不同领域的应用,体现出它的实用性和广泛性。但目标检测 还存在一定的不稳定性,这是视频中或者图像中环境变化、视角不同以及光 线遮挡等都会造成目标的变化,增加目标检测的难度。
当前,也有一些通过背景建模和机器学习的方式,来进行目标检测,但 背景建模只能针对一些限定好各种条件的目标检测,而在实际应用中,这种 方式兼容性较差,现有的一些机器学习的方式,通过对将各种目标放入模型 进行训练,从而实现对各种目标进行识别,但这种方式,对于一些遮挡或者 视角不同,即不同尺度性的目标,检测的准确率较低,且同一图像也可能存 在多种目标,多目标的尺度多样性给目标检测的准确性带来挑战。如何提高 多尺度目标检测的准确性,是实际应用中要面临的问题,也是目前亟待解决的问题。
发明内容
本发明实施例提供一种多尺度目标检测方法、装置、计算机设备和存储 介质,以解决当前资源数据发放的安全性较低的问题。
一种多尺度目标检测方法,包括:
获取初始图像;
将所述初始图像放大得到图像金字塔,输入到预设的特征金字塔网络;
通过所述预设的特征金字塔网络对所述初始图像中的目标进行识别和框 选定位处理,得到第一预测结果;
对所述初始图像按照预设方式进行放大处理,得到放大图像;
将所述放大图像输入到预设的小尺度目标检测网络;
通过所述预设的小尺度目标检测网络对所述放大图像进行特征提取和分 类,得到第二预测结果;
对所述第一预测结果和所述第二预测结果进行汇总分析,得到目标检测 结果。
一种多尺度目标检测装置,包括:
图像获取模块,用于获取初始图像;
第一传输模块,用于将所述初始图像放大形成图像金字塔,输入到预设 的特征金字塔网络;
第一预测模块,用于通过所述预设的特征金字塔网络对所述初始图像中 的目标进行识别和框选定位处理,得到第一预测结果;
图像处理模块,用于对所述初始图像按照预设方式进行放大处理,得到 放大图像;
第二传输模块,用于将所述放大图像输入到预设的小尺度目标检测网络;
第二预测模块,用于通过所述预设的小尺度目标检测网络对所述放大图 像进行特征提取和分类,得到第二预测结果;
检测分析模块,用于对所述第一预测结果和所述第二预测结果进行汇总 分析,得到目标检测结果。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在 所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上 述多尺度目标检测方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程 序,所述计算机程序被处理器执行时实现上述多尺度目标检测方法的步骤。
本发明实施例提供的多尺度目标检测方法、装置、计算机设备及存储介 质,获取初始图像,将初始图像输入到预设的特征金字塔网络,再通过预设 的特征金字塔网络对初始图像中的目标进行识别和框选定位处理,得到第一 预测结果,同时,对初始图像按照预设方式进行放大处理,得到放大图像, 将放大图像输入到预设的小尺度目标检测网络,通过预设的小尺度目标检测 网络对放大图像进行特征提取和分类,得到第二预测结果,对第一预测结果 和第二预测结果进行汇总分析,得到目标检测结果,这种采用特征金字塔网络和小尺度目标检测网络进行结合的方式,提高了多尺度目标检测和定位的 准确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的 描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅 仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性 劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的多尺度目标检测方法的实现流程图;
图2是本发明实施例提供的多尺度目标检测方法中步骤S30的实现流程 图;
图3是本发明实施例提供的多尺度目标检测方法中步骤S31的实现流程 图;
图4是本发明实施例提供的多尺度目标检测方法中步骤S33的实现流程 图;
图5是本发明实施例提供的多尺度目标检测方法中步骤S60的实现流程 图;
图6是本发明实施例提供的多尺度目标检测方法中步骤S70的实现流程 图;
图7是本发明实施例提供的多尺度目标检测装置的示意图;
图8是本发明实施例提供的计算机设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创 造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
该多尺度目标检测方法应用在对拍摄设备获取到的图像或视频帧进行目 标检测定位的场景中。该目标检测定位的场景包括服务端,服务端具体可以 用独立的服务器或者多个服务器组成的服务器集群实现。
请参阅图1,图1示出本发明实施例提供的一种多尺度目标检测方法, 详述如下:
S10:获取初始图像。
具体地,获取初始图像,该初始图像可以是通过拍摄设备拍摄得到,该 初始图像包括至少一个待检测目标。
其中,待检测目标是指除去图像背景之外的人或者物,例如汽车、火车 和人等。
S20:将初始图像输入到预设的特征金字塔网络。
具体地,将获取到的初始图像输入到预设的特征金字塔网络中进行识别 和目标定位。
其中,特征金字塔网络(Feature Pyramid Networks,FPN)是一种深层卷 积神经网络,该网络通过将深层的特征图进行上采样后,与浅层融合,得到 新的数据特征,再通过新的数据特征进行预测,使得同一图像获取多次度特 征,识别准确率较高。
S30:通过预设的特征金字塔网络对初始图像中的目标进行识别和框选定 位处理,得到第一预测结果。
具体地,通过预设的特征金字塔网络的每个卷积层,提取初始图像中每 个不同卷积层卷积之后的特征图,并根据该特征图进行目标识别和框选定位, 得到第一预测结果。
其中,第一预测结果为包含多个预测框的集合。
需要说明的是,本实施例在获取到特征图后,还可以根据区域建议网络, 进行进一步精准定位,具体过程可参考步骤S331至步骤S334的描述,为避 免重复,此处不再赘述。
S40:对初始图像按照预设方式进行放大处理,得到放大图像。
具体地,按照预设维度,对初始图像进行放大处理,得到放大图像。
S50:将放大图像输入到预设的小尺度目标检测网络。
具体地,将放大图像输入到预设的小尺度目标检测网络中,通过小尺度 目标检测网络对放大图像中的目标进行识别和定位。
其中,小尺度目标检测网络为卷积神经网络,具体可以包括但不限于: AlexNet模型、VGG网络、GoogLeNet模型和ResNet模型等,优选地,本实 施例采用的小尺度目标检测网络为VGG16网络。
S60:通过预设的小尺度目标检测网络对放大图像进行特征提取和分类, 得到第二预测结果。
具体地,预设的小尺度目标检测网络包括卷积层和全连接层,通过卷积 层对放大图像进行特征提取,并通过全连接层对特征进行识别和分类,得到 第二预测结果。
需要说明的是,步骤S20至步骤S30,与步骤S40至步骤S60之间,没 有必然的先后顺序,其具体也可以是并列执行。
S70:对第一预测结果和第二预测结果进行汇总分析,得到目标检测结果。
具体地,对第一预测结果和第二预测结果进行汇总,并根据预设条件进 行分析,选取符合预设条件要求的预测结果,并将选取出预测结果进行标准 化处理,得到目标检测结果。
其中,预设条件可以根据实际需求进行设置,此处不做限定。
其中,标准化处理,是指对预测结果中的预测框的大小、边缘等进行标 准化。
在本实施例中,通过获取初始图像,进而将初始图像输入到预设的特征 金字塔网络,再通过预设的特征金字塔网络对初始图像中的目标进行识别和 框选定位处理,得到第一预测结果,同时,对初始图像按照预设方式进行放 大处理,得到放大图像,将放大图像输入到预设的小尺度目标检测网络,通 过预设的小尺度目标检测网络对放大图像进行特征提取和分类,得到第二预 测结果,对第一预测结果和第二预测结果进行汇总分析,得到目标检测结 果,这种采用特征金字塔网络和小尺度目标检测网络进行结合的方式,提高 了多尺度目标检测和定位的准确度。
在图1对应的实施例的基础之上,下面通过一个具体的实施例来对步骤 S30中所提及通过预设的特征金字塔网络对初始图像中的目标进行识别和框 选定位处理,得到第一预测结果的具体实现方法进行详细说明。
请参阅图2,图2示出了本发明实施例提供的步骤S30的具体实现流程, 详述如下:
S31:通过对初始图像进行候选框特征提取,得到至少一种尺度的初始候 选框。
具体地,通过预设的特征金字塔网络的不同卷积层,对初始图像进行不 同卷积层特征图的提取,并通过特征图确定候选框特征,得到至少一种尺度 的初始候选框。
S32:按照预设的分类器,对初始候选框进行分类,得到分类后的候选框。
具体地,本实施例预设设置有分类器,按照预设的分类器对初始候选框 进行分类,得到分类后的候选框。
其中,预设的分类器可根据实际需要进行设置,此处不做限定。
其中,按照预设的分类器对初始候选框进行分类,具体是通过将初始候 选框对应的特征数据与预设的每个分类器中的数据特征进行相似度计算,将 相似度值最高的分类器作为该初始候选框对应的分类器,进而将该初始候选 框归类到该分类器对应的类别。
S33:对分类后的候选框进行校正处理,得到第一预测结果。
具体地,为提高候选框定位的准确性,需要对候选框进行校正处理,在 校正处理后,将得到的结果作为第一预测结果。
其中,校正处理可通过计算欧式距离损失来进行校正,具体过程可参考 步骤S331至步骤S333的描述,为避免重复,此处不在赘述。
在本实施例中,通过对初始图像进行候选框特征提取,得到至少一种尺 度的初始候选框,再按照预设的分类器,对初始候选框进行分类,得到分类 后的候选框,进而对分类后的候选框进行校正处理,得到第一预测结果,提 高了候选框定位的准确性。
在图2对应的实施例的基础之上,下面通过一个具体的实施例来对步骤 S31中所提及的通过对初始图像进行候选框特征提取,得到至少一种尺度的 初始候选框的具体实现方法进行详细说明。
请参阅图3,图3示出了本发明实施例提供的步骤S31的具体实现流程, 详述如下:
S311:通过预设的特征金字塔网络的输入层提取初始图像中的多通道数 据。
具体地,通过预设的特征金字塔网络的输入层提取初始图像中的多通道 数据,并将多通道数据传递给卷积层。
其中,多通道数据是指每个通道的数据,通道个数可根据实际情况进行 设置,此处不作具体限制,优选地,本发明实施例通道个数设置为3。
S312:采用卷积层对多通道数据进行特征提取,并对第一预设卷积层提 取到的数据特征进行降维处理,得到第一特征,对第二预设卷积层提取到的 数据特征进行降维处理,得到第二特征。
具体地,在卷积层通过对多通道数据进行卷积处理,得到多通道数据进 行卷积处理后的数据特征,并在第一预设卷积层提取到的数据特征进行降维 处理,得到第一特征,对第二预设卷积层提取到的数据特征进行降维处理, 得到第二特征。
其中,卷积层(Convolutional layer)由若干卷积单元组成,每个卷积单 元的参数都是通过反向传播算法最佳化得到的。卷积处理的目的是得到表示 不同特征的卷积数据,即方便后续提取输入的不同特征,第一层卷积层可能 只能提取一些低级的特征如边缘、线条和角等层级,越深层级的网路能从低 级特征中迭代提取更复杂的特征。
值得说明的是,在本发明实施例中,存在预设层数的卷积层,具体预设 的数量可根据实际情况进行确定,作为一种优选方式,本发明实施例的卷积 层为5层,第一预设卷积层为第5层,第二预设卷积层为第4层。
其中,降维处理是指降低特征维度,使得原本稀疏的样本变得密集,有 利于特征提取。
S313:采用双线性插值的方式,对第一特征进行双线性插值的上采样, 得到上采样特征,并将上采样特征与第二特征进行求和,得到更新后的第二 特征。
具体地,采用双线性插值的方式,对第一特征进行双线性插值的上采样, 得到上采样特征,并将上采样特征与第二特征进行求和,得到更新后的第二 特征
其中,双线性插值(Bilinear Interpolation),又称为双线性内插。是指在 两个方向分别进行一次线性插值,以使图像趋近平滑。
其中,上采样(UNSampling)是指采用内插值方法,即在原有图像像素 的基础上在像素点之间采用合适的插值算法插入新的元素,从而放大原图像, 使得图像分辨率更高。
S314:使用区域建议网络,根据第一特征和更新后的第二特征,生成初 始候选框。
具体地,使用区域建议网络,根据第一特征和更新后的第二特征,生成 初始候选框。
其中,区域建议网络(Regional Proposal Net,RPN),又称区域提议网络, 是一个典型的全卷积网络,区域建议网络将一个任意大小的图像或者图像特 征作为输入,输出矩形目标建议框的集合,每个框有一个objectness得分,根 据objectness得分评估这个矩形目标建议框中存在目标的程度。
在本实施例中,通过预设的特征金字塔网络的输入层提取初始图像中的 多通道数据,再采用卷积层对多通道数据进行特征提取,并对第一预设卷积 层提取到的数据特征进行降维处理,得到第一特征,对第二预设卷积层提取 到的数据特征进行降维处理,得到第二特征,进而采用双线性插值的方式, 对第一特征进行双线性插值的上采样,得到上采样特征,并将上采样特征与 第二特征进行求和,得到更新后的第二特征,再使用区域建议网络,根据第 一特征和更新后的第二特征,生成初始候选框,有利于提高候选框生成的准确度。
在图2对应的实施例的基础之上,下面通过一个具体的实施例来对步骤 S33中所提及的对分类后的候选框进行校正处理,得到第一预测结果的具体 实现方法进行详细说明。
请参阅图4,图4示出了本发明实施例提供的步骤S33的具体实现流程, 详述如下:
S331:计算分类后的候选框与预设真实框的欧式距离损失。
具体地,本实施例中预先标注有每个预设分类的真实框的位置,先计算 分类后的候选框与预设框的欧式距离,进而计算欧式距离损失,根据欧式距 离损失确定需要调整的尺度和方向。
S332:根据欧式距离损失,对分类后的候选框的位置进行调整。
具体地,根据欧式距离损失,对分类后的候选框的位置进行调整,具体 调整方式可根据实际情况进行设置,此处不做限制。
S333:返回计算分类后的候选框与真实框的欧式距离损失的步骤继续执 行,直到欧式距离损失小于预设阈值,将得到的分类后的候选框作为第一预 测结果。
具体地,在每次对分类后的候选框的位置进行调整后,按照步骤S331的 方式,重新计算欧式距离损失,并与预设阈值进行比较,若此时的欧式损失 大于或等于预设阈值,则继续根据步骤S332提供的方式,对分类后的候选框 的位置进行调整,并在调整完后返回步骤S331继续执行,直到欧式距离损失 小于预设阈值,将此时得到的分类后的候选框作为第一预测结果。
在本实施例中,通过计算分类后的候选框与预设真实框的欧式距离损失, 进而根据欧式距离损失,对分类后的候选框的位置进行调整,返回计算分类 后的候选框与真实框的欧式距离损失的步骤继续执行,直到欧式距离损失小 于预设阈值,将得到的分类后的候选框作为第一预测结果,使得得到的第一 预测结果中的候选区更为精确,有利于提高后续检测的准确率。
在图1对应的实施例的基础之上,下面通过一个具体的实施例来对步骤 S60中所提及通过预设的小尺度目标检测网络对放大图像进行特征提取和分 类,得到第二预测结果的具体实现方法进行详细说明。
请参阅图5,图5示出了本发明实施例提供的步骤S60的具体实现流程, 详述如下:
S61:采用VGG16网络的卷积层对放大图像进行特征提取,并使用VGG16 网络的池化层对提取到的特征进行映射,生成特征图,其中,VGG16网络的 池化层为ROIAlign层。
具体地,采用VGG16网络的卷积层对放大图像进行特征提取,并使用 VGG16网络的池化层对提取到的特征进行映射,生成特征图。
其中,VGG16网络(Visual Geometry Group NET)是一种深度神经网络 模型,其网络结构包含:5个卷积层、5个池化层和3个全连接层,其中,5 个卷积层分别为第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五 卷积层。
需要说明的是,本实施例中,VGG16网络的池化层为ROIAlign层,ROIAlign层一种区域特征聚集方式,很好地解决了ROI Pooling在池化处理时 两次量化造成的区域不匹配(mis-alignment)的问题,有利于提升检测的准确 性。
S62:针对每个特征图,通过softmax分类器计算特征图属于每个预设类 别的预测概率,选取最大概率对应的预设类别,作为特征图对应的预测类别。
具体地,针对每个特征图,通过softmax分类器计算特征图属于每个预设 类别的预测概率,选取最大概率对应的预设类别,作为特征图对应的预测类 别。
其中,预设类别可根据实际需求预先进行设置,此处不做限制。
S63:将得到的每个预测类别作为第二预测结果。
具体地,将得到的每个预测类别均作为一个预测结果并归类于第二预测 结果。
在本实施例中,采用VGG16网络的卷积层对放大图像进行特征提取,并 使用VGG16网络的池化层对提取到的特征进行映射,生成特征图,进而针对 每个特征图,其中,VGG16网络的池化层采用ROIAlign层,使得得到的特 征图精确度更高,有利于提高后续预测的准确率,通过softmax分类器计算特 征图属于每个预设类别的预测概率,选取最大概率对应的预设类别,作为特 征图对应的预测类别,并将得到的每个预测类别作为第二预测结果,提高了 第二预测结果的准确程度。
在图1对应的实施例的基础之上,下面通过一个具体的实施例来对步骤 S70中所提及对第一预测结果和第二预测结果进行汇总分析,得到目标检测 结果的具体实现方法进行详细说明。
请参阅图6,图6示出了本发明实施例提供的步骤S70的具体实现流程, 详述如下:
S71:分别计算第一预测结果中的每个预测结果属于预设分类的概率,获 取概率小于第一预设阈值的预测结果,作为第一候选结果。
具体地,本实施例预先设置有至少两个预设分类,针对第一预测结果中 的每个预测结果,分别计算每个预测结果属于预设分类的概率,并获取概率 小于第一预设阈值的预测结果,作为第一候选结果。
S72:从第二预测结果中,获取预测框面积小于预设大小的预测结果,作 为有效预测结果,并分别计算每个有效预测结果属于预设分类的概率,得到 第二候选结果。
具体地,本实施例中设置有标准预测框的最大尺寸,从第二预测结果中, 获取预测框面积小于该预设大小的预测结果,作为有效预测结果,并分别计 算每个有效预测结果属于预设分类的概率,将概率小于第二预设阈值的预测 结果,作为第二候选结果。
其中,预设大小可以根据实际需要进行设置,例如,在本实施例中,预 设大小为32×16,也即,将预测框面积小于32×16的预测结果作为有效预测 结果。
需要说明的是,步骤S71和步骤S72之间没有必然的先后顺序,其具体 也可以是并列执行。
S73:对第一候选结果和第二候选结果进行非极大值抑制,得到目标检测 结果。
具体地,通过对第一候选结果和第二候选结果进行非极大值抑制,确定 候选框的最终边界,得到目标检测结果。
其中,非最大值抑制(Non Maximum Suppression,NMS)是抑制不是极 大值的元素,可理解为局部进行最大值搜索,从而帮助保留局部最大梯度而 抑制所有其他梯度值,这意味着只保留了梯度变化中最锐利的位置。
例如,在一具体实施方式中,在垂直方向,有4个像素宽度的梯度值构 成了一个局部,在盖局部采用非最大值抑制的方式,搜索出这个局部的梯度 值中梯度值最大的一个像素点,作为梯度边缘,从而实现了边缘细化。
在本实施例中,分别计算第一预测结果中的每个预测结果属于预设分类 的概率,获取概率小于第一预设阈值的预测结果,作为第一候选结果,并从 第二预测结果中,获取预测框面积小于预设大小的预测结果,作为有效预测 结果,并分别计算每个有效预测结果属于预设分类的概率,得到第二候选结 果,再第一候选结果和第二候选结果进行非极大值抑制,得到目标检测结果, 采用两种不同方式获取到的预测结果进行综合加权,提高了检测结果的准确 度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先 后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例 的实施过程构成任何限定。
图7示出与上述实施例多尺度目标检测方法一一对应的多尺度目标检测 装置的原理框图。如图7所示,该多尺度目标检测装置包括图像获取模块10、 第一传输模块20、第一预测模块30、图像处理模块40、第二传输模块50、 第二预测模块60和检测分析模块70。各功能模块详细说明如下:
图像获取模块10,用于获取初始图像;
第一传输模块20,用于将初始图像输入到预设的特征金字塔网络;
第一预测模块30,用于通过预设的特征金字塔网络对初始图像中的目标 进行识别和框选定位处理,得到第一预测结果;
图像处理模块40,用于对初始图像按照预设方式进行放大处理,得到放 大图像;
第二传输模块50,用于将放大图像输入到预设的小尺度目标检测网络;
第二预测模块60,用于通过预设的小尺度目标检测网络对放大图像进行 特征提取和分类,得到第二预测结果;
检测分析模块70,用于对第一预测结果和第二预测结果进行汇总分析, 得到目标检测结果。
进一步地,第一预测模块30包括:
特征提取单元,用于通过对初始图像进行候选框特征提取,得到至少一 种尺度的初始候选框;
候选框分类单元,用于按照预设的分类器,对初始候选框进行分类,得 到分类后的候选框;
候选框校正单元,用于对分类后的候选框进行校正处理,得到第一预测 结果。
进一步地,特征提取单元包括:
多通道数据提取子单元,用于通过预设的特征金字塔网络的输入层提取 初始图像中的多通道数据;
特征确定子单元,用于采用卷积层对多通道数据进行特征提取,并对第 一预设卷积层提取到的数据特征进行降维处理,得到第一特征,对第二预设 卷积层提取到的数据特征进行降维处理,得到第二特征;
第二特征更新子单元,用于采用双线性插值的方式,对第一特征进行双 线性插值的上采样,得到上采样特征,并将上采样特征与第二特征进行求和, 得到更新后的第二特征;
候选框确定子单元,用于使用区域建议网络,根据第一特征和更新后的 第二特征,生成初始候选框。
进一步地,候选框校正单元包括:
距离计算子单元,用于计算分类后的候选框与预设真实框的欧式距离损 失;
位置调整单元,用于根据欧式距离损失,对分类后的候选框的位置进行 调整;
循环迭代单元,用于返回计算分类后的候选框与真实框的欧式距离损失 的步骤继续执行,直到欧式距离损失小于预设阈值,将得到的分类后的候选 框作为第一预测结果。
进一步地,预设的小尺度目标检测网络为VGG16网络,第二预测模块 60包括:
特征图生成单元,用于采用VGG16网络的卷积层对放大图像进行特征提 取,并使用VGG16网络的池化层对提取到的特征进行映射,生成特征图,其 中,VGG16网络的池化层为ROIAlign层;
概率计算单元,用于针对每个特征图,通过softmax分类器计算特征图属 于每个预设类别的预测概率,选取最大概率对应的预设类别,作为特征图对 应的预测类别;
结果确定单元,用于将得到的每个预测类别作为第二预测结果。
进一步地,检测分析模块70包括:
第一候选结果确定单元,用于分别计算第一预测结果中的每个预测结果 属于预设分类的概率,获取概率小于第一预设阈值的预测结果,作为第一候 选结果;
第二候选结果确定单元,用于从第二预测结果中,获取预测框面积小于 预设大小的预测结果,作为有效预测结果,并分别计算每个有效预测结果属 于预设分类的概率,得到第二候选结果;
目标检测结果确定单元,用于对第一候选结果和第二候选结果进行非极 大值抑制,得到目标检测结果。
关于多尺度目标检测装置的具体限定可以参见上文中对于多尺度目标检 测方法的限定,在此不再赘述。上述多尺度目标检测装置中的各个模块可全 部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于 或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中 的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图8是本发明一实施例提供的计算机设备的示意图。该计算机设备可以 是服务端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线 连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器 用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、 内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该 内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。 该计算机设备的数据库用于存储预设的特征金字塔网络和预设的小尺度目标 检测网络。该计算机设备的网络接口用于与外部的终端通过网络连接通信。 该计算机程序被处理器执行时以实现一种多尺度目标检测方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储 在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实 现上述实施例多尺度目标检测方法的步骤,例如图1所示的步骤S10至步骤 S70。或者,处理器执行计算机程序时实现上述实施例多尺度目标检测装置的 各模块/单元的功能,例如图7所示的模块10至模块70的功能。为避免重复, 这里不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以 上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而 将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划 分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
在一实施例中,提供一计算机可读存储介质,该计算机可读存储介质上 存储有计算机程序,该计算机程序被处理器执行时实现上述实施例多尺度目 标检测方法的步骤,或者,该计算机程序被处理器执行时实现上述实施例多 尺度目标检测装置中各模块/单元的功能。为避免重复,这里不再赘述。
可以理解地,所述计算机可读存储介质可以包括:能够携带所述计算机 程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计 算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器 (Random Access Memory,RAM)、电载波信号和电信信号等。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参 照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理 解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部 分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本 质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范 围之内。

Claims (10)

1.一种多尺度目标检测方法,其特征在于,所述多尺度目标检测方法包括:
获取初始图像;
将所述初始图像放大形成图像金字塔,输入到预设的特征金字塔网络;
通过所述预设的特征金字塔网络对所述初始图像中的目标进行识别和框选定位处理,得到第一预测结果;
对所述初始图像按照预设方式进行放大处理,得到放大图像;
将所述放大图像输入到预设的小尺度目标检测网络;
通过所述预设的小尺度目标检测网络对所述放大图像进行特征提取和分类,得到第二预测结果;
对所述第一预测结果和所述第二预测结果进行汇总分析,得到目标检测结果。
2.如权利要求1所述的多尺度目标检测方法,其特征在于,所述通过所述预设的特征金字塔网络对所述初始图像中的目标进行识别和框选定位处理,得到第一预测结果包括:
通过对初始图像进行候选框特征提取,得到至少一种尺度的初始候选框;
按照预设的分类器,对所述初始候选框进行分类,得到分类后的候选框;
对所述分类后的候选框进行校正处理,得到所述第一预测结果。
3.如权利要求2所述的多尺度目标检测方法,其特征在于,所述预设的特征金字塔网络包括输入层、卷积层和区域建议网络,所述卷积层包括第一预设卷积层和第二预设卷积层,通过对初始图像进行候选框特征提取,得到至少一种尺度的初始候选框包括:
通过所述预设的特征金字塔网络的输入层提取所述初始图像中的多通道数据;
采用所述卷积层对所述多通道数据进行特征提取,并对所述第一预设卷积层提取到的数据特征进行降维处理,得到第一特征,对所述第二预设卷积层提取到的数据特征进行降维处理,得到第二特征;
采用双线性插值的方式,对所述第一特征进行双线性插值的上采样,得到上采样特征,并将所述上采样特征与所述第二特征进行求和,得到更新后的第二特征;
使用所述区域建议网络,根据所述第一特征和所述更新后的第二特征,生成所述初始候选框。
4.如权利要求2所述的多尺度目标检测方法,其特征在于,所述对所述分类后的候选框进行校正处理,得到所述第一预测结果包括:
计算所述分类后的候选框与预设的真实框的欧式距离损失;
根据所述欧式距离损失,对所述分类后的候选框的位置进行调整;
返回所述计算所述分类后的候选框与真实框的欧式距离损失的步骤继续执行,直到所述欧式距离损失小于预设阈值,将得到的分类后的候选框作为所述第一预测结果。
5.如权利要求1所述的多尺度目标检测方法,其特征在于,所述预设的小尺度目标检测网络为VGG16网络,所述通过所述预设的小尺度目标检测网络对所述放大图像进行特征提取和分类,得到第二预测结果包括:
采用所述VGG16网络的卷积层对所述放大图像进行特征提取,并使用所述VGG16网络的池化层对提取到的特征进行映射,生成特征图,其中,所述VGG16网络的池化层为ROIAlign层;
针对每个所述特征图,通过softmax分类器计算所述特征图属于每个预设类别的预测概率,选取最大概率对应的预设类别,作为所述特征图对应的预测类别;
将得到的每个所述预测类别作为所述第二预测结果。
6.如权利要求1至5任一项所述的多尺度目标检测方法,其特征在于,所述对所述第一预测结果和所述第二预测结果进行汇总分析,得到目标检测结果包括:
分别计算所述第一预测结果中的每个预测结果属于预设分类的概率,获取概率小于第一预设阈值的预测结果,作为第一候选结果;
从所述第二预测结果中,获取预测框面积小于预设大小的预测结果,作为有效预测结果,并分别计算每个所述有效预测结果属于所述预设分类的概率,得到第二候选结果;
对所述第一候选结果和所述第二候选结果进行非极大值抑制,得到所述目标检测结果。
7.一种多尺度目标检测装置,其特征在于,所述多尺度目标检测装置包括:
图像获取模块,用于获取初始图像;
第一传输模块,用于将所述初始图像放大形成图像金字塔,输入到预设的特征金字塔网络;
第一预测模块,用于通过所述预设的特征金字塔网络对所述初始图像中的目标进行识别和框选定位处理,得到第一预测结果;
图像处理模块,用于对所述初始图像按照预设方式进行放大处理,得到放大图像;
第二传输模块,用于将所述放大图像输入到预设的小尺度目标检测网络;
第二预测模块,用于通过所述预设的小尺度目标检测网络对所述放大图像进行特征提取和分类,得到第二预测结果;
检测分析模块,用于对所述第一预测结果和所述第二预测结果进行汇总分析,得到目标检测结果。
8.如权利要求7所述的多尺度目标检测装置,其特征在于,所述第一预测模块包括:
特征提取单元,用于通过对初始图像进行候选框特征提取,得到至少一种尺度的初始候选框;
候选框分类单元,用于按照预设的分类器,对所述初始候选框进行分类,得到分类后的候选框;
候选框校正单元,用于对所述分类后的候选框进行校正处理,得到所述第一预测结果。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的多尺度目标检测方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的多尺度目标检测方法。
CN201910516139.4A 2019-06-14 2019-06-14 多尺度目标检测方法、装置、计算机设备及存储介质 Active CN110222787B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910516139.4A CN110222787B (zh) 2019-06-14 2019-06-14 多尺度目标检测方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910516139.4A CN110222787B (zh) 2019-06-14 2019-06-14 多尺度目标检测方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110222787A true CN110222787A (zh) 2019-09-10
CN110222787B CN110222787B (zh) 2022-10-14

Family

ID=67817282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910516139.4A Active CN110222787B (zh) 2019-06-14 2019-06-14 多尺度目标检测方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110222787B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689021A (zh) * 2019-10-17 2020-01-14 哈尔滨理工大学 一种基于深度学习的低可见度环境下实时目标检测方法
CN110826558A (zh) * 2019-10-28 2020-02-21 桂林电子科技大学 图像分类方法、计算机设备和存储介质
CN110909797A (zh) * 2019-11-22 2020-03-24 北京深睿博联科技有限责任公司 图像检测方法以及装置、设备、存储介质
CN111209947A (zh) * 2019-12-31 2020-05-29 歌尔股份有限公司 图像识别方法、设备、存储介质及装置
CN111242122A (zh) * 2020-01-07 2020-06-05 浙江大学 一种轻量级深度神经网络旋转目标检测方法和系统
CN111325716A (zh) * 2020-01-21 2020-06-23 上海悦易网络信息技术有限公司 屏幕划痕碎裂检测方法及设备
CN111353442A (zh) * 2020-03-03 2020-06-30 Oppo广东移动通信有限公司 图像处理方法、装置、设备及存储介质
CN111461145A (zh) * 2020-03-31 2020-07-28 中国科学院计算技术研究所 一种基于卷积神经网络进行目标检测的方法
CN111476306A (zh) * 2020-04-10 2020-07-31 腾讯科技(深圳)有限公司 基于人工智能的物体检测方法、装置、设备及存储介质
CN111738231A (zh) * 2020-08-06 2020-10-02 腾讯科技(深圳)有限公司 目标对象检测方法、装置、计算机设备和存储介质
CN112233071A (zh) * 2020-09-28 2021-01-15 国网浙江省电力有限公司杭州供电公司 基于复杂环境下输电网图片的多粒度隐患检测方法及系统
CN112749590A (zh) * 2019-10-30 2021-05-04 上海高德威智能交通系统有限公司 目标检测方法、装置、计算机设备和计算机可读存储介质
CN112906621A (zh) * 2021-03-10 2021-06-04 北京华捷艾米科技有限公司 一种手部检测方法、装置、存储介质和设备
CN113095418A (zh) * 2021-04-19 2021-07-09 航天新气象科技有限公司 一种目标检测方法及系统
CN113255421A (zh) * 2020-12-08 2021-08-13 四川云从天府人工智能科技有限公司 一种图像检测方法、系统、设备及介质
CN113536826A (zh) * 2020-04-13 2021-10-22 富士通株式会社 识别图像中的对象的方法、设备和计算机可读存储介质
CN113743249A (zh) * 2021-08-16 2021-12-03 北京佳服信息科技有限公司 一种违章识别方法、装置、设备及可读存储介质
CN116051548B (zh) * 2023-03-14 2023-08-11 中国铁塔股份有限公司 一种定位方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117876A (zh) * 2018-07-26 2019-01-01 成都快眼科技有限公司 一种稠密小目标检测模型构建方法、模型及检测方法
US20190057507A1 (en) * 2017-08-18 2019-02-21 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190057507A1 (en) * 2017-08-18 2019-02-21 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN109117876A (zh) * 2018-07-26 2019-01-01 成都快眼科技有限公司 一种稠密小目标检测模型构建方法、模型及检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
施泽浩: "基于特征金字塔网络的目标检测算法", 《现代计算机(专业版)》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689021A (zh) * 2019-10-17 2020-01-14 哈尔滨理工大学 一种基于深度学习的低可见度环境下实时目标检测方法
CN110826558A (zh) * 2019-10-28 2020-02-21 桂林电子科技大学 图像分类方法、计算机设备和存储介质
CN112749590A (zh) * 2019-10-30 2021-05-04 上海高德威智能交通系统有限公司 目标检测方法、装置、计算机设备和计算机可读存储介质
CN112749590B (zh) * 2019-10-30 2023-02-07 上海高德威智能交通系统有限公司 目标检测方法、装置、计算机设备和计算机可读存储介质
CN110909797A (zh) * 2019-11-22 2020-03-24 北京深睿博联科技有限责任公司 图像检测方法以及装置、设备、存储介质
CN110909797B (zh) * 2019-11-22 2023-05-05 北京深睿博联科技有限责任公司 图像检测方法以及装置、设备、存储介质
CN111209947A (zh) * 2019-12-31 2020-05-29 歌尔股份有限公司 图像识别方法、设备、存储介质及装置
CN111242122A (zh) * 2020-01-07 2020-06-05 浙江大学 一种轻量级深度神经网络旋转目标检测方法和系统
CN111242122B (zh) * 2020-01-07 2023-09-08 浙江大学 一种轻量级深度神经网络旋转目标检测方法和系统
CN111325716A (zh) * 2020-01-21 2020-06-23 上海悦易网络信息技术有限公司 屏幕划痕碎裂检测方法及设备
CN111325716B (zh) * 2020-01-21 2023-09-01 上海万物新生环保科技集团有限公司 屏幕划痕碎裂检测方法及设备
CN111353442A (zh) * 2020-03-03 2020-06-30 Oppo广东移动通信有限公司 图像处理方法、装置、设备及存储介质
CN111461145A (zh) * 2020-03-31 2020-07-28 中国科学院计算技术研究所 一种基于卷积神经网络进行目标检测的方法
CN111476306B (zh) * 2020-04-10 2023-07-28 腾讯科技(深圳)有限公司 基于人工智能的物体检测方法、装置、设备及存储介质
CN111476306A (zh) * 2020-04-10 2020-07-31 腾讯科技(深圳)有限公司 基于人工智能的物体检测方法、装置、设备及存储介质
CN113536826A (zh) * 2020-04-13 2021-10-22 富士通株式会社 识别图像中的对象的方法、设备和计算机可读存储介质
CN111738231A (zh) * 2020-08-06 2020-10-02 腾讯科技(深圳)有限公司 目标对象检测方法、装置、计算机设备和存储介质
CN112233071A (zh) * 2020-09-28 2021-01-15 国网浙江省电力有限公司杭州供电公司 基于复杂环境下输电网图片的多粒度隐患检测方法及系统
CN113255421A (zh) * 2020-12-08 2021-08-13 四川云从天府人工智能科技有限公司 一种图像检测方法、系统、设备及介质
CN112906621A (zh) * 2021-03-10 2021-06-04 北京华捷艾米科技有限公司 一种手部检测方法、装置、存储介质和设备
CN113095418A (zh) * 2021-04-19 2021-07-09 航天新气象科技有限公司 一种目标检测方法及系统
CN113743249A (zh) * 2021-08-16 2021-12-03 北京佳服信息科技有限公司 一种违章识别方法、装置、设备及可读存储介质
CN113743249B (zh) * 2021-08-16 2024-03-26 北京佳服信息科技有限公司 一种违章识别方法、装置、设备及可读存储介质
CN116051548B (zh) * 2023-03-14 2023-08-11 中国铁塔股份有限公司 一种定位方法及装置

Also Published As

Publication number Publication date
CN110222787B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN110222787A (zh) 多尺度目标检测方法、装置、计算机设备及存储介质
CN108537191B (zh) 一种基于结构光摄像头的三维人脸识别方法
CN109919981A (zh) 一种基于卡尔曼滤波辅助的多特征融合的多目标跟踪方法
CN104134071B (zh) 一种基于颜色描述的可变形部件模型物体检测方法
CN110084292A (zh) 基于DenseNet和多尺度特征融合的目标检测方法
CN104376326B (zh) 一种用于图像场景识别的特征提取方法
CN110263705A (zh) 面向遥感技术领域两期高分辨率遥感影像变化检测方法
CN110414577A (zh) 一种基于深度学习的激光雷达点云多目标地物识别方法
CN108596108B (zh) 基于三元组语义关系学习的航拍遥感图像变化检测方法
CN110310264A (zh) 一种基于dcnn的大尺度目标检测方法、装置
CN109214505B (zh) 一种密集连接卷积神经网络的全卷积目标检测方法
CN106156744A (zh) 基于cfar检测与深度学习的sar目标检测方法
CN108960404B (zh) 一种基于图像的人群计数方法及设备
CN110866079A (zh) 一种智慧景区实景语义地图的生成与辅助定位方法
CN102682302A (zh) 一种基于关键帧的多特征融合的人体姿态识别方法
CN104504395A (zh) 基于神经网络实现人车分类的方法和系统
CN108647695A (zh) 基于协方差卷积神经网络的低对比度图像显著性检测方法
CN110135476A (zh) 一种个人安全装备的检测方法、装置、设备及系统
CN110119726A (zh) 一种基于YOLOv3模型的车辆品牌多角度识别方法
CN110619638A (zh) 一种基于卷积块注意模块的多模态融合显著性检测方法
CN110263768A (zh) 一种基于深度残差网络的人脸识别方法
CN110490252A (zh) 一种基于深度学习的室内人数检测方法及系统
CN114241422A (zh) 一种基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法
CN109117717A (zh) 一种城市行人检测方法
CN113936309A (zh) 一种基于面部分块的表情识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant